К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли(
Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.
Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.
#data #russia #dataavailability
А также эти данные доступны по всем странам мира, почти по всем вернее. И интересное Wiki https://www.gem.wiki от той же команды на базе Semantic MediaWiki. Про полноту не знаю, но подход у ребят системный, есть что поизучать
Читать полностью…В качестве лирического отступления. Если бы я был писателем пишущим по методу Хэмингуэя, без исправления текста, то сказал бы что "аллилуйя", пришёл настоящий вызов. Но я не такой писатель, и художественное творчество моё куда как скромно, но вот работа с нефункционирующей кнопкой бэкспейса на клавиатуре и ещё рядом других кнопок накладывает свои ограничения, как минимум на скорость печати. К сожалению замена клавиатуры будет только через несколько дней, так что это писать также часто как раньше пока не выходит.
Но даже так я слегка пробежался по старому коду движка metacrafter'а [1], инструмента для идентификации семантических типов данных, или более простым языком, инструмент идентификации того что за колонка в наборе данных или в базе данных и что с ней можно делать. Инструмент я потихоньку начал приводить в целевое состояние - усиление поисковых возможностей у Dateno и автодокументирование датасетов.
Что нового:
- правила для metacrafter'а перенесены теперь в новый репозиторий metacrafter-rules [2], их стало больше, в основном за счёт правил для других языков отличных от английского и русского;
- обновился серверный и клиентский режимы работы. Теперь можно ускорить сканирование данных запустив metacrafter как сервер и обращаясь к нему через параметр remote при вызовах сканирования файлов или баз данных. Это важно для ускорения процесса поскольку правила инициализируются только один раз
- добавилась команда просмотра правил 'metacrafter rules list'
- и так далее
Главный недостаток сейчас - это скорость работы на больших датасетах. Чем больше колонок тем дольше анализ, до нескольких минут. Это не так критично для задач вроде сканирования корпоративных СУБД, но тяжко для задач Dateno когда миллионы датасетов.
На самом деле чтобы всё ускорить нужно просто много ресурсов: процессорных, хранения и памяти. А прикрутив LLM'ку можно сильно повысить качество автодокументирования данных.
Понимание данных, автодокументирование датасетов, автоматизация анализа данных - это одни из наиболее любимых мной тем в дата инженерии и дата анализе. Жаль удаётся уделять немного времени.
Ссылки:
[1] https://github.com/apicrafter/metacrafter/
[2] https://github.com/apicrafter/metacrafter-rules/
#opensource #data #datatools #dateno #metacrafter
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.
Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.
До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.
#privacy #scoring #uk #france #ai
ОЭСР (Организация экономического сотрудничества и развития) в которой состоят практически все развитые страны обновила свой сайт oecd.org и, наконец-то, они перевели в открытый доступ все свои материалы, а публикации стали дата-ориентированными. Для тех кто не сталкивался ранее поясню, ОЭСР публиковали довольно много интересных докладов и данных о странах, но большая их часть ими продавалась и данные были неудобны в использовании. Учитывая что они сами промоутировали открытость государств, но оставались вот такими полузакрытыми то и получали немало критики. Наконец-то у них это изменилось, может быть нашли другие источники финансирования, но важно что материалы теперь их открыты. Ну и данные, конечно там много датасетов.
#opendata #datasets #datacatalogs #data #oecd
Google с октября 2024 года не будут более доверять сертификатам от CA Entrust [1] для Google Chrome, а это, на минуточку, более 4 миллионов доменов, по статистике Censys [2]. А значит что уже сейчас пользоваться Entrust для получения сертификатов будет нецелесообразно. Хорошо пока что старые не отключены. Причины очень подробно изложены, в кратком изложении - это систематическое нарушение правил сообщества, несоблюдение стандартов, нежелание внедрять актуальные технологии и тд.
Понятно что кроме Google есть и другие браузеры, но все они в одном консорциуме/сообществе и почти наверняка та же участь постигнет Entrust и в других продуктах.
Что характерно, да, это скорее всего разумное решение. Но это же Kill Switch бигтехов, регулирование вынесенное за пределами регуляторов затрагивающее существенный бизнес и существенную цифровую инфраструктуру.
Ссылки:
[1] https://groups.google.com/a/ccadb.org/g/public/c/29CRLOPM6OM
[2] https://search.censys.io/search?resource=certificates&q=%28Entrust%29+and+parsed.issuer.organization%3D%60Entrust%2C+Inc.%60
#ca #regulation #network #google
Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.
Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально
И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.
Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf
#opendata #un #sdg #indicators #reports
[EN]
GIRAI (Global Index of Responsible AI) report is available for 138 countries. It includes Armenian scores as well. Not so good to be honest( Looks like government has to do a lot with AI and it's responsibility.
It's generally available at https://global-index.ai
[RU]
Вышел Глобальный индекс ответственного ИИ (GIRAI) в виде отчета по 138 странам.
В нём есть и Армения, с очень низкими оценками, к сожалению( Похоже что Пр-ву есть много того что нужно сделать в этой области.
С индексом можно ознакомиться по ссылке https://global-index.ai
#armenia #indexes #ratings
Вышла вторая версия стандарта Data Package [1] ранее он назывался Frictionless Data. Полезен он будет всем кто публикует табличные CSV файлы которые с его помощью очень хорошо описываются. Это большой плюс, особенно для тех кто не является дата инженерами или аналитиками, а рядовыми учёными, пользователям и тд.
Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.
Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.
Ссылки:
[1] https://datapackage.org
#opensource #standards #opendata #data #okfn
В рубрике как это работает у них, польский портал Most Wiedzy [1] (Мост к знаниям) на котором публикуются результаты научной деятельности. В отдельном разделе портала Dane Badawcze [2] собраны открытые научные данные.
Всего 4093 набора данных на сегодняшний день, большая часть их под лицензиями CC0 и CC-BY.
У проекта есть открытое API [3] и выгрузка данных для семантического веба RDF/OWL [4].
Создан в университете Гданьска, используется десятком исследовательских центров Польши.
Ссылки:
[1] https://mostwiedzy.pl/pl/
[2] https://mostwiedzy.pl/pl/open-research-data/catalog
[3] https://api.mostwiedzy.pl/
[4] https://mostwiedzy.pl/pl/open-data
#opendata #openaccess #poland #datacatalogs
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве
Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.
Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.
Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump
#opendata #webarchives #archives #bigenc
Подборка полезных инструментов для работы с данными и не только:
- GROBID [1] библиотека и набор утилит для разбора PDF научных статей. Извлекает таблицы, ссылки, заголовки, цитаты, даты и именованные сущности. Используется внутри проекта Semantic Scholar. Открытый код под Apache 2.
- sqleton [2] универсальная библиотека для Python для доступа к разным SQL СУБД. Альтернатива SQLAlchemy, но выглядит как более простая в использовании
- reladiff [3] библиотека для Python для сравнения больших таблиц, сравнительно легко её можно доработать для сравнения больших датасетов
- Daft [4] распределенная библиотека для датафреймов на Rust и Python. Внутри Apache Arrow и язык запросов в виде функций для Python
Ссылки:
[1] https://github.com/allenai/grobid
[2] https://github.com/erezsh/sqeleton
[3] https://github.com/erezsh/reladiff
[4] https://github.com/Eventual-Inc/Daft
#opensource #datatools #data #pdf #sql #dataframes
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.
Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.
Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?
Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)
Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.
У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].
Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.
Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.
Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/
#opendata #data #russia #aviation #closeddata #statistics #alternativedata
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.
Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.
Автор явно создал движок под облачный стартап где такое будет из коробки.
И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.
Ссылки:
[1] https://github.com/squaredtechnologies/thread
#opensource #ai #analytics #dataviz #jupyter
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.
Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234
#readings #software #ai
(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard
and map.
There are first datasets released and available after registration under CC-BY 4.0 International license.
(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.
Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.
#opendata #datasets #energy
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].
Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.
Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio
#opendata #dataportals #czechia #praha #eu
В последнее время у меня было несколько разговоров с разными людьми, но все на одну и ту же тему что открытые данные тесно связаны с развитием свобод и демократии и что без них их не существует или становится меньше.
Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов.
В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям.
Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе.
Почему так происходит? Что общего в этих странах?
У меня нет универсального ответа на этот вопрос, но есть несколько гипотез:
1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах).
2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?"
3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом.
4. Развитие науки, создание проектов с раскрытием открытых научных данных
5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей"
6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает"
Есть и другие, более специфичные для конкретных стран гипотезы и доводы.
А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!".
А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах.
Ссылки:
[1] https://www.democracymatrix.com/ranking
#opendata #data #thoughts
В рубрике интересных наборов данных наборы с данными по измерению скорости интернета от Measurement Lab [1] где их много и разных и почти все архивные датасеты доступны через Google Cloud.
А также датасеты OOKLA [2] по скорости сетей, которые они собирали краудсорсингом и публикуют в рамках своей Open Data Initiative. Заметим что раскрытие идёт от коммерческой компании.
Данные можно использовать самым разным образом, от измерения проникновения 5G, до мониторинга деградации качества связи или поиска мест человеческого обитания там где может показаться что людей не должно быть (шутка).
Ссылки:
[1] https://www.measurementlab.net/data/
[2] https://www.ookla.com/ookla-for-good/open-data
#opendata #datasets #networks
К вопросу об AI и больших языковых моделях, я на днях тестировал несколько LLM'ок вопросами в форме "дай мне расходы бюджета города N по по месяцам с января по май 2024 года". И пока ни один из них не дал такого расклада со ссылкой на первоисточник документа бюджета города. Только на новости на сайте мэрии и новостных агентств.
В этом важное ограничение всех этих инструментов - у них нет доступа к огромным базам данных на которых можно строить аналитику. Я вот сомневаюсь что Bloomberg или S&P Global откроют свои базы для OpenAI или чего-то подобного, если только это не будет какое-то стратегическое партнерство. А вот применение ИИ к макропрогнозированию и работе с экономическими данными - это будет реальный прорыв для одних и катастрофа для других.
Поэтому одно из самых интересных направлений которые я вижу - это связывание языковых моделей с очень специальными большими банками данных и создание новых продуктов в этих областях.
А от AI краулеров почти все СМИ и иные контентные сайты начнут стремительно закрываться. И требовать убирать их контент из индексов этих AI моделей. Потому что бизнес модель контентных сайтов через рекламу или подписку скоро начнет стремительно рушится.
#ai #data #thoughts
Интересные ссылки про данные, технологии и не только:
- OmniParse [1] очень интересный open source движок по применению ИИ к парсингу документов. В примерах приводят разбор PDF на картинки и таблицы. Для задач разбора PDF'ок может быть бесценен, и как идея, и как код. Лицензия GPL3, часть облачного продукта стартапа CognitiveLab
- Meta 3D Gen [2] в Meta создали модель ИИ для генерации 3D моделей. Выглядит интересно и очень много прикладного применения у такого есть. Можно начинать гадать сколько 3D дизайнеров и гейм дизайнеров лишаться работы или... сильно повысят свою продуктивность
- Google AI и Pixel 9 [3] похоже что новая версия телефонов Pixel от Google будет иметь на борту мини языковую модель и несколько продуктов на базе ИИ. Даже не знаю что сказать на это. Неужели это начало тренда когда во всех телефонах будут ИИ приложения всегда?
- Google Mesop [4] open-source движок от Гугла по быстрой разработке веб интерфейсов. Ещё бы к нему хороший автогенератор кода из ТЗ в интерфейс и было бы бесценно, как минимум, для создания быстрых демок.
- The 4M Roadmap: A Higher Road to Profitability by Using Big Data for Social Good, by Brennan Lake [5] доклад о применении корпоративных данных для общественного блага. Подробный разбор нескольких глобальных инициатив в этой области
Ссылки:
[1] https://github.com/adithya-s-k/omniparse
[2] https://venturebeat.com/ai/meta-drops-3d-gen-bomb-ai-powered-3d-asset-creation-at-lightning-speed/
[3] https://www.androidauthority.com/google-ai-recall-pixel-9-3456399/
[4] https://google.github.io/mesop/
[5] https://www.sharedvalue.org/resource/the-4m-roadmap/
#opendata #opensource #readings
Любопытная картина по геопространственным сервисам в мире от Spatial Stack [1] за исключением того что там избыточно перечислены все подразделения ESRI.
И, конечно, отдельно нужны картины по open source стеку и по enterprise (без облака) стеку. Потому что очень уж разные задачи решаются. Не все могут и хотят решать задачи с помощью облачных сервисах.
P.S. У меня сегодня перегруз входящих материалов, сразу с десяток интересных тем о которых хочется рассказать, но видимо не все сразу.
Ссылки:
[1] https://www.spatialstack.ai
#geodata #landscapes #spatial #data
Вышел Global Index of Responsible AI (GIRAI) [1] оценка способности и действий основных акторов регулирования ИИ по странам. Индекс сложный, составлялся и проводился долго и по РФ там также были оценки. Они в итоговый результат не вошли, но там есть оценки по Беларуси в группе стран Европы [2], Армении и стран Средней Азии в группе азиатских стран [3]. К слову у Армении оценки очень низкие. Но хуже всего конечно, ... в Афганистане.
Всего в доклад вошло 138 стран, какие-то не успели проверить, какие-то отложили, по каким-то не нашлись исследователи.
Я лично, также принимал участие в его составлении. Если будут вопросы - задавайте.
Ссылки:
[1] https://global-index.ai
[2] https://global-index.ai/Region-Europe
[3] https://global-index.ai/Region-Asia-and-Oceania
#ai #data #indexes
В Форбс статья про то что Минцифры переписало законопроект об обезличенной информации и то что ключевые положения там остались о том что цель законопроекта в том чтобы забрать данные у бизнеса и сконцентрировать в одной госсистеме.
Я по прежнему не перестаю говорить что единственными бенефициарами проекта являются:
- спецслужбы - доступ к данным для профилирования граждан и слежки
- госкомпании - приближенные к центрам принятия решений, доступ к данным бесплатно
- правительство - создание доп. инструмента давления на цифровой бизнес
Говоря откровенно, этот закон людоедский. Правительство оказалось неспособным собрать данные для ИИ из государственных информационных систем, хотя там их не просто много, а бесконечно много. У российского гос-ва есть такие данные как:
- медицинские данные (снимки рентгена, томографов и тд);
- спутниковые данные (структуры Роскосмоса);
- данные фото и видеофиксации (дороги, стройки и тд)
- языковые данные
- научные данные
И ещё много чего. Но вместо того чтобы привести в порядок эти данные, открыть их, сделать датасеты для ИИ, правительство пошло по пути ультранасилия и под соусом доступности данных для бизнеса на ИИ (хотя покажите мне хоть один бизнес которые просил именно этого и именно так), так вот правительство просто отнимает у бизнеса данные о клиентах.
В общем это один из самых худших законопроектов в РФ за последние если не десятилетия, то годы. Затрагивает он не только граждан, но всех чьи данные находятся в информационных системах и компаниях в российской юрисдикциях.
#regulation #russia #closeddata #data
Ещё один симпатичный бенчмарк сравнений обработки данных на Python с использованием чистого Python и разных библиотек.
Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.
Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.
Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый.
У меня вот есть штук пять внутренних и open source инструментов про которые я понимаю что если их на duckdb (или polars) смигрировать, то они станут удобнее и практичными многократно.
#opensource #datatools #data #duckdb #benchmarks
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.
Удивительная вещь в себе, зато со ссылкой на указ президента.
Кто ещё его читал? Какие ещё косяки там есть?
Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/
#ai #russia #readings
На днях я копался в своих презентациях, часть я уже выкладывал, те что делались онлайн, а сотни их лежат на дисках и не все из них я часто повторял. На днях я выступал перед аудиторией которая, как и я, как и многие, задавалась вопросами о том что делать в ситуации когда официальная российская статистика превращается в тыкву становится бесполезной. И вот на эту тему я лет 7 назад делал презентацию "Альтернативные данные" как развитие направления сбора и поставки данных гораздо более оперативно чем любые официальные источники. По мере того как официальная статистика в РФ будет сжиматься эти альтернативные источники будут всё более важны.
Кстати, по многим малым и развивающимся странам ситуация похожая, но уже по бедности. Государство просто не создаёт многой статистики и иных датасетов и их приходится собирать из других источников. По Армении, например, многие данные которые мы собираем в Open Data Armenia создаются не внутри страны.
А один из наиболее интересных проектов в области альтернативных данных - это Nasdaq Data Link (ранее Quandl). Торговая площадка для данных. Главное тут помнить что продав данные кому-то одному, другие не лишаются такой возможности. Данные не нефть, а электричество.
#opendata #alternativedata #datasource #datadiscovery
За много лет у меня накопилось множество инструментов для командной строки которые я создавал для разных дата задач:
- undatum [1] утилита для обработки данных с акцентом на JSONl файлы
- datadiff [2] утилита для создания патчей для датасетов
- mongo2md [3] утилита по автогенрации markdown документации к коллекциям mongodb
- metacrafter [4] утилита и библиотека по идентификации семантических типов данных
- docx2csv [5] утилита по превращению таблиц в файлах DOCX в CSV
- lazyscraper [6] утилита по быстрому и автоматическому извлечению данных из HTML таблиц и другой разметки
Практически всеми из них я лично пользуюсь, писались они под себя и давно не обновлялись некоторые.
Сейчас я задумался не пора ли многие из них перенести в один инструмент. Тот же undatum.
Тем более что много есть задач в которых такой инструмент требуется. И есть незакрытые задачи
Вот примерно такое я хочу сделать с undatum добавив туда разные функции и поддерживая работу с NoSQL как приоритет.
Но самое интересная это думать над тем как это реализовать. Я всё чаще склоняюсь к тому что Duckdb правильнее воспринимать как data transformation движок, а не как хранилище. Можно очень многое ускорить с его помощью. Но не всё и тут важны альтернативы. Силами языка или встроенным DB движком.
А ещё у меня есть экспериментальный код mongorefine и код утилиты datacrafter которые живут несколько иначе и связать всё вместе сложнее.
В общем вот такие мысли в последнее время, и открытый код который хочется развивать. А вот код из Dateno можно раскрывать только ограниченно, потому что там много специфичного know how.
Ссылки:
[1] https://github.com/datacoon/undatum
[2] https://github.com/datacoon/datadifflib
[3] https://github.com/datacoon/mongo2md
[4] https://github.com/apicrafter/metacrafter
[5] https://github.com/ivbeg/docx2csv
[6] https://github.com/ivbeg/lazyscraper
#opensource #datatools #data
У меня есть регулярные аналитические задачи которые я решаю и которым сложно обучать других, не потому что нет людей способных к ним, а потому что они нетиповые и требуют опыта довольно длительного в разных областях. Это задачи по data discovery, обнаружению данных и систематизации источников. В каком-то смысле Dateno как поисковик, а до того каталоги каталогов данных появились как отражение этих задач. Потому что данные регулярно необходимо искать, находить, систематизировать и описывать.
Так вот в этих задачах ключевым является то что при всём развитии каталогизации данных за последние пару десятилетий слишком часто приходится сводить информацию из сотен полуструктурированных или неструктурированных источников и в таких задачах Dateno (пока что) мало помогает.
Вот примеры вопросов, выдуманные конечно, но близкие, таких задач.
1. Энергопотребление по странам Ближнего Востока
2. Индикаторы экономического роста и ёмкости рынка по странам Южной Африки
3. Реальная ценовая инфляция в Юго-Восточной Азии
И такого довольно много. В том числе по России, и пост-советским странам.
Первый шаг в таких задачах - это построение модели data stakeholders, определение всех организаций/подразделений/групп владеющими частичной или полной информацией по исследуемой области. Иногда только их составление может занять до недели.
Следующий шаг - это data sources (источники данных) которые практически всегда зависят от списка дата стейкхолдеров и которые могут варьироваться от специальных порталов, до веб сайтов и отчетов международных организаций.
И последний связанный с ним же шаг - это идентификация конкретных баз данных, датасетов и индикаторов с помощью которых можно решить задачу.
Всё это не творчество, а весьма структурированный процесс, результат которого, по сути, идёт в основу ТЗ на дата продукт.
Для открытых данных когда-то делали очень упрощённую модель инвентаризации данных через карты данных. Для корпоративных систем управления данных всё слегка проще по смыслу и сложнее технически, и зачастую упирается в отсутствие адекватной документации и то что внедряющие каталоги данных компании не понимают всей трудоёмкости их наполнения.
Что я могу сказать точно так то что для всех областей data discovery инструментов нехватает. Dateno закрывает некоторые поисковые задачи, но не аналитические. GPT подобные инструменты не помогают в решении поиска данных когда данных нет. Но, возможно, инструменты подспорья аналитика могут быть куда как более структурированными и решать если не типовые задачи, то реализовывать типовые подсказки для их решения.
#thoughts #dateno
Где то полтора года назад я писал про то как устроен поиск по данным у Гугла и про ограничения использования разметки из Schema.org. Для тех кто пропустил ту публикацию, расскажу: Schema.org - это стандарт структурированной разметки веб страниц помогающий поисковикам извлекать из веб страниц структурированные разметку о продуктах, статьях, людях , фильмах, книгах и других понятиях. Включая такое понятие как набор данных (Dataset). Саму разметку делают веб-мастера или они встроены в код веб сайта, а поисковая система находит веб страницы и умело их обрабатывает.
Изначально готовили этот стандарт Google, Microsoft и Yandex. Сейчас главный её потребитель это Гугл. Данные этой разметки индексируют, также, другие краулеры и её извлекают из индекса Common Crawl. Я как раз недавно об этом писал.
И всё бы ничего, если бы не один немаловажный факт который прост и неизбежен. Проблема в том что все врут!
Уж не знаю как разметка помогает при SEO оптимизации, но реально всё устроено так что большая часть датасетов не имеет такой структурированной разметки и в том что большая часть того что так размечено, в реальности датасетами не являются. Это какие-то другие концепты/понятия, к данным не относящиеся.
В таблице выборка сайтов в которых есть разметка Dataset. И вот разве они есть на сайтах вроде kakprosto.ru или cbonds.ru ? Совсем нет. Там статьи и другие материалы. И так не только по российским доменам, но и по многим другим.
Из 1.4 миллионов размеченных Datasets в Common Crawl, реально ситуация такова что около 33% мусор, около 33% коммерческие датасеты и оставшиеся 33% данные которые можно скачать. И ещё надо проверять качество их метаданных.
Конечно, реально датасетов больше чем в индексе Common Crawl и индексация веба даст больший охват. Но даже индексация данных по стандартам API CKAN или DCAT работает быстрее и качество метаданных лучше.
#opendata #dateno #data #datasetsx