На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.
Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.
Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.
Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)
Ссылки:
[1] https://superset.apache.org
#opendata #datasets #data #datatools #superset #bi #datacatalogs
В продолжение размышлений о том как устроен доступ к данным во многих дата каталогах, кроме примера с доступом через API [1], есть много примеров когда каталоги данных интегрированы в платформы которые их предоставляют.
Например, Microsoft Planetary Computer [2], сервис визуализации и каталог особо крупных геоданных. Часть данных доступны только через API по спецификации STAC, часть данных лежат файлами в облаке Azure и ссылки на них выглядят как abfs://items/sentinel-3-synergy-vgp-l2-netcdf.parquet, а часть доступны только по запросу и тоже лежат файлами в разных форматах.
Кроме Microsoft подобное практикуют Amazon с их каталогом открытых данных [3] и ссылками на внутренние ресурсы S3 вроде таких arn:aws:s3:us-east-1:184438910517:accesspoint/bdsp-psg-access-point/PSG/
Похожее с датасетами в каталоге Google Earth [4] когда вместо данных отдаётся сниппет для подключения и код Javascript.
Такое неслучайно, такие порталы чаще всего включают внешние данные, например, данные НАСА или научных проектов, прошедшие обработку, очистку и приведенные в формат используемой платформы. Такие владельцы, по сути BigTech, публикуют датасеты чтобы привлечь к себе аудиторию разработчиков и удержать её. Для компаний владеющих инфраструктурой и привлекающей пользователей - это вполне логичная бизнес стратегия, причём даже с некоторой социальной составляющей, поскольку это даёт и бесплатное пространство нужное для некоторых данных и быстрый доступ ко многим данным, опять же, по цене аренды сервера который ты, возможно, и так бы арендовал.
Всё это довольно сильно усложняет индексацию таких каталогов данных в Dateno поскольку для них, по хорошему, нужен другой подход и другая стратегия, как давать ссылки на такие ресурсы. Можно просто дать ссылку на карточку в оригинальном каталоге, но многие поисковые фасеты выпадают, ссылки на ресурсы не работают.
Эти примеры немногочисленны количественно и многочисленны качественно. Датасетов от BigTech компаний в лучшем случае тысячи, правда объёмы там идут на петабайты. А есть есть и другой пример. Очень многие порталы со статистикой отдают данные только по POST запросу. В этом, может быть, когда-то была логика, когда 10-15 лет назад они создавались, а сейчас у этих индикаторов нет ссылок на данные. Иногда и на сам индикатор явной ссылки нет. Что делать? Проиндексировать их возможно, но как помогать пользователю получать данные? Делать копию не только метаданных, но и данных и отдавать их из своей БД? Это уже другой продукт. Делать прокси для POST запросов? Для типовых порталов возможно, для нетиповых это большое усложнение.
Итого многие данные доступны только в режиме когда есть ссылка на веб страницу, в первую очередь потому что их владельцы, или не подумали о доступе прямом, или затягивают в свою инфраструктуру.
Это лишь один из примеров задач относящихся к сложности создания поисковика Dateno и ответов на вопросы "А это точно дата каталог?", "А он типовой?", "А как индексировать оттуда данные?" и многое другое.
Ссылки:
[1] /channel/begtin/5526
[2] https://planetarycomputer.microsoft.com
[3] https://registry.opendata.aws
[4] https://developers.google.com/earth-engine/datasets
[5] https://dateno.io
#opendata #datasets #data #datacatalogs #dateno
Поскольку существенная часть моей деятельности некоммерческая, то приличия не позволяют не клянчить на неё просить на неё поддержку с какой-то регулярностью.
Эта поддержка имеет, и символическое, и практическое значение. Символическое в том что некоммерческие проекты что делает наша команда нужны и востребованы, а практическая в том что их можно будет продолжать.
В Армении на Open Data Armenia
На что мы собираем деньги?
1. На сбор и публикацию открытых данных (github.com/opendataam)
2. На организацию мероприятий таких как Open Data Day (odd.opendata.am)
3. На конкурсы вроде конкурса Open Data Armenia Contest (contest.opendata.am)
Как помочь?
Самый простой способ это стать подписчиком Open Data Armenia на Github https://github.com/sponsors/opendataam/ Мы будем ещё много выкладывать открытого кода и наборов данных и подписка через Github - это самое логичное что только возможно.
Альтернативно можно перевести по банковским реквизитам:
номер счёта 163618011379 для пожертвований в Евро, назначение ""OPEN DATA" development centre public organization" Donation. Если хотите пожертвовать в другой валюте, то напишите мне, перешлю реквизиты.
В России на Инфокультуру
В России деятельность сейчас очень сильно ограничена, но АНО Инфокультура всё ещё существует и всё ещё делает проекты по открытым данным и не только. В приоритеты работа по архивации данных, значимого контента и работа над Национальным цифровым архивом (ruarxive.org).
Как поддержать?
Самое простое - это пожертвовать через форму на сайте https://www.infoculture.ru/donation/, а если Вы представляете организацию то можно напрямую перевести на счёт, достаточно написать мне, я перешлю реквизиты.
Не такое простое, но тоже важное, если у Вас есть бесхозные или ненужные, не самые актуальные сервера, диски, системы хранения и так далее, то примем их в дар с большим удовольствием. Сейчас для архивации используются, в основном, сервера которые мы когда-то покупали и сервера которые арендуются что выходит по нынешним временам дороже чем хотелось бы.
#support #ngo #donation
Отвлекаясь немного от темы данных и технологий.
В Испании Верховный суд постановил временно заблокировать Телеграм после жалобы группы "копирастов" из ведущих медиа компаний: Mediaset, Atresmedia, Movistar и Egeda на то что в Телеграм'е пиратят и не удаляют спираченный у них контент [1].
Не менее важна причина решения суда, главный аргумент в "недостаточной кооперации" со стороны руководства Телеграма, непонятно ли кооперация с кем, с властями страны или с владельцами контента.
В любом случае, блокировкой Телеграма, Испания присоединилась к клубу стран состоящему из Кубы, Ирана, Пакистана и Таиланда.
Что тут скажешь, пора испанцам перенимать иранский опыт по обходу блокировок соцсетей.
Ссылки:
[1] https://www.euronews.com/next/2024/03/23/spains-high-court-orders-block-on-telegram-messaging-app-as-a-precautionary-measure
#privacy #piracy #telegram
One Trillion Row Challenge - совершенно замечательный по задумке конкурс по работе с датасетом в триллион строк [1] для тех кто работает большими, очень большими и очень-очень большими (шутка) данными на обычном железе или во временно арендуемом облаке, а не на мейнфреймах. Конкурс в том чтобы подсчитать минимальную, среднюю и максимальную температуру по погодным станциям отсортированным по алфавиту. Данные хранятся в 100 тысячах Parquet файлах, по 10 миллионов строк в каждом, а заявки отправляются через открытие issue в репозитории конкурса [2].
Сам конкурс - это продолжение другого конкурса, One Billion Row Challenge [3], где данных было только 1 миллиард, и принимались решения только в виде Java кода.
Решения можно отправлять в дискуссиях на Github в репозитории [4].
Конкурс интересный тем что по многим продуктам не-неожиданно, но подтверждённо очень высокая производительность. Например, в Clickhouse SQL задача с 1 миллиардом строк решается за менее чем 7.5 секунд [5] и у них же 3 минуты на конкурс в 1 триллион строк [6] и пишут что за $0.56, это совсем мало если что.
А в оригинальном посте Dask в облаке Coiled отрабатывает за 8.5 минут или $3.26 в стоимости Amazon Cloud, что тоже очень мало.
Хороший бенчмарк, в ситуации интенсивной конкуренции между высокопроизводительными продуктами по обработке данных, он весьма полезен.
Ссылки:
[1] https://docs.coiled.io/blog/1trc.html
[2] https://github.com/coiled/1trc
[3] https://www.morling.dev/blog/one-billion-row-challenge/
[4] https://github.com/gunnarmorling/1brc/discussions
[5] https://github.com/gunnarmorling/1brc/discussions/80
[6] https://clickhouse.com/blog/clickhouse-1-trillion-row-challenge
#data #datasets #opensource #datatools
К вопросу об открытости данных в Казахстане свежая статья в Exclusive.kz [1]. Проблема с этим порталом в том что он к открытым данным отношения не имеет никакого. Видно что не проделано работы, ни по доступности данных, ни по свободе использования (открытые лицензии) и данные которые туда попадают из других источников парадоксальным образом становятся более, а не менее закрытыми.
Это на фоне того что в Казахстане много открытых геопорталов, баз статистики (ТАЛДАУ) и тд.
Всего 13649 датасетов по Казахстану у нас в Dateno проиндексировано [2], но почти все эти данные - это геоданные и индикаторы из международных источников потому что именно открытые данные, в строгом определении, не публикуются.
И ещё отдельная история о том почему во многих странах госорганы пытаются создавать порталы данных на нетиповых продуктах. В результате они не индексируются ни у нас в Dateno, ни в Google Dataset Search, ни в других поисковиках. При том что в том же data.egov.kz нет ничего такого что нельзя было бы сделать с помощью CKAN, DKAN и ещё ряда продуктов создания каталогов открытых данных.
И это только пока мы говорим про техническую сторону процесса, не затрагивая то какие, собственные данные должны публиковаться чтобы быть востребованными. Подсказка, простые опросы пользователей не работают. Работают приоритеты по high value datasets (датасеты особо ценные) которые формируют страны ЕС, к примеру.
К теме данных в Центральной Азии я ещё буду неоднократно возвращаться.
Ссылки:
[1] https://exclusive.kz/chto-skryvaet-otkrytoe-pravitelstvo-kazahstana/
[2] https://registry.commondata.io/country/KZ
#opendata #opengov #kazakhstan #dataportals
В продолжение про то какие бывают форматы общедоступных данных, есть важный факт индикатор пересечения открытых данных с областями data science. Из, примерно, 29 миллионов ресурсов (файлов) привязанных к датасетам в Dateno, только 4700 - это файлы Parquet, ни одного файла Avro или Orc.
Только около 7 тысяч файлов - это данные в виде дампов Sqlite, и то почти все они - это данные экспортируем из разного рода каталогов геоданных и входящих в файлы geopackage.
Можно, конечно, предположить что вместо специальных форматов для машинного обучения специально публикуют CSV файлы для лучшей интеграции, но это далеко не безусловный тезис потому что по опыту, на каждый нормальный файл CSV файл приходится два файла с ошибками форматирования и экспорта.
А самые популярные общедоступные (public domain и открытые данные) данные остаются CSV, XML, XLSX, JSON, TAB, XLS и менее известные в инженерной среде, но известные в научной NetCDF.
К этому можно добавить ещё пучок файлов геоданных, но в целом состав основных данных именно таков. Всё, скорее всего, немного поменяется когда закончится индексация Kaggle и HuggingFace, но за их пределами использования форматов для data science почти не наблюдается.
И это отдельный длинный разговор почему так происходит.
#opendata #dateno #datasets #statistics
Миллионы научных статей рискуют исчезнуть из онлайн-хранилищ
Анализ цифровых идентификаторов научных статей показал, что результатов исследований публикуется больше, чем архивируется. Проблема, в первую очередь, затрагивает небольшие издательства, у которых нет средств и возможностей для долгосрочного хранения большого количества опубликованных материалов.
По данным анализа более семи миллионов цифровых публикаций, около четверти всех научных статей не архивируются и не хранятся в интернете должным образом. Результаты показывают, что онлайн-хранилища не успевают за постоянно растущим потоком новых работ, передает ERR.EE
По словам Мартина Ива, одного из авторов нового исследования, вся эпистемология науки основана на списках ссылок. Другими словами, автор статьи должен быть в состоянии проверить, что о предмете его исследования говорили другие, в противном случае ему придется полагаться на слепую веру в факты, объяснение которых ему недоступно.
Для нового анализа Ив использовал выборку из 7 438 037 научных работ. Все изученные статьи снабжены цифровым идентификатором объекта, или DOI. Это последовательность цифр, букв и символов, которая действует как идентификационный код электронного документа. DOI позволяют однозначно распознать научную работу и использовать ее в качестве ссылки.
Из всех исследований, включенных в выборку, 28%, или более двух миллионов статей, не были доступны ни в одном из крупных цифровых архивов, даже если публикация имела действующий DOI. Только 58% DOI ссылались на статьи, хранящиеся хотя бы в одном архиве. Оставшиеся 14% работ были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись журнальными статьями или их изначальный источник не мог быть определен.
Полученные результаты не означают, что статьи вообще нельзя найти в сети. Например, они могут быть доступны на сайтах издательств. Однако если последние обанкротятся или что-то случится с их серверами, соответствующие научные работы могут исчезнуть из онлайн-хранилищ.
Оказалось, что менее 1% – или всего около 200 – издательств, загрузили свои статьи в несколько архивов. Около трех четвертей издателей добавили работы в три или более архивных сред. Менее 10% разместили свои материалы как минимум в двух хранилищах.
Треть издательств вообще не занимались постоянным архивированием.
По словам Мартина Ива, его анализ следует рассматривать с некоторыми оговорками. В частности, в выборку исследования вошли только статьи с DOI-метками. Кроме того, в него были включены не все цифровые хранилища, например, архивные среды самих исследовательских институтов не рассматривались.
Несмотря на эти оговорки, анализ хорошо приняли специалисты по хранению данных, не связанных с исследованием. Например, Микаэль Лааксо, сам занимающийся вопросами публикации научных работ в Школе экономики Ханкен в Хельсинки, говорит, что многие люди слепо верят в то, что наличие DOI гарантирует вечную доступность статьи. Вместе с коллегами в 2021 году он показал, что на самом деле в период с 2000 по 2019 год из интернета исчезло более 170 журналов с открытым доступом.
Кейт Виттенберг, управляющий директор Portico, поставщика услуг цифрового архива, предупреждает, что неспособность сохранять статьи ставит под удар не столько крупные, сколько мелкие издательства. Хранение опубликованного контента стоит денег и требует инфраструктуры, технологий и опыта, которыми небольшие организации не располагают.
В своем анализе Ив предлагает меры по улучшению сохранности цифрового контента. Например, можно ужесточить требования к регистрации DOI. Также, по его мнению, стоило бы повысить осведомленность о проблеме сохранности среди издателей и самих ученых.
Исследование было опубликовано в журнале Journal of Librarianship and Scholarly Communication.
#DOI
____
@rujournals - Научные журналы и базы данных
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.
Вот 7 наиболее приоритетных, в моём вольном переводе:
1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.
По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.
Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france
#opendata #ai #france #strategies #reports #readings
К вопросу о том почему я лично пишу про Polars, DuckDb, а теперь ещё и присматриваюсь к chDb, потому что в моей работе есть частые задачи с очисткой и обработкой данных. В принципе, чем бы я в жизни не занимался, читал лекции, делал презентации, программировал и тд., всегда есть задача чистки данных.
Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.
В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.
Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.
В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.
Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.
Ссылки:
[1] https://openrefine.org
#data #datatools #thoughts #duckdb #openrefine
В нашем каталоге уже доступны выгруженные усилиями нашей команды метаданные об армянских и связанных с Арменией объектах искусства, хранящихся в российских музеях. Данные пока не прошли тонкую обработку, и если вы хотите к ней присоединиться, дайте нам знать и (или) начинайте думать, что интересного можно сделать с этими данными к нашему следующему конкурсу. Подробные сведения о наборах данных на нашем Гитхабе.
Читать полностью…Наконец-то уже можно представить широко, проект Dateno, поисковая система по датасетам, о которой я писал и выступал на днях открытых данных в Ереване и в России, теперь доступна для всех желающих.
Подробнее в анонсе на Product Hunt.
Там, кстати, не хватает Ваших лайков, если каждый у кого там есть аккаунт зайдёт и отметит его, то это очень поможет;)
Сейчас в Dateno 10 миллионов наборов данных из 4.9 тысяч каталогов данных, поддерживается 13 поисковых фасетов/фильтров и вскоре будет открытое API и дополнительно открытый код.
Отдельное спасибо всем бета тестерам за отклики и обратная связь всегда бесценна. Если найдете ошибки, неудобства или идеи - пишите обязательно.
#opendata #datasets #data #datacatalogs #dateno
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]
Как думаете, что не так с этими опросами?
Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.
Так что нет в Казахстане портала открытых данных;)
А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.
P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.
Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz
#opendata #kazakhstan #closeddata #datacatalogs
Цифровой архив госфинансов: Бюджеты Российской империи и СССР в виде книг и открытых данных
К Дню архивиста мы (Инфокультура и Институт Гайдара) запускаем новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). Наша главная задача - сохранить и сделать доступными и машиночитаемыми исторические документы о госфинансах. Мы хотим собрать источники о государственном бюджете за 150 лет, агрегировать наиболее полную базу статистических сборников и подготовить открытые данные для разработчиков.
Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое. Уже сейчас в нашей базе данных собраны государственные бюджеты за 80 лет, с практически непрерывным покрытием 1866-1945 гг.
При разработке проекта мы делаем акцент на следующих пунктах:
1. Полнота базы данных: мы добавляем все те источники, которые можем найти (не забывая о проверке наличия открытых лицензий). На данный момент мы частично собрали источники из проекта «Исторические документы» Минфина России и проекта «Исторические материалы», а также нашли еще несколько проектов, документы с которых агрегируем в этом году.
2. Открытые данные: мы хотим не только собрать базу документов и добавить к ним текстовый слой, но и разработать на основе них наборы открытых данных.
3. Уникальные документы: года 4 мы скупаем исторические документы с профильных площадок и сканируем их. Также для данного проекта мы отсканировали личный архив исторических книг А.Л. Кудрина (в который вошли, например, 7 томов истории Минфина России). А в 2022 году мы оцифровали архивные отчеты Счетной Палаты.
4. Метаданные: большинство документов, которые мы собрали, практически не систематизированы, поэтому мы ставим для себя задачу обогатить их метаданными и разработать для этого соответствующие классификаторы.
«Почти 25 лет назад Минфин начал сохранять, формировать и популяризировать историю государственных финансов.
Мне приятно осознавать, что эта деятельность активно развивается и сегодня благодаря усилиям нового поколения специалистов в области компьютерной обработки информации.
Желаю исследователям и пользователям проекта «Цифровой архив госфинансов и госуправления» успехов в их непростой, но чрезвычайно интересной работе, требующей универсальных навыков в самых разных сферах – от истории и архивного дела до современных цифровых технологий», - Алексей Кудрин, д.э.н., главный научный сотрудник, член Попечительского совета Института Гайдара.
Иногда самые интересные книги могут быть написаны от руки. Например, исторические бюджеты Санкт-Петербурга. Такие случаи требуют особого внимания и поэтому работы предстоит очень много. Мы заинтересованы в партнерах и волонтёрах. Нам нужна помощь в следующих задачах:
⁃ сбор исторических документов с сторонних сайтов;
⁃ разметка базы данных;
⁃ разработка справочников и классификаторов;
⁃ создание наборов открытых данных;
⁃ предоставление исторических документов на оцифровку.
Будем рады пожеланиям и предложениям. Пишите на почту oparkhimovich@infoculture.ru (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
Регулярная подборка ссылок про данные, технологии и не только:
- Vector DB Comparison [1] большой обзор в виде таблицы со сравнением векторных баз данных. Список подробный, со ссылками на документацию и представленностью практических всех продуктов с открытым кодом.
- Pretzel Notebook [2] тетрадки для работы с данными с DuckDB внутри и языком PRQL
- Common Corpus [3] авторы утверждают что это крупнейший датасет public domain текстов на разных языках
- DuckDB snippets [4] подборка сниппетов для DuckDB по использованию в командной строке. Замена многих инструментов в том числе самописных
- Binjr [5] браузер для временных рядов, с инсталляцией локально под Windows, Linux или Mac. В демках про мониторинг серверов, но может и для чего-то ещё сгодится?
Ссылки:
[1] https://superlinked.com/vector-db-comparison/
[2] https://github.com/pretzelai/pretzelai
[3] https://huggingface.co/collections/PleIAs/common-corpus-65d46e3ea3980fdcd66a5613
[4] https://duckdbsnippets.com/page/1/most-popular
[5] https://binjr.eu/
#opensource #datatools #data
В рубрике как это устроено у них каталог научных данных SPARC [1] посвящённый исследованиям тела и мозга. Является результатом совместного проекта нескольких исследовательских центров в США.
Из особенностей, кроме данных публикуют ещё компьютерные и анатомические модели, а все опубликованные ресурсы ещё и организованы с возможностью фильтрации по виду животного, полу, анатомической структуре и так далее.
Отличается тем что данные, в основном, большого объёма и файлы до 5GB можно скачать бесплатно, а файлы большего размера только через Amazon AWS или через сервис Osparc [2] по запросу.
На портале есть уникальная фича, визуализация датасетов [3] с помощью утилиты SDS Viewer, вот, пример [4]
Ссылки:
[1] https://sparc.science
[2] https://osparc.io/
[3] https://metacell.github.io/sds-viewer/
[4] https://metacell.github.io/sds-viewer/?doi=10.26275%2Fodx3-c5cv
#opendata #datacatalogs #datatools #data #brain #body #datasets
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.
А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.
Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.
А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.
#opendata #datasets #data #russia
Я регулярно пишу про такое явление как датацентричное мышление "что угодно как таблица" и в более узком звучании "что-угодно как SQL". Причём последнее попадается всё чаще и всё чаще всё то ранее было доступно каким-то другим образом через API или в иной специфической форме доступно как таблицы.
Из последнего, sqlelf, это программная библиотека и утилита превращающая метаданные из исполняемых Linux файлов в базу Sqlite и позволяют проделывать все дальнейшие операции по чтению этих метаданных из SQL таблиц. Удобно для всех кто занимается форенсикой под Unix-like системы.
Из похожего, несколько лет назад я делал утилиту metawarc, индексирует содержание веб-архивов в формате WARC и создаёт локальную Sqlite базу с результатами. Что позволяет сильно ускорить задачи по подсчёту статистики, экспорту файлов из архива (архивы бывают большие и это важна задача) и многое другое. Единственное что я не сделал - это там нет SQL интерфейса, хотя добавить такую команду и примеры это дело пары часов.
Похожий код у меня есть для HTML страниц, он превращает дерево HTML в плоскую таблицу с дополнительным обсчётом ряда параметров. Я его всё подумывал опубликовать и возможно что база в памяти это решение. Возможно, потому сколько я не пытался не удаётся сильно уменьшить размеры таблицы тэгов. Она выходит больше оригинального файла от 7 до 21 раза, это без использования СУБД внутри, только размер pandas Dataframe.
Возвращаясь к "что угодно как SQL", я в феврале прошлого года приводил много примеров такого подхода, когда SQL синтаксис и интерфейс создаются для работы с текстовыми файлами, репозиториями Git, базой контейнеров для Docker и тд.
Чем дольше я об этом думаю, тем более чувствую что такой подход может иметь существенный потенциал для технологических продуктов. Например, если бы сервисы счётчиков посещаемости и иной пользовательской аналитики предоставляли бы не REST API, а сразу доступ к SQL таблицам с твоими данными то это резко упростило бы их интеграцию и использование. Такие внешние сервисы, кстати, есть, но суть в том что SQL интерфейсы доступа не являются сейчас стандартизированными продуктами.
Аналогично для многих других сервисов и продуктов которые сейчас интегрируются через ETL и ELT костыли.
А сама идея "что-угодно как SQL" может развиваться ещё применительно много к чему. К файловой системе, к реестру Windows, к работе с Excel/ODS файлами, к работе с онлайн таблицами (типа Google Sheets), к вебсайтам и ещё много к чему.
#thoughts #data #datatools #sql #everythingisdata
Продолжаю рассказывать понемногу про поисковик Dateno и про то как в нём индексируются датасеты. Его особенность в тех индикаторах которые используются внутри для наполнения базы данных. Иначе говоря как мы понимаем что надо проиндексировать? Какие данные добавить в первую очередь? По каким критериям их собирать ? Эти вопросы важные, потому что сейчас проиндексирована только половина реестра всех каталогов данных и это только по числу каталогов, а если считать в датасетах, то не около 10% от всех (точно оценить сложно, никто просто не знает).
Так вот эти критерии - это:
- число проиндексированных датасетов - самое простое и очевидное, не нужно объяснять почему
- число охваченных каталогов данных - тоже важный показатель того как хорошо индексирование идёт
- число охваченных стран (geographic coverage) - это уже сложнее, условно по каждой стране должны находится наборы данных. Отчасти легко решается за счёт международных каталогов статистики, но лишь отчасти и с большим искаженим только в эту статистику.
- степень диверсификации данных (data diversity) - самостоятельно выдуманный термин основная идея которого в том что данные в поиске должны быть разные: геоданные, научные данные, открытые данные, статистика, данные для ML, микроданные и тд. Понятно что каких-то данных больше, каких-то меньше, но всех должно быть значимое количество. Условно не меньше 50% проиндексированных каталогов по типам, не меньше 50 тысяч датасетов каждого типа
Плюс, конечно, важен вопрос качества данных, качества метаданных, "настоящность" данных (очень часто наборами данных обзывают то что ими не является) и ещё многое другое.
Поэтому поисковый индекс Dateno с самого начала собирался сложным путём, по приоритетам достижения этих индикаторов. И 10 миллионов охваченных датасетов - это самоограничение именно такого подхода, потому что очень, действительно, очень просто сделать поисковик на 30-50 миллионов датасетов из которых 50% будет исследовательскими данными в США, ещё 25% исследовательскими данными Китая, ещё 20% научными данными ЕС и только 5% что-то ещё. Моментально получится поисковик по научным данным с лёгким добавлением всего остального.
Но для науки есть свои поисковые системы, поэтому в Dateno хотя и важным приоритетом является индексирование как можно большего объёма всех наборов данных, но не в ущерб их качеству.
Например, сейчас хуже всего с индексированием датасетов для машинного обучения, потому что они собраны всего на нескольких сайтах и это не то чтобы свободные к индексированию ресурсы. А также не добавлена значительная часть порталов с индикаторами которых много, но каждый требует отдельной стратегии индексирования. Но об этом всём я расскажу позже, по мере наполнения индекса Dateno.
#opendata #dateno #datasets #crawling
Данные которые не скачать напрямую, но которые всё ещё открытые данные.
Есть такая особенность у данных машинного обучения что каталоги и реестры для их публикации часто не содержат прямых ссылок на файлы или же доступ по прямым ссылкам не является основнным. Это кажется очень странным, но это так. Вместо этого они содержат ... код для доступа к датасетам.
Те кто занимается задачами по data science к такому привычны давно, те кто использует другие инструменты могут находить это весьма необычным.
Вот несколько примеров:
- Tensorflow Catalog [1] каталог наборов данных к продукту Tensorflow, по каждому датасету есть информация о первоисточнике, объёму и способу подключения используя Tensorflow
- UC Irvine Machine Learning Repository [2] каталог датасетов для машинного обучения. Кроме ссылки на выгрузку, генерируется код для Python, а для каталога есть специальная открытая библиотека
- аналогично с каталогом датасетов Pytorch [3], сразу код для импорта и это логично ведь он часть библиотеки
Не говоря уже о Kaggle и HuggingFace, там такой режим доступа по умолчанию. Можно сказать что это code - first стратегия для работы с данными.
Один из интересных вопросов в том как индексировать такие датасеты. Помимо того что все такие каталоги написаны очень по своему, так ещё и получается что у них нет такого понятия как ресурсы, файлы или ссылки, в ситуации когда доступ только через API. Зато есть автогенерация кода, причём, в основном сразу в Python.
Это одна из причин почему в Dateno пока ещё мало датасетов по Machine Learning, все каталоги в этой области очень специфичны и не все дают возможность индексировать их просто и давать ссылки на файлы.
Но, конечно, вскоре и они будут добавлены
Ссылки:
[1] https://www.tensorflow.org/datasets/catalog/overview
[2] https://archive.ics.uci.edu/
[3] https://pytorch.org/vision/stable/datasets.html
[4] https://paperswithcode.com/dataset/cityscapes
#opendata #datasets #datacatalogs #ml #datascience #python
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.
Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.
Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.
Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.
А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8
#government #russia #russianlang #laws
Я в своих выступлениях про поисковик по данным Dateno рассказывал про то что один из приоритетов его развития - это повышение качества данных.
Причём, чтобы было понятно, качество данных и их описания, метаданных, подавляющего числа порталов открытых данных плохое. Иногда совсем плохое - чаще, реже среднее, но очень хорошее - это огромная редкость. Причём почти всегда это качество является отражением того что с ним работают люди которые вручную вносят файлы и заполняют описание.
Вот пример одной из практических задач. В Dateno сейчас 3383 типа форматов файлов, но, в реальности, это лишь 129 форматов, потому что пользователи указывают в полях типа file format что попало, часто с ошибками. Помимо того что есть указания по которым вообще нельзя понять что это за файл, так есть ещё и много форм написания расширений и типов. На скриншотах примеры с форматами и расширениями которые приходится приводить в порядок, сейчас, полувручную. Похожая ситуация с типами MIME, они очень даже активно заполняются с ошибками, хотя, казалось бы, так быть не должно.
Поэтому большая часть работы над поисковиком - это обогащение данных, повышение качества их описания, извлечение метаданных из самих данных и многое другое для нормализации описания каждого датасета.
На скриншотах можно увидеть проверку в OpenRefine автоматически размеченных форматов и типов mime по одному из снапшотов базы Dateno. И это с оговоркой что сейчас проиндексированы далеко не самые "грязные" каталоги данных. Скорее всего ситуация будет сильно хуже с форматами когда начнём индексировать большие каталоги научных данных. Вот тут, конечно, хотелось бы найти инструмент который бы всё это делал без участия человека, но такого не наблюдается.
Потому что, например, определение форматов и типов mime относительно хорошо можно делать по содержанию файла, но скачивание всех-всех файлов для поисковика является весьма дорогостоящей задачей, и с точки зрения трафика и с точки зрения ресурсов.
#dateno #data #howitworks #datasearch #dataquality
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]
Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/
#data #datatools #privacy #ml #opendata #ai
В рубрике интересных наборов данных OMDB (Openmusic Database) [1] база метаданных по более чем 150 миллионам песен, 28 миллионам альбомов и 5 миллионам артистов. Всё это в виде дампа базы для PostgreSQL. В сжатом виде 72GB, в распакованном 175GB. Из известных мне это крупнейшая такая доступная база.
Из описания похоже что с копирайтами автор никак не разбирался и скрейпил описания из каких-то источников где копирайты есть, поэтому он поясняет что датасет только для исследований, а с копирайтами надо разбираться самостоятельно.
Для тех кто хочет поработать с большими наборами данных в исследовательских целях, научную статью написать или инфографику сделать, может быть весьма любопытно.
Ссылки:
[1] https://github.com/OatsCG/OMDB
#opendata #datasets #data
Для тех кто мог пропустить запуск finlibrary.ru одновременно архивного проекта и проекта с историческими экономическими данными.
Ещё бы раздобыть исторических справочников и статистики и их тоже собрать, но когда российский Росстат сподобится их оцифровать и публиковать?
Кстати, в справочниках Российской Империи на НЭБе есть немало статистики по постсоветскому пространству, а не только по нынешней России, но справочники тоже надо переводить в данные.
#opendata #digitalpreservation
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.
Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.
При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.
Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.
Ссылки:
[1] https://bsr.sudrf.ru
#opendata #closeddata #russia
В отношении Казахстана я, также, напомню что в стране много данных за пределами официального портала data.egov.kz. Например, много геопорталов и есть, даже, пара научных репозиториев. Полный список можно увидеть в реестре Common Data Index [1] там 37 каталогов данных. Из них 9 индексируются в Dateno, это каталоги на базе Geonode, GeoServer и ArcGIS Server. Остальные сделаны, или на каких-то собственных движках, или не индексируются с внешних серверов или имеют какие-то другие ограничения.
Также в Казахстане есть система индикаторов TALDAU [2] и есть много данных на сайтах Пр-ва, госорганов, акиматов и тд. А ещё немало недокументированного API у государственных систем через которые можно собирать местные реестры.
Всё это к тому что национальный портал данных страны data.egov.kz на всём этом фоне выглядит реально вызывающе плохо.
Если появится в стране кто-то кто захочет сделать общественный портал открытых данных то собрать каталог значительно большего объёма совершенно несложно.
Я большого секрета не открою если скажу что пару лет назад мы с коллегами обсуждали не создать ли большой каталог данных на всю Центральную Азию, но в итоге делать этого не стали не будучи достаточно погруженными в местный контекст. Вместо этого появился Dateno в котором охватываются вообще все страны миры.
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://taldau.stat.gov.kz/
#opendata #data #datacalogs #kazakhstan
Казалось бы небольшая, но весьма интересная новость о том что проект chDB присоединяется к Clickhouse [1].
chDB [2] - это внедряемая OLAP база на движке Clickhouse, фактически прямой конкурент DuckDb и, как и DuckDb, замена Sqlite.
Казалось бы, ну что тут такого, а вот DuckDb сейчас одно и наиболее заметных явлений в дата-мире и внедряемая база это очень удобная штука. Многие датасеты может оказаться что удобнее распространять в виде такой базы данных, благо что она с открытым кодом.
И вот chDB это такое же как DuckDb по логике, но движок Clickhouse может быть поинтереснее. В треде на ycombinator [3] есть интересные ссылки на эту тему, например, сравнение clickhouse-local и DuckDb [4] и clickhouse-local там был особенно крут на больших объёмах данных. Можно предположить что автор chDb переходит в clickhouse прокачать chDB также как сейчас прокачано DuckDb.
В общем и целом новость оптимистичная, больше embedded баз данных разных и полезных.
Ссылки:
[1] https://auxten.com/chdb-is-joining-clickhouse/
[2] https://www.chdb.io/
[3] https://news.ycombinator.com/item?id=37985005
[4] https://www.vantage.sh/blog/clickhouse-local-vs-duckdb
#data #opensource #databases #datatools
К Дню архивов запускаем проект «Цифровой архив госфинансов и госуправления»
Фонд «Институт экономической политики имени Е.Т. Гайдара» и АНО «Информационная культура» запускают новый общественный проект «Цифровой архив госфинансов и госуправления», доступный по адресу finlibrary.ru.
Основная цель проекта — сохранить исторические источники о государственных финансах и госуправлении и сделать их доступными для экономистов, историков, исследователей, разработчиков и всех заинтересованных.
Портал «Цифровой архив госфинансов» создан для публикации электронных копий исторических документов и машиночитаемых данных, сгенерированных на их основе. Веб-интерфейс портала предоставляет доступ к первичным и систематизированным историческим источникам для обычных пользователей и наборам открытых данных и API для исследователей и разработчиков.
Источниками для проекта являются архивные документы, книги, визуализации и статистические сборники, размещенные на сторонних ресурсах или отсканированные силами команды проекта. Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое.
Самый ранний государственный бюджет, доступный в базе данных проекта, датирован 1866 годом, а всего на данный момент собраны государственные бюджеты за 81 год.
Уже сейчас на портале доступно более 1000 электронных копий редких и уникальных материалов, а также несколько десятков машиночитаемых наборов данных, сформированных на основе оцифрованных и верифицированных сведений из таблиц, содержащихся в материалах-первоисточниках.
К концу 2024 года мы планируем расширить базу данных до 3 тысяч документов за счет поиска новых источников.
Будем рады пожеланиям и предложениям. Пишите на почту oparkhimovich@infoculture.ru (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.