Redis, хорошо известный продукт для большинства разработчиков использующих NoSQL, меняет лицензию на SSPL и перестаёт быть проектом со свободным исходным кодом [1]. SSPL запрещает использование продукта облачными провайдерами, без раскрытия полного кода всего кода облака (интерфейса, бэкэнда, дизайна и тд).
Тем временем Linux Foundation создали Valkey [2], открытый код Redis'а. А другие команды переходят на KeyDB и другие альтернативы.
Ссылки:
[1] https://arstechnica.com/information-technology/2024/04/redis-license-change-and-forking-are-a-mess-that-everybody-can-feel-bad-about/
[2] https://www.linuxfoundation.org/press/linux-foundation-launches-open-source-valkey-community
#opensource #data #datatools
Кстати, пока без выводов, но наблюдаю что некоторые издатели научных материалов стали явным образом запрещать их использование для обучение ИИ. Пример - Elsevier в их условиях использования на всех их продуктах и сайтах что они управляют.
Интересно наблюдает ли кто-либо за изменениями в TOS именно относительно ИИ и запретов на его применение на контент?
#openaccess #ai
Отличная тема в блоге DuckDB про 42.parquet или о том как запихнуть в Parquet файл 4 петабайта данных [1]. Для тех кто не вспомнил контекст, несколько лет назад по интернету ходил файл zip bomb, с названием 42.zip и размером в 42 килобайта. Внутри него, 5 вложенными слоями было по 16 пустых файлов в 4.3 ГБ. В общей сложности 4.3 петабайта. А это штука способная сильно испортить жизнь тем кто использует наивные антивирусы и другие сервисы распаковки архивов. Про него есть статья в Википедии по ссылками [2] для тех кто хочет изучить тему. Я специально про это не писал до 1 апреля во избежание обострения юмора у весёлых ребят;)
Как ни странно, Virustotal показывает [3] что запароленный zip bomb определяет только Fortinet, остальные сервисы и продукты его игнорируют. Может быть они незапароленные zip bomb ловят? Но пока не хочется проверять такое;)
А теперь то же самое для Parquet, 42.parquet от DuckDB. Может быть довольно жестокой шуткой над каким-то дата сайентистом, а может быть просто примером для тренировки навыков.
Я пока не знаю случаев когда сайты/информационные системы взламывали бы parquet файлами. Но может быть всё впереди? Например, начнут антивирусы и другие инфобезные продукты отслеживать утечки персональных данных из компаний и начнут сканировать parquet файлы, а тут им подсунут 42.parquet.
Похоже на реальный сценарий ;)
Ссылки:
[1] https://duckdb.org/2024/03/26/42-parquet-a-zip-bomb-for-the-big-data-age.html?
[2] https://en.wikipedia.org/wiki/Zip_bomb
[3] https://www.virustotal.com/gui/file/bbd05de19aa2af1455c0494639215898a15286d9b05073b6c4817fe24b2c36fa
#data #datatools #dataspecs #parquet #readings
Те кто регулярно работает с научными данными знают о таком протоколе как OAI-PMH, это стандарт описывающий интерфейсы обмена данными для любых цифровых коллекций и метаданных. Активно применяемый в библиотечной, академической и архивной среде . Например, такие движки как DSpace или EPrints используются университетами для публикации научных работ, а эти материалы доступны по протоколу OAI-PMH. Его используют различные агрегаторы научных работ такие как BASE, OpenAIRE и Google Scholar.
Для индексации данных достаточно, казалось бы, было бы реализовать индексирование OAI-PMH и всего лишь отфильтровать результаты извлекая из них только записи относящиеся к данным, геоданным и тд. Это было бы самым простым и, с первого взгляда, очевидным решением, но, вместо него в Dateno сейчас применяется принциально другой подход в написании парсеров под несколько десятков разных API и интерфейсов под разные типы ПО . Почему это так?
1. OAI-PMH поддерживается, преимущественно, научными каталогами данных и некоторыми каталогами геоданных. Это существенная часть, но далеко не все порталы открытых данных. Если поддержать только его, то это означает создать очередной поисковик по научным данным которых уже много есть.
2. Это довольно старый протокол не позволяющий делать массовую выгрузку метаданных, с со множеством ограничений. Например, в OAI-PMH нет понятия файлов/ресурсов и если в каталоге данных больше одного файла, то через OAI-PMH они не будут видны. Поэтому каталоги типа OpenAIRE содержат ссылки на карточки датасетов, но не файлы внутри.
3. Существующие инструменты харвестинга OAI-PMH также часто архаичные, чаще пишут что-то свое. Написать под него парсер несложно, в любом случае.
Из всего этого самое критичное - отсутствие ссылок на файлы. Во внутренних метриках качества Dateno отсутствие ссылок на файлы у датасета пессимизирует его в выдаче и, в принципе, признак низкого качества самого датасета. Поэтому если сейчас добавить наборы данных из каталогов с OAI-PHM, это это глобально снизит качество поиска в Dateno и харвестинг OAI-PHM отложен пока есть более качественные каталоги данных. К большой радости, многие каталоги поддерживают OAI-PHM исключительно как legacy, для поисковиков по научным работам и, параллельно, имеют в реализации от одного до нескольких других API.
#opendata #datasets #dateno #data #datacatalogs #oai-pmh
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.
Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.
Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020
#russia #closeddata #data #opendata #census #rosstat
В рубрике как это работает у них канадский официальный национальный геопортал Geo.ca [1]
включает 7659 геопространственных наборов данных в машиночитаемых форматах CSV, SHP, GeoJSON, Esri REST, KML. Все данные под канадской открытой лицензией [2]. Внутри базовых слоёв используется ESRI ArcGIS, компоненты платформы выложены открытым кодом [3].
Канадская особенность в том что все официальные материалы, включая данные, двуязычны и их описания и файлы дублируются.
А также в том что очень много общедоступных геоданных выложено на FTP сервере [4], но с минимальным описанием [5]
Всего же в Канаде огромное число общедоступных и открытых официальных баз и каталогов геоданных. Как я понимаю большая их часть постепенно будет переносится на Geo.ca
Ссылки:
[1] https://geo.ca
[2] http://open.canada.ca/en/open-government-licence-canada
[3] https://github.com/Canadian-Geospatial-Platform
[4] https://ftp.maps.canada.ca/pub/
[5] https://natural-resources.canada.ca/science-and-data/science-and-research/earth-sciences/geography/topographic-information/download-directory-documentation/17215
#opendata #canada #geodata #datacatalogs #data
Регулярная подборка ссылок про данные, технологии и не только:
- Vector DB Comparison [1] большой обзор в виде таблицы со сравнением векторных баз данных. Список подробный, со ссылками на документацию и представленностью практических всех продуктов с открытым кодом.
- Pretzel Notebook [2] тетрадки для работы с данными с DuckDB внутри и языком PRQL
- Common Corpus [3] авторы утверждают что это крупнейший датасет public domain текстов на разных языках
- DuckDB snippets [4] подборка сниппетов для DuckDB по использованию в командной строке. Замена многих инструментов в том числе самописных
- Binjr [5] браузер для временных рядов, с инсталляцией локально под Windows, Linux или Mac. В демках про мониторинг серверов, но может и для чего-то ещё сгодится?
Ссылки:
[1] https://superlinked.com/vector-db-comparison/
[2] https://github.com/pretzelai/pretzelai
[3] https://huggingface.co/collections/PleIAs/common-corpus-65d46e3ea3980fdcd66a5613
[4] https://duckdbsnippets.com/page/1/most-popular
[5] https://binjr.eu/
#opensource #datatools #data
В рубрике как это устроено у них каталог научных данных SPARC [1] посвящённый исследованиям тела и мозга. Является результатом совместного проекта нескольких исследовательских центров в США.
Из особенностей, кроме данных публикуют ещё компьютерные и анатомические модели, а все опубликованные ресурсы ещё и организованы с возможностью фильтрации по виду животного, полу, анатомической структуре и так далее.
Отличается тем что данные, в основном, большого объёма и файлы до 5GB можно скачать бесплатно, а файлы большего размера только через Amazon AWS или через сервис Osparc [2] по запросу.
На портале есть уникальная фича, визуализация датасетов [3] с помощью утилиты SDS Viewer, вот, пример [4]
Ссылки:
[1] https://sparc.science
[2] https://osparc.io/
[3] https://metacell.github.io/sds-viewer/
[4] https://metacell.github.io/sds-viewer/?doi=10.26275%2Fodx3-c5cv
#opendata #datacatalogs #datatools #data #brain #body #datasets
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.
А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.
Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.
А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.
#opendata #datasets #data #russia
Я регулярно пишу про такое явление как датацентричное мышление "что угодно как таблица" и в более узком звучании "что-угодно как SQL". Причём последнее попадается всё чаще и всё чаще всё то ранее было доступно каким-то другим образом через API или в иной специфической форме доступно как таблицы.
Из последнего, sqlelf, это программная библиотека и утилита превращающая метаданные из исполняемых Linux файлов в базу Sqlite и позволяют проделывать все дальнейшие операции по чтению этих метаданных из SQL таблиц. Удобно для всех кто занимается форенсикой под Unix-like системы.
Из похожего, несколько лет назад я делал утилиту metawarc, индексирует содержание веб-архивов в формате WARC и создаёт локальную Sqlite базу с результатами. Что позволяет сильно ускорить задачи по подсчёту статистики, экспорту файлов из архива (архивы бывают большие и это важна задача) и многое другое. Единственное что я не сделал - это там нет SQL интерфейса, хотя добавить такую команду и примеры это дело пары часов.
Похожий код у меня есть для HTML страниц, он превращает дерево HTML в плоскую таблицу с дополнительным обсчётом ряда параметров. Я его всё подумывал опубликовать и возможно что база в памяти это решение. Возможно, потому сколько я не пытался не удаётся сильно уменьшить размеры таблицы тэгов. Она выходит больше оригинального файла от 7 до 21 раза, это без использования СУБД внутри, только размер pandas Dataframe.
Возвращаясь к "что угодно как SQL", я в феврале прошлого года приводил много примеров такого подхода, когда SQL синтаксис и интерфейс создаются для работы с текстовыми файлами, репозиториями Git, базой контейнеров для Docker и тд.
Чем дольше я об этом думаю, тем более чувствую что такой подход может иметь существенный потенциал для технологических продуктов. Например, если бы сервисы счётчиков посещаемости и иной пользовательской аналитики предоставляли бы не REST API, а сразу доступ к SQL таблицам с твоими данными то это резко упростило бы их интеграцию и использование. Такие внешние сервисы, кстати, есть, но суть в том что SQL интерфейсы доступа не являются сейчас стандартизированными продуктами.
Аналогично для многих других сервисов и продуктов которые сейчас интегрируются через ETL и ELT костыли.
А сама идея "что-угодно как SQL" может развиваться ещё применительно много к чему. К файловой системе, к реестру Windows, к работе с Excel/ODS файлами, к работе с онлайн таблицами (типа Google Sheets), к вебсайтам и ещё много к чему.
#thoughts #data #datatools #sql #everythingisdata
Продолжаю рассказывать понемногу про поисковик Dateno и про то как в нём индексируются датасеты. Его особенность в тех индикаторах которые используются внутри для наполнения базы данных. Иначе говоря как мы понимаем что надо проиндексировать? Какие данные добавить в первую очередь? По каким критериям их собирать ? Эти вопросы важные, потому что сейчас проиндексирована только половина реестра всех каталогов данных и это только по числу каталогов, а если считать в датасетах, то не около 10% от всех (точно оценить сложно, никто просто не знает).
Так вот эти критерии - это:
- число проиндексированных датасетов - самое простое и очевидное, не нужно объяснять почему
- число охваченных каталогов данных - тоже важный показатель того как хорошо индексирование идёт
- число охваченных стран (geographic coverage) - это уже сложнее, условно по каждой стране должны находится наборы данных. Отчасти легко решается за счёт международных каталогов статистики, но лишь отчасти и с большим искаженим только в эту статистику.
- степень диверсификации данных (data diversity) - самостоятельно выдуманный термин основная идея которого в том что данные в поиске должны быть разные: геоданные, научные данные, открытые данные, статистика, данные для ML, микроданные и тд. Понятно что каких-то данных больше, каких-то меньше, но всех должно быть значимое количество. Условно не меньше 50% проиндексированных каталогов по типам, не меньше 50 тысяч датасетов каждого типа
Плюс, конечно, важен вопрос качества данных, качества метаданных, "настоящность" данных (очень часто наборами данных обзывают то что ими не является) и ещё многое другое.
Поэтому поисковый индекс Dateno с самого начала собирался сложным путём, по приоритетам достижения этих индикаторов. И 10 миллионов охваченных датасетов - это самоограничение именно такого подхода, потому что очень, действительно, очень просто сделать поисковик на 30-50 миллионов датасетов из которых 50% будет исследовательскими данными в США, ещё 25% исследовательскими данными Китая, ещё 20% научными данными ЕС и только 5% что-то ещё. Моментально получится поисковик по научным данным с лёгким добавлением всего остального.
Но для науки есть свои поисковые системы, поэтому в Dateno хотя и важным приоритетом является индексирование как можно большего объёма всех наборов данных, но не в ущерб их качеству.
Например, сейчас хуже всего с индексированием датасетов для машинного обучения, потому что они собраны всего на нескольких сайтах и это не то чтобы свободные к индексированию ресурсы. А также не добавлена значительная часть порталов с индикаторами которых много, но каждый требует отдельной стратегии индексирования. Но об этом всём я расскажу позже, по мере наполнения индекса Dateno.
#opendata #dateno #datasets #crawling
Данные которые не скачать напрямую, но которые всё ещё открытые данные.
Есть такая особенность у данных машинного обучения что каталоги и реестры для их публикации часто не содержат прямых ссылок на файлы или же доступ по прямым ссылкам не является основнным. Это кажется очень странным, но это так. Вместо этого они содержат ... код для доступа к датасетам.
Те кто занимается задачами по data science к такому привычны давно, те кто использует другие инструменты могут находить это весьма необычным.
Вот несколько примеров:
- Tensorflow Catalog [1] каталог наборов данных к продукту Tensorflow, по каждому датасету есть информация о первоисточнике, объёму и способу подключения используя Tensorflow
- UC Irvine Machine Learning Repository [2] каталог датасетов для машинного обучения. Кроме ссылки на выгрузку, генерируется код для Python, а для каталога есть специальная открытая библиотека
- аналогично с каталогом датасетов Pytorch [3], сразу код для импорта и это логично ведь он часть библиотеки
Не говоря уже о Kaggle и HuggingFace, там такой режим доступа по умолчанию. Можно сказать что это code - first стратегия для работы с данными.
Один из интересных вопросов в том как индексировать такие датасеты. Помимо того что все такие каталоги написаны очень по своему, так ещё и получается что у них нет такого понятия как ресурсы, файлы или ссылки, в ситуации когда доступ только через API. Зато есть автогенерация кода, причём, в основном сразу в Python.
Это одна из причин почему в Dateno пока ещё мало датасетов по Machine Learning, все каталоги в этой области очень специфичны и не все дают возможность индексировать их просто и давать ссылки на файлы.
Но, конечно, вскоре и они будут добавлены
Ссылки:
[1] https://www.tensorflow.org/datasets/catalog/overview
[2] https://archive.ics.uci.edu/
[3] https://pytorch.org/vision/stable/datasets.html
[4] https://paperswithcode.com/dataset/cityscapes
#opendata #datasets #datacatalogs #ml #datascience #python
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.
Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.
Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.
Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.
А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8
#government #russia #russianlang #laws
Я в своих выступлениях про поисковик по данным Dateno рассказывал про то что один из приоритетов его развития - это повышение качества данных.
Причём, чтобы было понятно, качество данных и их описания, метаданных, подавляющего числа порталов открытых данных плохое. Иногда совсем плохое - чаще, реже среднее, но очень хорошее - это огромная редкость. Причём почти всегда это качество является отражением того что с ним работают люди которые вручную вносят файлы и заполняют описание.
Вот пример одной из практических задач. В Dateno сейчас 3383 типа форматов файлов, но, в реальности, это лишь 129 форматов, потому что пользователи указывают в полях типа file format что попало, часто с ошибками. Помимо того что есть указания по которым вообще нельзя понять что это за файл, так есть ещё и много форм написания расширений и типов. На скриншотах примеры с форматами и расширениями которые приходится приводить в порядок, сейчас, полувручную. Похожая ситуация с типами MIME, они очень даже активно заполняются с ошибками, хотя, казалось бы, так быть не должно.
Поэтому большая часть работы над поисковиком - это обогащение данных, повышение качества их описания, извлечение метаданных из самих данных и многое другое для нормализации описания каждого датасета.
На скриншотах можно увидеть проверку в OpenRefine автоматически размеченных форматов и типов mime по одному из снапшотов базы Dateno. И это с оговоркой что сейчас проиндексированы далеко не самые "грязные" каталоги данных. Скорее всего ситуация будет сильно хуже с форматами когда начнём индексировать большие каталоги научных данных. Вот тут, конечно, хотелось бы найти инструмент который бы всё это делал без участия человека, но такого не наблюдается.
Потому что, например, определение форматов и типов mime относительно хорошо можно делать по содержанию файла, но скачивание всех-всех файлов для поисковика является весьма дорогостоящей задачей, и с точки зрения трафика и с точки зрения ресурсов.
#dateno #data #howitworks #datasearch #dataquality
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]
Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/
#data #datatools #privacy #ml #opendata #ai
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].
От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.
1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.
Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.
Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] /channel/begtin/168
#opendata #russia #closeddata #crime #migration #mvdrf
В рубрике как это устроено у них La Referencia [1] портал агрегатор научных работ в Латинской Америке + Испания. В боле более 5.2 миллионов научных работ большая часть которых - это статьи, магистерские и докторские тезисы и многое другое. В том числе наборы данных в объёме 10 тысяч штук. Что очень немного по сравнению с общим числом других работ, около 0.2%, но немало для разного рода каталогов данных.
Правда, большая часть данных там из испанских научных репозиториев, но тем не менее.
Проект интегрирован с европейским проектом OpenAIRE и его материалы доступны через поиск в OpenAIRE.
#opendata #openaccess #openresearch
В рубрике интересных проектов на данных Data Saudi [1] портал по визуализации и понятному представлению данных по Саудовской Аравии. Похоже что делалось всё той же командой Datawheel которые делали когда-то DataUSA [2] и ряд аналогичных проектов для Бразилии, Мексики, Эстонии и Чили [3].
Наглядно выглядит всё красиво, на практике не то чтобы очень функционально. Впрочем такие проекты делают не для аналитиков, а для тех кто вставляет статистику в презентации.
Для меня все эти проекты всё ещё оставляют вопрос в том считать ли их порталами с данными или нет. Данные там есть в VIZ Builder, вполне себе скачиваются и удобнее чем в первоисточнике, но, всё же, система визуализации - это не каталог данных.
Есть над чем подумать , возможно, стоит добавить такие проекты в реестр каталогов данных который я веду и, в будущем, индексировать в Dateno.
P.S. Я, кстати, думал про не создать ли такой проект про Армению, какие то данные под это даже есть, но работа Datawheel стоит очень дорого и интересно можно ли такое сделать дешевле и своими силами
Ссылки:
[1] https://datasaudi.mep.gov.sa/en
[2] https://datausa.io
[3] https://www.datawheel.us/
#opendata #dataviz #visualization #data #saudiarabia
[EN] Sharing the latest news and an important appeal.
First, the ex-website of the State Revenue Committee of Armenia (petekamutner.am) has ceased being publicly available, and the new one, at least for now, has only the most recent data. We timely archived the old site, so if you need data on tax and customs revenues, violations, etc., you know whom to ask.
Second, since September 22, 2023 we have archived all Artsakh-related websites we were aware of. Some of them were already unavailable at that time. Please, reach out to us if you need those sites for your projects.
If you happen to know of any endangered websites related to Armenia and Artsakh, please share them with us and we will archive them and upload them to the catalog.
[AM] Կիսվում ենք վերջին նորություններով և կարևոր կոչով:
Նախ՝ այլևս հասանելի չէ ՊԵԿ-ի նախկին կայքը (petekamutner.am), իսկ նորում, առնվազն առայժմ, հրապարակված են միայն վերջին տվյալները: Մենք հասցրել ենք արխիվացնել հին կայքը, այնպես որ, եթե ձեզ պետք գան հարկային և մաքսային եկամուտների, խախտումների և այլնի վերաբերյալ տվյալները, գիտեք, թե ում դիմել:
Երկրորդ՝ դեռևս 2023թ. սեպտեմբերի 22-ին սկսել էինք Արցախի հետ կապված մեզ հայտնի բոլոր կայքերի արխիվացումը։ Որոշ կայքէջեր անհասանելի էին արդեն այն պահին։ Կապվեք մեզ հետ, եթե դրանք ձեզ պետք են ձեր նախագծերի համար:
Եթե Ձեզ հայտնի են Հայաստանի և Արցախի հետ կապված այս կամ այն պատճառներով անհետացման վտանգի տակ գտնվող սոցիալական նշանակություն ունեցող կայքեր, խնդրում ենք մեզ էլ տեղյակ պահել: Մենք կարխիվացնենք դրանք և կհրապարակենք մեր գրացուցակում:
[RU] Делимся последними новостями и важным призывом.
Во-первых, из публичного доступа пропал прежний сайт Комитета госдоходов Армении (petekamutner.am), а на новом, по крайней мере пока, есть только свежие данные. Мы успели заархивировать старый сайт, так что если вам пригодятся данные по налоговым и таможенным поступлениям, нарушениям и т.п., вы знаете, к кому обращаться.
Во-вторых, ещё с 22-го сентября 2023 г. мы заархивировали все известные нам сайты, связанные с Арцахом. Некоторые из них были недоступны уже на тот момент. Свяжитесь с нами, если они нужны вам для ваших проектов.
Если вам известны связанные с Арменией и Арцахом социально значимые сайты, находящиеся под угрозой исчезновения, пожалуйста, поделитесь ими с нами, и мы заархивируем их и загрузим в каталог.
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.
Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.
Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.
Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481
#opendata #datasets #digitalpreservation #datacatalogs #data #archives
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].
Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.
Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.
Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim
#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.
Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.
Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.
Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)
Ссылки:
[1] https://superset.apache.org
#opendata #datasets #data #datatools #superset #bi #datacatalogs
В продолжение размышлений о том как устроен доступ к данным во многих дата каталогах, кроме примера с доступом через API [1], есть много примеров когда каталоги данных интегрированы в платформы которые их предоставляют.
Например, Microsoft Planetary Computer [2], сервис визуализации и каталог особо крупных геоданных. Часть данных доступны только через API по спецификации STAC, часть данных лежат файлами в облаке Azure и ссылки на них выглядят как abfs://items/sentinel-3-synergy-vgp-l2-netcdf.parquet, а часть доступны только по запросу и тоже лежат файлами в разных форматах.
Кроме Microsoft подобное практикуют Amazon с их каталогом открытых данных [3] и ссылками на внутренние ресурсы S3 вроде таких arn:aws:s3:us-east-1:184438910517:accesspoint/bdsp-psg-access-point/PSG/
Похожее с датасетами в каталоге Google Earth [4] когда вместо данных отдаётся сниппет для подключения и код Javascript.
Такое неслучайно, такие порталы чаще всего включают внешние данные, например, данные НАСА или научных проектов, прошедшие обработку, очистку и приведенные в формат используемой платформы. Такие владельцы, по сути BigTech, публикуют датасеты чтобы привлечь к себе аудиторию разработчиков и удержать её. Для компаний владеющих инфраструктурой и привлекающей пользователей - это вполне логичная бизнес стратегия, причём даже с некоторой социальной составляющей, поскольку это даёт и бесплатное пространство нужное для некоторых данных и быстрый доступ ко многим данным, опять же, по цене аренды сервера который ты, возможно, и так бы арендовал.
Всё это довольно сильно усложняет индексацию таких каталогов данных в Dateno поскольку для них, по хорошему, нужен другой подход и другая стратегия, как давать ссылки на такие ресурсы. Можно просто дать ссылку на карточку в оригинальном каталоге, но многие поисковые фасеты выпадают, ссылки на ресурсы не работают.
Эти примеры немногочисленны количественно и многочисленны качественно. Датасетов от BigTech компаний в лучшем случае тысячи, правда объёмы там идут на петабайты. А есть есть и другой пример. Очень многие порталы со статистикой отдают данные только по POST запросу. В этом, может быть, когда-то была логика, когда 10-15 лет назад они создавались, а сейчас у этих индикаторов нет ссылок на данные. Иногда и на сам индикатор явной ссылки нет. Что делать? Проиндексировать их возможно, но как помогать пользователю получать данные? Делать копию не только метаданных, но и данных и отдавать их из своей БД? Это уже другой продукт. Делать прокси для POST запросов? Для типовых порталов возможно, для нетиповых это большое усложнение.
Итого многие данные доступны только в режиме когда есть ссылка на веб страницу, в первую очередь потому что их владельцы, или не подумали о доступе прямом, или затягивают в свою инфраструктуру.
Это лишь один из примеров задач относящихся к сложности создания поисковика Dateno и ответов на вопросы "А это точно дата каталог?", "А он типовой?", "А как индексировать оттуда данные?" и многое другое.
Ссылки:
[1] /channel/begtin/5526
[2] https://planetarycomputer.microsoft.com
[3] https://registry.opendata.aws
[4] https://developers.google.com/earth-engine/datasets
[5] https://dateno.io
#opendata #datasets #data #datacatalogs #dateno
Поскольку существенная часть моей деятельности некоммерческая, то приличия не позволяют не клянчить на неё просить на неё поддержку с какой-то регулярностью.
Эта поддержка имеет, и символическое, и практическое значение. Символическое в том что некоммерческие проекты что делает наша команда нужны и востребованы, а практическая в том что их можно будет продолжать.
В Армении на Open Data Armenia
На что мы собираем деньги?
1. На сбор и публикацию открытых данных (github.com/opendataam)
2. На организацию мероприятий таких как Open Data Day (odd.opendata.am)
3. На конкурсы вроде конкурса Open Data Armenia Contest (contest.opendata.am)
Как помочь?
Самый простой способ это стать подписчиком Open Data Armenia на Github https://github.com/sponsors/opendataam/ Мы будем ещё много выкладывать открытого кода и наборов данных и подписка через Github - это самое логичное что только возможно.
Альтернативно можно перевести по банковским реквизитам:
номер счёта 163618011379 для пожертвований в Евро, назначение ""OPEN DATA" development centre public organization" Donation. Если хотите пожертвовать в другой валюте, то напишите мне, перешлю реквизиты.
В России на Инфокультуру
В России деятельность сейчас очень сильно ограничена, но АНО Инфокультура всё ещё существует и всё ещё делает проекты по открытым данным и не только. В приоритеты работа по архивации данных, значимого контента и работа над Национальным цифровым архивом (ruarxive.org).
Как поддержать?
Самое простое - это пожертвовать через форму на сайте https://www.infoculture.ru/donation/, а если Вы представляете организацию то можно напрямую перевести на счёт, достаточно написать мне, я перешлю реквизиты.
Не такое простое, но тоже важное, если у Вас есть бесхозные или ненужные, не самые актуальные сервера, диски, системы хранения и так далее, то примем их в дар с большим удовольствием. Сейчас для архивации используются, в основном, сервера которые мы когда-то покупали и сервера которые арендуются что выходит по нынешним временам дороже чем хотелось бы.
#support #ngo #donation
Отвлекаясь немного от темы данных и технологий.
В Испании Верховный суд постановил временно заблокировать Телеграм после жалобы группы "копирастов" из ведущих медиа компаний: Mediaset, Atresmedia, Movistar и Egeda на то что в Телеграм'е пиратят и не удаляют спираченный у них контент [1].
Не менее важна причина решения суда, главный аргумент в "недостаточной кооперации" со стороны руководства Телеграма, непонятно ли кооперация с кем, с властями страны или с владельцами контента.
В любом случае, блокировкой Телеграма, Испания присоединилась к клубу стран состоящему из Кубы, Ирана, Пакистана и Таиланда.
Что тут скажешь, пора испанцам перенимать иранский опыт по обходу блокировок соцсетей.
Ссылки:
[1] https://www.euronews.com/next/2024/03/23/spains-high-court-orders-block-on-telegram-messaging-app-as-a-precautionary-measure
#privacy #piracy #telegram
One Trillion Row Challenge - совершенно замечательный по задумке конкурс по работе с датасетом в триллион строк [1] для тех кто работает большими, очень большими и очень-очень большими (шутка) данными на обычном железе или во временно арендуемом облаке, а не на мейнфреймах. Конкурс в том чтобы подсчитать минимальную, среднюю и максимальную температуру по погодным станциям отсортированным по алфавиту. Данные хранятся в 100 тысячах Parquet файлах, по 10 миллионов строк в каждом, а заявки отправляются через открытие issue в репозитории конкурса [2].
Сам конкурс - это продолжение другого конкурса, One Billion Row Challenge [3], где данных было только 1 миллиард, и принимались решения только в виде Java кода.
Решения можно отправлять в дискуссиях на Github в репозитории [4].
Конкурс интересный тем что по многим продуктам не-неожиданно, но подтверждённо очень высокая производительность. Например, в Clickhouse SQL задача с 1 миллиардом строк решается за менее чем 7.5 секунд [5] и у них же 3 минуты на конкурс в 1 триллион строк [6] и пишут что за $0.56, это совсем мало если что.
А в оригинальном посте Dask в облаке Coiled отрабатывает за 8.5 минут или $3.26 в стоимости Amazon Cloud, что тоже очень мало.
Хороший бенчмарк, в ситуации интенсивной конкуренции между высокопроизводительными продуктами по обработке данных, он весьма полезен.
Ссылки:
[1] https://docs.coiled.io/blog/1trc.html
[2] https://github.com/coiled/1trc
[3] https://www.morling.dev/blog/one-billion-row-challenge/
[4] https://github.com/gunnarmorling/1brc/discussions
[5] https://github.com/gunnarmorling/1brc/discussions/80
[6] https://clickhouse.com/blog/clickhouse-1-trillion-row-challenge
#data #datasets #opensource #datatools
К вопросу об открытости данных в Казахстане свежая статья в Exclusive.kz [1]. Проблема с этим порталом в том что он к открытым данным отношения не имеет никакого. Видно что не проделано работы, ни по доступности данных, ни по свободе использования (открытые лицензии) и данные которые туда попадают из других источников парадоксальным образом становятся более, а не менее закрытыми.
Это на фоне того что в Казахстане много открытых геопорталов, баз статистики (ТАЛДАУ) и тд.
Всего 13649 датасетов по Казахстану у нас в Dateno проиндексировано [2], но почти все эти данные - это геоданные и индикаторы из международных источников потому что именно открытые данные, в строгом определении, не публикуются.
И ещё отдельная история о том почему во многих странах госорганы пытаются создавать порталы данных на нетиповых продуктах. В результате они не индексируются ни у нас в Dateno, ни в Google Dataset Search, ни в других поисковиках. При том что в том же data.egov.kz нет ничего такого что нельзя было бы сделать с помощью CKAN, DKAN и ещё ряда продуктов создания каталогов открытых данных.
И это только пока мы говорим про техническую сторону процесса, не затрагивая то какие, собственные данные должны публиковаться чтобы быть востребованными. Подсказка, простые опросы пользователей не работают. Работают приоритеты по high value datasets (датасеты особо ценные) которые формируют страны ЕС, к примеру.
К теме данных в Центральной Азии я ещё буду неоднократно возвращаться.
Ссылки:
[1] https://exclusive.kz/chto-skryvaet-otkrytoe-pravitelstvo-kazahstana/
[2] https://registry.commondata.io/country/KZ
#opendata #opengov #kazakhstan #dataportals
В продолжение про то какие бывают форматы общедоступных данных, есть важный факт индикатор пересечения открытых данных с областями data science. Из, примерно, 29 миллионов ресурсов (файлов) привязанных к датасетам в Dateno, только 4700 - это файлы Parquet, ни одного файла Avro или Orc.
Только около 7 тысяч файлов - это данные в виде дампов Sqlite, и то почти все они - это данные экспортируем из разного рода каталогов геоданных и входящих в файлы geopackage.
Можно, конечно, предположить что вместо специальных форматов для машинного обучения специально публикуют CSV файлы для лучшей интеграции, но это далеко не безусловный тезис потому что по опыту, на каждый нормальный файл CSV файл приходится два файла с ошибками форматирования и экспорта.
А самые популярные общедоступные (public domain и открытые данные) данные остаются CSV, XML, XLSX, JSON, TAB, XLS и менее известные в инженерной среде, но известные в научной NetCDF.
К этому можно добавить ещё пучок файлов геоданных, но в целом состав основных данных именно таков. Всё, скорее всего, немного поменяется когда закончится индексация Kaggle и HuggingFace, но за их пределами использования форматов для data science почти не наблюдается.
И это отдельный длинный разговор почему так происходит.
#opendata #dateno #datasets #statistics
Миллионы научных статей рискуют исчезнуть из онлайн-хранилищ
Анализ цифровых идентификаторов научных статей показал, что результатов исследований публикуется больше, чем архивируется. Проблема, в первую очередь, затрагивает небольшие издательства, у которых нет средств и возможностей для долгосрочного хранения большого количества опубликованных материалов.
По данным анализа более семи миллионов цифровых публикаций, около четверти всех научных статей не архивируются и не хранятся в интернете должным образом. Результаты показывают, что онлайн-хранилища не успевают за постоянно растущим потоком новых работ, передает ERR.EE
По словам Мартина Ива, одного из авторов нового исследования, вся эпистемология науки основана на списках ссылок. Другими словами, автор статьи должен быть в состоянии проверить, что о предмете его исследования говорили другие, в противном случае ему придется полагаться на слепую веру в факты, объяснение которых ему недоступно.
Для нового анализа Ив использовал выборку из 7 438 037 научных работ. Все изученные статьи снабжены цифровым идентификатором объекта, или DOI. Это последовательность цифр, букв и символов, которая действует как идентификационный код электронного документа. DOI позволяют однозначно распознать научную работу и использовать ее в качестве ссылки.
Из всех исследований, включенных в выборку, 28%, или более двух миллионов статей, не были доступны ни в одном из крупных цифровых архивов, даже если публикация имела действующий DOI. Только 58% DOI ссылались на статьи, хранящиеся хотя бы в одном архиве. Оставшиеся 14% работ были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись журнальными статьями или их изначальный источник не мог быть определен.
Полученные результаты не означают, что статьи вообще нельзя найти в сети. Например, они могут быть доступны на сайтах издательств. Однако если последние обанкротятся или что-то случится с их серверами, соответствующие научные работы могут исчезнуть из онлайн-хранилищ.
Оказалось, что менее 1% – или всего около 200 – издательств, загрузили свои статьи в несколько архивов. Около трех четвертей издателей добавили работы в три или более архивных сред. Менее 10% разместили свои материалы как минимум в двух хранилищах.
Треть издательств вообще не занимались постоянным архивированием.
По словам Мартина Ива, его анализ следует рассматривать с некоторыми оговорками. В частности, в выборку исследования вошли только статьи с DOI-метками. Кроме того, в него были включены не все цифровые хранилища, например, архивные среды самих исследовательских институтов не рассматривались.
Несмотря на эти оговорки, анализ хорошо приняли специалисты по хранению данных, не связанных с исследованием. Например, Микаэль Лааксо, сам занимающийся вопросами публикации научных работ в Школе экономики Ханкен в Хельсинки, говорит, что многие люди слепо верят в то, что наличие DOI гарантирует вечную доступность статьи. Вместе с коллегами в 2021 году он показал, что на самом деле в период с 2000 по 2019 год из интернета исчезло более 170 журналов с открытым доступом.
Кейт Виттенберг, управляющий директор Portico, поставщика услуг цифрового архива, предупреждает, что неспособность сохранять статьи ставит под удар не столько крупные, сколько мелкие издательства. Хранение опубликованного контента стоит денег и требует инфраструктуры, технологий и опыта, которыми небольшие организации не располагают.
В своем анализе Ив предлагает меры по улучшению сохранности цифрового контента. Например, можно ужесточить требования к регистрации DOI. Также, по его мнению, стоило бы повысить осведомленность о проблеме сохранности среди издателей и самих ученых.
Исследование было опубликовано в журнале Journal of Librarianship and Scholarly Communication.
#DOI
____
@rujournals - Научные журналы и базы данных
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.
Вот 7 наиболее приоритетных, в моём вольном переводе:
1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.
По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.
Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france
#opendata #ai #france #strategies #reports #readings