В рубрике как это работает у них большое изменение в статистике последних лет - это превращение статистических порталов в порталы данных. Если в классических стат порталах акцент был на визуализации и экспорте данных в XML/CSV/XLSX, то сейчас почти все новые порталы сразу называют порталами данных, включают API, как правило, REST API или более специфичное для статистики API на базе SDMX, а также добавляют возможность получения индикатора целиком и получение статистической базы целиком.
В качестве примера, порталы на базе open-source движка .Stat Suite [1].
- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты
и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.
При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.
Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/
#opendata #statistics #datacatalogs
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.
В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.
Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.
Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.
Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/
#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
18 января в 12:00 (по Еревану, GMT+4) мы проведем первый вебинар, приуроченный к конкурсу «Open Data Armenia Contest».
Присоединяйтесь к вебинару, посвященному обзору открытых данных Армении. Это событие поможет участникам конкурса понять специфику открытых данных и преимущества их использования, а также узнать о многообразии доступных источников данных.
Вебинар будет состоять из двух частей:
— Часть1. Введение в открытые данные и лицензии: определение, значение, виды и их влияние на распространение знаний. Спикер Иван Бегтин, руководитель проекта Open Data Armenia, эксперт в области open data и data discovery. Читается на русском языке.
— Часть 2. Источники данных об Армении: обзор ключевых платформ и ресурсов с открытыми данными. Портал data.opendata.am. Спикер Валерия Бабаян, аналитик открытых данных, специалист в области data discovery. Читается на армянском языке.
Для участия необходимо зарегистрироваться: ссылка. Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Что такое наборы данных ? (1/2)
Есть такой важный вопрос которым я задаюсь в последнее время особенно, который звучит банально, а ответ на него не так прост. А что такое данные? Что такое набор данных/датасет? Есть множество формальных определений, самое базовое это "dataset is a collection of data" , но на практике возникает множество нюансов.
Например, является ли изображение набором данных? Скорее всего нет, например, изображение обложки книги точно не набор данных. А если это карта? Или если это WMS сервис отдающий изображения? По сути - это метаданные + изображение. Он ближе к датасету, по крайней мере из практики использования. А если у нас изображение картины будет вместе с метаданными о нём? Это датасет ? Скорее нет чем да, но можно поспорить. А вот если это будет коллекция из тысяч изображений и метаданные к ним это уже точно набор данных. Возможно даже для машинного обучения. Точно также как и одна аудиозапись - это не набор данных, а тысячи аудиозаписи + метаданные + аннотации вполне себе типичный набор данных для ML.
#data #datasearch #datafragmentation #thoughts
Обновлённая подборка ссылок на порталы с открытыми или общедоступными данными для машинного обучения.
Большие международные
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- DagsHub dagshub.com/datasets - большая подборка наборов данных и библиотека для Python для работы с ними
- Papers With Code paperswithcode.com/datasets - наборы данных привязанные к "публикациям с кодом", чаще ссылки на другие порталы с данными
- Andaconda Datasets anaconda.org/search?q=dataset - программные пакеты для Python (Anaconda) для доступа ко многим наборам данных и включающие наборы данных
Японские
- ABCI Datasets datasets.abci.ai - научные наборы данных для ML
Корейские
- AI Hub aihub.or.kr - портал данных для ИИ в Южной Корее, большая часть данных требует регистрации и разрешения на использование
Российские
- MosMed datasets mosmed.ai/datasets - подборка наборов открытых данных для машинного обучения в области медицины
А также существуют многие другие, узкотематические и в виде подборок наборов данных.
#opendata #ml #data #ai #datacatalogs
В качестве регулярных напоминаний для тех кто ищет данные по России и постсоветским странам, каталоги/источники данных собраны в проекте Datacatalogs.ru [1] поддерживаемом Инфокультурой (@infoculture)
Там кроме порталов данных собраны, также, ссылки на значимые списки наборов данных и порталы открытого бюджета. А также небольшое число каталогов данных по Казахстану, Узбекистану и ряду других пост-советских стран. Плюс - удобный поиск и наглядная визуализация.
Другой источник - реестр каталогов данных всего мира Common Data Index и каталоги из России в нём [2].Тут только порталы открытых данных и геопорталы, он полнее по метаданным, но не включает, например, порталы бюджетной системы. Сейчас здесь 142 каталога данных, частично лишь пересекаясь. Не всё что есть здесь есть в Datacatalogs.ru, поскольку первый наполнялся вручную, а этот реестр полуавтоматически.
А также сильно меньший по объёму, но удобный для редактирования всем и каждым Russian awesome open data list [3] на Github. Достаточно просто добавить новые источники данных через Pull request. Он очень давно создан (9 лет назад) и редко обновляется. Очень нехватает контрибьюторов.
К этому я лишь добавлю что сейчас работаю над проверкой доступности порталов данных по РФ. Потому что не только сайты органов власти недоступны за пределами российских подсетей, но и сайты региональных и муниципальных властей, региональных ГИС и тд. Без использования прокси внутри РФ невозможно теперь проверить жив ли тот или иной российский сайт блокирующий не-российский трафик.
Ссылки:
[1] https://www.datacatalogs.ru
[2] https://registry.commondata.io/country/RU
[3] https://github.com/infoculture/awesome-opendata-rus
#opendata #russia #datacatalogs
Росреестр открыл портал пространственных данных [1], впрочем, глядя на портал можно обнаружить что данных то там и нет. Есть сервисы, есть карта, а выгрузить всё каким-либо образом не предусмотрено.
Но, это не совсем так. Простое обследование показывает что внутри портала всё построено на какой-то кастомизированной GIS системе в основе которой лежит open-source продукт Geoserver который и находится довольно быстро [2] с более чем 384 слоями к которым можно подключаться разного рода стандартными картографическими инструментами.
Все точки подключения у Geoserver открыты, кроме точек к сервисам WFS, но, подскажу что ключ для авторизации встроен в JS код сайта, так что авторизация весьма условна. Пытливым умам это не помеха.
Параллельно с этим WMS интерфейсы реализованы в GIS портала в привязке к отдельным слоям, например, [3] [4], а списки номеров слоёв через точку подключения API.
По итогу, открытых данных нет, общедоступные данные есть.
А я не могу в очередной раз не поразится попыткам прятать шило в мешке без особой на то нужды. Что мешало и мешает Росреестру опубликовать все спецификации API?
Ссылки:
[1] https://nspd.rosreestr.gov.ru
[2] https://nspd.rosreestr.gov.ru/geoserver
[3] https://nspd.rosreestr.gov.ru/api/aeggis/v2/6/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[4] https://nspd.rosreestr.gov.ru/api/aeggis/v2/36049/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[5] https://nspd.rosreestr.gov.ru/map_api/workset/list/forMap
#opendata #data #geodata #spatial #russia #rosreestr #api
Немного отвлекаясь от темы данных, хотя и отчасти соприкасаясь с темой открытости данных, есть такое явление в России, как минимум, последние 6 лет, как снижение институциональной прозрачности. Оно касается доступности информации о ключевых решениях властей всех уровней, в особенности нормативных документов, бюджетов, государственных программ, планов, дорожных карт и много-го другого. Всё то что позволяет принимать осмысленные решения всем кто с государством взаимодействует.
Это снижение происходило, как в данных, например, исчезновение реестра субсидий, закрытие отчётов об исполнении бюджетов или учредителей НКО, так и в сведениях которых может быть открытыми данными не были, но имели значение. Например, я много писал о том что главное всех новых инициатив Пр-ва и Национальных проектов в их запредельной непрозрачности. Некоторые документы, например, структуру фед.проекта по Искусственному интеллекту можно найти только в базе Консультант Плюс, но не на сайте Правительства РФ или в официальных базах законодательства, Да и у самого документа нет статуса нормативного документа, а "всего лишь" он решение президиума правкомиссии. Зато есть множество пропагандистских проектов расхваливающих инициативы Пр-ва, есть аккаунты в министерств в соцсетях, причём даже "приближенных к народу", постящих гороскопы, как в соцсетях Минфина РФ.
К этим же событиям можно отнести и засекречивание крайне значительного числа указов и распоряжений Президента РФ и очень многое другое. На фоне активной цифровизации государственного патернализма, вроде госуслуг, и других "тяжёлых" госсистем, полностью замерло всё что касалось повышению прозрачности. Не появилось единого портала по прозрачности гос-ва с централизованной публикацией всех деклараций, портал открытых данных ещё до исчезновения был в замороженно-мусорном состоянии, был закрыт портал Госрасходы (spending.gov.ru) да и даже такое банальное явление как публикация нормативных текстов в виде текстов до сих пор не решена, официальное опубликование документов на publication.pravo.gov.ru до сих пор осуществляется сканами. Да, для справки, это единственный сайт официального опубликования, а не сайт Пр-ва, Пр-та или ГД.
А недавно я искал такую банальщину как состав экспертного совета по ИИ при РКН (ещё вернее при ГРЧС, но новости о нём только на РКН) и ничего нет.
Такого много, это не измеряется внешними или внутренними индексами и рейтингами, а все СМИ и НКО которые подобное отслеживали признаны иноагентами или нежелательными организациями.
Нет, это началось задолго до военных действий и не закончится когда эти военные действия закончатся. Оно началось когда окончательно стало понятно что РФ не вернётся в G8 и не вступит в ОЭСР.
Всё это при том что изначально уровень институциональной прозрачности был достаточно высок чтобы казалось что процесс её снижение идёт очень медленно. Но важное отличие не только в уровне, но и в тренде.
#thoughts #transparency #openness #opengov #opendata
Подводить итоги 2023 года сложно, можно коротко описать как "ещё один плохой год", а я попробую себя в жанре предсказаний на 2024 г.:
1. Всё что касается регулирования интернета, данных и ИТ в целом будет ухудшаться в мире. Цензура в авторитарных странах продолжит ужесточаться вплоть до постепенному приходу к работе по белым спискам, а в демократических введут механизмы блокировок по аналогии с авторитарными режимами. Регулирование ИИ будет ужесточаться, но не в России, в России ключевые ИИ компании выторгуют, если ещё не выторговали, послабления, под страхами "потери лидерства", "утечки мозгов" и тд. Регулирование приватности и управления данными будет ухудшаться в России, в первую очередь из-за инициативы по централизованной деперсонализации данных госоператором.
2. Тема открытых данных в мире продолжится, основные данные будут раскрываться научными организациями. Открытый доступ (open access) продолжит своё развитие, в том числе в развивающихся странах. Фактически открытые научные данные будут везде где есть живая наука интегрированная в мировую. Но и основные другие инициативы никуда не исчезнут. Будет больше проектов связанных с доступностью данных машинного обучения.
3. Хайп вокруг ИИ продолжится и начнёт стихать только к концу 2024 года, когда станет понятно что все "сливки" снимут ограниченное число очень крупных игроков. Но для инвесторов сохранится приоритет на инвестиции в "поумневшие" сервисы, самого разного толка. Будет как минимум 2-3 крупных скандала вокруг ИИ игроков, регулирования, инвестиций и тд.
#opendata #predictions #2024 #ai #regulation #data #privacy
На Новый год всем хочу пожелать много данных
Больших, небольших, интересных и странных
Открытости по умолчанию везде где возможно
И мира хотелось бы, а то как-то тревожно
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.
Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.
Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj
#opendata #eu #readings #reports
Мы будем публиковать идеи для проектов на номинации конкурса и вот свежие данные только что утверждённого бюджета Еревана. Доступны в виде таблиц в PDF файле [1], таблицы можно извлечь с помощью таких инструментов как ABBYY FineReader, а для визуализации воспользоваться одним из существующих инструментов с открытым кодом или написать свой код и сделать инфографику самостоятельно.
Как выглядят визуализации бюджетов в мире?
Одна из самых известных визуализаций в мире - это Death and Taxes по бюджету США [2]. Она уже много лет служит вдохновением для тех кто хочет наглядно представить эти данные.
А вот пример, интерактивный бюджет Австралии, по нему также доступен исходный код [3]. Достаточно подготовить данные и опубликовать их с помощью уже готового кода.
Ещё примеры визуализаций с открытым кодом:
- Budget Visualization Framework [4]
- Budget Vis [5]
А также другие примеры
Специальный портал по открытости бюджета Санкт-Петербурга [6], а в Румынии бюджет свёрстан в цветовой гамме флага страны и он интерактивен [7] или же визуализация федерального бюджета США [8] с детализацией до контрактов.
Ссылки:
[1] https://www.yerevan.am/uploads/media/default/0002/30/1c00c8d6f8f9ef7f67a523d40e56c4738b56a044.pdf
[2] https://www.visualcapitalist.com/death-taxes-2015-visual-guide-tax-dollars-go/
[3] https://github.com/informeren/dataviz-budget
[4] https://github.com/goinvo/Visual-Town-Budget
[5] https://github.com/shurkhovetskyy/budget-vis
[6] https://budget.gov.spb.ru/
[7] https://openbudget.ro/buget/2023/
[8] https://www.usaspending.gov/explorer/budget_function
#opendata #visualization #budget #yerevan #dataviz
Свежий OECD OURdata Index [1] рейтинг открытости данных по странам ОЭСР и кандидатам в члены ОЭСР. На первых местах Корея, Франция, Польша, Эстония, Испания, Ирландия, Словения, Дания, Швеция и Литва.
Выводов там немало, из важнейших то что:
- несмотря на COVID-19 всё ещё мало данных об общественном здоровье
- гораздо больше усилий государств по открытости данных/доступности данных, но не по повторному использованию
- только 48% особо ценных наборов данных доступно
- мало особо ценных данных о госфинансах и подотчетностью органов власти
Лично меня удивили низкие оценки Австралии, всегда был уверен что там неплохо всё развивается, но нет, не всё так хорошо. Также важно что оценивалась именно госполитика открытости данных, а не открытые научные данные, к примеру.
Ссылки:
[1] https://www.oecd-ilibrary.org/governance/2023-oecd-open-useful-and-re-usable-data-ourdata-index_a37f51c3-en
#opendata #oecd #ratings
Наконец-то можно анонсировать, мы запускаем конкурс по открытым данным Армении в двух номинациях:
- Приложения для культуры
- Визуализация данных
Общий призовой фонд $3000, а заявки можно подавать до 18 февраля 2024 г., с подведением итогов 2 марта 2024 г. на Open Data Day в Ереване.
Для участия главное чтобы Ваш проект был на открытых данных и посвящён Армении, при этом конкурс не только для граждан, но и для тех кто относит себя к диаспорам по всему миру (Россия, Франция, США и другие страны), а также для тех кто просто относится к Армении с любовью и хочет чтобы стране было лучше.
Открытых данных много, можно многие найти на нашем портале data.opendata.am и мы будем регулярно писать про новые данные и где их найти в телеграм канале проекта @opendataam, подписывайтесь если ещё не подписались;)
#opendata #armenia #data #contest
Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.
Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет
Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.
Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва
Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru
#webarchives #digitalpreservation #russia #government
В рубрике интересных наборов данных Scans.io Stanford Internet Research Data Repository [1] коллекция больших наборов данных по инфраструктуре Интернета полученные путём сканирования всех доступных подсетей. Наборы данных там существуют, как созданные в Стенфордском университете, так и коммерческих компаний таких как Rapid7 и Censys.
Часть общедоступны, можно скачать сразу. Для доступа к данным от Rapid7 теперь уже какое-то время требуется написать им обоснование и рассказ о том для какого исследования Вам это нужно [2], а Censys уже давно большой коммерческий проект и к небольшой части своих данных они дают доступ через облако Google [3].
Применение у этих данных может быть не только в задачах инфобеза/кибербеза, но и в целях разного рода инструмента исследования инфрастурктуры. Или, например, data discovery. Многие из порталов данных мне удавалось найти через анализ базу DNS записей.
Ссылки:
[1] https://scans.io
[2] https://opendata.rapid7.com
[3] https://support.censys.io/hc/en-us/articles/360038761891-Research-Access-to-Censys-Data
#opendata #datasets #networksecurity #researchdata
Симпатичный свежий инструмент с открытым кодом по визуализации данных Trelliscope [1]. Написан на R, распространяется под лицензией MIT, команда, также, ведёт разработку пакета на Python [2].
Даёт возможность создавать недорогие интерактивные дашборды в короткие сроки, поверх стандартных датафреймов. Причём в примерах есть создание дашборда поверх больших наборов данных вроде поездок такси Нью Йорка (64GB, 1.6 миллиарда строк) [3].
Для очень многих задач когда данные большие или когда надо сделать визуализацию частью продукта, а лишних ресурсов нет, может оказаться очень полезным подспорьем.
И, кстати, будь такая штука удобным образом внедрена в один из сервисов/продуктов тетрадок вроде Jupyter Notebook, то совсем цены бы ей не было.
Ссылки:
[1] https://trelliscope.org/
[2] https://github.com/trelliscope/
[3] https://trelliscope.org/trelliscope/articles/bigdata.html
#opensource #dataviz #data #datatools
Что такое наборы данных ? (2/2)
А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.
Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.
Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.
А ответ на вопрос что такое набор данных всё ещё не так однозначен.
Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22
#data #datasearch #datafragmentation #thoughts
В Узбекистане группа организаторов проводят хакатон по открытым данным Open Data Challenge [1] 27-29 января этого года, по направлениям:
- Государственный сектор
- Социальный сектор
- Бизнес
- Противодействия коррупции
То что проводятся мероприятия по открытым данным - это очень хорошо, больше таких нужно по всему миру. Тем временем я не могу не напомнить свою публикацию от 13 февраля 2023 года о проблемах с порталом открытых данных Узбекистана [2]. Если коротко, то "казаться" и "быть" - это разная жизнь. Портал выглядит так словно там тысячи наборов данных, а в реальности, на начало 2023 года, там было опубликовано всего 40 мегабайт и почти 3000 наборов данных были всего лишь записями в одну строку.
Это называется "фрагментация данных", искусственное создание большого числа наборов данных для симуляции масштаба. Российский Росстат тоже этим "развлекался" много лет. Иногда, нечасто, оно может быть обосновано лучшей находимостью данных когда надо искать, например, мировую статистику по странам и показатели могут разделять по территориям. Единственный известный мне пример - это портал данных банка международных расчётов, но они оперируют другими понятиями, не набором данных, а показателем, не претендуя что каждый показатель - это отдельный датасет.
Поэтому, конечно, я считаю что организаторам стоило бы добавить категорию по созданию наборов данных, сочетающих, объём и качество и указать источники для поиска данных участникам, потому что сейчас из сайта это непонятно.
На всякий случай, источники открытых данных в Узбекистане собраны в Common Data Index [3], там 5 геопорталов, один портал открытых данных и один портал индикаторов. Кроме того бесконечное число данных по Узбекистану рассеяно по сайтам органов власти страны и, конечно, много данных о странах находятся не в самих странах, а на сайтах порталов открытых данных международных проектов и институтов.
Ссылки:
[1] https://datahack.uz
[2] https://begtin.substack.com/p/31
[3] https://registry.commondata.io/country/UZ
#opendata #uzbekistan #vents
Исчез из открытого доступа портал открытых данных города Омска [1] последнее известное время его доступности это июнь 2022 года, на эту дату есть запись в Интернет архиве. Всего на сайте было 50 наборов данных, в основном по инфраструктуре города.
Архивная копия сайта нами была создана 15 апреля 2022 года в рамках проекта @ruarxive. В общей сложности 269 MB в формате WARC File.
Я только сейчас обнаружил что эти архивы мы всё ещё не выложили онлайн, так что сделаем это в этом году. Пока они все доступны по запросу, пишите если понадобятся.
Ссылки:
[1] http://opendata.admomsk.ru
[2] https://web.archive.org/web/20220622220148/http://opendata.admomsk.ru/
#opendata #closeddata #russia #omsk #digitalpreservation #webarchives
Из открытого доступа исчез портал открытых данных города Казани data.kzn.ru [1], последний раз он индексировался Интернет архивом в феврале 2023 года [2], при этом он всё ещё упоминается на сайте мэрии города в разделе "Проекты" [3]. На портале было опубликовано несколько сотен наборов данных, а также было доступно несколько API.
Событие неприятное, очередной шаг к снижению открытости, на сей раз в одном из крупнейших городов РФ.
Если Вы контактируете с мэрией Казани или видели анонс, спросите у них о причине закрытия. По хорошему, они должны были официально вывести информационную систему из эксплуатации.
Ссылки:
[1] https://data.kzn.ru
[2] https://web.archive.org/web/20230201014645mp_/http://data.kzn.ru/
[3] https://kzn.ru/meriya/ispolnitelnyy-komitet/uits/proekty/
#opendata #data #closeddata #tatarstan #kazan #russia
Неожиданная и прекрасная карта Средиземья в 2D и 3D [1] причём автор не поленился и закодировал слои для ArcGIS Server и всё на карте отображается через FeatureServer и MapServer на серверах ArcGIS. При желании данные можно скачать посмотрев на код или просто попросив у автора. Если бы туда добавить стилизации, шрифтов, таймлайн, текстов, больше мест на карте и тд., то можно было бы превратить в произведение искусства.
Ссылки:
[1] https://www.micahvanderlugt.com/middle-earth
#dataviz #geodata #maps #middleearth #tolkien
Для тех кто ищет идей для вдохновения для визуализации данных, по Армении доступен огромный набор данных
Armenia: High Resolution Population Density Maps + Demographic Estimates [1] созданный компанией Meta в рамках инициативы Data for Good в апреле 2023 года.
Набор данных включает:
- общую число жителей
- распределение населения по возрастным когортам: женщины, мужчины, дети, старики
Все данные доступны в форматах CSV, JSON и GeoTIFF и позиционируются компанией как наиболее точные данные по населению в мире, с детализацией до 30 метров. Подробнее о методологии
можно прочитать на сайте инициативы [2].
На Population Density Explorer [3], доступна интерактивная визуализация этих данных.
Ссылки:
[1] https://data.humdata.org/dataset/armenia-high-resolution-population-density-maps-demographic-estimates
[2] https://dataforgood.facebook.com/dfg/tools/high-resolution-population-density-maps
[3] https://populationexplorer.org/
#opendata #datasets #armenia #population #dataviz
В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.
Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.
Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.
Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.
Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.
Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.
Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.
Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia
#privacy #opensource #eu #regulation
Знаете ли Вы что... крупнейший каталог общедоступных геоданных в России - это каталог ДВО РАН [1] с данными Национальное управление океанических и атмосферных исследований США по дальнему востоку. Там более 96 наборов данных, с оговоркой что сам сайт всё ещё в неком тестовом режиме и все ссылки на API с данными в нём не работают.
Тем не менее - это крупнейшая инсталляция Geonetwork в России, хотя и бесполезная.
Другие геопорталы на базе Geonetwork в России:
- Каталог ГГМ РАН [2]
- Геопортал ИВиС ДВО РАН [3]
- Геопортал ТИГ ДВО РАН [4]
А Geonetwork [5] это специальное ПО каталога геоданных используемое по всему миру, на нём работает огромное число порталов с геоданными, например, большая часть национальных порталов геоданных стран Европейского союза в рамках раскрытия данных по инициативе INSPIRE.
Иногда Geonetwork используется как бекэнд для других платформ. Например, внутри Geoplatform.gov [6], портала для публикации геоданных Правительства США, используется Geonetwork.
Ссылки:
[1] http://gis.satellite.dvo.ru/geonetwork/srv/eng/catalog.search#/home
[2] https://maps.geologyscience.ru/geonetwork
[3] http://geoportal.kscnet.ru/geonetwork
[4] http://gis.tigdvo.ru:9190/geonetwork
[5] https://geonetwork-opensource.org
[6] https://www.geoplatform.gov
#opendata #geodata #geonetwork #datacatalogs
С августа, вот уже 5-й месяц, не работает портал открытых данных Беларуси opendata.by [1]. Портал никогда не был государственным и поддерживался сообществом и ещё на 1 августа его копия была в Интернет архиве [2].
Данных там было не очень много, около 229 наборов, но теперь нет даже их.
Напомню что какой-либо государственной инициативы по открытости гос-ва, открытости данных в Беларуси нет и национальный портал открытых данных там так и не появился, зато теперь исчез и общественный.
Ссылки:
[1] https://opendata.by
[2] https://web.archive.org/web/20230801163122/https://opendata.by/
#opendata #belarus #closeddata
Armenia's first open data-based project contest starts on December 25, 2023.
We invite authors of projects based on a variety of data sources, including open government resources, data on the history, culture, and art of Armenia, data on the economy, and other spheres.
Nominations
1. Culture Apps. The nomination accepts technological projects (applications and services) dedicated to Armenian culture, history, and language. For whom: software developers, digital humanities specialists, analysts, and students of these fields.
2. Data visualization. The nomination accepts data visualization projects based on any data related to Armenia. Interactive visualizations with a formal design are preferred. For whom: designers, journalists, infographics specialists, digital humanities specialists, analysts, and students of these fields.
The prize pool of the contest is $3000.
February 18, 2024 is the last day of applications submissions.
The Awards Ceremony for the winners will take place on March 2, 2024, during the Open Data Day event in Armenia. This marks the first time the Open Data Day event will be organized in Armenia. The International Open Data Day is an initiative by the Open Knowledge International Foundation, with support from various intergovernmental and international organizations such as the United Nations and the World Bank. This event is celebrated worldwide.
We hope this contest will encourage the formation of a community of developers and researchers, thereby increasing the value of open data in Armenia.
More information about the contest: https://contest.opendata.am.
Partners: The National Center for Innovation and Entrepreneurship of The Ministry of Economy of the Republic of Armenia, the network of investors and entrepreneurs BANA Angels and the Open Knowledge Foundation.
Organizer: Public Organization “Open Data Development Center”.
В рубрике как это работает у них портал данных Банка международных расчётов (BIS) data.bis.org [1]. Как и у многих межгосударственных организаций портал данных является, по факту, порталом для публикации статистических индикаторов. В данном случае это экономические и финансовые индикаторы с той особенностью что они разделены по странам с детализацией до страны. Поэтому, к примеру, по Армении доступно 3455 индикаторов, а по России 9312 индикаторов. В общей сложности так получается несколько сотен тысяч индикаторов по странам и несколько тысяч/десятков тысяч глобальных таблиц. В общей сложности на портале около 1 миллиона временных рядов которые можно считать, также, наборами данных
У портала есть открытое API [2], внутри и снаружи всё на основе формата SDMX, с экспортом в CSV, Excel, XML (SDMX).
Этот портал - это хороший пример публикации и визуализации статистики, с огромными объёмами временных рядов, пояснениями, экспортом, цитированием, визуализацией и удобным поиском по всем собранным данным. Глядя на многие порталы статистики многих стран, часто, хочется подобного.
А для тех кто ищет международные данные с временными рядами напомню про такие порталы как:
- портал данных Всемирного банка data.worldbank.org
- портал данных ООН data.un.org
- портал данных ОЭСР data.oecd.org
а также существуют десятки других.
Ссылки:
[1] https://data.bis.org
[2] https://stats.bis.org/api-doc/v1/
#opendata #datasets #timeseries #datacatalogs #data
Сооснователь «Викимедиа РУ» Станислав Козловский объявил о закрытии организации.
Это произошло после того, как МГУ, где он работал доцентом факультета психологии, предложило ему написать заявление на увольнение. «Меня вызвали и сказали, что в ректорат пришла информация, что меня признают в эту пятницу иноагентом. Предложили уволиться, написать заявление по собственному желанию. Я его подписал», — сообщил РБК Козловский.
После этого прошло общее собрание «Викимедиа РУ», где было решено, что «в таких условиях работать невозможно», поэтому организацию закроют.
«Викимедиа РУ» содействует развитию «Википедии» на территории России, при этом это юридически самостоятельная организация, которая не имеет контроля над сайтами Фонда Викимедиа.