Кстати, помните я расхваливал китайский портал/агрегатор научных данных SciDb [1].
Так вот его можно не только хвалить. После некоторого исследования его содержания он на 100% соответствует подходу "главное не быть, а казаться". Из заявленных 10 миллионов наборов данных лишь 18 тысяч имеют присоединённые файлы и загружены через сам портал, ещё 754 тысячи собраны из нескольких больших открытых порталов научных данных таких как Zenodo и PANGAEA, а всё остальное - это просто слепок поискового индекса по данным DataCite, сильно замусоренного и, объективно, без значимых метаданных, да и не факт что ссылки на сами данные.
С одной стороны, как обидно, так мало данных. С другой стороны, очередное подтверждение приоритетов индексирования и то что из SciDB можно собирать только те данные что туда были загружены. Другой вопрос что отфильтровать их непросто.
В любом случае удивительно то что вместо индексации тех же геномных данных китайцы пошли по этому пути.
Ссылки:
[1] https://www.scidb.cn
#opendata #china #datasets #datacatalogs
Один из крупнейших проектов с большими научными данными - это Китайский национальный центр биоинформации через сайт которого доступно более 53 Петабайт геномных данных [1]. Причём в августе 2021 года их было всего 5 Петабайт и сейчас можно наблюдать 10-кратный рост за 3 года. Такими темпами к концу 2025 года будут все 100 Пб.
Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.
Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].
Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875
#opendata #china #data #genomics #bigdata
Почему я в последнее время много думаю и пишу про геоданные?
Есть 4 основных типов общедоступных данных данных которые собираются в Dateno:
- открытые данные (opendata). С ними всё довольно понятно, их много, не не бесконечно много. Большая часть порталов известны, далее просто длительная методическая работа по их систематизации и сбору датасетов
- научные данные. Тут не всё так понятно, и этих данных по объёму более всего в мире, но в каждой науке свои виды каталогов данных, стандарты и тд. За пределами отдельных научных дисциплин у этих данных не так много пользы
- статистика и индикаторы. Нужны всем, чаще стандартизированы, поддаются систематизированному сбору и "расщепляются" на множество поддатасетов в привязке к конкретным странам и территориям. Много усилий требуется по агрегации национальных каталогов статистики.
- геоданные. Их много, чаще стандартизированы, но поиск и каталогизация явно недостаточны. Предыдущие попытки чаше безуспешны.
Остальные типы данных - это данные для машинного обучения, данные из коммерческих маркетплейсов или датасеты из порталов микроданных (социология), все они сильно меньше количественно.
Существенный количественный рост данных в Dateno будет от трёх категорий: научные данные, данные индикаторов и геоданные.
При этом научные данные можно _очень быстро_ загрузить из 3-4 крупных источников и это добавит +20 млн датасетов и создаст огромные пузыри данных по нескольким языкам, категориям и темам.
Данные индикаторов стремительно превратят Dateno в портал по макроэкономике/макростатистике. Их также можно загрузить +5 млн датасетов в короткое время.
А в агрегированных геоданных сейчас есть объективный "пузырь", огромное число датасетов по Германии отчего в любом поисковике по данным доля геоданных их Германии достигает 40-60% от общего числа. Если не больше.
Конечно, в какой-то момент, можно перестать думать про этот баланс и залить в Dateno несколько десятков миллионов датасетов и уже потом заниматься вопросами качества индекса. Так, например, сделали в агрегаторах научных данных типа SciDb и OpenAIRE. Там очень много мусора который создаёт количество датасетов, но который и почти не найдёшь потому что эти мусорные данные даже не подпадают под фасеты. В общем-то там ставка однозначно сделана на количество датасетов, а в этом смысле нет проблемы достигнуть того же.
#opendata #data #dateno #thoughts #geodata
В рубрике как это устроено у них раскрытие данных в штате Нью Джерси, США. Раскрытие данных в штате осуществляется в рамках
NJ Geographic Information Network [1] проекте основанном NJOGIS (New Jersey Office of GIS).
В рамках этого проекта публикуются геоданные штата, начиная с информации о дорогах, кадастровых участках и иных данных большая часть которых доступна через портал в облаке ArcGIS [3], а также на сайте проекта публикуются изображения аэрофотосъёмки c 1920 по 2020 годы [4] доступные, как в виде сервисов по стандарту WMS, так и данных для массовой выгрузки.
Что может показаться необычным, но, на самом деле, уже становится стандартным способом раскрытия многих данных, так это то что все крупные датасеты предоставляются не только для выгрузки по прямым ссылкам, но и изнутри инфраструктуры Amazon AWS с помощью их утилиты для командной строки.
Общий объём данных измеряется десятка терабайт, начиная от простых CSV таблиц, до большого числа GeoTIFF файлов оптимизированных для облаков.
Ссылки:
[1] https://njgin.nj.gov
[2] https://njgin.nj.gov/njgin/about/ogis/
[3] https://njogis-newjersey.opendata.arcgis.com/
[4] https://njgin.nj.gov/njgin/edata/imagery/index.html
#opendata #usa #datasets #geodata #datacatalogs
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.
Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.
Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.
В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.
А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных
Ссылки:
[1] https://www.govdata.de
#opendata #germany #europe #datasets #data
К вопросу о poor man data engineering, как обрабатывать данные в условиях ограниченных ресурсов с минимальными нагрузками на диск и на оперативную память, в первую очередь.
В работе в Dateno есть задача по добавлению стат. индикаторов в основной индекс и расширение фасетов на данными о частоте обновления индикаторов и временном промежутке который он охватывает (год начала и год окончания). Не у всех датасетов такие метаданные есть и есть особенность датасетов Европейского центрального банка (ECB) в том что для массовой выгрузки доступны сами данные, но не метаданные. Хотя обычно наоборот. А в данном случае можно скачать все значения, а метаданные из них надо извлечь.
Эти значения публикуются в виде коллекции из 108 CSV файлов общим объёмом в 93GB. Это не то чтобы много, но много для статистики и для обработки на десктопе. Первая мысль которая возникает, а не уменьшить ли эти данные в объёме. Можно их сжать, но ещё эффективнее преобразовать в parquet. После преобразования они занимают 664 MB. Это 0,7% от изначального объёма, итого сжатие в 140 раз! Такая эффективность редкость, обычно сжатие в 5-15 раз, но здесь накладывается эффект колоночного сжатия поскольку данные ECB денормализованные, эффективность хранения там уступает полноте публикации и простоте раскрытия.
Далее обработка. Чтобы получить метаданные каждого индикатора надо:
1. Получить список уникальных идентификаторов индикаторов
2. Для каждого ключа сделать запрос одной записи для извлечения метаданных
3. Получить минимальное и максимальное значения временного периода
4. Извлечь год из минимального и максимального значения если период не равен году.
Итого 3 запроса, которые, наверняка, можно было бы оптимизировать до 2-х и которые можно делать напрямую к файлам parquet. Однако ситуация осложняется тем что эти файлы parquet хотя и хорошо сжаты, но могут содержать до 570+ тысяч индикаторов, как это, например, происходит с датасетом Securities Issues Statistics, который в оригинале составляет 19GB CSV файл и содержит 30 миллионов строк.
При работе с этим датасетом, даже после преобразования в parquet, DuckDB "съедает" до 15GB RAM и работает, хотя и быстро, но не так быстро как хотелось бы.
Варианты решения:
1. Попробовать преобразовать данные в базу DuckDB, построить индексы и так обрабатывать. Минус: резко увеличивается объём хранения данных, не увеличивается скорость обработки.
2. Попробовать нормализовать данные и извлекать метаданные из нормализованных баз. Минус: время на преобразование многократно больше времени сбора метаданных из существующих parquet файлов, а также у разных датасетов разная схема данных и требуется потратить больше времени на их анализ.
Варианты с тем чтобы загрузить в какую-то другую СУБД или даже не рассматривались поскольку задача именно в обработке на среднемощном десктопе/ноутбуке и без резкого роста объёмов хранения.
Итоговое решение оказалось очень простым. Специфика запросов в том что они полностью локализованы внутри данных конкретного индикатора.
Но, так повезло, что в этих датасетах индикаторы разделены по группам являющихся странами или территориями, от 8 до 33 в одном датасете и разделять можно по ним. Данные отдельных индикаторов полностью попадают в один из разделённых файлов. И, одна из фишек DuckDB - это очень дешёвое разделение данных с точки зрения скорости и нагрузки на память. До обработки большого датасета через серию COPY TO операций из него создаются десятки меньших .parquet файлов каждый из которых обрабатывается по отдельности.
Итого:
- средняя скорость однопоточной обработки достигает 78 индикаторов в секунду
- потребление RAM не превышает 100MB, а в среднем держится менее 50MB
- потребление диска +664MB, теперь не в 140 раз меньше чем оригинальные CSV файлы, а только в 70 раз, но всё ещё очень и очень мало.
Понятно что перенеся всё это на серверную инфраструктуру, в несколько потоков и тд. можно многократно ускорить обработку данных, но и так с помощью DuckDB конвейеры данных можно запускать на очень дешёвом железе и получать приемлемый результат.
#data #thoughts #tech #duckdb #dataengineering
В рубрике как это устроено у них, подборка общедоступных каталогов данных Республики Беларусь:
Статистика
- http://dataportal.belstat.gov.by Портал статистических данных Белстата. Экспорт данных в XML, SDMX, XLS. Есть недокументированное API
Геоданные
- https://meta.geo.by/geoserver сервер геоданных на базе GeoServer. По умолчанию требует авторизации, но прямые ссылки на OGC API доступны
- https://gisoopt.by/arcgis/rest/services - ArcGIS сервер национального парка Нарочанский
- https://oopt.gis.by/arcgis/rest/services/ - ArcGIS сервер Национальной академии геоинформационных систем
- https://gis.maps.by/arcgis/rest/services/ - ArcGIS сервер Госкартгеоцентра
- https://vitebsk.gismap.by/arcgis/rest/services - ArcGIS сервер с геоданными Витебска
Государственного портала открытых данных в РБ никогда не существовало.
Общественный портал opendata.by закрылся несколько лет назад.
#opendata #datacatalogs #belarus #data
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.
Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]
Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.
Разницу между GeoSeer и Dateno можно описать так:
1. ✅В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. ✅В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. ✅В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. ✅Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. ❌Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. ❌Пока в Dateno нет расширенного вывода метаданных для георесурсов
В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.
Ссылки:
[1] https://www.geoseer.net
[2] /channel/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats
#opendata #datasearch #datasets #geodata #spatial
Кому принадлежат языки? Я имею в виду не языки программирования, а я разговорные языки. Вопрос этот одновременно философский, не без политики, и очень практичный.
Практичный потому что во многих задачах связанных с аттрибутированием объектов, будь то документы, данные, тексты, изображения и тд. можно идентифицировать язык его содержания, то далеко не всегда содержатся сведения о его географической привязке/происхождении. К примеру, если содержание на испанском языке, то как понять связан ли объект/происходит ли из Испании, а может он из Мексики, или из Чили?
Аналогично, если содержание на арабском языке, то то есть десяток стран откуда оно может происходить. И так довольно много разных языков, в первую очередь межгосударственных языков, официальных языков ООН, языков распространившихся в результате культурной/колониальной экспансии с 14 по 20 века и тд.
Какие-то языки, такие как английский, французский, испанский, португальский, уже давно имеют меньше носителей речи в странах своего происхождения чем в странах культурной и языковой экспансии.
Одновременно с этим есть узко национальные языки, применение которых почти всегда означает что объект связан с конкретной культурной средой находящейся в конкретной стране. К примеру, японский, малайский, индонезийский, фарси, польский, финский и другие языки имеют почти 100% атрибуцию с конкретной географической территорией.
Всё так, языки можно частично разметить и использовать матрицу сопоставления языка и страны. Но так работает не всегда. Один объект может несколько языковых и территориальных характеристик. К примеру, румынский исследователь на румынском языке пишет о геологических разломах в Иране. Относить его статью к Румынии или к Ирану? Или польский турист публикует GPX трек путешествия по Греции, описывая его на польском языке. Относить ли его к Польше или к Греции? Эти случаи не самые сложные, их можно разбирать по приоритетности геопривязки. Имея несколько геоклассификацией определять несколько или одну приоритетными к контексте.
Самое сложное, пока что, из того что я встречал - это статьи в глобальных энциклопедиях вроде Википедии. Как их классифицировать? Как разметить все статьи в выбранной вики с точки зрения геопривязки? Как вообще превратить Википедию в базу именно геоданных? Понятно что часть статей имеющих координаты или указание территорий легко сопоставляются через Wikidata, но большую часть статей простым образом не разметишь.
Всё это практические, прикладные вопросы взгляда на языки. У меня перед глазами есть несколько задач анализа больших баз данных с содержанием на разных языках где такие вопросы очень актуальны.
А есть ещё те самые философские вопросы. Кому принадлежат языки, буквально? Примерно как некоторые развивающиеся страны пытающиеся отказаться от английского или французского языка, как языка колониального наследия. Потому что в их восприятии это не универсальные языки, а языки конкретных стран Великобритании и Франции.
Или почему, к примеру, у многих есть восприятие что у России монополия на русский язык? Санкционные действия многих создателей контента пошли по пути отказа от русского языка. Хотя кроме РФ у него широкая диаспора, это разговорный язык всей Центральной Азии и значительной части Кавказа.
Национальные регуляторы и цензоры также приоритетом видят для себя языки которые они считают "своими". Что добавляет давления на глобальные проекты знаний с их стороны.
Не должны ли все языки быть достоянием человечества и наступит ли тот момент когда ни одно национальное правительство не будет "владеть" языками тех кто живёт на территории их стран?
#languages #thoughts
Мы ищем аналитика в Сбериндекс для развития портала открытых данных
Сбериндекс - это исследовательская лаборатория Сбера, которая работает над экономической статистикой на основе транзакционных данных банка. Осенью этого года мы начинаем модернизацию сайта открытых данных www.sberindex.ru, которая ориентирована на рост детальности наборов данных и удобство для пользователей. Мы ищем аналитика, которому было бы интересно внедрять передовые практики поставки статистических данных и развивать функциональность портала открытых данных.
Обязанности и функции:
◽️ Проводить анализ передовых практик порталов и стандартов открытых статистических данных , быть заказчиком и консультантом в проектировании и разработке портала открытых данных
◽️ Быть менеджером продукта - администрирование, мониторинг размещения данных, интеграций, инициация изменений, стратегия развития портала и т.д.
◽️ Координировать и организовывать сотрудничество с разработчиками, пользователями, поставщиками данных, исследователями
◽️ Участвовать в разработке дэшбордов, визуализаций данных, лендингов для исследований совместно с аналитиками данных
◽️ Разрабатывать техническую документацию, руководства для пользователей, стандарты лучших практик, схемы рабочих процессов для публикации данных
◽️ Помогать пользователям и владельцам данных, проводить обучение, информировать о работе портала
Требования:
◽️ высшее образование (техническая специальность)
◽️ прикладные навыки использования основных библиотек Python
◽️ знание основ управления данными, баз данных, визуализации данных, опыт работы с API
◽️ знание различных форматов данных (parquet, JSON-Stat, CSV и т.п.) и метаданных
◽️ интерес к стандартам и практикам публикации открытых данных, готовность погружаться в изучение и внедрение лучших практик
◽️ плюсом будут навыки разработки технических требований, знакомство с процессами разработки порталов данных, умение определять потребности пользователей дата-продуктов
Резюме и мотивационное письмо можно направлять на dtsyplakova@gmail.com
Кстати, я совсем упустил, а ещё месяц назад с организаторы конференции Smart Data выложили видео моего прошлогоднего доклада Common Data Index. Строим аналог Google Dataset Search, но проще и быстрее [1] про пред-проект Dateno. По сути Common Data Index был идеей собрать все каталоги данных, а Dateno сейчас это уже полноценный поисковый индекс.
Ссылки:
[1] https://www.youtube.com/watch?v=IWLNlHTo9M0
#opendata #data #datasets #datacatalogs
В рубрике как это устроено у них раскрытие государственных данных в Таиланде, в основном осуществляется на Национальном портале открытых данных [1] где уже опубликовано более 15 тысяч наборов данных.
Одна из особенностей Таиланда в том что раскрытие данных полу-централизовано, у регионов и органов власти существуют свои порталы, но все они являются поддоменами Национального портала, например ranong.gdcatalog.go.th [2], и buengkan.gdcatalog.go.th [3] и созданы на базе движка CKAN. Из всех этих порталов данные автоматически и стандартизировано агрегируются на центральный портал.
Кроме того геоданные с портала отображаются на геопортале страны [4] работающем на базе TerriaJS
Всего в Таиланде порядка 134 порталов открытых данных и каталогов геоданных [5].
У ODI недавно был отчет на тему Таиланда [6] к слову, хорошо оформленный, но довольно слабый поскольку про сам Таиланд там очень мало, а кейсы все по другим странам: Великобритания, Франция, Словакия и тд. В общем-то, возникает вопрос, причём тут Таиланд?
А в целом в Таиланде, как и в большинстве стран Юго-Восточной Азии в последние годы бум раскрытия данных и модернизации раскрытия официальной статистики.
Ссылки:
[1] https://gdcatalog.go.th
[2] https://buengkan.gdcatalog.go.th
[3] https://ranong.gdcatalog.go.th
[4] https://geo.gdcatalog.go.th
[5] https://dateno.io/registry/country/TH
[6] https://theodi.org/insights/reports/empowering-thailands-digital-government-with-open-data/
#opendata #thailand #data #datacatalogs #geodata
[RU] Мы работаем над созданием общественного геопортала Армении где можно было бы наглядно смотреть на открытые геоданные, скачивать их, сравнивать, делать визуализации. И для этого мы собираем общедоступные геоданные.
Некоторые источники геоданных уже известны, это:
- проект Sustainable Caucasus [1]
- портал Центра экологических исследований РАН Армении [2]
- портал о земле ArmSIS [3] (более недоступен)
- портал ООН, Humanitarian Data Exchange [4]
С одной стороны геоданных много, и многие уже собраны на data.opendata.am, а с другой точки зрения всегда мало.
Если Вы знаете интересные источники геоданных по Армении/об Армении/Армянских культуре и истории в мире, просим поделиться ими, можно письмом на opendata@opendata.am или в чате в телеграм @opendataamchat.
Данные могут быть в форматах KML, SHP, GeoJSON, GML, API Esri ArcGIS, WFS, WMS, GPX и многие другие.
[EN] We are working on the creation of a public geoportal of Armenia where it would be possible to visually look at open geodata, download them, compare them, make visualizations. And for this purpose we are collecting publicly available geodata.
Some sources of geodata are already known, they are:
- Sustainable Caucasus project [1]
- the portal of the Environmental Research Center of the Armenian Academy of Sciences [2]
- ArmSIS land portal [3] (no longer available)
- UN portal, Humanitarian Data Exchange [4].
On the one hand there is a lot of geodata, and many are already collected on data.opendata.am, but on the other hand there is always not enough.
If you know interesting sources of geodata on Armenia/about Armenia/Armenian culture and history in the world, please share them, you can send an email to opendata@opendata.am or chat in telegram @opendataamchat.
Data can be in KML, SHP, GeoJSON, GML, Esri ArcGIS API, WFS, WMS, GPX and many other formats.
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] http://og.cens.am:8081/
[3] http://armsis.cas.am/
[4] https://data.humdata.org/group/arm
#opendata #geodata #geoportal #armenia #request
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.
Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.
Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.
Ссылки:
[1] https://usafacts.org/just-the-facts/budget/
#budget #government #usa #dataviz #infographics
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.
Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.
Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.
В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.
Чувствуете разницу?
В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.
Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".
#privacy #russia #regulation
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].
Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.
И всё это в Markdown, расширяемо, и тд.
А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].
Куда ни посмотри, отличный инструмент.
Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals
#opensource #datajournalism #analytics #datadocs #tools
В рубрике закрытых данных в РФ у геопортала Архангельской области на базе ArcGIS закончилась лицензия [1] и слои данных и сервисы с этого сервера более недоступны. Хотя они всё ещё перечислены в их каталоге геоданных [2]. Похоже что геопортал уже, или перевели, или переводят на российскую ГИС Orbis, у которой открытых слоёв с данными нет и в каталоге они не перечислены, но есть недокументированные API. Не совместимые с ArcGIS или с протоколами OGC.
А каталог геоданных в Архангельской области не обновляли уже 3 года.
Ссылки:
[1] http://maps1.dvinaland.ru/arcgis/rest/services/AdressnPlan/Kadastr/FeatureServer/0
[2] https://maps29.ru/catalog/#
[2] https://maps29.ru
#opendata #closeddata #datasets #russia #geodata
В продолжение размышлений о поиске геоданных и связанных с этим сложностей. Я ранее писал про GeoSeer, единственный известный мне поисковик геоданных в мире, но и он сравнительно небольшой. А вот в качестве альтернатив ему выступают уже не поисковики, а каталоги георесурсов. В первую очередь поисковики в экосистеме ArcGIS по их каталогам открытых данных и георесурсов и некоторое, небольшое число альтернатив.
Например, Spatineo Directory [1] от финских геоконсалтеров Spatineo. Там более 87 тысяч георесурсов, в виде точек API по стандартам WFS, WMS, WMTS, но без сбора информации о слоях, поэтому это не поисковик, а именно каталог. Его существенный минус в то что более менее там систематизированы только точки API из развитых стран.
Другой, неожиданно, государственный проект это FGDS Status Checker [2] гигантский каталог геовебсервисов созданный как сервис проверки их доступности. Список вебсервисов там огромный, но почти полностью ориентированный на США и почти не охватывающий морские территории. Есть подозрение что Spatineo делали свой каталог с оглядкой именно на этот продукт, поскольку функции схожи.
Но ещё больше каталогов которые прекратили своё существование. К примеру WFS Geodata Catalog от германского GeoClub. Сейчас можно найти только скриншот.
Ещё был Pyxis crawler с каталогом из 29+ тысяч датасетов, вот он ближе к GeoSeer, но индексировал всего 1572 источника и его тоже больше нет. Тоже остался тоже скриншот.
И был ещё такой поисковик Geometa, но теперь даже его скриншот найти оказалось непросто.
Фактических попыток систематизировать и сделать доступными геоданные и геосервисы было много. Можно сказать что у Dateno тоже есть подзадача в части геоданных.
В каталоге Dateno сейчас 4.4 миллиона наборов геоданных извлеченных из 3127 геопорталов. При этом в реестре Dateno всего 5955 геопорталов и после индексации оставшихся объём геоданных существенно вырастет, кроме того много геоданных в других типах дата каталогов: порталах открытых данных, научных репозиториях и тд., это тоже добавит число геоданных.
Но пока приходится держать в голове что в части геоданных относительно сравнимой референсной базой является GeoSeer.
Ссылки:
[1] https://directory.spatineo.com
[2] https://statuschecker.fgdc.gov
#opendata #geodata #datasets #datacatalogs #dateno
Свежая научная статья Why TPC Is Not Enough: An Analysis of the Amazon Redshift Fleet [1] изнутри Amazon AWS с анализом около 32 миллионов таблиц и около 500 миллионов запросов за 3-х месячный период, а также открытый датасет который лежит в основе этой статьи и её выводов.
Для дата инженерии там немало инсайтов:
1. До сих пор использование parquet это редкость, большая часть клиентов AWS используют сжатые GZip'ом CSV и JSON файлы.
2. Самый популярный тип данных varchar, более 52%. Это ещё раз подтверждает что на AWS явно основное применение не для математических расчётов, анализа геномных данных и тд.
3. Реально больших данных мало, больше 99.8% запросов работают менее чем с 10TB.
По поводу последнего в блоге MotherDuck, пост со ссылкой на эту статью [3] как раз про то что "больших данных не существует" и то что статья про данные AWS это подтверждает. Реальная потребность в обработке очень больших данных невелика.
Ссылки:
[1] https://assets.amazon.science/24/3b/04b31ef64c83acf98fe3fdca9107/why-tpc-is-not-enough-an-analysis-of-the-amazon-redshift-fleet.pdf
[2] https://github.com/amazon-science/redset?tab=readme-ov-file
[3] https://motherduck.com/blog/redshift-files-hunt-for-big-data/
#datasets #data #datatools #dataresearch
В рубрике как это устроено у них специализированные OpenDAP Hyrax порталы для публикации океанографических и климатических данных. Развивается одноимённой НКО [1], изначально создано в научных центрах NOAA и поддерживается 3-мя агентствами в США: NOAA, NSF и NASA, а также Австралийским метеорологическим бюро.
Поддерживает множество стандартов публикации данных таких как HDF4, HDF5, NetCDF3, NetCDF4, FITS, NcML, THREDDS и другие.
Применяется, как минимум, в паре десятков проектов связанных с данными об океанах и климате по всему миру. Например:
- http://servdap.legi.grenoble-inp.fr/opendap/hyrax/
- https://ladsweb.modaps.eosdis.nasa.gov/opendap/hyrax/
- https://ppdb.us.edu.pl/opendap/
Как правило, раскрываемые в этих серверах данные большого объёма, по несколько терабайт на каждой инсталляции и содержат преимущественно численные значения.
Другие продукты в этой области это ERDDAP [2] и THREDDS Data Server (TDS) [3], также имеют только это узкое применение.
В принципе особенность развития работы с данными в климатологии и наук о Земле в наличие большого числа каталогов данных, открытых данных, но по собственным стандартам, в специализированном ПО, не пересекающимися, ни с наиболее популярными инструментами в data science, ни с открытыми данными.
Ссылки:
[1] https://www.opendap.org
[2] https://www.ncei.noaa.gov/erddap/index.html
[3] https://www.unidata.ucar.edu/software/tds/
#opendata #climate #meteorology #datacatalogs #thredds #opendap
Полезные ссылки про данные, технологии и не только:
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.
Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump
#opensource #data #datatools #geodata #geoportals #tools #datasets
В рубрике как это устроено у них открытые и общедоступные данные тихоокеанских островных государств.
Большая часть тихоокеанских государств входят в сообщество Pacific Community которое ведёт несколько проектов по сбору данных. Один из них - это геопорталы на базе ПО PopGIS которые были созданы для 14 стран [1] и которые совмещают раскрытие статистики и геопорталы [2].
Другой пример, это Pacific Environment Data Portal [3] созданный в Secretariat of the Pacific Regional Environment Programme (SPREP) и содержащий 19 тысяч наборов данных об окружающей среде и включающий подпорталы по каждой стране [4].
А также, конечно стоит упомянуть Pacific Data Hub [5] портал открытых данных всё того же Pacific Community и PHD.Explorer [6] одно окно доступа к статистики всех государств Тихого океана входящих в Pacific Community.
Это не весь список, есть и инициативы в отдельных странах и есть другие порталы в Pacific Community, но при поиске данных по этим странам стоит начинать именно с этих порталов.
Ссылки:
[1] https://sdd.spc.int/mapping-popgis
[2] https://fiji.popgis.spc.int
[3] https://pacific-data.sprep.org
[4] https://tonga-data.sprep.org
[5] https://pacificdata.org
#opendata #oceania #polynesia #data #datasets #datacatalogs
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
К вопросу о состоянии открытости данных в РФ, я не очень верю что в ближайшие месяцы (годы?) случится чудо и оживёт государственный портал data.gov.ru. Пока не проглядывается сценарий при котором внутри гос-ва тренд на систематическую открытость вернулся. Больше шансов что мы в Dateno соберём больше данных чем когда-то было в data.gov.ru. Там уже сейчас проиндексировано много разного и можно больше.
Но есть посмотреть профиль РФ в Dateno, то там проиндексировано только около 15 каталогов данных из 154. Почему так? Можно ли лучше?
Конечно можно, и ограничения тут очень понятные:
1. Большая часть российских госресурсов сейчас не индексируются с зарубежных датацентров. Это преодолевается развертыванием прокси в РФ и индексация через прокси. И РФ не единственная страна где есть такие ограничения.
2. Значительная часть открытых данных в России публикуется по метод рекомендациям Минэка. Они очень плохо написаны, индексировать сайты публикующие данные по ним сложно, но возможно. Только этот парсер будет только под российские госпорталы, и то не все. И, по большей части, с устаревшими данными.
3. Очень много в РФ своих геопродуктов, самописных порталов данных и тд. Это также требует написания множества парсеров. Штук 40-50. Более менее стандартизированы только порталы NextGIS, Bitrix и Орбис, но их не так много.
4. Часть порталов с данными используют известное ПО типа Ipt, Pure, Figshare и до них пока ещё не дошли руки, но как только дойдут они добавятся в общий индекс.
В итоге, если специально не заморачиваться российской спецификой получится проиндексировать ещё 20-40 каталогов данных через прокси и за счёт парсеров для универсального софта, а в остальном надо приложить существенные усилия чтобы проиндексировать оставшиеся.
В этом смысле, собрать данные, например, по Финляндии гораздо проще. Там уже большая часть каталогов данных проиндексирована, да и не проиндексированные работают на типовом ПО которое тоже скоро будет индексироваться.
Вся эта национальная специфика очень сильно снижает видимость и находимость данных. И в Dateno ещё можно более-менее, но измерить эту доступность, а, к примеру, в Google Dataset Search невозможно даже посмотреть сколько датасетов и источников есть по странам.
#opendata #dateno #datasets #datacatalogs
Не будь я занят во многом другом, сам бы в таком поучаствовал, но для тех кто в РФ и хочет поделать хорошего в плане открытости это хорошая возможность.
Читать полностью…В качестве регулярных напоминаний о том где взять открытые данные:
Списки на Github
- awesome-public-dataset один из крупнейших списков общедоступных данных
- awesome-citygml - список доступных 3D моделей городов, много, по разным странам
- awesome-gis в основном открытый код для ГИС, но и раздел с геоданными
- awesome-opendata-rus довольно давно ещё собранный нами в Инфокультуре и пополняемый контрибьюторами список данных по РФ
- awesome-italian-public-dataset список открытых данных в Италии
- awesome-syntetic-data список инструментов по генерации синтетических данных
Каталоги каталогов данных
- Dateno Registry реестр каталогов данных который мы ведём в Dateno
- datacatalogs.org каталог порталов открытых данных от Open Knowledge Foundation
- datacatalogs.ru каталог порталов открытых данных в РФ и постсоветском пространстве от Инфокультуры
Поисковики по данным
- Dateno.io поисковик по более чем 15 миллионов наборов данных, со множеством фасетов и источников
- Google Dataset Search поисковик по датасетам от Google. На сегодняшний день крупнейший в мире
- BASE (Bielefeld Academic Search Engine) один из крупнейших поисковиков по научным данным
- OpenAIRE Explore европейский поисковик и агрегатор по научным данным ЕС и не только.
- Findata.cn китайский поисковик по научным данным Китая и данным связанным с Китаем от Китайской Академии Наук
- SciDb.cn китайский агрегатор научных данных, аналог OpenAIRE
- GeoSeer единственный известный мне поисковик по геоданным (кроме Dateno, конечно)
Крупные [над]национальные порталы открытых данных
- Data.europa.eu портал открытых данных Евросоюза
- Data.gov портал открытых данных США
- Data.gov.uk портал открытых данных Великобритании
Данные для ИИ и обучения нейросетей
- Kaggle крупнейший каталог данных для ИИ, поддерживается Google
- Hugging Face большое сообщество дата сайентистов и каталог данных
#opendata #datasets #data
В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.
Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)
Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.
Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/
#opendata #japan #geodata #datasets #bigdata
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools
В качестве регулярного напоминания, в России уже 16 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.
В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.
Ссылки:
[1] /channel/begtin/4714
#opendata #closeddata #russia
Про разного рода технически сложные задачи и их решения.
Я тут регулярно пишу про разные форматы файлов данных и могу сказать что, конечно, файловых форматов как и стандартов какое-то бесконечное количество. Когда-то я и сам делал и периодически обновляю инструменты вроде undatum [1] по работе с некоторыми из них. Так в undatum я недавно добавил работу с множеством алгоритмов сжатия обработкой файлов с минимизацией объёма их хранения и нагрузкой на оперативную память, с быстрым преобразованием из JSON lines / BSON в аналогичные форматы со сжатием xzip, zstd и др. В общем-то из-за банальных задач уменьшения объёма хранения JSON lines файлов, но с возможностью работы с ними.
Однако вот сейчас я смотрю на задачу преобразования данных в условно "диком состоянии", а то есть в большинстве популярных форматов, среди которых, конечно, лидируют CSV и Excel файлы и могу сказать что самые типовые задачи решает DuckDB, а чуть более сложные DuckDB + Polars + Pandas + предобработка некоторых форматов файлов на входе.
Причём именно в такой комбинации. Почему так?
DuckDb - даёт большую скорость в работе с табличными и большей частью иерархичных данных. Но DuckDb не умеет читать файлы Excel, ORC, ORC и тд. Их умеют читать Pandas и Polars. И частично их писать.
Из фундаментальных проблем DuckDB - непонимание кодировок кроме utf-8 для CSV файлов что решается их предобработкой. Вторая проблема в том что DuckDB не умеет определять структуру CSV файлов если заголовки не в начале файла. Это вообще не все инструменты умеют и это, в принципе, умеют немногие инструменты, особенно с открытым кодом.
CSV самый распространённый формат, плохо стандартизированный в "диком виде", слишком часто CSV файлы лежат в открытом доступе после экспорта из Excel.
Еще один недостаток DuckDB при работе с CSV файлами - это отсутствие поддержки алгоритмов сжатия за исключением GZip. Если исходить из эффективности хранения и стоимости хранения - это важный фактор. Например, несколько сотен тысяч CSV файлов в Dateno - это около 4TB данных. Хранить их в оригинальном виде неэффективно, сжатыми GZip лучше, а ещё лучше в чём то вроде zstd или даже сразу в Parquet со сжатием. Что логично поскольку эти данные статичны.
Но в итоге именно DuckDB + Polars + Pandas + предобработка + постобоработка данных + хранение первичных данных в Parquet оказывается наиболее универсальным решением в таких задачах.
Ссылки:
[1] https://github.com/datacoon/undatum
#thoughts #data #datatools #fileformats #dateno