I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
Privacy Day 2024 — большой разговор об ИИ и новых вызовах для нашей приватности
Вот уже шестой год подряд к отмечаемому в январе Международному дню защиты данных приурочена международная конференция Privacy Day, посвященная приватности, защите персональных данных и охране нашей с вами частной жизни.
Главная тема Privacy Day 2024 звучит как «AI и новые вызовы в приватности». Организаторами конференции выступят совместно юридическая фирма Digital Rights Center и Privacy Accelerator. Среди партнёров в этом году - Digital Rights Center Qazaqstan, Forklog, Eurasian Digital Foundation, Open Data Armenia и многие другие организации и компании, защищающие приватность и цифровые права пользователей на всём Евразийском пространстве.
Организационно Privacy Day 2024 будет поделена на три трека: «Проблемы приватности в бизнесе», «Защита частной жизни граждан и их цифровых прав», «Технологические тенденции».
Тон всей конференции задаст большая панельная дискуссия о проблемах приватности, которые стали очевидны с развитием искусственного интеллекта и нейросетей. С общей программой и списком спикеров можно ознакомиться на официальном сайте https://2024.privacyday.net/
Кроме того, состоится презентация новых проектов и бизнес-стартапов. А юристы DRC Qazaqstan с площадки в Алматы расскажут про ограничения VPN, шатдауны и нарушения прав интернет-пользователей в Казахстане и Центральной Азии. Запланирован и круглый стол с участием регуляторов из Казахстана, Кыргызстана, Армении, Грузии и других стран.
Начало Privacy Day 2024 запланировано на 10:00 по московскому времени 29 января 2024 года. Всё мероприятие пройдет в онлайн-формате и будет транслироваться на YouTube. Для слушателей участие абсолютно бесплатно и не потребует никакой дополнительной регистрации.
Присоединяйтесь к нам, будет интересно!
#privacyday2024 #анонс #приватность #конференции #ИИ #новости_от_DRC
8. Собственно он и является той причиной почему, к примеру, я почти не пишу про какие-либо интересные данные внутри РФ и о том как они были бы полезны именно по той причине что их могут оперативно закрыть. Если уж и писать о чём-то то только если это что-то не столь ценно если исчезнет.
9. Вот, к примеру, 9 января я писал про геосервер Росреестра. Не прошло и недели как сотрудники Росреестра его скрыли. Не то чтобы неожиданная реакция, скорее, наоборот, ожидаемая.
10. Выводов у меня здесь нет, кроме того что триггерами дальнейшего закрытия данных будет их публичное использование. Пока никто не знает и знание непублично, данные будут доступны ещё долго. Как только об этом напишут хоть что-то осмысленное, данные начнут исчезать. Вот такая борьба со здравым смыслом и происходит.
(Часть 2/2)
#opendata #thoughts #russia
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.
В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].
Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета
Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.
А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.
Ссылки:
[1] /channel/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/
#opendata #statistics #indicators #malaysia #datasets #datacatalogs
В рубрике о закрытых данных в России, с октября 2022 года более не публикуются Оперативные данные «Единая энергетическая система России: промежуточные итоги». ранее публиковавшиеся в форме PDF отчетов информационных обзоров [1] со сведениями о энергопотреблении в России и другим индикаторам работы единой энергосистемы страны.
Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/
#opendata #closeddata #russia #energy #statistics
О доступности статистики
Часть 1/2
К вопросу о доступности данных, так получается что у меня часто возникают задачи в которых необходимо искать данные в самых заковыристых местах, странах, общедоступных и не очевидных источниках. Собственно это часть работ по data discovery которыми я занимаюсь практически постоянно. Поделюсь наблюдением одной из причин широкого распространения открытых данных, оно в том что в ситуации изобилия производства данных уже давно планка ценности данных смещается в сторону 4-х принципов:
- гранулярности
- оперативности
- гарантии доставки
- простоты употребления.
Это немного похоже на 6 принципов открытых данных из хартии [1], но, по факту, это другое.
Рассмотрим пример, предположим есть индикаторы рождений и смертности. Предположим статистическая служба страны публикует его с детализацией ежегодного индикатора по стране. Ценны ли эти эти данные? Они бывают нужны, без них странно, но платить за них никто не будет. Годовой индикатор не конвертируется в любое оперативное решение.
Гранулярность
Пойдём далее, предложим что у нас есть эти индикаторы в разрезе регионов и по месяцам. Это уже гораздо более ценные данные, даже при том что ежемесячные данные, обычно, публикуются с задержкой от 1 до 2 месяцев, тем не менее, это уже некоторые показатели под которые можно адаптировать госполитику, принимать корпоративные решения.
Возможно ли лучше? Предположим есть эти же индикаторы с детализацией до города/района и в еженедельном или, даже, ежедневном разрезе. Всё это гранулярность - гранулярность географическая, гранулярность временная.
Оперативность
Оперативность доставки данных - это прямая характеристика срока их доступности после наступления события которые они отображают. Для годовых стат. данных часто задержка в их публикации может составлять до 1-1.5 лет, а для оперативных данных центральных банков, таких как уровень инфляции или курс валют, они доступны с задержкой не более чем в сутки.
Далее - гарантии доставки, это гарантии того что данные поступают непрерывно и их поставка не прервётся из-за какой-либо случайности. А простота использования в том что потребуется минимум усилий на использовать эти данные.
—
Всё это в первую очередь об индикативных временных рядах на основе которых можно принимать оперативные управленческие решения. Так вот таких временных рядов в открытых источниках в мире совсем немного. Например, данные ООН [2] и данные Всемирного банка [3] - это годовые данные, зачастую с задержкой от 1 до 5 лет, в зависимости от того как работают статслужбы стран. А, например, база индикаторов Банка международных расчётов (BIS) [4] на 92% состоит из квартальных временных рядов, на 7% из годовых и только 0.13% (около 1300) индикаторов с ежемесячной и ежесуточной гранулярностью. При это их географическое покрытие детализируется только до конкретной страны. В большинстве других больших база общедоступных индикаторов ситуация и того хуже, как правило доступны только годовые индикаторы и редко иначе.
Так вот, если судить о доступности данных по этим критериям, то может показаться что, к примеру, в России всё не так плохо. Есть немало индикаторов, в том числе публикуемых ежедневно и в том числе с детализацией до региона и, иногда, и до города которые дают прямое или косвенное измерение поведения потребителей, экономической активности, финансовой активности, состояния общества и так далее. Есть много стран по которым подобные индикаторы найти сложно, например, почти все африканские страны, Средняя Азия, Юго-Восточная Азия, Южная Америка и ещё много где. Да, есть исключения, но в целом самые интересные индикаторы доступны достаточно редко даже в развитых странах. Например, я как-то писал о том что в Исландии публикуют экспериментальную статистику по смертности в разрезе недель [5], аналогично поступают в Великобритании [6] и в Тасмании (штат Австралии) в рамках ковидного мониторинга [7].
Номинация "Culture Apps" нашего конкурса [1] в мире относится к теме Цифровых гуманитарных наук, на английском языке Digital Humanities. В последние годы появляется всё большее число проектов в это области и для тех кто хочет поискать вдохновения для себя стоит взглянуть на проекты участников победителей международной премии Digital Humanitarian Awards [2] где есть множество интерактивных и визуальных проектов по представлению культуры и истории.
Вот некоторые из них, победители прошлых лет.
TravellersMap ( https://travellersmap.gr)
Проект наложением на карты современной Греции и Турции видеолекций о исторических местах и событиях связанных с древнегреческой культурой, со ссылками на Wiki и базы знаний по истории Греции
Archivo de Literatura Digital en América Latina (https://www.cartografiadigital.cl)
Интерактивная инфографика цифровой литературы Южной Америки
Battle of Hong Kong 1941 (https://digital.lib.hkbu.edu.hk/1941hkbattle/en/map.php)
Интерактивная карта визуализации битвы за Гонконг в 1941 году, с таймлайном события.
—
А также существует множество других технологических интересных гуманитарных проектов о которых мы будем рассказывать здесь в телеграм канале и на наших семинарах.
—
Подумайте о том какие события в истории Армении и армянского народа могли бы быть представлены наглядно. Как собрать данные и нужно ли их много? Иногда достаточно сесть с книгой в руках и выписать даты и события, пройтись по открытым источникам и найти фотографии, использовать удобные low-code инструменты и собрать на их основе интересный проект.
Если у Вас есть вопросы, идеи, мысли и желание продвинуться в этом, задавайте вопросы в нашем чате @opendataamchat.
И напоминаю заявки на конкурс мы принимаем до 18 февраля включительно.
Ссылки:
[1] https://contest.opendata.am
[2] http://dhawards.org
#digitalheritage #opendata #contest #history #dataviz #culture #armenia
В рубрике интересных наборов данных Scans.io Stanford Internet Research Data Repository [1] коллекция больших наборов данных по инфраструктуре Интернета полученные путём сканирования всех доступных подсетей. Наборы данных там существуют, как созданные в Стенфордском университете, так и коммерческих компаний таких как Rapid7 и Censys.
Часть общедоступны, можно скачать сразу. Для доступа к данным от Rapid7 теперь уже какое-то время требуется написать им обоснование и рассказ о том для какого исследования Вам это нужно [2], а Censys уже давно большой коммерческий проект и к небольшой части своих данных они дают доступ через облако Google [3].
Применение у этих данных может быть не только в задачах инфобеза/кибербеза, но и в целях разного рода инструмента исследования инфрастурктуры. Или, например, data discovery. Многие из порталов данных мне удавалось найти через анализ базу DNS записей.
Ссылки:
[1] https://scans.io
[2] https://opendata.rapid7.com
[3] https://support.censys.io/hc/en-us/articles/360038761891-Research-Access-to-Censys-Data
#opendata #datasets #networksecurity #researchdata
Симпатичный свежий инструмент с открытым кодом по визуализации данных Trelliscope [1]. Написан на R, распространяется под лицензией MIT, команда, также, ведёт разработку пакета на Python [2].
Даёт возможность создавать недорогие интерактивные дашборды в короткие сроки, поверх стандартных датафреймов. Причём в примерах есть создание дашборда поверх больших наборов данных вроде поездок такси Нью Йорка (64GB, 1.6 миллиарда строк) [3].
Для очень многих задач когда данные большие или когда надо сделать визуализацию частью продукта, а лишних ресурсов нет, может оказаться очень полезным подспорьем.
И, кстати, будь такая штука удобным образом внедрена в один из сервисов/продуктов тетрадок вроде Jupyter Notebook, то совсем цены бы ей не было.
Ссылки:
[1] https://trelliscope.org/
[2] https://github.com/trelliscope/
[3] https://trelliscope.org/trelliscope/articles/bigdata.html
#opensource #dataviz #data #datatools
Что такое наборы данных ? (2/2)
А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.
Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.
Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.
А ответ на вопрос что такое набор данных всё ещё не так однозначен.
Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22
#data #datasearch #datafragmentation #thoughts
В Узбекистане группа организаторов проводят хакатон по открытым данным Open Data Challenge [1] 27-29 января этого года, по направлениям:
- Государственный сектор
- Социальный сектор
- Бизнес
- Противодействия коррупции
То что проводятся мероприятия по открытым данным - это очень хорошо, больше таких нужно по всему миру. Тем временем я не могу не напомнить свою публикацию от 13 февраля 2023 года о проблемах с порталом открытых данных Узбекистана [2]. Если коротко, то "казаться" и "быть" - это разная жизнь. Портал выглядит так словно там тысячи наборов данных, а в реальности, на начало 2023 года, там было опубликовано всего 40 мегабайт и почти 3000 наборов данных были всего лишь записями в одну строку.
Это называется "фрагментация данных", искусственное создание большого числа наборов данных для симуляции масштаба. Российский Росстат тоже этим "развлекался" много лет. Иногда, нечасто, оно может быть обосновано лучшей находимостью данных когда надо искать, например, мировую статистику по странам и показатели могут разделять по территориям. Единственный известный мне пример - это портал данных банка международных расчётов, но они оперируют другими понятиями, не набором данных, а показателем, не претендуя что каждый показатель - это отдельный датасет.
Поэтому, конечно, я считаю что организаторам стоило бы добавить категорию по созданию наборов данных, сочетающих, объём и качество и указать источники для поиска данных участникам, потому что сейчас из сайта это непонятно.
На всякий случай, источники открытых данных в Узбекистане собраны в Common Data Index [3], там 5 геопорталов, один портал открытых данных и один портал индикаторов. Кроме того бесконечное число данных по Узбекистану рассеяно по сайтам органов власти страны и, конечно, много данных о странах находятся не в самих странах, а на сайтах порталов открытых данных международных проектов и институтов.
Ссылки:
[1] https://datahack.uz
[2] https://begtin.substack.com/p/31
[3] https://registry.commondata.io/country/UZ
#opendata #uzbekistan #vents
Исчез из открытого доступа портал открытых данных города Омска [1] последнее известное время его доступности это июнь 2022 года, на эту дату есть запись в Интернет архиве. Всего на сайте было 50 наборов данных, в основном по инфраструктуре города.
Архивная копия сайта нами была создана 15 апреля 2022 года в рамках проекта @ruarxive. В общей сложности 269 MB в формате WARC File.
Я только сейчас обнаружил что эти архивы мы всё ещё не выложили онлайн, так что сделаем это в этом году. Пока они все доступны по запросу, пишите если понадобятся.
Ссылки:
[1] http://opendata.admomsk.ru
[2] https://web.archive.org/web/20220622220148/http://opendata.admomsk.ru/
#opendata #closeddata #russia #omsk #digitalpreservation #webarchives
Из открытого доступа исчез портал открытых данных города Казани data.kzn.ru [1], последний раз он индексировался Интернет архивом в феврале 2023 года [2], при этом он всё ещё упоминается на сайте мэрии города в разделе "Проекты" [3]. На портале было опубликовано несколько сотен наборов данных, а также было доступно несколько API.
Событие неприятное, очередной шаг к снижению открытости, на сей раз в одном из крупнейших городов РФ.
Если Вы контактируете с мэрией Казани или видели анонс, спросите у них о причине закрытия. По хорошему, они должны были официально вывести информационную систему из эксплуатации.
Ссылки:
[1] https://data.kzn.ru
[2] https://web.archive.org/web/20230201014645mp_/http://data.kzn.ru/
[3] https://kzn.ru/meriya/ispolnitelnyy-komitet/uits/proekty/
#opendata #data #closeddata #tatarstan #kazan #russia
Неожиданная и прекрасная карта Средиземья в 2D и 3D [1] причём автор не поленился и закодировал слои для ArcGIS Server и всё на карте отображается через FeatureServer и MapServer на серверах ArcGIS. При желании данные можно скачать посмотрев на код или просто попросив у автора. Если бы туда добавить стилизации, шрифтов, таймлайн, текстов, больше мест на карте и тд., то можно было бы превратить в произведение искусства.
Ссылки:
[1] https://www.micahvanderlugt.com/middle-earth
#dataviz #geodata #maps #middleearth #tolkien
Для тех кто ищет идей для вдохновения для визуализации данных, по Армении доступен огромный набор данных
Armenia: High Resolution Population Density Maps + Demographic Estimates [1] созданный компанией Meta в рамках инициативы Data for Good в апреле 2023 года.
Набор данных включает:
- общую число жителей
- распределение населения по возрастным когортам: женщины, мужчины, дети, старики
Все данные доступны в форматах CSV, JSON и GeoTIFF и позиционируются компанией как наиболее точные данные по населению в мире, с детализацией до 30 метров. Подробнее о методологии
можно прочитать на сайте инициативы [2].
На Population Density Explorer [3], доступна интерактивная визуализация этих данных.
Ссылки:
[1] https://data.humdata.org/dataset/armenia-high-resolution-population-density-maps-demographic-estimates
[2] https://dataforgood.facebook.com/dfg/tools/high-resolution-population-density-maps
[3] https://populationexplorer.org/
#opendata #datasets #armenia #population #dataviz
В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules
Кстати, про закрытые в России данные отдельная история о том что со временем, некоторые данные, воспроизводятся из других источников. Например, реальные данные по экспорту/импорту хотя российской таможней более не публикуются, но публикуются странами с которыми идёт торговля и доступны в международных базах открытых и коммерческих. Сейчас почти везде в открытых базах фигурирует статистика торговли за 2021 год, но где-то к середине 2024 года будут доступны цифры и за 2023 год и тогда в продуктах которые их используют можно будет много увидеть наглядно. Тот же Atlas of Economical complexity [1] более чем нагляден и в нём используется база COMTRADE. Правда, по России выдаёт данные только за 2020 год [2].
Но пока нет международных данных, есть возможность посмотреть на данные национальные, некоторые статслужбы публикуют их весьма оперативно и детально. Например, я недавно [не]случайно изучал статистику импорта и экспорта одной арабоязычной страны и там видно наглядно как импорт из России в 2021 году составляет $34.3 миллиона, в 2022 году $16.9 миллионов, а в 2023 году $8,6 миллионов. Там правда вполне очевидные последствия санкций на российских сталелитейщиков и угледобытчиков, тем не менее, за 2022-2023 годы изменения в структуре торговых балансов стран и изменения путей и объёмов поставок весьма существенные и есть источники данных на которые, например, российское Пр-во повлиять никак не может.
А это означает что можно собирать "данные о России которые находятся вне России". Впрочем есть риски что российские власти начнут (уже начали?) влиять на страны ЕАЭС для сокрытия их таможенной статистики, так что это ещё один из видов сведений требующих внимания и проактивной архивации.
Ссылки:
[1] https://atlas.cid.harvard.edu
[2] https://atlas.cid.harvard.edu/explore?country=186&queryLevel=location&product=undefined&year=2020&productClass=HS&target=Partner&partner=undefined&startYear=undefined
#russia #economy #statistics #customs #thoughts #data
У меня регулярно случаются разговоры вокруг темы "почему же в РФ всё ещё много открытых данных и не всё закрыли?". Говорят об этом многие как внутри страны так и за её пределами и на это есть много причин и мнений. Я озвучу то что наблюдаю своими глазами.
Далее тезисно:
1. Основная причина в том что в общем и в целом модель поведения российский властей соответствует принципу "ничего не происходит, всё идёт как было". Отчасти поэтому скрытие/закрытие данных точечное и оно скорее продолжает тенденцию последних 6-10 лет. Это подтверждается тем что в первую очередь власти закрывали данные про которые знали на 100% что они используются зарубежными аналитиками, в первую очередь военными и теми кто формирует санкционные списки. Результаты работы этих аналитиков не то чтобы сильно секретны, во всяком случае не настолько чтобы нельзя было узнать что именно используется. Поэтому исчезли данные об исполнении фед. бюджета, о компаниях под санкциями и теми кто работает с подсанкционными компаниями. Неприятно, но ожидаемо.
2. В то же так устроена информатизация/цифровизация и тд. что не публиковать некоторые данные невозможно поскольку уже выстроены экосистемы, вокруг них и совсем неочевидно что их можно использовать в каких-либо военных или санкционных целях. Таких данных много, многие индикаторы ведомственной статистики, и ещё много что раскрываются, многие данные публикуются. Их сокрытие является, в большей степени, от отсутствия открытости гос-ва в повестке Пр-ва, чем в конкретных событиях вокруг прошедших/идущих/грядущих военных конфликтов.
3. При этом важно знать что всё что видно в открытом контуре на госсайтах и иных госресурсах - это менее 0.1% данных которые реально собираются. В виду российской специфики почти полной неподотчетности исполнительной власти, реальные объёмы собираемых данных измеряются петабайтами (а может больше, не буду обманывать), в то же время в виде открытых данных и в любой иной форме публиковались гигабайты данных максимум. Если отделять данные от всего остального контента (видео, аудио) создаваемое гос-вом.
4. При этом были, есть и, хочется надеяться что будут косвенные индикаторы и базы данных на которых можно подсчитать индикаторы реальной экономической ситуации, демографии и тд. в общем признаки экономической и социальной активности. Некоторые индикаторы, даже, весьма оперативные и обстоятельные. Но они существуют ровно до той поры пока не о их использовании не становится известно публично. И здесь есть особая роль журналистов.
5. Работа любого профессионального журналиста - это подготовить публикацию которая бы приводила к изменениям в обществе, повышало бы его осведомленность, приводила бы к иным значимым качественным изменениям. Сейчас когда журналисты используют те или иные общедоступные данные которые отражают реальную ситуацию с экономикой или обществом в РФ это приводит к тому что на эти медийные триггеры срабатывают в Пр-ве, Администрации Пр-та или спецслужб и эти данные, если не немедленно, то довольно скоро исчезают.
6. Примеров таких исчезающих данных немало, тот что у меня перед глазами - это исчезновение в данных ФНС о юридических лицах сведений об учредителях НКО. Это произошло ещё в 2021 году, я неоднократно об этом писал и это, конечно, не единственный пример. Аналогично были закрыты данные о поставщиках госкорпораций по 223-ФЗ, это было ещё при Пр-ве Д. Медведева в 2018 году и ещё много всего.
7. Я не призываю журналистов не писать о чём либо, я говорю о том что реакция российский властей идёт на подтверждённое использование данных. И если какие-то данные скрыть сложно из-за их природы, то от сокрытия других куда меньше последствий. Поэтому результатом работы журналистов, а ещё точнее результатом реакции властей, является сокрытие данных. И это ещё один неприятный тренд последних лет.
(Часть 1/2)
#opendata #russia #thoughts
Вот уже долгое время у меня в задачах висит провести опрос по поводу российского дня открытых данных. Мы в @infoculture проводим его уже много лет, в последние годы, начиная с ковидных годов дистанционно. Не проводили только в 2022 году. В 2024 году будем проводить, и российский, дистанционно и в Ереване, армянский, вживую.
Поэтому, во первых, если Вы хотите запартнёрится к организации ODD в России или в Армении то напишите мне в личку или на почту ivan@begtin.tech, а если хотите выступить спонсором так точно пишите)
С темами армянского ODD всё довольно понятно, мы его проводить будем в первый раз и в ситуации когда всё только начинается. А вот с темами того что обсуждать в России всегда есть вопрос, большой вопрос.
Самые очевидные темы:
- закрытие данных/сведений/документов/сайтов
- архивация данных везде где возможно
- оценка/обзор потенциальных госинициатив (портал данных для ИИ), которые пока незаметны, но обещаны
- что-то ещё?
Большой опрос под это делать не хочется, так что следующим постом я размещу мини-опрос в телеграме чтобы было понятно по каким темам собирать спикеров.
#opendata #russia #armenia #opengov #events
О доступности статистики
Часть 2/2
Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.
Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.
С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.
А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.
Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics
#opendata #statistics #datasets #indicators #thoughts
В рубрике закрытых данных в России.
1. Закрытие статистики Росавиации
С февраля 2022 года не публикуется ведомственная статистика Росавиации которая включает:
- Основные производственные показатели гражданской авиации [1]
- Перевозки пассажиров [2]
- Перевозки грузов и почты [3]
2. Закрытие статистики органов прокуратуры
Генпрокуратура не только не обновляет портал Crimestat.ru [4] с января 2023 года, но и с февраля 2023 года не размещает Статистические данные об основных показателях деятельности органов прокуратуры [5]. Ведомственная статистика осталась на сайтах региональных органов прокуратуры, например, Москвы [6]
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[2] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
[3] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-gruzov-i-pochty/
[4] https://crimestat.ru
[5] https://epp.genproc.gov.ru/web/gprf/activity/statistics/office/result
[6] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#closeddata #russia #opendata #statistics #transport #crime
В рубрике как это работает у них большое изменение в статистике последних лет - это превращение статистических порталов в порталы данных. Если в классических стат порталах акцент был на визуализации и экспорте данных в XML/CSV/XLSX, то сейчас почти все новые порталы сразу называют порталами данных, включают API, как правило, REST API или более специфичное для статистики API на базе SDMX, а также добавляют возможность получения индикатора целиком и получение статистической базы целиком.
В качестве примера, порталы на базе open-source движка .Stat Suite [1].
- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты
и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.
При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.
Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/
#opendata #statistics #datacatalogs
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.
В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.
Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.
Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.
Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/
#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
18 января в 12:00 (по Еревану, GMT+4) мы проведем первый вебинар, приуроченный к конкурсу «Open Data Armenia Contest».
Присоединяйтесь к вебинару, посвященному обзору открытых данных Армении. Это событие поможет участникам конкурса понять специфику открытых данных и преимущества их использования, а также узнать о многообразии доступных источников данных.
Вебинар будет состоять из двух частей:
— Часть1. Введение в открытые данные и лицензии: определение, значение, виды и их влияние на распространение знаний. Спикер Иван Бегтин, руководитель проекта Open Data Armenia, эксперт в области open data и data discovery. Читается на русском языке.
— Часть 2. Источники данных об Армении: обзор ключевых платформ и ресурсов с открытыми данными. Портал data.opendata.am. Спикер Валерия Бабаян, аналитик открытых данных, специалист в области data discovery. Читается на армянском языке.
Для участия необходимо зарегистрироваться: ссылка. Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Что такое наборы данных ? (1/2)
Есть такой важный вопрос которым я задаюсь в последнее время особенно, который звучит банально, а ответ на него не так прост. А что такое данные? Что такое набор данных/датасет? Есть множество формальных определений, самое базовое это "dataset is a collection of data" , но на практике возникает множество нюансов.
Например, является ли изображение набором данных? Скорее всего нет, например, изображение обложки книги точно не набор данных. А если это карта? Или если это WMS сервис отдающий изображения? По сути - это метаданные + изображение. Он ближе к датасету, по крайней мере из практики использования. А если у нас изображение картины будет вместе с метаданными о нём? Это датасет ? Скорее нет чем да, но можно поспорить. А вот если это будет коллекция из тысяч изображений и метаданные к ним это уже точно набор данных. Возможно даже для машинного обучения. Точно также как и одна аудиозапись - это не набор данных, а тысячи аудиозаписи + метаданные + аннотации вполне себе типичный набор данных для ML.
#data #datasearch #datafragmentation #thoughts
Обновлённая подборка ссылок на порталы с открытыми или общедоступными данными для машинного обучения.
Большие международные
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- DagsHub dagshub.com/datasets - большая подборка наборов данных и библиотека для Python для работы с ними
- Papers With Code paperswithcode.com/datasets - наборы данных привязанные к "публикациям с кодом", чаще ссылки на другие порталы с данными
- Andaconda Datasets anaconda.org/search?q=dataset - программные пакеты для Python (Anaconda) для доступа ко многим наборам данных и включающие наборы данных
Японские
- ABCI Datasets datasets.abci.ai - научные наборы данных для ML
Корейские
- AI Hub aihub.or.kr - портал данных для ИИ в Южной Корее, большая часть данных требует регистрации и разрешения на использование
Российские
- MosMed datasets mosmed.ai/datasets - подборка наборов открытых данных для машинного обучения в области медицины
А также существуют многие другие, узкотематические и в виде подборок наборов данных.
#opendata #ml #data #ai #datacatalogs
В качестве регулярных напоминаний для тех кто ищет данные по России и постсоветским странам, каталоги/источники данных собраны в проекте Datacatalogs.ru [1] поддерживаемом Инфокультурой (@infoculture)
Там кроме порталов данных собраны, также, ссылки на значимые списки наборов данных и порталы открытого бюджета. А также небольшое число каталогов данных по Казахстану, Узбекистану и ряду других пост-советских стран. Плюс - удобный поиск и наглядная визуализация.
Другой источник - реестр каталогов данных всего мира Common Data Index и каталоги из России в нём [2].Тут только порталы открытых данных и геопорталы, он полнее по метаданным, но не включает, например, порталы бюджетной системы. Сейчас здесь 142 каталога данных, частично лишь пересекаясь. Не всё что есть здесь есть в Datacatalogs.ru, поскольку первый наполнялся вручную, а этот реестр полуавтоматически.
А также сильно меньший по объёму, но удобный для редактирования всем и каждым Russian awesome open data list [3] на Github. Достаточно просто добавить новые источники данных через Pull request. Он очень давно создан (9 лет назад) и редко обновляется. Очень нехватает контрибьюторов.
К этому я лишь добавлю что сейчас работаю над проверкой доступности порталов данных по РФ. Потому что не только сайты органов власти недоступны за пределами российских подсетей, но и сайты региональных и муниципальных властей, региональных ГИС и тд. Без использования прокси внутри РФ невозможно теперь проверить жив ли тот или иной российский сайт блокирующий не-российский трафик.
Ссылки:
[1] https://www.datacatalogs.ru
[2] https://registry.commondata.io/country/RU
[3] https://github.com/infoculture/awesome-opendata-rus
#opendata #russia #datacatalogs
Росреестр открыл портал пространственных данных [1], впрочем, глядя на портал можно обнаружить что данных то там и нет. Есть сервисы, есть карта, а выгрузить всё каким-либо образом не предусмотрено.
Но, это не совсем так. Простое обследование показывает что внутри портала всё построено на какой-то кастомизированной GIS системе в основе которой лежит open-source продукт Geoserver который и находится довольно быстро [2] с более чем 384 слоями к которым можно подключаться разного рода стандартными картографическими инструментами.
Все точки подключения у Geoserver открыты, кроме точек к сервисам WFS, но, подскажу что ключ для авторизации встроен в JS код сайта, так что авторизация весьма условна. Пытливым умам это не помеха.
Параллельно с этим WMS интерфейсы реализованы в GIS портала в привязке к отдельным слоям, например, [3] [4], а списки номеров слоёв через точку подключения API.
По итогу, открытых данных нет, общедоступные данные есть.
А я не могу в очередной раз не поразится попыткам прятать шило в мешке без особой на то нужды. Что мешало и мешает Росреестру опубликовать все спецификации API?
Ссылки:
[1] https://nspd.rosreestr.gov.ru
[2] https://nspd.rosreestr.gov.ru/geoserver
[3] https://nspd.rosreestr.gov.ru/api/aeggis/v2/6/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[4] https://nspd.rosreestr.gov.ru/api/aeggis/v2/36049/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[5] https://nspd.rosreestr.gov.ru/map_api/workset/list/forMap
#opendata #data #geodata #spatial #russia #rosreestr #api
Немного отвлекаясь от темы данных, хотя и отчасти соприкасаясь с темой открытости данных, есть такое явление в России, как минимум, последние 6 лет, как снижение институциональной прозрачности. Оно касается доступности информации о ключевых решениях властей всех уровней, в особенности нормативных документов, бюджетов, государственных программ, планов, дорожных карт и много-го другого. Всё то что позволяет принимать осмысленные решения всем кто с государством взаимодействует.
Это снижение происходило, как в данных, например, исчезновение реестра субсидий, закрытие отчётов об исполнении бюджетов или учредителей НКО, так и в сведениях которых может быть открытыми данными не были, но имели значение. Например, я много писал о том что главное всех новых инициатив Пр-ва и Национальных проектов в их запредельной непрозрачности. Некоторые документы, например, структуру фед.проекта по Искусственному интеллекту можно найти только в базе Консультант Плюс, но не на сайте Правительства РФ или в официальных базах законодательства, Да и у самого документа нет статуса нормативного документа, а "всего лишь" он решение президиума правкомиссии. Зато есть множество пропагандистских проектов расхваливающих инициативы Пр-ва, есть аккаунты в министерств в соцсетях, причём даже "приближенных к народу", постящих гороскопы, как в соцсетях Минфина РФ.
К этим же событиям можно отнести и засекречивание крайне значительного числа указов и распоряжений Президента РФ и очень многое другое. На фоне активной цифровизации государственного патернализма, вроде госуслуг, и других "тяжёлых" госсистем, полностью замерло всё что касалось повышению прозрачности. Не появилось единого портала по прозрачности гос-ва с централизованной публикацией всех деклараций, портал открытых данных ещё до исчезновения был в замороженно-мусорном состоянии, был закрыт портал Госрасходы (spending.gov.ru) да и даже такое банальное явление как публикация нормативных текстов в виде текстов до сих пор не решена, официальное опубликование документов на publication.pravo.gov.ru до сих пор осуществляется сканами. Да, для справки, это единственный сайт официального опубликования, а не сайт Пр-ва, Пр-та или ГД.
А недавно я искал такую банальщину как состав экспертного совета по ИИ при РКН (ещё вернее при ГРЧС, но новости о нём только на РКН) и ничего нет.
Такого много, это не измеряется внешними или внутренними индексами и рейтингами, а все СМИ и НКО которые подобное отслеживали признаны иноагентами или нежелательными организациями.
Нет, это началось задолго до военных действий и не закончится когда эти военные действия закончатся. Оно началось когда окончательно стало понятно что РФ не вернётся в G8 и не вступит в ОЭСР.
Всё это при том что изначально уровень институциональной прозрачности был достаточно высок чтобы казалось что процесс её снижение идёт очень медленно. Но важное отличие не только в уровне, но и в тренде.
#thoughts #transparency #openness #opengov #opendata
Подводить итоги 2023 года сложно, можно коротко описать как "ещё один плохой год", а я попробую себя в жанре предсказаний на 2024 г.:
1. Всё что касается регулирования интернета, данных и ИТ в целом будет ухудшаться в мире. Цензура в авторитарных странах продолжит ужесточаться вплоть до постепенному приходу к работе по белым спискам, а в демократических введут механизмы блокировок по аналогии с авторитарными режимами. Регулирование ИИ будет ужесточаться, но не в России, в России ключевые ИИ компании выторгуют, если ещё не выторговали, послабления, под страхами "потери лидерства", "утечки мозгов" и тд. Регулирование приватности и управления данными будет ухудшаться в России, в первую очередь из-за инициативы по централизованной деперсонализации данных госоператором.
2. Тема открытых данных в мире продолжится, основные данные будут раскрываться научными организациями. Открытый доступ (open access) продолжит своё развитие, в том числе в развивающихся странах. Фактически открытые научные данные будут везде где есть живая наука интегрированная в мировую. Но и основные другие инициативы никуда не исчезнут. Будет больше проектов связанных с доступностью данных машинного обучения.
3. Хайп вокруг ИИ продолжится и начнёт стихать только к концу 2024 года, когда станет понятно что все "сливки" снимут ограниченное число очень крупных игроков. Но для инвесторов сохранится приоритет на инвестиции в "поумневшие" сервисы, самого разного толка. Будет как минимум 2-3 крупных скандала вокруг ИИ игроков, регулирования, инвестиций и тд.
#opendata #predictions #2024 #ai #regulation #data #privacy
На Новый год всем хочу пожелать много данных
Больших, небольших, интересных и странных
Открытости по умолчанию везде где возможно
И мира хотелось бы, а то как-то тревожно