I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
С некоторым удивлением и лёгким ужасом я убеждаюсь что в России из НКО с активной позицией в сторону защиты граждан в отношении ИИ в РФ осталась только РПЦ. Не могу даже описать как это контрастирует с развитой частью мира. Как думаете сможет РПЦ представлять интересы общества или, всё таки, это аномалия и должны появится/возродиться правозащитные организации в этой области?
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
Не могу не поделиться свежим наблюдением что большая часть тех кто занимался когда-либо открытостью данных в какой-то момент, если не меняют вид деятельности, перестают создавать сами данные и создают инструменты с помощью которых их можно готовить, публиковать, обрабатывать, анализировать и так далее. И у этого есть одно важнейшее объяснение, создавать хорошие данные дорого, если ты только не занимаешься этим постоянно или это не встроено в твой рабочий процесс (с). В более короткой версии этот тезис звучит как "создавать хорошие данные дорого" (с).
Почему так? Потому что создание любого более-менее качественного набора данных требует одновременно отраслевой и технической экспертизы. Например, разбираясь в кулинарии и аналитике можно создать датасет с ингредиентами, но без одного из этих навыков техническое или смысловое качество пострадает.
Поэтому открытость встраивают в процесс. Например, в научной среде открытые данные - это, в первую очередь, один из результатов научной деятельности наравне со статьями, тезисами, презентациями, кодом и так далее. Или открытые данные - это естественная производная от создаваемых банков данных. Аналогично для многих общественных проектов, открытые данные это дополнительный канал коммуникации с разработчиками. Данные публикуются как часть проекта или выделяются в отдельный, но во всех случаях они встроены в производственный процесс.
Собственно и большая часть усилий по убеждению правительств в публикации открытых данных всегда была не про выдумывание новых несуществующих ещё данных, а "давайте поменяем процессы так чтобы данные из государственных систем автоматически публиковались".
В общем создание хороших данных работает только если Вы создаёте данные непрерывно и можете их открыть.
Есть ли способы сделать данные более доступными? Можно пытаться снизить стоимость их производства. Например, я много экспериментировал с автоматическим созданием датасетов из бесконечного числа Excel файлов, DOCX и PDF файлов, типовых API и так далее. Извлечь данные таким образом можно, рассматривать их как качественные - нет. Часто невозможно собрать таким образом даже метаданные, описание и указание первоисточника.
Другие ищут уже опубликованные дата-файлы и пытаются интерпретировать эти находки. Как, например, в той статье о которой я упоминал и в которой авторы прошерстили Github и нашли там сотни миллионов файлов с данными.
Как бы то ни было, это известная и нерешённая проблема. И я вижу как многие уперевшиеся в неё переходят к созданию инструментов, а не датасетов.
#opendata #opensource #thoughts
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
В рубрике любопытных инструментов по работе с данными GQL [1] утилита/оболочка по доступу к Git репозиторию через SQL-подобные запросы.
Запросы могут выглядеть, например, вот так:
- SELECT name, email FROM commits WHERE name LIKE "%gmail%" ORDER BY name
- SELECT * FROM branches
Автор явно перфекционист и вложил много усилий в SQL подобный парсер и сам инструмент, который полностью на написан Rust.
Почему я обращаю внимание на подобное, потому что это один из многих примеров восприятия мира как "всё данные" в форме "со всем можно работать через SQL".
Ссылки:
[1] https://github.com/AmrDeveloper/GQL
#opensource #datatools #git
Для тех кто интересуется моими регулярными постами про семантические типы данных, я выложил в открытый доступ расширенный набор правил metacrafter-rules [1] для утилиты metacrafter [2].
В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.
Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.
Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter
#opensource #datatools #data #semanticdatatypes #understandingdata
Как Вы думаете сколько Excel файлов опубликовано на сайте российского ЦБ ? Более 18 тысяч, в форматах XLS и XLSX, даже если предположить что большая часть из них это ежемесячные файлы в повторяющейся структуре - это будет сотни-тысячи наборов данных. Сколько Excel файлов публикуется другими органами власти - сотни тысяч, причём в развитых странах, как правило, большая их часть - это не продукт ручной работы, а экспорт из внутренних систем органов власти.
Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.
Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде Хаба открытых данных (hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.
Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру, портал открытых данных Армении (data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных
Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы
Такие данные тоже есть, например, все законы в РА из системы ARLIS.
Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.
#opendata #opengov #armenia
Я посмотрел свежее выступление Максута Шадаева (главы Минцифры РФ) на Tadviser Summit где он упоминал, в том числе, о том что Гостех это, в первую очередь, для регионов и муниципалитетов поскольку у них дублируются функции и услуги и о том что логично им всем на Гостех переходить, а с федеральными структурами работа по более сложным схемам совместных предприятий поставщиков для федеральных ИТ с Ростелекомом.
И вспомнил что это мне напоминает. Текущая российская система государственного управления построена на 3-х принципах: централизация, контроль и патернализм. Эти принципы очень заметны и в российской технологической политике. За последние 20 лет я лично наблюдал исключительно процессы их подтверждающие, с небольшими отклонениями, но в пределах погрешности.
—
Централизация всё это время заключалась в постепенном отъёме полномочий у регионов и муниципалитетов. Федеральные органы вначале всё больше забирали на себя полномочия совместного ведения, а далее и те полномочия к которым формально (по конституции) отношения они не имели. В основе этого было множество причин, но основным инструментом были многочисленные законы которые принимались в ГД в форме рамочных документов передавших регулирование исполнительной власти. Почти все крупные государственные информационные системы создавались по такой модели.
Контроль это, можно сказать, базовая ментальная модель, но и многих граждан, заключающаяся в том что если есть какая-то деятельность в котором нет государственного вмешательства, то обязательно надо как можно скорее туда вмешаться. Создав регистрацию, реестр, виды деятельности, учёт, отчётность, передав кому-то (федеральному, конечно госоргану) полномочия по надзору. Я лично не знаю ни одной страны мира в котором было бы такое количество административных реестров как в России. Буквально на каждый чих.
Патернализм это когда, если говорить простыми словами, люди во власти смотрят на простых граждан как на глупых опекаемых субъектов, а на бизнес (если он в доску не свой) как на притесняющих их упырей. Патернализм - это и есть основа существующей централизованной модели госуслуг в России, по сути отношение к малому и среднему бизнесу исключительно как к попрошайкам, а к крупному как, или встроенному в систему госуправления (коррупционными, личными или иными отношениями) или как к объектам бюджетного доения.
—
Вот эти вот три принципа и есть основная управленческая модель, через них гораздо проще и понятнее смотреть на любые речи, документы и новости связанные с гос-вом.
Например:
1. Почему Гостех хотят масштабировать на регионы и муниципалитеты? Потому что централизация. У региональных властей, кроме Москвы, значительно меньший административный вес. Конституционное право на отличия де-факто заменяется на то что "вы же все одинаковые", даже если это не только не так, но и не должно быть так в принципе.
2. Почему нацпроект "Экономика данных" скроен таким образом? Потому что: Госуслуги - патернализм, Гостех - централизация, большая часть всего остального - де-факто контроль. С исключением в виде мероприятий по развитию ИИ, которые реально к экономике данных относятся, где надо учить и развивать.
3. Почему долгое время открытые данные присутствовали в стране? Они же противоречат этим принципам. Они противоречили принципу патернализма, но использовались в принципах централизации и контроля как довод того что "граждане не имеет достаточного контроля за деятельностью местных и региональных властей". Это более-менее работало долгое время, но стало сжиматься когда заигрывание с общественным мнение стало сходить на нет. Сейчас оно тоже есть именно в связке с этими двумя принципами, но с всё большим усилением в сторону контроля за оборотом данных, потребителями, доступом к данным и так далее.
#it #government #policy #thoughts
Новая стратегия работы с открытыми данными Ирландского правительства на 2023-2027 годы [1]. В стратегиях 3 фокуса: публикаторы (владельцы) данных, платформа и пользователи.
Стратегия совсем свежая, опубликована 23 ноября, одна из весьма детальных стратегий в Евросоюзе по этой тематике.
Ссылки:
[1] https://www.gov.ie/en/policy-information/8587b0-open-data/#open-data-strategy
#opendata #stategy #ireland
- Вами съеден исторический документ...
- Папа всегда говорил, уничтожай архивы
Шварц, пьеса "Дракон"
С российского портала государственных программ исчезла сведения:
- Ход реализации госпрограммы
- Сведения о показателях госпрограммы
- Сведения о показателях в разрезе субъектов РФ
- Значения показателей и финансирование программы
- Перечень основных мероприятий
- Сведения о мерах правового регулирования
- Ресурсное обеспечение реализации госпрограммы
- Дополнительные и обосновывающие материалы
- План реализации
- Инфографика
- Результаты инициативного согласования
Можно посмотреть на примере ГП "Информационное общество" [1] и сравнить с версией на начало 2022 г. [2]
Раньше я писал несколько раз о том что госпрограммы были не в пример прозрачнее нац/ проектов или других "свежих" правительственных инициатив [3]. Но, российское пр-во "исправилось", но не в том смысле что стало публиковать больше информации про нац проекты. Нет, нет, всё ровно наоборот, теперь с портала госпрограмм удалено почти всё что касалось их реализации.
Очень удобно, не правда ли? В самом деле, зачем, ну зачем, российским гражданам и уж тем более не российским знать о том как расходуются деньги федерального бюджета.
Ссылки:
[1] https://programs.gov.ru/Portal/programs/passport/23
[2] https://web.archive.org/web/20220303192829/https://programs.gov.ru/Portal/programs/passport/23
[3] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
#government #budget #closeddata #data #russia
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.
Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib
Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.
Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good
Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive
#datasets #opendata #opensource #terms #privacy #bigtech
⚡В Краснодаре родители учеников взбунтовались против массового сбора персональных данных детей в школах под различными поводами. Многие отказываются регистрироваться на различных платформах, где требуют данные детей. Большое негодование вызвала привязка «Сетевого города» к порталу Госуслуг.
Читать полностью…Я тут хотел было прокомментировать проходивший недавно AI Journey, и ещё слайд который, по слухам, Максут Шадаев показывал в "Бункере" про структуру нацпроекта "Экономика данных", но вместо этого покажу вам 2 скриншота сайта ai.gov.ru.
1-й от 9-го сентября 2022 года
2-й сегодняшнего дня
Можно увидеть как сайт где был какой-то но контент, с регуляторикой, стратегией и тд. превратили в пиарный одностраничник. И раньше то было куцо, а теперь просто выжжено, только новостной мониторинг.
Это всё к вопросу о том почему надо архивировать госсайты, да всё по тому же. Уж больно любят российские чиновники удалять да прятать несделанное и недоделанное.
#ai #russia #government
Про работу с данными в госуправлении, проект Open Audit [1] команды исследователей из MIT которые собрали и распознали 17 тысяч отчётов государственных аудиторов в Филлипинах с 1998 по 2022 годы. Особенность публикации таких документов в Филлипинах заключается в том что на сайте их Комиссии по аудиту [2] публикуются отчёты контрольных органов всех уровней, включая муниципальные, соответственно и анализ проводился всех этих отчетов, а не только центрального Пр-ва и о самом проекте подробнее в MIT Gov/Lab [3].
У меня когда-то были мысли о схожем проекте, ещё когда я собирал архив старых отчётов Счетной палаты РФ и они до сих пор выложены в разделе на сайте госоргана. Но, имеют то ограничение что это только федеральные отчеты, а отчеты региональных и муниципальных палат всегда были рассеяны по десяткам, сотням сайтов. Поэтому большой-красивый набор данных создать было бы сложно, без специальных усилий конечно.
Ссылки:
[1] https://github.com/jerikdcruz/OpenAudit
[2] https://www.coa.gov.ph
[3] https://mitgovlab.org/news/unearthing-the-hidden-stories-of-budgets-and-audit-reports/
#opendata #government #audit
Рубрика "Циничный пиар"
"Россия - родина слонов великих технологий!"
Я не знаю, кто писал текст для этого ролика, которым, судя по всему, открывалась вчерашняя стратсессия в "Бункере" по закрытию цифровой экономики формированию нового нацпроекта "Экономика данных". Но я точно знаю, без чьей визы на этом тексте не обошлось. И все постоянные читатели канала тоже это знают. Поэтому сейчас и здесь я это имя называть не буду.
Я представляю, как этот сборник лозунгов о светлом будущем одной отдельно взятой экономики данных (тм) смотрелся на "бункерном" мега-экране с высококачественным звуком в формате вражеской системы Dolby TrueHD. После такого вдохновляющего перформанса хочется вскочить, схватить лопату и отбойный молоток, пешком пойти в сибирскую тайгу и заполярную тундру, валить лес, прокладывать новый БАМ, вручную тащить суверенный интернет в самые глухие селения - в общем, делать всё, что, по мысли пиарщиков, должны делать зрители, проникшиеся грандиозностью концепции этой рекламы.
PS. Прокрутил ролик 10 раз. Всё хотел разглядеть в нем великие российские технологии (тм). Увидел ноутубуки Apple со стыдливо заклеенным яблоком на крышке, китайский клон робособаки от Boston Dynamics, видеостену на РИФе, собранную из корейских мониторов Samsung, какую-то картинку с инфографикой почему-то на вражеском языке, пиарщицу в лабутенах, с задумчивым видом и макбуком бродящую между стойками в ЦОДе, набитыми отнюдь не импортозамещенным "железом"... Была пара кадров с взлетающим "Протоном" - но это не великая российская, а великая советская технология, которой через пару лет исполнится 60
В рубрике закрытых данных в России, из открытого доступа убрали сведения о расположении кораблей в портах [1] [2], похоже во всех, поскольку мне пока не удалось найти порт в котором бы эта информация раскрывалась на официальном сайте. А также закрыли систему "Судозаходы в РФ" [3]. Ранее сведения из "Табло портов" [4] в этой системе были общедоступны, теперь доступны только для зарегистрированных пользователей. Не могу сказать когда именно эти сведения стали скрывать, но точно в последние 2 года, поскольку ещё в октябре 2021 года они были доступны.
Хотя эти данные и не были открытыми и машиночитаемыми, в машиночитаемую форму они легко превращались.
Ссылки:
[1] https://www.mapm.ru/Port/View_TrafficShip
[2] https://bsamp.ru/port-novorossiysk-vessels.php
[3] https://portcall.marinet.ru/index.php
[4] https://portcalltable.marinet.ru/
#opendata #closeddata #russia #transport #ships #ports
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.
Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/
#opendata #datastandards #eu #standards #data #openaccess
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.
Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.
Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.
Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0
#opendata #international #china #readings #datasets
Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.
Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.
P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.
Ссылки:
[1] /channel/begtin/3511
#laws #lawburden #data #statistics
В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.
Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih
#privacy #data #regulation #laws #russia
В рубрике интересных наборов данных коллекция 30222 уникальных названий цветов [1]. Не тех цветов которые растут и благоухают, а тех что являются качественной субъективной характеристикой электромагнитного излучения оптического диапазона. Авторы вложили много усилий чтобы собрать названия цветов из многообразия источников и 30222 цвета - это всего лишь ~0,18% от общего пространства RGB.
Весь набор данных доступен в форматах CSV, JSON, YML, JS, HTML, SCSS, CSS и через API, всё под лицензией MIT.
Ссылки:
[1] https://github.com/meodai/color-names
#opendata #datasets #colors
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.
Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.
С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.
Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.
Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en
#openscience #openaccess #austria
Для тех кто любит моделировать данные и думать о том как они устроены, интересное мероприятие Data Modelling Days 2023 от команды Wikidata [1] это 3-х дневное мероприятие от фонда Wikimedia Deutschland о том как устроен проект Wikidata, как создаются в нём новые сущности и свойства и как вносятся объекты.
За пределами научного применения Wikidata - это самый заметный и самый практически применимый продукт основанный на связанных данных, семантической сети и со SPARQL интерфейсом. Это из тех проектов где люди как раз и занимаются о том как устроены данные. С приоритетом на GLAM (Galleries, Libraries, Archives, and Museums) и библиографию, но и по другим областям там очень много всего. Сравнивать его можно разве что с DBPedia (крупнейший проект по превращению Википедии в Linked Data) или с DataCommons (инициатива Google).
Если у меня получится найти время, я там точно хочу послушать о том как создатели Википедии думают о проектировании схем данных.
Ссылки:
[1] https://www.wikidata.org/wiki/Wikidata:Events/Data_Modelling_Days_2023
#opendata #databases #wikidata #wikimedia #events
В качестве регулярного напоминания одна из моих любимых технологических тем - это понимание данных. Я на эту тему ежемесячно читаю 3-4 научных статьи и смотрю как меняются подходы, а также сделал практическую утилиту metacrafter [1] с открытым кодом и реестр семантических типов данных [2].
Если Вы её ещё не пробовали, но хотите поискать, например, нет ли у Вас в базах персональных данных о которых Вы не знаете, то рекомендую попробовать. Она поддерживает и файлы в форматах CSV, XML, JSONL и SQL СУБД и MongoDB.
А читаю я сейчас о том что современные подходы заключаются в умении идентифицировать незнакомые типы данных, а это непростая задача. Частично решаемая через исследование признаков инкрементальности значений, значений фиксированной длины, наличие и размер общего префикса и ещё много другое. Если бы у меня было побольше времени и возможностями занимать только исследованиями, я бы с удовольствием занимался именно этим. Но возможности мало, поэтому обновляю этот инструмент по мере практической необходимости.
А вот одна задача имеет очень большой научный и практический потенциал, возможно здесь какой-то легкий ИИ алгоритм мог бы помочь. Эта задача в реконструкции регулярных выражений. Это когда у Вас есть перечень каких-либо значений и нужно получить максимально компактное регулярное выражение которое все значения охватит. Давно я не встречал научных работ на эту тему, но сама тема просто таки очень интересная и очень близка к общей теме "понимание данных".
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.commondata.io
#opensource #data #datatools
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].
В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.
Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs
#opendata #datasets #genomics #cancer #openaccess #data #usa
Симпатичная инициатива от Яндекса с программой грантов на открытый код и открытые данные [1]. Обещают распределить гранты Яндекс.Облака до 600 тысяч рублей на 15 проектов (итого 9 миллионов рублей) на проекты с открытым кодом по трекам:
- Обработка и хранение данных
- Разработка
- Машинное обучение
Правда призы даются не деньгами, а ресурсами Яндекс.Облака, но для состоявшихся проектов и это полезный ресурс. Особенно я бы обратил внимание на создание наборов данных. Потому что если получать приз на другие проекты, то эти 600 тысяч довольно быстро закончатся если использовать облако просто как хостинг. А если использовать для создания/оценки качества наборов данных то это более похоже на проектное использование. Например податься на эту грантовую программу Яндекса с небольшим датасетом, выиграть грант и податься на грантовую программу Фонда содействия инноваций (Фонд Бортника) также с датасетом, но расширенный и обогащённый через использование ресурсов Яндекс.Облака в рамках гранта Яндекса.
P.S. Не реклама, и жаль, конечно, что инициатива маленькая и явно спрятанная внутри маркетингового бюджета Яндекс.Облака, но сама идея правильная когда грантовые программы развивают и поощряют открытый код и открытые данные.
Ссылки:
[1] https://opensource.yandex/grants/
#opensource #opendata #yandex
Кстати, у меня вот тут накопилось какое-то количество вопросов к залу применительно к регулированию ИИ в России. Может кто-то знает ответы? Спрашиваю, без иронии на предмет "всё у них плохо", скорее интересуюсь с лёгким удивлением, потому что сам такого не наблюдаю.
Такие вот вопросы:
1. Есть ли примеры отчётов по оценке воздействия внедрения ИИ ? Корпоративных или государственных, не так важно, важнее публичных отчётов. Например, в Москве уже несколько лет идёт эксперимент по применению ИИ, при этом нигде отчётов/докладов/протоколов работы вовлечённых сторон об этом не наблюдается. Есть ли что-то подобное?
2. Остались ли ещё какие-либо организации гражданского общества с публично заявленной позицией по внедрению и рискам создания и применения ИИ? Как я понимаю правозащитных организаций настоящих которые, а не GONGO, почти не осталось. Но может я кого-то упустил или пропустил?
3. Есть ли примеры внедрения ИИ с независимым человеческим контролем/надзором за ним?
4. Есть ли какие-либо стандарты/руководства/критерии проверки соответствия компаний/продуктов/внедрений согласно российскому этическому ИИ кодексу?
5. Являются ли обязательными технические стандарты ИИ при внедрении в государственном секторе? в корпоративном секторе?
6. Можно ли считать российский кодекс ИИ всё ещё частной инициативой после присоединения к нему государственных агентств и промоутирования его на государственном уровне?
#ai #questions
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].
Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.
Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.
Думаете фантастический сценарий?
Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting
#privacy #china #algorithms #ai
В рубрике как это устроено у них в открытых данных:
- в Евросоюзе активно развивается проект Open Maps For Europe 2 (OME2) [1] по созданию единых продуктов геоданных и на геоданных покрывающих все страны ЕС и стран входящих в партнерства со странами ЕС. В основе проекта директива о публикации особо ценных наборов данных и ранее созданный проект Maps For Europe [2]. Можно обратить внимание что занимается проектом Eurogeographic, ассоциация из 60 организаций из 46 стран. Большая часть организаций - это государственные кадастровые комитеты. Среди них есть, например, кадастровые службы Армении, Белоруссии, Турции и Азебайджана. И, ожидаемо, нет российской кадастровой службы
- в США в MIT раздают награды учёным публикующим открытые научные данные [3] всего 11 победителей из 80 номинантов, с призами в $2500. Поощряются исследователи опубликовавшие востребованные исследовательские данные как часть своих научных работ, а также создателей инструментов с открытым кодом по удобной работе с этими данными. Среди работ много интересного, например, ITU Compliance Assessment Monitor [4] инструмент и наборы данных мониторинга того как операторы геостационарных спутников отчитываются перед Международным союзом электросвязи (ITU), спойлер: чаще всего игнорируют необходимость предоставления информации. А вот другой пример, база данных WormWideWeb [5] собранная из общедоступных баз нейронов нематод C. Elegans.
- Open Government Partnership, партнерство открытых правительств, активно расширяется на уровне городов, в OGP Local [6] уже участвует около 100 городов и в течение 2024 года собираются принять около 50 [7], в том числе из стран не входящих в партнерство. Эдакое погружение в суб-национальный уровень и, похоже, набирающее обороты. Среди постсоветских городов там присутствуют: Армавир, Гюмри, Ереван и Ванадзор в Армении, 6 городов в Грузии, Бишкек из Киргизии, 3 города Украины. В общем-то не так мало. Но более всего мексиканских и индонезийских городов. Частично вся эта инициатива пересекается с Open Data Charter [8] (Хартия открытых данных) которую подписали власти многих городов.
- во Франции трекер публикации открытых данных на портале data.gouv.fr [9] можно убедиться что кроме того что данные опубликованы, они продолжают регулярно раскрываться по запросу пользователей, многое запланировано к публикации и многие запросы ещё анализируются. В целом французский портал открытых данных наиболее системно развивается, они достаточно давно переходят от публикации файлов наборов данных, к публикации их согласно схемам данных которые ведутся в отдельном реестре.
Ссылки:
[1] https://eurogeographics.org/open-maps-for-europe/ome2-progress/
[2] https://www.mapsforeurope.org
[3] https://news.mit.edu/2023/rewarding-excellence-in-open-data-1116
[4] https://github.com/ThomasGRoberts/ITU-Compliance-Assessment-Monitor
[5] https://wormwideweb.org/
[6] https://www.opengovpartnership.org/ogp-local/
[7] https://www.opengovpartnership.org/ogp-local/join-ogp-local-call-for-expressions-of-interest-2023/
[8] https://opendatacharter.net/
[9] https://ouverture.data.gouv.fr/?status=Planifi%C3%A9
#opendata #readings
Как говорится ни добавить/ни убавить. Если нацпроект "Экономика данных" будет таким же как пиар Пр-ва РФ, то не будет в России ни данных, ни экономики.
Читать полностью…