begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Долго думал как это прокомментировать, но комментарий подобрать никак не могу. Ничего хорошего, в принципе не-государственных и независящих от государства НКО в России практически не остаётся. Чтобы там кому ни нравилось в Википедии, страна сильно беднеет от того что вместо множества мнений остаётся лишь официальная идеология.

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных свежий датасет из 228 тысяч нормативных документов (законов, решений и тд.) Австралии. Автор собрал датасет и выложил на Hugging Face [1],а также описал процесс у себя в блоге [2] и само описание - это хорошее руководство того как самостоятельно создавать наборы данных и выложил исходный код использованный для создания такого датасета [3]. Во всех смыслах хороший пример - открытые данные + открытый код + датасет для машинного обучения. Особенно учитывая сложности в том что Австралия является конфедерацией и нет единой базы всего законодательства, а вместо этого отдельные системы на уровне центрального правительства и отдельные у штатов и в сейчас нет штата Виктория. Но даже при этих ограничениях - это большой корпус англоязычных документов полезный в работе многих инструментов.

Ссылки:
[1] https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus
[2] https://umarbutler.com/how-i-built-the-largest-open-database-of-australian-law/
[3] https://github.com/umarbutler/open-australian-legal-corpus-creator

#dataset #opendata #data

Читать полностью…

Ivan Begtin

С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation

Читать полностью…

Ivan Begtin

Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] /channel/begtin/5257

#laws #regulation #russia

Читать полностью…

Ivan Begtin

Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe

Читать полностью…

Ivan Begtin

Не все знают что в основе проекта Wikidata лежит расширение для MediaWiki под названием Wikibase [1]. Это продукт с открытым кодом созданный в Wikimedia Deutschland и используемый для баз объектов в стиле Mediawiki, со встроенным редактором свойств, схем, объектов, API и поддержкой связанных данных. У Wikibase существует множество инсталляций база которых собрана на Wikibase.world (тоже инсталляция Wikibase)).

Главное отличие Wikibase от того же Semantic MediaWiki, в том что в Semantic Mediawiki есть попытка приблизить текст к структуре, а в Wikibase это попытка приблизить данные к Wiki.

По природе своей проекты на Wikibase включая Wikidata гораздо ближе к сообществам библиотекарей, архивистов, историков и тд. Очень многие проекты на его основе сфокусированы на библиографии, языках и тд.

Но постепенно, та же Wikidata, наполняется референсными данными с которыми можно работать напрямую используя API и библиотеки вроде WikidataIntegrator [3].

Главные плюсы - системность решения, главные минусы - негибкость в отображении данных. Например, у меня в работе есть множество больших реестров которым нужны интерфейсы редактирования и визуализации, с обновлением схем и тд.

Я о некоторых писал, какие-то менее известны:
- реестр всех государственных доменных имён в РФ (от 10 до 200 тысяч)
- реестр семантических типов данных (до 5000)
- реестр порталов данных (от 10 до 20 тысяч)
- каталогов всех цифровых слепков сайлов из Ruarxive (от 10 тысяч)

Вести их в Wikibase было бы правильно, но жуть как неудобно если это не повседневный инструмент. Причём главным образом из-за отсутствия табличного, массового режима обновления данных. Хотя и интеграция с Wikidata актуальна во проектах.

Ссылки:
[1] https://www.mediawiki.org/wiki/Wikibase/Using_Wikibase
[2] https://wikibase.world/query/#PREFIX%20wdt%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fprop%2Fdirect%2F%3E%0APREFIX%20wd%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fentity%2F%3E%0A%0ASELECT%20%3FitemLabel%20%3Furl%20%3Fitem%20WHERE%20%7B%0A%20%20%20%20%3Fitem%20wdt%3AP3%20wd%3AQ10%20.%0A%20%20%20%20%3Fitem%20wdt%3AP1%20%3Furl%20.%0A%20%20%20%20%3Fitem%20wdt%3AP13%20wd%3AQ54%20.%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D
[3] https://github.com/SuLab/WikidataIntegrator

#opensource #wikidata #wiki

Читать полностью…

Ivan Begtin

Les grands embrasements naissent de petites étincelles

На сайте Сорбонны опубликована новость о том, что ведущий университет Франции прекратил свою подписку на Web of Science, а также перестанет использовать другие библиометрические инструменты Clarivate в 2024 году. На выходных эту новость подхватили многие наши коллеги после заметки Ивана Бегтина.

Такое решение обусловлено тенденцией к переходу от проприетарных продуктов к открытым и бесплатным инструментам. Вместо WoS Сорбонна будет использовать OpenAlex, с которым университет собирается заключить партнерское соглашение. В будущем ожидается, что обе стороны возьмут на себя обязательства по сотрудничеству и улучшению качества данных, относящихся к Сорбонне.

Решение Сорбонны подпадает под общий тренд последних лет, связанный с Open Access. Так, в анонсе Сорбонны упоминается Лейденский CWTS Ranking, который также заявляет о приоритетности открытых данных, стремится к полной прозрачности и воспроизводимости своих рейтингов при помощи CrossRef и OpenAlex. Кроме того, Лейденский Университет анонсирует версию «открытого издания» своего рейтинга на базе OpenAlex в 2024 году.

Про OpenAlex в качестве потенциального конкурента библиометрических баз, доступных по подписке, довольно позитивно отзываются и другие университеты:

• Библиотеки HKU, HKUST, Сингапурского университета менеджмента и Университета Калгари публиковали обзорные статьи про OpenAlex с примерами составления API-запросов;
• О преимуществах использования OpenAlex писал университет Хьюстона;
• Лаборатория Утрехтского университета предлагает использовать данные базы в проекте FAIR data;
• Университет Милана официально ссылается на данные OpenAlex в отчетах о научно-исследовательской работе;
• Политехнический университет Каталонии (BarcelonaTech) использует данные базы в рамках мониторинга открытого доступа в каталонских университетах.

Как видно из приведенных заметок, обращение к открытым данных пока ограничивается лишь рекомендациями и инструкциями. Однако уже сейчас очевидно, что инициативу Сорбонны в перспективе могут разделить и другие ведущие университеты. Ведь большие пожары зарождаются из маленьких искр.

#анонсы #новости #открытыйдоступ #университеты #openalex

Читать полностью…

Ivan Begtin

2023 год ещё не закончился, но уже время подводить итоги.

Предлагаю простую эстафету и рассказать про:
- 2 достижения в 2023 году
- 2-3 запланированных достижения/проекта/цели на 2024 год
- и одно пожелание на 2024 год.

Я не могу рассказать о многом чем занимаюсь, но об одном большом-любимом хобби переходящим в деятельность могу.

Достижения 2023 года:
- Создание общего индекса данных (https://github.com/commondataio/dataportals-registry, https://registry.commondata.io), около 9912+ порталов данных, репозиториев исследовательских данных, порталов с каталогами данных и т. д. MIT Лицензия
- Почти завершено исследование общих API, стандартов данных и практик, связанных с открытыми данными, включая DCAT, CKAN API, Dataverse API, OAI-PMH и около 20+ других.

Планируется на 2024 год:
- Запуск системы поиска данных на основе Common Data Index. Демо-версия уже завершена: проиндексировано около 6 миллионов наборов данных (начало 2024 г.).
- Обновить инструмент Metacrafter с открытым исходным кодом для автоматического определения семантических типов в индексе поисковой системы и создать облачную версию.

Пожелание на следующий год:
- Проиндексировать около 40-50 миллионов наборов данных в поисковой системе и, конечно, всем побольше мира.


Напишите в комментариях тут, или в своих телеграм каналах о своих итогах и планах, насколько работа позволяет об этом написать;)

#opendata #data #newyear #plans

Читать полностью…

Ivan Begtin

В качестве регулярного напоминания, портал открытых данных РФ (data.gov.ru) закрыт уже почти 8 месяцев, вероятность что на его месте создадут что-то другое ненулевая, вероятность что новый портал будет содержать все данные с предыдущего - нулевая.

Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.

Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.

Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip

#opendata #digitalpreservation #datacatalogs #russia #data #datasets

Читать полностью…

Ivan Begtin

Неожиданная новость, Университет Парижа (Сорбонна) с 2024 года отказывается от подписки на проприетарный библиометрический продукт Web of Science и библиометрических продуктов от компании Clarivate в пользу открытого OpenAlex [1].

Это очень хорошая новость для проекта OpenAlex в котором собрано уже более 247 миллионов научных работ [2], а теперь и подключаются ведущие университеты.

А я не могу не напомнить что это одна из крупнейших открытых баз данных научных исследований, доступная в виде полных дампов.

Ссылки:
[1] https://www.sorbonne-universite.fr/en/news/sorbonne-university-unsubscribes-web-science
[2] https://openalex.org/stats

#openaccess #opendata #biblography

Читать полностью…

Ivan Begtin

В рубрике закрытых данных в России, из открытого доступа убрали сведения о расположении кораблей в портах [1] [2], похоже во всех, поскольку мне пока не удалось найти порт в котором бы эта информация раскрывалась на официальном сайте. А также закрыли систему "Судозаходы в РФ" [3]. Ранее сведения из "Табло портов" [4] в этой системе были общедоступны, теперь доступны только для зарегистрированных пользователей. Не могу сказать когда именно эти сведения стали скрывать, но точно в последние 2 года, поскольку ещё в октябре 2021 года они были доступны.

Хотя эти данные и не были открытыми и машиночитаемыми, в машиночитаемую форму они легко превращались.

Ссылки:
[1] https://www.mapm.ru/Port/View_TrafficShip
[2] https://bsamp.ru/port-novorossiysk-vessels.php
[3] https://portcall.marinet.ru/index.php
[4] https://portcalltable.marinet.ru/

#opendata #closeddata #russia #transport #ships #ports

Читать полностью…

Ivan Begtin

Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess

Читать полностью…

Ivan Begtin

Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.

Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.

Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.

Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0

#opendata #international #china #readings #datasets

Читать полностью…

Ivan Begtin

Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.

Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.

P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.

Ссылки:
[1] /channel/begtin/3511

#laws #lawburden #data #statistics

Читать полностью…

Ivan Begtin

В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.

Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih

#privacy #data #regulation #laws #russia

Читать полностью…

Ivan Begtin

Подборка полезных ссылок для чтения про данные и не только:
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.

Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big

#opendata #data #ai #openaccess #readings

Читать полностью…

Ivan Begtin

MongoDB взломали [1] и, похоже, скомпрометировали как минимум часть паролей клиентов, но пока нет подтверждений что хакеры получили доступ к данным клиентов в MongoDB Atlas. В любом случае, для SaaS сервиса обеспечивающего хранение данных этот инцидент крайне неприятный, плохо отразится на бизнесе.

Ссылки:
[1] https://www.mongodb.com/alerts

#data #saas #mongodb #security

Читать полностью…

Ivan Begtin

Вышел новый релиз датасета Overture Buildings от Overture Maps [1], туда добавили данные из датасета Google и теперь единый набор данных составляет 2.3 миллиарда зданий против 1.4 в предыдущих релизах. Особенно много зданий добавлено в Азии.

Набор данных доступен в формате GeoParquet [2] и с примерами работы с ним на нескольких облачных хранилищах [3]

Данные доступны под лицензиями Odbl и CDLA Permissive 2.0.

Ссылки։
[1] https://overturemaps.org/overture-buildings-theme-hits-2-3b-buildings-with-addition-of-google-open-buildings-data/
[2] https://overturemaps.org/overture-december-2023-release-notes/
[3] https://github.com/OvertureMaps/data#data-release-feedback

#opendata #data #datasets #geodata

Читать полностью…

Ivan Begtin

В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives

Читать полностью…

Ivan Begtin

Почему я задумался о Wikibase и аналогичным проектам, потому что Airtable поменял уже какое-то время назад тарифы и теперь поддерживать там бесплатно большие таблицы невозможно. Какие-то таблицы вроде семантических типов данных и реестра каталогов данных я уже переносил в режим их редактирования в Github'е в виде тысяч YAML файлов. А теперь у меня закончилась квота на базы редактирования доменов, международных договоров и архивов сайтов. В общем что-то с этим надо делать и, либо найти альтернативу Airtable, либо перенести на Github и эти базы.

Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.

Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.

#opendata #datasets #data #government #domains

Читать полностью…

Ivan Begtin

Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.

И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.

Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc

#ai #readings #eu #norway

Читать полностью…

Ivan Begtin

Портал СП РФ "Госрасходы" (spending.gov.ru) снова недоступен. На сайте не указаны сроки проведения технических работ, поэтому остается только надеяться на то, что его работа будет возобновлена.

Читать полностью…

Ivan Begtin

IBM, Meta и ещё более 50 компаний и исследовательских центров создали AI Alliance [1] как Международное сообщество ведущих разработчиков, исследователей и адептов технологий, сотрудничающих вместе для продвижения открытого, безопасного и ответственного искусственного интеллекта. Туда же входят RedHat, Linux Foundation, Oracle, Intel и ещё много и много кто. Например, там есть Hugging Face, но, например, нет Kaggle, если мы говорим про крупные платформы/сообщества исследователей. Зато присутствуют Национальный научный фонд США (NSF) и NASA, единственные государственные организации на текущий момент.

Пока на сайте самого альянса мало информации [2], но явно будет больше интересного и полезного.

А самое главное что фокус усилий и действий альянса будет вокруг ИИ с открытым кодом.

Ссылки:
[1] https://newsroom.ibm.com/AI-Alliance-Launches-as-an-International-Community-of-Leading-Technology-Developers,-Researchers,-and-Adopters-Collaborating-Together-to-Advance-Open,-Safe,-Responsible-AI
[2] https://thealliance.ai

#opensource #ai

Читать полностью…

Ivan Begtin

Тем временем в Евросоюзе чиновники и законодатели согласовали свежий "Закон о ИИ" [1] который уже скоро примут и туда войдут многие положения по весьма жёсткому регулированию создания, применения и эксплуатации ИИ.

В частности будет запрещена эксплуатация ИИ следующих категорий:
- системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
- нецелевое извлечение изображений лиц из Интернета или записей с камер видеонаблюдения для создания баз данных для распознавания лиц;
- распознавание эмоций на рабочем месте и в учебных заведениях;
- социальный рейтинг, основанный на социальном поведении или личных характеристиках;
- системы искусственного интеллекта, которые манипулируют поведением людей, чтобы обойти их свободную волю;
- ИИ используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

За исключением таких задач как:
- целевые поиски жертв (похищение, торговля людьми, сексуальная эксплуатация),
- предотвращение конкретной и существующей террористической угрозы или
- локализация или идентификация лица, подозреваемого в совершении одного из конкретных преступлений

А также будут установлены требования к прозрачности ИИ продуктов и создание "песочниц" по контролем национальных властей для разработки ИИ малым и средним бизнесом без влияния глобальных корпораций.

Штрафы за нарушение могут достигать 7% от глобального оборота компании, так что последствия нарушений будут серьёзными, для многих компаний на кону может стоять принципиальное решение присутствовать или нет на рынке ЕС. Многое будет зависеть от того когда те или иные требования закона будут запланированы к исполнению.

Надо сказать что европейское регулирование резко контрастирует с отсутствием регулирования во многих странах или, к примеру, с российским регулированием в котором нет даже намёка на публичное раскрытие информации за исключением регулирования рекомендательных систем.

Ссылки:
[1] https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai

#ai #eu #legislation #regulation

Читать полностью…

Ivan Begtin

С некоторым удивлением и лёгким ужасом я убеждаюсь что в России из НКО с активной позицией в сторону защиты граждан в отношении ИИ в РФ осталась только РПЦ. Не могу даже описать как это контрастирует с развитой частью мира. Как думаете сможет РПЦ представлять интересы общества или, всё таки, это аномалия и должны появится/возродиться правозащитные организации в этой области?

Читать полностью…

Ivan Begtin

Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.

Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.

В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.

#internet #connectivity #digitalpreservation #archives

Читать полностью…

Ivan Begtin

Не могу не поделиться свежим наблюдением что большая часть тех кто занимался когда-либо открытостью данных в какой-то момент, если не меняют вид деятельности, перестают создавать сами данные и создают инструменты с помощью которых их можно готовить, публиковать, обрабатывать, анализировать и так далее. И у этого есть одно важнейшее объяснение, создавать хорошие данные дорого, если ты только не занимаешься этим постоянно или это не встроено в твой рабочий процесс (с). В более короткой версии этот тезис звучит как "создавать хорошие данные дорого" (с).

Почему так? Потому что создание любого более-менее качественного набора данных требует одновременно отраслевой и технической экспертизы. Например, разбираясь в кулинарии и аналитике можно создать датасет с ингредиентами, но без одного из этих навыков техническое или смысловое качество пострадает.

Поэтому открытость встраивают в процесс. Например, в научной среде открытые данные - это, в первую очередь, один из результатов научной деятельности наравне со статьями, тезисами, презентациями, кодом и так далее. Или открытые данные - это естественная производная от создаваемых банков данных. Аналогично для многих общественных проектов, открытые данные это дополнительный канал коммуникации с разработчиками. Данные публикуются как часть проекта или выделяются в отдельный, но во всех случаях они встроены в производственный процесс.

Собственно и большая часть усилий по убеждению правительств в публикации открытых данных всегда была не про выдумывание новых несуществующих ещё данных, а "давайте поменяем процессы так чтобы данные из государственных систем автоматически публиковались".

В общем создание хороших данных работает только если Вы создаёте данные непрерывно и можете их открыть.

Есть ли способы сделать данные более доступными? Можно пытаться снизить стоимость их производства. Например, я много экспериментировал с автоматическим созданием датасетов из бесконечного числа Excel файлов, DOCX и PDF файлов, типовых API и так далее. Извлечь данные таким образом можно, рассматривать их как качественные - нет. Часто невозможно собрать таким образом даже метаданные, описание и указание первоисточника.

Другие ищут уже опубликованные дата-файлы и пытаются интерпретировать эти находки. Как, например, в той статье о которой я упоминал и в которой авторы прошерстили Github и нашли там сотни миллионов файлов с данными.

Как бы то ни было, это известная и нерешённая проблема. И я вижу как многие уперевшиеся в неё переходят к созданию инструментов, а не датасетов.

#opendata #opensource #thoughts

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.

Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.

Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.

Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df

#readings #data #datasets #research #understandingdata #datadiscovery

Читать полностью…

Ivan Begtin

В рубрике любопытных инструментов по работе с данными GQL [1] утилита/оболочка по доступу к Git репозиторию через SQL-подобные запросы.

Запросы могут выглядеть, например, вот так:
- SELECT name, email FROM commits WHERE name LIKE "%gmail%" ORDER BY name
- SELECT * FROM branches

Автор явно перфекционист и вложил много усилий в SQL подобный парсер и сам инструмент, который полностью на написан Rust.

Почему я обращаю внимание на подобное, потому что это один из многих примеров восприятия мира как "всё данные" в форме "со всем можно работать через SQL".

Ссылки:
[1] https://github.com/AmrDeveloper/GQL

#opensource #datatools #git

Читать полностью…

Ivan Begtin

Для тех кто интересуется моими регулярными постами про семантические типы данных, я выложил в открытый доступ расширенный набор правил metacrafter-rules [1] для утилиты metacrafter [2].

В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.

Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.

Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter

#opensource #datatools #data #semanticdatatypes #understandingdata

Читать полностью…
Подписаться на канал