В рубрике как это устроено у них портал открытых данных Торонто [1], крупнейшего города Канады с численностью в 2.7 миллиона человек.
Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных
Любопытная надстройка с открытым кодом [2].
Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.
Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf
#opendata #canada #datacatalogs
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
В рубрике регулярного чтения про данные, технологии и не только:
Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.
Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage
Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.
Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.
Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en
#readings #opensource #data #datatools #ai #privacy
Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.
Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].
Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206
#ai #regulation #g7 #laws #ethics
В рубрике интересных наборов данных Платформа ИИ Минздрава РФ [1] с задачами и будущими конкурсами по теме ИИ на основе данных. Можно обратить внимание что пока Минцифры РФ уже который год пытается породить портал с данными для ИИ, а Минэкономразвития РФ ликвидировало портал открытых данных, у Минздрава вполне себе разумный по логике доступности и существования проект.
Пока там всего лишь 12 задач, с тем что первые задачи публиковались с ноября 2022 г. К каждой задаче есть датасеты и вполне себе немалого размера.
На этом хорошее всё, а теперь про плохое.
1. Для доступа к данным необходимо авторизовываться через Госуслуги
2. Одной авторизации недостаточно, регистрация лишь инициирует заявку на доступ которая рассматривается где-то внутри.
3. Кто реально за этой платформой стоит, кто за неё отвечает непонятно. Что странно, так не делают, людям которые делают такие проекты не должно быть стыдно за свою работу.
4. Вообще ничего нет про юридическую часть. Ни условий использования данных, ни их прослеживание, ни code of conduct и тд.
5. В разделе "Документы" к каждой задачи приведены ссылки на зарубежные исследования, а не исследования на основе этих данных.
В целом ощущения от инициативы что интенции может и хорошие, но думали про неё внутри Минздрава РФ мало и плохо.
Ссылки:
[1] https://ai.minzdrav.gov.ru
#data #datasets #russia #government #health
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.
В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.
Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.
Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.
Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf
#opendata #datasets #ai #research #data
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge
Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].
Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс
Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.
Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/
#gis #contests #challenges #geodata #opendata
Прекрасная история преподавателя на Python у которого навсегда забанили аккаунт для рекламы его курсов на Facebook [1] предположив что курсы про Python и Pandas - это курсы про работу с живыми питонами и пандами. Причём сделали это даже после ревью его аккаунта который однозначно показывал что его владелец учит программированию за деньги, а не дрессирует диких животных.
Что интересно так это то что из текста можно узнать о том что Facebook придерживается политики удаления данных в течении 180 дней и поэтому когда через год он через знакомых в Facebook'е попросил узнать за что же его забанили и как разбанить, оказалось что этих сведений уже нет. Пожизненная блокировка есть, а обоснований её уже нет.
Эта история одна из многих побуждающих к дискуссии о том что глобальные монополии с их правилами могут быть даже хуже чем взаимодействие с госорганами, у них может напрочь отсутствовать механизм аппеляции, например.
Ссылки:
[1] https://lerner.co.il/2023/10/19/im-banned-for-life-from-advertising-on-meta-because-i-teach-python/
#python #stories #facebook
В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.
В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.
Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.
А монетизация идёт через сервис аналитики для методистов [2].
Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org
#opendata #readings #texts #syllabus
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.
Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.
Но, исправили далеко не все!🤦♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.
По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.
Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.
Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
#privacy #reports #readings #personaldata #regulation
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.
Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.
Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/
#ai #analytics #llmops
19-20 октября, EDPC, полезное мероприятие по приватности в Москве. К участникам можно добавить и спикеров из Армении, меня можно равным образом относить к Армении и я там выступаю.
Я лично мероприятие рекомендую, там много интересных спикеров
—
🎓Eurasian Data Protection Congress - первое мероприятие по приватности, которое организовано сообществами и ассоциациями со всего мира. В нем примут участие 25 спикеров из России, Беларуси, Казахстана и Сербии. Это эксперты, компании, государственные и общественные организации, занимающиеся вопросами защиты персональных данных.
🕒Дата и время мероприятия: 19 октября 2023 года, 10:00
Формат: онлайн.
Стоимость для слушателей: бесплатно.
Язык: русский и английский.
Программа и трансляция EDPC - здесь🔗 и здесь🔗
🔗Добавить в календарь
🎓Оффлайн нетворкинг Евразийского конгресса по защите данных
📌Где: Офис Сити
🕒Дата и время мероприятия: 20 октября, сбор в 16:30
В программе крутейший нетворкинг и неформальное общение, информационный обмен, знакомство со спикерами и друг с другом, а также Обсуждение «ПРИВсущностей» и прошедшей конференции
"🔊РЕГИСТРАЦИЯ НА НЕТВОРКИНГ
(Нужно для оформления пропуска)
Всем отличной пятницы, помните, что самая лучшая пятница этой осени - уже через неделю😎
#events #privacy #russia
Для тех кто заботится о приватности по умолчанию, Consent-O-Matic [1] расширение для браузера Chrome автоматически закрывающее окна [1] с выбором объёма кук на которые Вы согласны.
Разработано командной из Aarhus University в Дании, поддерживает около 680 видов всплывающих окошек с запросом выбора режима сохранения кук.
На сайте есть, также, версия для Firefox и Safari и полностью открытый код [2]
Ссылки:
[1] https://chrome.google.com/webstore/detail/consent-o-matic/mdjildafknihdffpkfmmpnpoiajfjnjd
[2] https://consentomatic.au.dk/
#opensource #privacy #cookies
Свежая новость о том что Правительство РФ планирует выделить 250 миллионов рублей на раскрытие данных для бизнеса [1] в рамках разработки моделей ИИ. По нынешнему курсу это что-то около 2.5 миллионов долларов США. Много это или мало?
Примеры, навскидку:
- в 2014 году Правительство Великобритании создало два фонда Breakthrough Fund и Release of Data Fund на который ежегодно [2], общий их бюджет составлял 9.5 миллионов фунтов в год, он распределялся грантами по региональным и муниципальным властям чтобы те открывали свои данные.
- в Испании на языковые данные и технологии было выделено 330 миллионов евро на 2020-2026 годы и до этого 90 миллионов евро за 2016-2020 годы [3]
И таких примеров много, особенно, конечно, характерна модель "создания" наборов данных в России. В мире государства инвестируют в ИИ через грантовые программы ВУЗам и научным центрам и предоставление им и на их основе инфраструктуры для их открытой публикации. Те же испанцы публиковали языковые модели на Kaggle и Huggingface.
Судя по тому что я пока видел из активностей Минцифры РФ в этой области, я бы не ждал чего-то выдающегося. Тем более что, похоже, там сами до сих пор не знают что именно будет публиковаться, насколько открыто и так далее.
Ссылки:
[1] /channel/government_rus/9165
[2] https://www.gov.uk/government/publications/breakthrough-fund-and-release-of-data-fund
[3] https://plantl.mineco.gob.es/Paginas/index.aspx
#opendata #datasets #ai #russia
У меня тут основательно поднакопилось "долгов" по написанию длинных текстов и пока в приоритете те что пишу не на публику, поэтому и пишу реже, а некоторые запланированные статьи/тексты пытаюсь переосмыслить и, иногда отказываться от них. Например, пока я начал писать серию заметок про корпоративные каталоги данных то чем больше думал про них тем больше приходил к выводам о том что "Если вам нужен корпоративный портал [мета]данных, то поставьте DataHub и не парьтесь (с)". Благо он с открытым кодом, но не без своих нюансов. Сравнивать платные глобальные продукты для большинства российских пользователей смысла нет, а open source продукты сейчас сводятся к DataHub или OpenMetadata. В итоге лонгрид не выходит, могу лишь напомнить про предыдущий текст Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно? [1] можно прочитать на Substack. Честно говоря я очень не люблю вот так останавливать мысль на полпути, поэтому может быть я к ней ещё и вернусь.
Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.
Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#thoughts #data #opendata #texts #reflections
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):
В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале /channel/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате /channel/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am
В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.
Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.
Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.
#opendata #russia #armenia #projects #digitalpreservation
Из любопытного на стыке приватности и ИИ, анализатор политик приватности, сервис Make Privacy Policies Understandable with the power of AI [1] на вход получает ссылку на политику приватности на английском языке, на выходе декомпозированные пункты того что в ней содержится.
Там есть некоторое число примеров, Tinder, Twitter, Vimeo, Github и другие, можно посмотреть их прямо на сайте.
Визуально выглядит пока что не очень и полнота разбора / перевода политик в понятный вид, тем не менее сервис даёт надежду на то что в будущем можно автоматизировать создание аналога ToSDR [2] с ИИ внутри.
Сам проект можно отнести к тем проектам LegalTech которые нацелены на то чтобы сократить потребность в юристах.
Ссылки:
[1] https://parsepolicy.com
[2] https://tosdr.org
#privacy #ai
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].
Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.
Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.
Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.
При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.
Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.
Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.
Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai
#opendata #closeddata #russia #ai #moscow
Кстати, а обратили ли вы внимание что англоязычные версии сайтов многих российских органов власти более не существуют или не обновляются? Например, у Минцифры РФ англоязычная версия не обновлялась с 2015 года [1], и ссылки с русскоязычной версии сайта на неё давно нет.
Но китайской версии тоже нет, или французской, например, хотя в Африке говорят в основном на английском и французском и это, типа, потенциально приоритетный рынок. Как и арабский язык, на котором тоже нет.
Вывода у меня из этого никакого нет, кроме того что большая часть разговоров про международные отношения у российских регуляторов с мировыми - это так, болтовня. Нет ничего такого или, настолько закрыто что можно не обращать внимание.
Ссылки:
[1] https://digital.gov.ru/en/
#government #regulation
По поводу ЦБ РФ и "закрытой комнаты" со статистикой [1], когда данные передаются исследователям внутри физически закрытой инфраструктуры - это совсем не новая идея.
Подобное достаточно давно есть во многих странах. Например, в Великобритании довольно давно существует служба UK Data Service [2] обеспечивающая доступ учёных к инфраструктуре данных имеющих "особую чувствительность", вплоть до персональных данных в некоторых случаях.
У службы есть три режима распространения данных [3]:
- открытые данные: свободные лицензии CC-BY или OGL и свободное скачивание
- защищённые данные: можно скачать после регистрации и соглашения со специальной лицензией
- контролируемые данные через SecureLab: Доступ к слишком подробным, деликатным или конфиденциальным данным осуществляется через SecureLab. После регистрации опытные исследователи могут подать заявку на доступ к контролируемым данным.
SecureLab - это специальное ПО и режим доступа к данным только с контролируемых рабочих мест, с полной записью процесса доступа к данным. Сессия пользователя записывается и сохраняется, на случай нарушения пользователем соглашения о доступе к данным. Данные нельзя скачивать, только сохранить результаты своего исследования.
В основном такой режим доступа распространяется на детальные данные переписей, опросов и детальных показателей по бизнесу. В UK многие индикаторы индивидуальные для компаний, в отличие, к примеру, от России, являются коммерческой тайной и доступны только при соблюдении определённых условий.
В чём важные характеристики UK Data Service:
1. Есть общий открытый общедоступный каталог данных где перечислены все наборы данных: открытые, закрытые, охраняемые [5]. Это означает что нет ситуации когда Вы не можете запросить данные просто поскольку не знаете о их существовании.
2. Даже закрытые данные доступные через SecureLab тщательно документированы и документация общедоступна [6]
3. К каждому набору данных приложены не только данные (для открытых данных или доступных после регистрации), но и результаты исследований на их основе [7]
Кроме Великобритании такая практика есть во многих странах, я бы даже сказал что почти во всех развитых странах, где-то это организованно системно, где-то на соглашениях исследовательских центров и статистических служб, центральных банков и тд.
—
Подобная практика является хорошей и допустимой при соблюдении баланса открытости и приватности, публикации документации, общедоступного каталога и при том что в закрытой части оказываются только, действительно, чувствительные данные.
Иначе говоря, если ЦБ РФ даст исследователям доступ к данным которые ранее не раскрывались и затрагивают коммерческую тайну или иные ограничения - это скорее хорошая практика, эти данные и не могли бы быть открытыми.
А если ЦБ РФ перенесёт в "закрытую комнату" ту статистику что они публикуют сейчас и она исчезнет из открытого доступа или резко сократится в объёме и детализации, то это будет исключительно плохим шагом для рынка, общества и так далее.
Поскольку подробностей пока нет, я лично не знаю какой сценарий тут предполагается.
Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2023/10/24/1002303-tsb-sozdat-komnatu-s-zakritoi-statistikoi
[2] https://ukdataservice.ac.uk
[3] https://ukdataservice.ac.uk/find-data/access-conditions/
[4] https://ukdataservice.ac.uk/cd137-enduserlicence/
[5] https://beta.ukdataservice.ac.uk/datacatalogue/studies/?Search=#!?Search=&Rows=10&Sort=0&DateFrom=440&DateTo=2023&AccessFacet=Controlled&Page=1
[6] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/documentation
[7] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/resources
#opendata #banking #cbrf #data #datasets #datacatalogs
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.
Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.
В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.
Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.
Ссылки:
[1] https://conferences.unite.un.org/uncorpus
#opendata #un #datasets #languages #translation
Сегодня я выступал на EDPC [1] с темой Прозрачность политик приватности как необходимая часть политик компаний про то как ведущие компании ведут свои политики приватности и этики в открытом доступе. Частично выступление есть в моей презентации [2], а через какое-то время будут доступны и записи выступлений на сайте мероприятия.
У многих выступающих звучала явно или опосредовано мысль про ухудшение регулирования данных в России, кто-то говорил о том что "Россия и раньше не была нормальной юрисдикцией, а что уж говорить и сейчас", а я лично не устаю повторять что "акулы почуяли кровь" (с), регуляторы почувствовали безнаказанность и готовы жертвовать экономикой ради цензуры.
И тут, как будто неслучайно, появилась новость на РБК о поручении Президента РФ по переносу игр в доменную зону .ru/.рф [3]. А почему раньше глобальные игроки этого не делали? Может быть из-за изуверских российских законов в этой области? Может быть из-за свежих законов, постановлений Пр-ва и приказов служб и министерств усиливающих право госструктур на то чтобы залезать в любые данные любых компаний? Игровая индустрия в этом смысле глобальна, юрисдикции выбираются по критериям возможности приёма платежей (штат Делавэр в США или Сингапур), по адекватности регулирования работы с данными и по техническим возможностям (отклику при передаче данных), а также по цене инфраструктуры.
Но я скажу ещё и о другом. Российское регулирование в последние годы особенно сильно скатилось к модели "президент поручил" или "вот мы такое придумали". Теперь в его основе почти никогда нет заранее проведённого анализа, исследования, подкреплённых фактами обоснований, доводов за или против и тд. Есть лоббисты обладающие административным ресурсом протаскивающие любую ересь под соусом безумности контекста и есть госолигархия и госаппарат протаскивающие усиление государственного контроля.
Здесь хотелось бы добавить какой-то не слишком пессимистичный вывод, но оптимизма мало.
Ссылки:
[1] https://edpc.network
[2] https://www.beautiful.ai/player/-Nh7XHE3Ae2sXhVDyRZz
[3] https://www.rbc.ru/technology_and_media/19/10/2023/6531212f9a794737466a98ab
#privacy #personaldata #regulation
Полезное чтение про данные, технологии и не только:
- Generative AI Prohibited Use Policy [1] политика Google по продуктам Generative AI. Документ от марта 2023 года, хорош своей лаконичностью, многим нормотворцам на заметку. Саморегулирование в области ИИ должно быть, в том числе, таким.
- TileDB closes a $34M Series B round [2] про стартап TileDB облачной и с открытым кодом СУБД который привлёк раунд B инвестиций на $34M. Из особенностей продукта это ориентация на данные в виде массивов и адаптированность под данные для машинного обучения и геоданные
- Where is data diplomacy happening? A reading list [3] о том где и как происходит "дипломатия данных" в мире. Неплохой список, со ссылками на практические инициативы, книги и научные статьи.
- From Data to Decision Intelligence: The Potential of Decision Accelerator Labs [4] новый-старый термин Decision Intelligence в статье Stefaan G. Verhulst о недостаточности решений основанных на данных и необходимости их интеграции с существующими процессами, практиками, жизненным опытом и так далее. Термин давно встречается в контексте продуктов для business intelligence [5]
- Ranking Nations [6] книга за авторством Stephen Morse о том как читать и понимать рейтинги стран основанные на статистических показателях. Книга свежая, я лично её ещё не читал, но скорее всего запланирую на ближайшие месяцы. Судя по описанию она весьма полезна для развития критического мышления в приложении к глобальным оценкам.
Ссылки:
[1] https://policies.google.com/terms/generative-ai/use-policy
[2] https://tiledb.com/blog/tiledb-closes-series-b-to-advance-the-vision-of-the-modern-database
[3] https://medium.com/odi-research/where-is-data-diplomacy-happening-a-reading-list-45ce5eddf016
[4] https://medium.com/data-stewards-network/from-data-to-decision-intelligence-the-potential-of-decision-accelerator-labs-33f4060734a8
[5] https://en.wikipedia.org/wiki/Decision_intelligence
[6] https://www.e-elgar.com/shop/usd/ranking-nations-9781800886308.html
#readings #ai #data #policies #statistics
В Rest of world статья о стереотипах о странах заложенных в генеративные ИИ [1]. Например, Indian person обычно старый мужчина с бородой, Mexican person обычно мужчина в сомбреро, а American person чаще женщина и чаще блондинка на фоне флага.
В целом статья о том как генеративный ИИ сужает мир до стереотипов и в этом мало хорошего, впрочем эта проблема на поверхности и точно будет решаться в новых моделях, инструментах, практике их применения.
Ссылки:
[1] https://restofworld.org/2023/ai-image-stereotypes/
#ai #generativeai #sterotypes #readings
Полезные ссылки про данные, технологии и ИИ
Проекты
- Polymatic AI [1] свежеанонсированный проект про разработку ИИ моделей для кросс-дисциплинарных исследований в науке. Потенциально интересный продукт может получится, команда состоит из специалистов по ML и предметных экспертов
Инструменты
- Malloy 4.0 [2] свежая версия языка/инструмента Malloy для сложных запросов к базам данных, один из потенциальных заменителей SQL для тех кто не любит SQL. В новой версии много несовместимого с предыдущей, постепенно растёт в очень интересный продукт
- Python 3.12 [3] главные изменения в чуть большей скорости работы, в остальном пока ничего не видно критичного ради чего на него стоит переходить
Чтение
- These Prisoners Are Training AI [4] о том как заключённые в Финляндии помогают тренировать модели для ИИ. В самом деле, а где ещё найти много недорогой рабочей силы для тренировки моделей на национальных языках?
- AI Engineer Foundation [5] новый фонд посвящённый ИИ инженерам. Обещают акцент на Open Source, из анонсированных проектов Agents Protocol, A unified interface standard for the world to communicate with Agents that conform to the protocol. Предлагают также помогать маркетингом проектам для ИИ с открытым кодом.
- Ben Bites [6] отличная рассылка посвящённая свежим ИИ продуктам и сервисам, часть ссылок я подсмотрел там
Ссылки:
[1] https://polymathic-ai.org/
[2] https://malloydata.github.io/blog/2023-10-03-malloy-four/
[3] https://docs.python.org/3/whatsnew/3.12.html
[4] https://www.wired.com/story/prisoners-training-ai-finland/
[5] https://www.aie.foundation/
[6] https://bensbites.beehiiv.com/subscribe?ref=ZCof81aeyC
#data #datatools #opensource #ai #readings
У технической команды Dropbox интересная публикация про идентификацию дат из названий файлов [1] и автозаполнение полей форм при их загрузке.
Хорошая практическая задача, а тут ещё и описание подхода и инструментов. Правда почти всё описываемое про англоязычные даты, но, возможно, другие языки просто не описаны.
Причём подход описывается как замена распознаванию дат по правилам. Правда ML подход работает медленнее, о чём они пишут.
А я когда-то делал инструмент для идентификации дат в тексте. Это библиотека qddate (quick-and-dirty date) [2]. Я написал её около 10 лет назад, а 6 лет назад её обновил и выложил в открытый доступ. С тех пор почти не обновлял. Что я могу сказать, так то что распознавание по правилам недооценено и может быть гораздо эффективнее и быстрее. Правда, в qddate я решал задачу производительности и внутри много "грязных хаков" ускоряющих распознавание дат, но, в общем, это из тех задач для которых я считаю ML избыточным.
Хотя и на результат которого достигли эти ребята хотелось бы посмотреть подробнее.
Ссылки:
[1] https://dropbox.tech/machine-learning/using-ml-to-identify-date-formats-in-file-names
[2] https://github.com/ivbeg/qddate
#datatools #data #ml
В Великобритании правительственная цифровая служба анонсировала [1] сервис создания форм для госагенств GOV.UK Forms [2].
Идея проста, сделать универсальный генератор форм которые могли бы создавать специалисты без технических знаний. Аналог TypeForm, Google Forms и других коммерческих продуктов, но с учётом требований и особенностей госорганов.
Продукт чрезвычайно похож на Сингапурский государственный проект FormSG [3] который ещё и существует с открытым кодом и построенном на тех же принципах, конструктора форм, кроме всего прочего поддерживающего аутентификацию через государственных и частных провайдеров аутентификации в Сингапуре.
Что характерно, FormSG - это открытый код, можно скачать его себе и использовать даже не будучи государственным агентством.
Интересный вопрос в том почему только в Сингапуре и Великобритании есть такие проекты?
Ссылки:
[1] https://gds.blog.gov.uk/2023/10/03/how-were-opening-up-access-to-gov-uk-forms/
[2] https://www.forms.service.gov.uk
[3] https://form.gov.sg
#opensource #govtech #government #singapore #uk
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive