Про чистку ведомственных баз данных от излишков информации. Часть 2 из 2
Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?
Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.
Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.
Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.
При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше
Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу
#opendata #closeddata #russia #data #itmarket
В рубрике интересных наборов данных Subnational HDI [1] индекс человеческого развития на региональном уровне, например, департаментов во Франции, субъектов федерации в России, штатов в США и тд. Публикуются Global Data Lab, единственное ограничение просят зарегистрироваться у них на сайте перед выгрузкой,
На основе их данных есть самая простая визуализация по регионам.
А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.
Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]
Визуализация получается весьма наглядная.
Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044
#opendata #datasets #un #dataviz
Здравствуйте, начинаем наше дистанционное заседание Комиссии по делам меньшего зла
Итак, первый вопрос, статс секретарь Министерства забивания козла
Докладывает по вопросу планов министерства по злодействам на этот год
Что? Вызвали к министру. Мне вот тут пишут что сегодня он не придёт.
Очень, жаль, это был важный вопрос про планы министерства
Ну да ничего, у нас тут ещё много разного пионерства
Второй вопрос, давний и очень интересный
Как сообщать цифровым образом о злодействах
Докладчиком у нас представитель ГлавЗлодейРегистрации
Прошу Вас начинать Ваши инсинуации
Знаете, мы тут подготовили целую концепцию
Очень планировали обсудить и получить Вашу акцепцию
Но в виду смены нашего ГлавЗлодейРегистрации руководителя
Мы пока вынуждены повременить с исполнением поручения нашего властителя
Сейчас наша концепция проходит внутреннее согласование
Прошу взять паузу, извините и спасибо за внимание
Как же так, второй вопрос сегодня и тоже без обсуждения
Выражаю, как модератор, сам себе осуждение
Мы, честно говоря надеялись, обсудить вопрос обстоятельно
Ну раз так, то в следующий раз обсудим обязательно
Однако, же дорогие друзья-алкоголики
Что-то не очень у нас работает АНО "Доведения до коликов"
Третий вопрос, важная государственная веха
Обсуждаем создание ЗлодейТеха
Для тех кто может быть подзабыл о чём идёт речь
Мы себя, к сожалению, не смогли уберечь
И на нас свалилось большое поручение
Взять ЗлодейТех на попечение
От нас ждут важного ответа
Должен ли быть ЗлодейТех зелёного цвета
Хорошо танцевать, иметь хобот и большие размеры
Просирать, простите, полимеризировать особо крупные полимеры
У нас сегодня об этом расскажет представитель Алкогольного Цеха
И зелёный представитель зелёного лоббиста ЗлодейТеха
Прошу, не стесняйтесь, расскажите и ответьте на вопросы
Мы все вас очень просим
Здравствуйте, мы ранее направили все материалы
Там перечислены наши фамилии и инициалы
Мы что-то там напридумывали, пока очень абстрактно
Ваше мнение нам будет услышать очень приятно.
А можно вопрос? (голос из группы).
Каково место частных злодеев в Вашей ЗлодейТех'овской труппе?
У нас тут больше 20 лет опыта частного крупного злодейства
Работаем со всем, от адмиралтейства до плебейства
Очень хотим понять нашу будущую роль в этой системе
И как, немного больше, расскажите по теме
Спасибо за Ваш вопрос, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А у меня вот тоже есть комментарий.
Я хоть и простой злодей-пролетарий
Но не могу не усомниться в Ваших материалах
Потому что материалов категорически мало
Расскажи подробнее о том что запланировали
Чтобы мы Ваш ЗлодейТех санкционировали
И за Ваш вопрос, спасибо, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А я вот всячески Вас поддерживаю во всех формах
Нам региональным злодеям надоело это уже по горло
Нет нормальных типовых злодейских решений
Очень жду Ваших больших зелёных свершений
Спасибо и это вопрос тоже, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
Коллеги, время у нас выходит и прокомментирую как модератор
Представленный вопрос тоже выглядит сыровато
Какое-то у нас в этот раз немного скомканное мероприятие
Но хорошо что от вируса ни у кого нет кондратия
Попросим коллег и этот вопрос проработать альтернативы
Может быть зло может быть не только зелёным, но и синим?
Давайте предложим и другим большим танцующим травоядным
Свои предложения представить в виде приглядным
На этом всем спасибо, заканчиваем наше заседание
И до майской встречи< всем до свидания
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого есть ещё одна немаловажная причина.
Из России и большей части развивающихся стран это мало заметно, а в развивающихся - это просто таки очевидно что темы геоданных и научных данных просто таки поглощают тему открытых данных.
Как и почему это происходит?
Причин несколько:
1. Для геоданных наиболее просто доказывпаь экономическую эффективность. Если их закрыть даже на время,то от этого гарантированно многие пострадают и у них есть большой пул пользователей. Иначе говоря - они доказано нужны.
2. Существовавшие порталы и ПО этого почти не учитывали. Продукты вроде CKAN или Socrata были сконцентрированы вокруг сохранения, харвестинга, метаданных вокруг данных любого типа, без визуализации геоданных, без учёта их разнообразия и специфики
3. На рынок вышла компания Esri с их ArcGIS Hub и портал открытых данных или портал геоданных как сервис. В США они ещё несколько лет назад прошли все комплаенс проверки FedRAMP [2], в результате при госзаказе им гораздо легче выиграть создание любого облачного сервиса
4. Для геоданных в развивающихся странах и странах где экономят деньги стали очень популярны продукты вроде Geonetwork и GeoNode. И там, и там предусмотрено ведение каталога данных. Geonetwork гораздо лучше адаптирован для хранения данных особо большого размера и, на самом деле, Geonetwork был и остаётся конкурентом не только геосервисов, но и каталогов открытых данных в которых ранее хранились геоданные.
В результате сейчас ситуация такова что наборов геоданных не просто количественно больше чем всех остальных доступных данных, но и, например, Esri заменили своим ArcGIS Hub значительную часть порталов открытых данных или продали стоящий рядом портал геоданных в отдельных штатах США ( DC, NE , CT) и ещё больше внедрений в отдельных городах, они довольно успешно конкурируют с Socrata, основным игроком создания госпорталов данных в США.
Про Geonetwork я много раз писал, по сути в рамках программы INSPIRE почти все страны ЕС развернули именно этот софт для интеграции геоданных и его всё больше по другим странам, причём нигде списка всех инсталляций нет, хотя их реально где-то 100+, с большим числом наборов данных там опубликованных.
И это только про геоданные, другая сторона открытости данных в том что наиболее устойчивыми их потребителями оказались исследователи. Конечно есть разработчики использующие API или большие выгрузки, аналитики и тд., но концептуальные замечания и массовость употребления исследователями происходит ещё и от того что что большая часть больших научных данных финансируется гос-вом, и сочетание требований по обязательной их публикации и расширению их использования привело к тому что научные данные составляют существенную их часть.
Я упоминал несколько раз о том что публикуется в США на портале data.gov. Так вот там не 3/4 данных - это геоданные (193 тысячи наборов данных из 257 тысяч), в значительной степени произведённых научными учреждениями NASA, USGS, NOAA, И это при том что data.gov пока не индексирует крупные научные репозитории данных вроде Harvard Dataverse в США и ещё довольно многие.
Поэтому хотя и открытые данные оставались и остаются важным инструментом открытости государства, естественных монополий и тд., сильный фокус последних лет на очень практических областях, таких как я сейчас пишу.
#opendata #datasets #usa #datacatalogs #geodata
Полезное чтение про данные, технологии и не только:
- 🌶 Hot Takes on the Modern Data Stack [1] - несколько интересных мыслей про современный стек данных, особенно актуально для тех кто работает с этими сервисами регулярно
- 🗄 How we made our reporting engine 17x faster [2] про ускорение системы отчётов в 17 раз через миграцию на движок BigQuery (облачный сервис Google). Любопытно, технические подробгости
- 💭 The new philosophers. How the modern data stack falls out of fashion. [3] у Benn Stancil размышления о том что развитие ИИ изменит существующий ландшафт продуктов по работе с данными и что к этому надо быть готовыми. Он же о том что Modern Data Stack и Generative AI плохо совместимые идеологии.
- 🗂 Using DuckDB with Polars [4] автор пишет про комбинацию этих двух новых инструментов, комбинация хорошая, надо брать
- 💰 Announcing Cybersyn’s $62.9M Series A [5] стартап Cybersyn по предоставлению доступа к открытым госданным через Snowflake поднял $62.9 инвестиций. Можно им только позавидовать, я для нашего сервиса Datacrafter всё ещё ищу инвестиции. Видимо надо делать сразу на маркетплейсы и не в России;) А Cybersyn стартап интересный, инвестиции для этого рынка большие.
Ссылки:
[1] https://mattpalmer.io/posts/hot-takes/
[2] https://medium.com/teads-engineering/how-we-made-our-reporting-engine-17x-faster-652b9e316ca4
[3] https://benn.substack.com/p/the-new-philosophers
[4] https://towardsdatascience.com/using-duckdb-with-polars-e15a865e48a3
[5] https://www.cybersyn.com/blog-series-a/
#opensource #startups #readings #data #dataengineering
Давно планировал написать о том почему не надо хранить и публиковать данные как CSV файлы.
Для тех кто не знает, CSV - это чрезвычайно популярный формат для сохранения табличных данных и в этом формате, обычно, экспортируют и импортируют данные в базы данных, выгружают из редакторов вроде Excel и активно используют в задачах связанных с машинным обучением и анализом данных.
Почему? Потому что он предельно прост. Первая строка - это перечень названий полей через разделитель, а далее каждая строка файла - это строка из базы данных где последовательно значения по этим полям. Разделителем, обычно, выступает запятая (,), но также часто используют: символ табуляции (\t), пайп (|), точку с запятой (;) и др.
У этой простоты есть и своя цена:
1. Файлы CSV не содержат метаданных о типах полей. Эти типы надо определять из внешнего источника или угадывать
2. При плохой реализации, велика вероятность ошибки и того что в CSV файле будут ошибки форматирования и какие-то записи могут быть прочтены неверно.
3. Диалектов очень много, это и разделители разные, выделение текста в кавычки, и разный подход к прочтению и сохранению записей с переносами строк и тд.
Об этом немало публикаций есть уже давно:
- Why You Don’t Want to Use CSV Files [1]
- Stop Using CSVs for Storage — This File Format Is 150 Times Faster [2]
- Why should you use Parquet files if you process a lot of data? [3]
Тем не менее CSV активно используют из-за его простоты. Особенно если надо сделать CSV файл из Excel файлов. Это очень распространённое явление где открытые данные были обязательными для госслужащих, это привело к тому что массово они публиковали данные в CSV формате просто сохраняя Excel файлы. Но файлы Excel не обязательно устроены так что первая строка это заголовки и последующие - это данные, часто это сложные формы и разные нетривиальные способы записи данных. Поэтому очень многие CSV файлы на госпорталах использовать автоматически не получается, приходится их проверять и чистить вручную.
Но открытые данные - это одно, а есть и просто повседневная работа с данными где у CSV должны быть альтернативы и они есть. Самая очевидная - это стандарт Frictionless Data [4] который сохраняет CSV файл внутрь ZIP контейнера и вкладывает в этот контейнер файл манифеста с метаданными, то какой там разделитель и какие типы полей. Формат на выходе называется data package и его начинают применять на некоторых научных системах хранениях данных.
Другой путь - это в сохранении данных в формате Apache Parquet [5] - это специальный открытый формат для колоночного сохранения данных. У него немало достоинств, они легко гуглятся и несколько ссылок я привел выше, но главный в том что данные ещё и хорошо сжимаются и невероятно удобны и быстры для анализа. В Parquet файлах колонки хранятся по отдельности и сжимаются по отдельности. Уровень их сжатия гораздо выше чем у CSV файлов, поскольку часто колонки имеют всего несколько значений и содержать, по сути, не уникальные значения, а словари. Parquet позволяет хранить данные в меньшем объёме и гораздо быстрее их загружать в любой инструмент работы с дата-фреймами, такими как библиотеки Pandas и Polars.
Есть и другие альтернативы, но эти самые очевидные. Если есть желание опубликовать или обмениваться большими CSV файлами, особенно для задач анализа, то лучше использовать не CSV, а эти или другие альтернативы.
Ссылки:
[1] https://haveagreatdata.com/posts/why-you-dont-want-to-use-csv-files/
[2] https://towardsdatascience.com/stop-using-csvs-for-storage-this-file-format-is-150-times-faster-158bd322074e
[3] https://datos.gob.es/en/blog/why-should-you-use-parquet-files-if-you-process-lot-data
[4] https://frictionlessdata.io/
[5] https://parquet.apache.org/
#opendata #datasets #data #dataformats #datastandards #csv #likbez
NIST Trustworthy & Responsible AI Resource Center [1] ресурсный центр при Институте стандартов и технологий (NIST), США. Как понятно из названия полностью посвящённый регулированию, стандартам, рекомендациям по доверительному и ответственному ИИ.
Из важного там, дорожная карта разработки и развития Artificial Intelligence Risk Management Framework (AI RMF 1.0).
Даже интересно где раньше в США, Китае или ЕС первыми разработают и обяжут применять полноценную аттестации ИИ и что делать с бесконечным и растущим числом open source моделей обучаемых за три копейки.
Как бы то ни было полезный ресурс для мониторинга будущего регулирования этой области в США
Ссылки:
[1] https://airc.nist.gov/
#ai #regulation
В качестве регулярных напоминаний о чём я здесь пишу, для свежеподписавшихся.
Я регулярно пишу про технологии, работу с данными, открытые данные, приватность, цифровые архивы, научную инфраструктуру и использование технологий в гос-ве и крупных корпорациях. Пишу как про очень практические и технологические вещи, так и про госполитику в этой области, регуляторные аспекты, научные исследования, аналитику и так далее. Поэтому читать этот канал может быть не всегда просто для тех кто интересуется только технологиями и их применением и для тех кто наоборот интересуется регулированием и исследованиями.
Для больших текстов пишу в рассылку на Substack https://begtin.substack.com
Для текстов на английском пишу в блоге в Medium ibegtin" rel="nofollow">https://medium.com/@ibegtin
Я возглавляю российскую НКО Инфокультура @infoculture, от которой мы создаём такие технологические проекты как:
- Национальный цифровой архив https://ruarxive.org (подписывайтесь на @ruarxive)
- Каталог каталогов данных https://datacatalogs.ru
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Простой русский язык https://plainrussian.ru
- Хаб открытых данных https://hubofdata.ru
и другие.
Вернее пока ещё можем создавать, учитывая что происходит в стране с другими НКО, неизвестно сколь долго это будет возможно.
Последняя моя аффиляция с государством была в создании проекта Госрасходы spending.gov.ru в Счетной палате РФ и закончилась его запуском, в СП РФ проект всё ещё существует и развивается. Вот уже более 3 лет как занимаюсь только коммерческими и общественными проектами, консалтингом и преподаванием.
Регулярно пишу про свои пэт проекты https://github.com/ivbeg, до сих пор много пишу кода и стараюсь делать руками.
Всё это к тому что подписываясь на этот канал не удивляйтесь текстам по всем этим темам и если Вы подписывались в ожидании текстов по общеполитическим вопросам, то их тут крайне мало, а если интересуетесь технологиями в перечисленных направлениях - то надеюсь Вам будет интересно!
#opendata #about
В рубрике полезных наборов данных по России, общедоступные точки подключения к ArcGIS государственных и научных порталов:
- https://agoracle.asutk.ru/arcgis/rest/services
- http://apieatlas.mos.ru/arcgis/rest/services
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gisn.kgilc.ru:6443/arcgis/rest/services
- https://gisnao.ru/arcgis/rest/services/
- http://gis.rkomi.ru/arcgis/rest/services/
- https://karta.yanao.ru/arcgisserver/rest/services
- https://lgtgis.aari.ru/arcgis/rest/services
- http://map.govvrn.ru/arcgis/rest/services
- http://maps1.dvinaland.ru/arcgis/rest/services
- https://meteo-dv.ru/arcgis/rest/services/
- https://portal.shipsea.ru/arcgis/rest/services
У ArcGIS серверов нет указания на лицензии и право повторного использования данных, поэтому используйте на свой страх и риск. Большая часть этих порталов упомянуто в каталоге каталогов datacatalogs.ru и уже в расширённом объёме они будут в проекте Common Data Index
#opendata #datasets #geospatial #geodata #data #arcgis
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.
Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.
Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.
В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут сжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.
Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.
Ссылки:
[1] /channel/begtin/4714
[2] /channel/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] /channel/begtin/4764
#opendata #russia #opengov #dataportals
Вышел стенфордский доклад 2023 AI Index Report [1] о состоянии ИИ за 2022 год и немного за 2023, доклад подробный и интересный, я о его содержании ещё попозже напишу подробностей, а пока 14 графиков на основе этого доклада [2].
В основном про США, но не только.
Графики неплохо передают состояние развития технологий, но, конечно, текст доклада важнее.
На одном лишь я сделаю особый акцент. В США лишь 0.67% выпускников с PhD по ИИ работают на государство. А 65.4% на корпорации и 28.2% в исследовательских центрах.
Не только роль государства, но и и компетенции отсутствуют в системе госуправления, в данном случае США, но думаю что это справедливо для всех стран.
Ссылки:
[1] https://aiindex.stanford.edu/report/
[2] https://hai.stanford.edu/news/2023-state-ai-14-charts
#ai #reports
В рубрике интересных цифровых гуманитарных проектов The Atlas of Early Printing [1] Атлас ранней печати и то как она распространялась по Европе, вплоть до Кракова и Стамбула. Про не-европейские страны практически ничего, про европейские наглядная карта.
Как и многие проекты в области цифровой гуманитаристики, фокус внимания здесь на визуализации, а не на данных. Данных там немного и в виде набора данных команда проекта его не раздаёт, поскольку цель в создании наглядности.
Другой прекрасный проект MANTO [2] наглядное представление мест в греческих мифах. Здесь гораздо больше данных и они тщательно связывают источники, места, мифы, персонажей.
Ещё один яркий проект A vision of Britain through time [3] с наглядной визуализацией статистики и фактов о Великобритании сделанное с большой аккуратностью и наглядностью.
P.S. Я буду время от времени писать про проекты в области цифровой гуманитаристики, разбавляя поток текстов про технологи и государство. Эти тексты будут по тегу #digitalhumanities
Ссылки:
[1] http://atlas.lib.uiowa.edu/
[2] https://www.manto-myth.org
[3] https://www.visionofbritain.org.uk/
#digitalhumanities #data
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.
В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.
Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.
Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.
RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].
Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/
#opendata #openaccess #openscience
В рубрике как это устроено у них портал раскрытия данных о переписях в Индии Census Digital Library [1] создан на базе открытого ПО NADA для публикации микроданных, я писал о нём совсем недавно [2].
Этот портал включает более 29 тысяч наборов данных и охватывает данные переписей начиная с 1901 года. Это больше чем на российском госпортале открытых данных о его закрытия.
А это лишь один из порталов публикации открытых данных в Индии.
Например, на портале data.gov.in опубликовано более 600 тысяч ресурсов, большая часть в форме машиночитаемых данных под свободными лицензиями.
А портал раскрытия данных переписей интересен крайне подробными метаданными по каждому набору данных и существенной гранулярностью, данные переписи там представлены с детализацией до округов (districts) и на их основе можно анализировать и визуализировать данные на довольно детальном уровне.
Такой способ публикации данных тоже не идеален, ведь большая часть файлов на портале в Excel формате, там не менее масштаб раскрытия данных и их использование весьма значительны.
Ссылки:
[1] https://censusindia.gov.in/nada/index.php
[2] /channel/begtin/4710
#opendata #datasets #india
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.
В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.
В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.
Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.
Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/
#opendata #openaccess #openscience #poland #eu #datasets
Про чистку ведомственных баз данных от излишков информации. Часть 1 из 2
Тут все активно обсуждают выступление главы Минцифры Максута Шадаева по поводу того чтобы сделать инвентаризацию данных и не выдавать данные из контуров ведомств [1] и пытаются проделать интерпретации этого выступления.
Признаться я не услышал в нём ничего нового, это ровно что и есть публичное подтверждение достаточно давнего тренда - тренда на ограничение доступа к данным в России. Этот тренд начался не с выступления министра и даже не с введения состояния мобилизационной экономики, этому тренду более 9 лет. Ещё в 2013 году Путин совместно с главами G8 подписывал декларацию открытости данных, а уже в 2014 году G8 превратилось в G7. Какое-то время в России шло два тренда параллельно, с одной стороны шла интенсивная информатизация и попытки формировать инновационный рынок, а с другой растущее число работ журналистов расследователей на данных, которые были доступны, именно благодаря цифровизации экономических отношений. Конечно системы ЕГРН, ЕГРЮЛ, госзакупок и др. создавались не для журналистов, они создавались для ускорения и развития экономических отношений, развития рынков, стартапов и интеграции государственных систем, а также выполнения тех международных обязательств которые имели место быть. Где-то года до 2020 российские госорганы ещё обращали внимание на позиции в международных рейтингах, например, Минфин волновали позиции России в Open Budget Index.
Но, параллельно с этим, закрывались данные о субсидиях, получателях госконтрактов по ряду направлений (госкорпорации по 223-ФЗ), в 2021 году скрыли данные об учредителях НКО, постепенно начали закрытие данных ЕГРН, быстро не могли это сделать из-за огромного рынка стройки и оборота недвижимости и земли, последствия были бы тяжёлыми и так далее. Тренд на закрытость постепенно перебивал тренд на открытость.
В основе этого тренда на закрытость два важнейших страха - страх экономического ущерба, государству, компанию и отдельным людям, в виде попадания под прямые и опосредованные санкции и страх деятельности журналистов расследователей. Причём первое многократно критичнее второго.
Всё это не только про открытые данные в строгом смысле (свободные лицензии, машиночитаемость), но и про доступные данные продаваемые гос-вом, данные в разных, не только машинных форматах и даже сведения к которым доступом получали на чёрном рынке пробива информации. Последнее самое сложное, до сих пор многим сотрудникам госорганов платят не настолько хорошо чтобы у них не возникало соблазна такой подработки.
Централизация данных, особенно персональных, лишь повышала вероятность появления если не утечек, то доступа к рынку пробива.
Но централизованные системы создавались, только делать их дозволялось и дозволяется не всем. Поэтому мне сложно до конца верить словам Максута, в первую очередь потому что относительно недавно был создан единый регистр населения и вот уже создаётся (создан?) реестр военнообязанных. Это системы объединяющие данные разных ведомств, я не поверю что данные там только по запросу. Собственно вся затея с НСУД была как раз для того чтобы избежать "ведомственного огораживания", как раз для интеграции данных для госуслуг и других задач. Фактически слова Максута противоречат политике Минцифры РФ как минимум последних лет.
Продолжение в следующем посте
#opendata #closeddata #data #russia #itmarket
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок
Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.
Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.
А самые актуальные вносятся за 2023 год довольно оперативно.
Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230
#digitalhumanities #culture #australia #open #digitalpreservation
Во всех этих новостях вокруг ЗлодейТеха ГосТеха я почти забыл как более чем 2 года назад были экспертные обсуждения всей этой затеи, провальные обсуждения надо сказать, проводившиеся в манере: "всё уже решено, а вам экспертам осталось одобрить". Я свои конспекты с одной из таких презентаций этого всего собрал воедино и слепил в стихотворение. Стихотворения сюда я публикую нечасто, а в основном они собраны в телеграм канале @ministryofpoems.
#poems
В рубрике интересных источников данных, общедоступные каталоги данных коммерческих компаний, как правило включающие как общедоступные открытые данные в их инфраструктуре, и данные из коммерческих источников предлагаемые за деньги.
Главное что за всеми этими каталогами стоит бизнес:
- Registry of Open Data on AWS https://registry.opendata.aws/
- Azure Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog
- Data.world https://data.world
- Dolthub https://dolthub.com
- Carto Spatial Data Catalog https://carto.com/spatial-data-catalog/
- Google Earth Data Catalog https://developers.google.com/earth-engine/datasets/catalog
- Koordinates Cloud https://koordinates.com/data/
- ArcGIS Hub https://hub.arcgis.com
- NASDAQ Data Link https://data.nasdaq.com
- AWS Marketplace open and commercial dataset https://t.ly/_TW5
Это без учёта специализированных каталогов данных для машинного обучения.
#opendata #datasets #datacatalogs #data
Я недавно писал [1] про проект GeoPlatform.gov правительства США как единого портала открытых геоданных, там более 115 тысяч наборов данных, со всеми необходимыми метаданными и тд. Это крупнейший портал геоданных в мире, сравнимый разве что с порталом геоданных Германии. И тогда ещё, когда я тот текст писал, удивлялся почему он выглядит не как продукт на одном из готовых решений, это по нынешним временам выглядит необычно. В большей части стран очень редко создают геосервисы/георешения с нуля и берут или одного из коммерческих поставщиков (основной из них Esri с ArcGIS Server, ArcGIS Hub и др.), или спектр опенсорсных решений. Недолгие поиски показали что под капотом там Geonetwork [2], опенсорс продукт о котором я также писал несколько раз.
Подход довольно распространённый в других областях. Например, CKAN, ПО используемое для порталов открытых данных, очень часто прячется за красивым фасадом для пользователя. Потому что по умолчанию интерфейс CKAN'а не то чтобы хорошо настраивается и многие делают UI поверх его API. Для Geonetwork я такого ранее не видел, но решение понятно и гораздо дешевле чем пилить свой бэкэнд с нуля.
Другой интересный проект/продукт о котором я ранее как-то упоминал, это Koordinates [3] новозеландский разработчик онлайн каталогов данных и GIS, его используют на десятке новозеландских госпорталов и практически более нигде в мире. Это, в каком-то смысле, редкое явление, абсолютно автономного разработчика геопродукта на очень маленьком рынке.
При том что их продукт не с открытым кодом, в остальном у них всё правильно и с доступными открытыми API, и с открытыми лицензиями на содержание.
Ссылки:
[1] /channel/begtin/4712
[2] https://geonetwork.geoplatform.gov/geonetwork
[3] https://koordinates.com/
На сайте Интернет-архива ещё в начале 2022 года появилась коллекция David Rumsey Map Collection из более чем 100 тысяч исторических карт [1] созданная изначально Дэвидом Рамси и поддерживаемая и поныне библиотекой Стенфорда на сайте davidrumsey.com [2] где собрано более 200 тысяч карт в общей сложности.
Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.
Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.
Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.
Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/
#digitalpreservation #archives #geospatial #maps
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.
Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.
На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]
Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.
Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir
#china #technology #australia #data #ratings
В рассылке AlgorithmWatch рассуждения [1] их репортёра Николя Кайзера-Бриля о том как Twitter опубликовал открытый код ранее. Ключевой вывод - большей открытости раскрытие именно этого кода не даёт, больше пользы от поста в блоге Twitter о том как устроены алгоритмы [2]. Я не до конца с ним согласен, всё таки я ближе к технологическим компаниям по складу ума, но, действительно, прозрачность складывается не только их кода.
Интересно и другое, он рассказывает про примеры раскрытия кода по запросу. Для тех кто не знает, в Европейском союзе действует Digital Services Act (DSA) [3] который позволяет исследователям запрашивать данные в целях общественного интереса у очень больших платформ. И уже была история когда французская организация CNAF отвечающая за государственное соцобеспечение по такому запросу опубликовала 7 миллионов строк кода, без сопровождающей документации и на запросы журналистов делали вид что документации не существует [4].
Всё это к тому что почувствуйте разницу в проблемах. В каких-то странах проблема в том что раскрывается слишком много кода и без документации, а в других что просто ничего не раскрывается. Первый вариант тоже не очень, но второй совсем плохой.
Ещё из полезного чтения:
- В Ирландии правительство пытается протащить быстрым образом закон разрешающий полиции использовать технологии распознавания лиц, но часть парламента сопротивляется [5]
- Во Франции служба аудиторов проверяет расходы в 3 миллиарда евро на стратегию Франции в области ИИ и выяснили что деньги тратили на короткие проекты, вместо долгосрочных [6] таких как образовательные программы
- В Швейцарии, в Лозанне местные власти запретили использовать распознавание лиц в общественных местах [7]
И, наконец, новости из Африки.
О том как Зимбабве строят государство тотальной слежки [8], на больших китайских кредитах, китайских технологиях и тд. Если кратко, то быстро и эффективно внедряют всё что возможно чтобы отслеживать всех без исключения и быстро разбираться со всеми кто имеет признаки оппозиционной деятельности.
А знаете почему Россия не Зимбабве? Потому что в России есть свои технологические компании по массовой слежки и достаточно денег чтобы не брать китайские кредиты.
Кстати, не могу не напомнить про проект по отслеживанию китайских технологических компаний в мире Mapping China’s Tech Giants [9] который делают в The Australian Strategic Policy Institute и собирают данные по всем известным китайским технологическим проектам в мире. Там есть наглядная карта, каждый может найти свою страну.
Они же анонсировали проект Critical Technology Tracker [10], я о нём расскажу через какое-то время. Он может быть даже поинтереснее мониторинга только Китая.
Ссылки:
[1] https://r.algorithmwatch.org/nl3/HCBGLxy-H3KfnMpjebKRLw
[2] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:L:2022:277:FULL&from=EN&pk_campaign=todays_OJ&pk_source=EURLEX&pk_medium=TW&pk_keyword=Digital%20service%20act&pk_content=Regulation%20
[4] https://www.nextinpact.com/article/28136/106298-les-allocations-familales-nous-ouvrent-code-source-leur-calculateur-daides
[5] https://www.irishtimes.com/crime-law/2023/04/06/oireachtas-committee-wants-to-scrutinise-use-of-facial-recognition-technology-by-gardai/
[6] https://www.nextinpact.com/article/71408/la-strategie-nationale-recherche-en-ia-passee-au-crible-cour-comptes
[7] https://algorithmwatch.ch/fr/lausanne-interdit-reconnaissance-faciale-lespace-public/
[8] https://globalvoices.org/2023/01/10/how-zimbabwe-is-building-a-big-brother-surveillance-state/
[9] https://chinatechmap.aspi.org.au
[10] https://techtracker.aspi.org.au
#privacy #zimbabwe #china #ai #ethics #twitter
В рубрике интересных наборов данных World Bank’s Open Night Lights [1] коллекция снимков ночной Земли на которой можно увидеть распределение обитаемой зоны человечества по интенсивности искусственного света. Особенность этого набора данных в том что он доступен как общедоступный набор данных на Amazon AWS [2] и через Stac Server [3] по спецификации STAC [4]
Данные в форматах GeoTIFF и, что немаловажно, это очень подробное и буквально с азов руководство по тому как с этими данными работать [1].
В 2020 году пара исследователей из Университета Мичигана публиковали код который анализировал эти снимки и позволял оценить уровень доступа к электричеству по странам New Methods to Estimate Electricity Access Using Nightly VIIRS Satellite Imagery [5]
На основе этих данных уже написано некоторое количество статей [6], например, по отслеживанию экономической активности при COVID-19 в Морокко и предсказанию бедности по общедоступным данным.
И это ещё далеко не самое интересное что можно делать на основе спутниковых снимков для создания альтернативных данных.
Ссылки:
[1] https://worldbank.github.io/OpenNightLights/welcome.html
[2] https://registry.opendata.aws/wb-light-every-night/
[3] https://stacindex.org/catalogs/world-bank-light-every-night#/
[4] https://stacspec.org
[5] https://github.com/zachokeeffe/nightlight_electrification
[6] https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=%22OpenNightLights%22&btnG=
#opendata #datasets #remotesensing #geospatial
Про электронные повестки в России я буду краток.
—
– Однако, мистер Дент, маршрут был выставлен для всеобщего ознакомления в местном бюро планирования и висел там девять месяцев.
– Ага, как только я узнал, то сразу же помчался прямо в бюро. Это было вчера в полдень. Вы ведь не особенно утруждали себя предупреждениями? Я имею в виду: никому ни слова, ни одной душе, правда?
– Но маршрут был обнародован для…
– Обнародован? В конце концов мне пришлось спуститься в подвал, чтобы отыскать его!
– Верно, там у нас находится отдел информации.
– С фонариком!
– Наверное, света не было.
– И ступенек тоже!
– Но послушайте, вы ведь нашли план!
– Да, – сказал Артур,
– нашел. На дне запертого шкафа в заколоченном туалете. А на двери табличка висела: «Осторожно, леопард!»
—
Адам Дуглас, "Автостопом по галактике", 1979 г.
А в остальном меня вот уже второй день журналисты осаждают вопросами реально ли сделать такую информационную систему в короткие сроки. Лично у меня никакого желания комментировать по этой теме нет. И не только потому что и так всем всё понятно (с), но и предмета обсуждения нет. Автоматизация решений законов сложна тогда когда эти законы долго пишут, интенсивно обсуждают, принимают как сочетание тяжелых компромиссов, а архитекторы и инженеры реализуют проклиная этих юристов за то что они напридумывали всякого невозможного. А тут всё предельно просто, если приняли за пару дней то и изменить могут также, в любой момент. Вопроса возможности-невозможности тут не стоит, внутри государства достаточно команд способных реализовать такие проекты и даже если текущую команду Минцифры расформируют за сопротивление Гостеху (в чём они молодцы), а кого-то из вице-премьеров отправят куда-нибудь в новую/старую госкорпорацию, а Грефа назначат вице-премьером по Гостеху (большая зелёная танцующая шутка), то даже в этом случае такую систему смогут сделать. Даже на таком унылом стеке как Гостех, даже если не очень стараться.
Технологии довольно давно позволяют построить системы любой степени людоедскости, Российское государство в его текущей инкарнации тут догоняющий игрок, но темп взят хороший, а марафон долгий.
#government #regulation #laws
По поводу роликов российского РОЦИТа о том что данные утекают из-за VPN многие уже написали, например, у Алексея Лукацкого есть правильные тезисы про то что VPN это много разных технологий, а не только обход блокировок [1]
Я же обращу внимание на то что РОЦИТ, конечно, мягко скажем уже далеко не тот. Достаточно очевидно что эти ролики появились не по той причине что в РОЦИТе есть идейные люди против VPN, не думаю что там вообще есть идейные люди или настолько неграмотные технически, наоборот трудно поверить что сами сотрудники РОЦИТа VPN не пользуются. Поэтому ролики эти, как бы помягче, двуличны.
Причём их двуличность двойная:
1. Публичными VPN сервисами меняющими юрисдикцию пользуются для обхода политической (блокировки сайтов), санкционной (сервисы блокируют по российским IP) и другим причинам. VPN сервисы при этом не могут, при всём желании, собирать о вас больше данных чем ваш провайдер, магистральный провайдер, сотовый оператор (как провайдер интернета) или работодатель. VPN сервисы бывают разные: от совершенно "левых" непонятно кем эксплуатируемыми до предоставляемых тяжеловесными компаниями, например, крупными разработчиков антивирусов и файерволов, а также всегда есть решения self-hosted (для самостоятельного развёртывания).
2. Утечки персональных данных происходят не из-за VPN, они происходят потому что экономически или политически мотивированные хакеры взламывают инфраструктуру компаний и отдельных лиц в выкладывают эти данные в открытый доступ или в теневой, но свободный экономический оборот. Первопричины в недостаточной безопасности хранения данных, в избыточном их сборе компаниями и государством и в хорошо мотивированных людях с жёсткой позицией. А из роликов получается что утечки из-за VPN'ов, а не потому что службы инфобеза Сбербанка или Минтруда или АСИ продолбали утечки данных из своих информационных систем.
Поэтому ролики РОЦИТа я не могу назвать ничем иным как целенаправленным введением граждан в заблуждение. Верить им, разумеется нельзя.
Ссылки:
[1] /channel/alukatsky/7786
#privacy #security #vpn
Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index.
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.
Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных
Вот так это выглядит в майндмапе.
А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.
Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.
Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.
Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #opensource #projects
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
В профессиональных сообществах сейчас активно обсуждают Stanford Alpaca [1] языковую модель, по некоторым признакам сравнимую с ChatGPT, но созданной за какие-то маленькие средства в $600.
В издании New Atlas автор Loz Blain пишет о том что это как выпустить джина из бутылки [2] потому что ИИ могут разрабатывать теперь буквально хоть школьники потому что обучить Alpaca можно за ночь и на посредственном оборудовании (вспомним про расходы менее $600). Для сравнения ChatGPT обучали на 1 023 видео процессорах A100 в течении 34 дней.
Что это значит? Это означает массовость и неистребимость новых разработок в области ИИ. Даже если какая-нибудь ядерная страна изменила бы ядерную доктрину для превентивного нанесения ядерного удара по датацентрам используемых для обучения ИИ - это бы не сработало. Если создавать и развивать новые языковые модели станет столь дешево, то и законодательные ограничения будут малоэффективны.
В любом случае нас ждёт новый неизвестный мир, возможно очень неожиданный.
Ссылки:
[1] https://crfm.stanford.edu/2023/03/13/alpaca.html
[2] https://newatlas.com/technology/stanford-alpaca-cheap-gpt/
#ai #opensource #languagemodels
Я ранее рассказывал про каталог API правительства Доминиканской республики [1], а ещё ранее про примеры каталогов API в других странах.
А вот и дополнительные примеры.
Портал для разработчиков Правительства Нидерландов developer.overheid.nl [2]. Включает каталог репозиториев правительственного открытого кода (на Github и Gitlab), всего более 1300 репозиториев [3] и каталог из 100 API со спецификациями и документацией [4]
Более же всего порталов для разработчиков существует в США, они есть у многих, почти всех, центральных органов власти и отдельных штатов, например, портал для разработчиков в рамках Medicaid [5] или портал для разработчиков Департамента труда [6].
Ссылки:
[1] /channel/begtin/4750
[2] https://developer.overheid.nl/
[3] https://developer.overheid.nl/repositories
[4] https://developer.overheid.nl/apis
[5] https://developer.cms.gov/
[6] https://developer.dol.gov/
#opensource #apis #netherlands #government