begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]

На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.

Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].

Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]

Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393

#datasets #datacatalogs #dataportals #korea #ai #ml

Читать полностью…

Ivan Begtin

Palantir Tech опубликовали видео с применением больших языковых моделей (ИИ) в их продуктах для разведки и военных [1]. Выглядит одновременно впечатляюще и пугающе, даже при всех их многочисленных оговорках про этические ограничения.

В каком-то смысле военное применение ИИ было всегда неизбежным и Palantir не единственные кто делал и делает продукты в этом направлении, но несомненно OpenAI с их GPT-3, ChatGPT и GPT-4 подтолкнули все индустрии в этом направлении.

Тут конечно важно не забывать что Palantir - это публичная компания с серьёзным падением стоимости акций за последнюю пару лет, так что насколько их продукты уже реально включают ИИ или же это больше рассчитано на инвесторов - пока непонятно.

Ссылки:
[1] https://www.youtube.com/watch?v=XEM5qz__HOU

#ai #aiethics #palantir

Читать полностью…

Ivan Begtin

В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals

Читать полностью…

Ivan Begtin

С чем у Минцифры РФ хорошо, так это с самокритикой. Они тут составили подборку телеграм каналов, критично настроенных, в том числе, к их работе. Это не значит что я лично стану менее или более критично писать в их адрес.

Для свежеподписавшихся напомню что я в этом телеграм канале пишу открытые данные, инженерию данных, технологии в государстве, технологии в принципе, приватность, ИИ (взглядом через данные), цифровое сохранение, о том где находить данные, с помощью каких инструментов с ними работать.

Пишу я не только и не столько в контексте России, но и про другие страны.

На русском языке я также веду рассылку с лонгридами, а на английском языке ibegtin">блог в Medium

Телеграм канал я изначально вел и во многом веду как свод регулярных заметок о том что читаю, над чем работаю, о чём пишу и тд. поэтому все ппосты здесь в телеграм канале снабжены тегами облегчающими навигацию.

#blogging #telegram

Читать полностью…

Ivan Begtin

Данные по добыче нефти в России тоже йок, РБК пишет что Росстат перестал их публиковать в ежемесячной статистике по динамике промышленного производства [1]. С одной стороны не удивительно, с другой стороны зарубежные разведки и так имеют свои источники для этих данных, а с третьей стороны у меня есть очень простой вопрос.

А где собственно постановление российского правительства запрещающее публикацию этих данных? Их отсутствие - это внутреннее решение Росстата и внутренний документ (приказ) руководителя? Постановление Пр-ва? Или, по "лучшим" практикам регулирования во время ковида, можно всё закрыть даже не имея никаких оснований?

Важно не только что делается, но и как делается. Кстати, с момента закрытия раскрытия данных можно не верить никаким утверждениям российских чиновникам по продаже и отгрузке нефти, для рынков это дополнительный фактор в сторону неопределённости.

Вообще закрытие любых экономических данных и данных о качестве жизни настораживает куда больше чем плохие значения.


Ссылки:
[1] https://www.rbc.ru/economics/26/04/2023/64492a769a794789b8b0feec

#opendata #closeddata #russia #statistics

Читать полностью…

Ivan Begtin

Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.

Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.

Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/

#opendata #data #opengov #kazakhstan

Читать полностью…

Ivan Begtin

Я, кстати, зачитался просто оценкой России по GMTI, она есть в файле который я ранее постил [1]. Открываете вкладку Metadata, выбираете страну Russia и смотрите оценки по каждому пункту. А там столько интересного что я даже не знаю, заполняли ли это эксперты на зарплате у Российского пр-ва или просто не знающие что тут реально происходило и происходит.

Итак, по пунктам:
- I-33.1 - знаете какая основная структура отвечает за Гостех в России? Можно пару попыток. Нет, не угадали. Это Агентство стратегических инициатив https://asi.ru 😐.
- I-34.6 - оказывается в России есть документ определяющий Data Governance strategy / policy. А знаете куда ведёт ссылка? В корень сайта аналитического центра при Пр-ве. 😱 Куда же они его спрятали там ?!
- I-35.1 - оказывается в России есть стратегия цифровой трансформации и это. трам-пара-рам - это Паспорт национальной программы «Цифровая экономика Российской Федерации». В файле ссылка приведена битая, но смысл не меняется. Те кто не читал этот паспорт, могут почитать тут [2]. Это не стратегия, это дорожная карта которые обычно пишут на основе стратегий, но стратегий нет. 😡
- I-37.4.1 - оказывается в России есть очень крутой закон о доступе к информации и он даже мониторится Росстатом [3] (вот этот пункт похож даже не на лукавство, а на чистый подлог, ничего такого нет по этой ссылке и мониторинг если и ведётся то в закрытом режиме и в АП РФ, а не Росстатом. Можно говорить что не ведётся). 😠

И так ещё десятки пунктов, у меня сейчас нет времени все их разбирать.

Но два тезиса я могу точно сформулировать.
1) Оценка России в индексе GMTI завышена и это на совести экспертов Всемирного банка которые её осуществляли. Если бы эта оценка хоть кого-то в мире волновала, то давно был бы скандал где индекс прополоскали бы в не-российских СМИ, но индекс не волнует никого кроме тех кто на него рукоблудит, например, пиарщиков Гостеха.
2) Там вообще нигде, никоим боком нет упоминания платформы Сбербанка которую называют в России Гостехом. Впрочем я об этом писал уже ранее.

Ссылки:
[1] /channel/begtin/4835
[2] http://static.government.ru/media/files/urKHm0gTPPnzJlaKw3M5cNLo6gczMkPF.pdf
[3] https://rosstat.gov.ru/gosusligi1

#ratings #govtech #rant

Читать полностью…

Ivan Begtin

Вдогонку к тому о чём я только что писал про Гостех, таблица с данными по всем странам которые оценивали в рамках индекса GMTI. Там все первичные данные, ссылки на законы, госполитику и тд. Заодно можно увидеть что эксперты Всемирного банка чаще всего сомнительные случаи трактуют в пользу страны и там есть какое-то количество устаревших пунктов, вроде того что в России ещё есть национальный портал открытых данных, тем не менее полезно посмотреть для того чтобы посмотреть на основе чего формируются оценки и из чего складываются оценки других стран.

#govtech #ratings #datasets

Читать полностью…

Ivan Begtin

Пишут что у Сбера появился свой аналог ChatGPT к которому, правда, доступ только по приглашениям. Я его не видел, зато не могу не вспомнить про проект AIID AI Incident Database [1] база из более чем 500 "инцидентов" произошедших с AI. Например, когда машина под управлением AI сбивает пешехода или когда рекомендательный алгоритм с использованием ИИ рекомендует совсем не то и тд. Судя по описаниям некоторых инцидентов, там объектом рассмотрения являются не только ИИ системы, но и нейросети и другие результаты машинного обучения. Я бы скорее говорил что там речь про ADM системы (ADM - automated decision making), но авторы используют термин AI.

И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]

Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/

#ai #ethics #incidents #datasets

Читать полностью…

Ivan Begtin

Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?

- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.

- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.

- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.

- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.

Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/

#opendata #technology #readings #data #games #open

Читать полностью…

Ivan Begtin

Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.

И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.

В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.

Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.

В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.

Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.

Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/

#opendata #china #data

Читать полностью…

Ivan Begtin

У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.

Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.

По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.

Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.

Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about

#opendata #data #datasearch #opensource

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании

И ещё много чего, интересное там есть.

Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.

Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.

Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm

#opendata #dataviz #datasets #spending #tourism #statistics

Читать полностью…

Ivan Begtin

Продолжая про проект Common Data Index, для тех кто интересуется какие каталоги данных есть в мире в Github'е в репозитории [1] уже собрано описание более чем 1450 каталогов с данными, а это включает то на каком ПО они работают, какие там точки подключения к API и многое другое.
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.

Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].

Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.

А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv

#opendata #datasets #geodata #datacatalogs

Читать полностью…

Ivan Begtin

Пока мы тут обсуждаем кого ИИ лишит профессии, спешу сказать что разработчикам и инженерам не стоит надеяться на скорое исчезновение их профессий (что хорошо) и даже на то что ИИ очень сильно облегчит жизнь (что не так хорошо). Почему? Потому что большую часть инженеров и разработчиков что я знаю на реальных продуктах и проектах - это отладка и legacy, это разгребание накопленного непотребства, создание кривых подпорок из кривых подпорок и ещё много чего. За исключением очень редких уникальных случаев когда это не так. ИИ может лишить интересной работы по созданию чего-то абсолютно с нуля и ещё сильнее усложнить переход разработчиков из джунов в миддлы, потому что чуть ли не главные их отличия - это умение работать самостоятельно и самостоятельно вести отладку.

#ai #profession #dataengineering

Читать полностью…

Ivan Begtin

Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.

‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.

Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.

Ссылки:
[1] /channel/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html

#ai #readings #technology

Читать полностью…

Ivan Begtin

В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.

Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов

Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании

В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.

Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl

#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource

Читать полностью…

Ivan Begtin

Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.

Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.

В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.

Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.

Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.

Ссылки:
[1] https://evidence.dev

#opensource #dataviz #bi #startups

Читать полностью…

Ivan Begtin

В рубрике как это работает у них, в Аргентине Министерством науки, технологий и инноваций создана Sistema Nacional de Repositorios Digitales (Национальная система цифровых репозиториев) [1] для которой ещё в 2015 году были разработаны требования по подключению репозиториев академических учреждений с довольно простыми правилами сводящимися к заполнению метаданных по стандарту Dublin Core, поддержки интерфейсов сбора данных и так далее [2]. На организацию этих репозиториев и их приведение к стандарту университеты получали дополнительное финансирование [3] на техническую работу и на обучение кадров.

Всего таким образом охвачено 44 репозитория включающие как научные статьи и результаты конференций, так и исследовательские данные. Для исследовательских данных у них же создана отдельная система DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina [4]

Это во многом похоже на программы Европейского Союза, я приводил в пример появление репозиториев данных в Польше в Варшавском университете [5].

Ссылки:
[1] https://repositoriosdigitales.mincyt.gob.ar/vufind/
[2] https://repositoriosdigitales.mincyt.gob.ar/files/Directrices_SNRD_2015.pdf
[3] https://repositoriosdigitales.mincyt.gob.ar/vufind/Content/financiamiento
[4] https://dacytar.mincyt.gob.ar
[5] /channel/begtin/4759

#opendata #openaccess #openscience #data

Читать полностью…

Ivan Begtin

Хороший обзор по выбору баз данных в блоге ByteByteGo [1], но блог под платную подписку поэтому ещё один текст ещё 2021 года тоже про выбор базы данных.

К примерам продуктов из которых выбирать можно относится сдержанно и реальная жизнь шире, но как систематизированное описание очень хорошо.

Я же обращу внимание на NoSQL базы данных для документов наиболее известной из которых является MongoDB. Так вот выбор там, конечно, не только между базами данных своего типа, MongoDB, ArangoDB и тд. Чаще всего выбор между NoSQL и NewSQL. Например, недавно в разговоре для подготовки к одной из конференций речь зашла о том что будет использоваться в Common Data Index, реестре и поисковике по данным который я проектирую. Для меня по умолчанию - если объект хранения иерархичный документ то это MongoDB. Но для очень многих корпоративных дата инженеров - это Postgres, что тоже логично, там есть поддержка хранения JSON и некоторые функции.

За чем правда? Я скажу так, когда речь идёт о хранении от сотнях миллионов объектов по которым могут быть сложные запросы, то Postgres показывает себя лучше. Но если данных поменьше, то MongoDB вполне себе подходит.

Случаи разные, задачи разные. Главный недостаток MongoDB в том что там там многие ветки развития для Community Edition перекрыты тем что это продукт коммерческий и если в облачной версии есть поддержка GraphQL из коробки, то в бесплатной версии и не будет похоже. Но альтернатив не так много как кажется.

Ссылки:
[1] https://blog.bytebytego.com/p/understanding-database-types
[2] https://towardsdatascience.com/datastore-choices-sql-vs-nosql-database-ebec24d56106

#opensource #databases #dbengines #data #datatools

Читать полностью…

Ivan Begtin

Про сжатие данных и о том почему я регулярно пишу что Parquet - это реально значимый формат хранения и обмена данными, важнее довольно многих.

Я приведу в пример данные с которыми я лично работал в аналитических задачах. У меня есть выгрузка слепка данных из российского реестра юридических лиц ЕГРЮЛ в виде 11 миллионов записей в которых 12 полей-признаков места организации, её типа, кода окопф, оквэд, кладр, статус ликвидации и тд. Без названий и без идентификаторов, данные нужны только для аналитической работы и построения кубов и срезов для BI. В общеё сложности - это 4.07ГБ. Не очень много когда один файл и много когда таких файлов десятки. С файлом нужно иметь возможность работать, загружать в СУБД или библиотеку вроде Pandas. Как сжать эти данные?

Самое очевидное - это сжать классическими архиваторами и хранить так. Gzip даёт сжатие до 337 МБ это примерно 8.3%, альтернативный Gzip'у архиватор LZ4 для быстрого сжатия и разжатия даёт компрессию до 340МБ это тоже примерно 8.3%, а LMA-архивация с помощь. XZ даёт 136МБ это примерно 3%, но она работает значительно медленнее. Все архиваторы проверялись в режиме максимального сжатия (ключ -9).

Так вот, а если этот же CSV файл преобразовать в parquet формат со сжатием, то итоговый файл получается размером в 109МБ, это примерно 2.7% от оригинального и, при этом, с ним весьма удобно работать с инструментами вроде Pandas при том что скорость преобразования значительно быстрее чем сжатие с помощью xz, к примеру. Во многом, похоже, это происходит из-заавтоматической идентификации типов полей и их преобразования.

Причём даже если повторить используемый в parquet трюк с колоночным сжатием, так просто такой результат повторить непросто. Например, у меня есть код который из CSV файла создаёт пучёк одноколоночных CSV файлов сжатие которых по отдельности должно быть лучше чем сжатие оригинального файла. Сжатые одноколоночные файлы дают дополнительное сжатие. GZIP файлы таких файлов занимают 221 МБ вместо 337 МБ. Аналогично для lz4 и только для xz размер общий файлов увеличивается до 139 МБ.

Конечно никто такие одноколочные файлы не делает, это трюк из давнего прошлого, я привожу его исключительно как иллюстрацию. Речь о том что Parquet файл значительно меньше и практичнее в общим случаях.

Отдельная история про сжатие данных для долгосрочного хранения и для сохранения интеграции с унаследованными системами. Тем не менее, имея выбор формата для хранения данных - Parquet это хороший выбор.

Для того чтобы он стал отличным ему нехватает только некоторых опций работы стандартными инструментами. Чтобы его можно было открыть в Excel, в браузере, в чтобы были аналоги grep/cat/awk/sed или csvkit и ещё много разных других инструментов. Тем не менее и сейчас его уже можно использовать.

#dataengineering #data #compression #parquet

Читать полностью…

Ivan Begtin

Сколько вообще в мире порталов с общедоступными данными? Я всё пополняю реестр каталогов данных в рамках Common Data Index [1] и статистики всё больше, понимание что ещё много осталось неохваченного тоже, но тем не мене.

Итак:
- 1508 внесенных каталогов данных и 497 найденных и ещё не систематизированных. Вместе около 2005
- 450 порталов на базе CKAN, самое популярное решение для порталов с открытыми данными
- 208 порталов Geonetwork, самый популярный каталог геоданных в мире. Не всегда там сами данные, иногда только метаданные. Размеры каталогов варьируются от 2 до 500 тысяч датасетов
- 178 порталов на базе облачного сервиса ArcGIS Hub. Это геосервис от ArcGIS позиционируемый как SaaS портал открытых данных
- 169 порталов на базе Geoserver, как правило не видных снаружи, но очень активно используемых
- 103 каталога научных данных на базе Dataverse
- 78 порталов на базе коммерческого продукта OpenDataSoft
- 63 портала на базе коммерческого продукта Socrata
- 58 порталов Geonode, упрощённого каталога геоданных. Он проще чем Geonetwork, но уже содержит ряд методанных о слоях
- 52 портала на базе опенсорсного каталога микроданных NADA
- 44 инсталляции ПО DKAN, аналог CKAN написанный на PHP и Drupal. Опенсорсный продукт
- 33 инсталляции PxWeb, ПО для публикации статистических индикаторов
- 21 научный портал данных на базе облачного сервиса Figshare

и не менее 247 порталов работающих на собственных разработках. Про Россию однозначно можно говорить про бесконечное изобретение велосипедов, типовое ПО используется крайне редко, международные стандарты метаданных почти не поддерживаются. Это касается и открытых данных и геоданных.

По числу порталов открытых данных и геокаталогов примерно поровну. По числу наборов данных геоданных многократно больше. По объёмам, наибольшего размера научные данные.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datasets #data #commondataindex

Читать полностью…

Ivan Begtin

Команда российского Гостех'а в своём телеграм канале пишет поёт себе хвалу [1] о том что Россия признана одним из лидеров гостехизации в рейтиге GTMI (GovTech Maturity Index), но как бы помягче сказать. Библейскими словами - это лукавство.

Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].

Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.

Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.

Ссылки:
[1] /channel/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe

#government #govtech #worldbank #technology

Читать полностью…

Ivan Begtin

Я регулярно пишу про то как устроено в части работы с данными в разных странах, а в последнее время и чаще про страны постсоветского пространства и редко, но нахожу время для критики Минэкономразвития и Минцифры, это не значит что в РФ нет разумных проектов и инициатив о которых нельзя было бы рассказать.
Я приведу в пример три из них.

Открытые данные Минкультуры РФ (opendata.mkrf.ru)

Хорошо спроектированный и профессиональный движок для публикации открытых данных и для работы с данными в принципе. При том что там опубликовано всего 62 набора данных, но это данные относительно большого объёма, доступные по API, в разных форматах и с визуализацией. Очень хочется чтобы Минкультуры РФ не прополимерило потеряло его, потому что то что я знаю так то что после кадровых преобразований в Минкультуры уже неизвестно кто им занимается. Ещё жаль что ни одного внедрения этого движка кроме как на сайте Минкультуры нет.

Платформа поставки данных ФНС России (vpd.nalog.gov.ru)

Это не открытые данные идеологически, но это инициатива по предоставлению чувствительных данных, как ещё говорят data sharing. Я слышал много положительных отзывов от людей в региональной власти в РФ о том что жаль что у других ФОИВов нет подобного или что они не предоставляют свои данные также через такую платформу.


История финансовой системы (https://minfin.gov.ru/ru/ministry/historylib/common/finance/fin_history)

Большая коллекция книг исторических бюджетов и других материалов опубликованных Минфином России в разделе у себя на сайте. Что важно - многие документы ещё Российской Империи и СССР. Полезно для тех кто изучает территорий входящих и входивших в эту местность. Активно используется многими историками. За многое Минфину РФ спасибо не скажешь, а за это конкретно спасибо.

Госрасходы (spending.gov.ru)

Здесь немного бесстыдной рекламы проектам к которые я когда-то создавал. Проект создан на базе госконтрактов, данных по госпрограммам, госпроектам и многим другим данным относящимся к госфинансам и расходам/доходам гос-ва. После того как я ушёл снова заниматься коммерческими и общественными проектами им уже несколько лет занимается Ольга Пархимович (@ahminfin), она изредка пишет про открытость госфинансов и открытые данные. Подписывайтесь, думаю что прирост подписчиков промотивирует её писать чаще;)

Я знаю очень много других весьма неплохих практик открытости и работы с данными, о каких то не могу писать, потому что о них ничего нет публичного, о каких-то пишу, но редко, потому что чаще пишу на русском языке о том что происходит в мире.

В России же, к сожалению, хорошие практики теряются в общем тренде не закрытость гос-ва и то что лучшие практики не применяются. Если бы к примеру, новость о закрытии федерального портала data.gov.ru звучала бы как то что Минэк договорился с командой Минкульта о переносе их портала и создании качественного нового портала - то ну что бы их критиковал? Или если бы сотрудники Минэка покаялись бы и озвучили что сами понимают что всё продолбали и теперь передают полномочия налоговой службе по новой версии портала, то и такому можно было бы лишь апплодировать.

Но ничего такого не будет;)

Поэтому заканчиваю на минорной ноте, хорошие примеры есть, хорошие практики есть, люди с компетенциями есть даже внутри государства и его подрядчиков, но что-то в консерватории поправить надо (с) как говорил Жванецкий

#bestpractices #russia #government #opendata #data

Читать полностью…

Ivan Begtin

В рубрике интересных инструментов работы с данными AutoProfiler [1]

Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?

В любом случае это полезный практический инструмент.

Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.

А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.


Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html

#data #datatools #opensource #codenotebooks

Читать полностью…

Ivan Begtin

Открытые данные Минэка больше недоступны

Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.

Спустя месяц получаем следующую картину:

- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.

Пруф с ответом прикреплен к посту.

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].

Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.

Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.

Репозиторий был создан в декабре 2018 года и с той поры активно развивается.

Ссылки:
[1] https://dataon.kisti.re.kr/

#opendata #datasets #openaccess #openresearch #datacatalogs #korea

Читать полностью…

Ivan Begtin

Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.

В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.

Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ

#government #uk #procurement #digital

Читать полностью…

Ivan Begtin

На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.

Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?

А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.

Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

#opendata #ai #datasets #google

Читать полностью…

Ivan Begtin

Совсем свежая статья с видеопримерами от команды NVIDIA про языковую модель по генерации видео на основе описания текстом [1]. Проще говоря: генеративный ИИ текст-в-видео.

Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.

Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.

Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.

2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.

Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/

#ai #research

Читать полностью…
Подписаться на канал