begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Для тех кто интересуется интересными наборами данных, коллекция дата-файлов с частотами использования лицензий в порталах открытых данных, пока в форме репозитория с экспериментами и экспортом частотных файлов из Common Data Index [1]

Самая популярная лицензия, ожидаемо, Creative Commons. Но все вместе эти файлы пока не сведены, нужна аналитическая работа по систематизации описания лицензий в разных типах каталогов данных. Большой соблазн систематизировать это всё, но задача пока другая и придётся ограничится самыми популярными.

Тем не менее там много всего, особенно по лицензиями на геоданные из Geonetwork

Ссылки:
[1] https://github.com/commondataio/cdi-licensemapper

#opendata #licenses #opensource #openaccess

Читать полностью…

Ivan Begtin

Для тех кто любит работать с командной строкой со всем чем только можно замечательный инструмент Mods [1], утилита работающая с OpenAI и LocalAI и генерирующая результаты на основе входящих пайплайнов (конвейеров) от других утилит командной строки, а результат работы mods также пригоден для дальнейшей конвейерной обработки.

Я вот люблю командную строку ещё с того времени когда основными операционными системами были [MS/PC]-DOS и FreeBSD и всегда приятно когда находишь очередной удобный инструмент чтобы можно было делать разное, что раньше было делать сложнее.

Из практичного там мне более всего нравится генератор документации в Markdown и команды вроде
mods "write a new section to this readme for a feature that sends you a free rabbit if you hit r" | glow

Стоит ещё и упомянуть что эта утилиты от команды Charm.sh [2], которые за последние годы насоздавали множество утилит и библиотек для командной строки которые выглядят не только интересно, но и, часто, просто мило.

Много инструментов чтобы сделать ваши утилиты более мимимишными.

Ссылки:
[1] https://github.com/charmbracelet/mods
[2] https://charm.sh/

#opensource #commandline #ai

Читать полностью…

Ivan Begtin

В IPVM статья [1] о том как в Китае компания Dahua, с 2021 года, помимо классических услуг распознавания лиц и объектов, предоставляет ещё и AI платформу Jinn [2] в которой обещают что могут определять неработающих сотрудников, сотрудников на стройке без касок, людей курящих в помещении и ещё много чего. В том числе среди их продуктов обнаружили пример с распознаванием протестующих с баннерами. Неизвестно умеет ли их продукт считывать с лозунга текст, но умеет определять тех кто с ним стоит. После того как журналисты IPVM запросили у компании комментарии, то сразу же эти примеры исчезли. Причем скорее всего Dahua не единственный вендор с таким продуктом,

Ссылки:
[1] https://ipvm.com/reports/dahua-protestor-alarms
[2] https://ai.dahuatech.com/deviceOpenPlatform

#privacy #surveillance #china #ai

Читать полностью…

Ivan Begtin

Через месяц, 29 июня, закрывается проект bit.io [1] в связи с тем что их команду купил DataBricks. Для тех кто не помнит, bit.io - это был сервис облачного хостинга PostgreSQL с возможностью ручной загрузки данных, API, дистанционного подключения к СУБД, наличия большого числа опубликованных баз данных.

DataBricks такой сервис не нужен, а нужна только команда. Поэтому сервис закрывают.

Ссылки:
[1] https://bit.io

#startups #data #rdbms #databases #dataengineering

Читать полностью…

Ivan Begtin

Я давно не писал про то дата-инженерные задачи которые приходится решать. Вот, к примеру, нетипичная-типичная задача - это построение поискового индекса по открытым данным - это то для чего начинался Common Data Index. Чтобы построить поисковый индекс надо
а) Собрать оригинальные опубликованные каталоги метаданных, чаще всего это REST API возвращающее JSON или JSON каталоги по стандарту DCAT
б) Проанализировать и подготовить схемы/структуру собранных данных
в) Преобразовать собранные первичные данные в общий поисковый индекс, соответственно преобразовав первичные данные в унифицированную структуру.

Типовых API и вариантов экспорта данных которые есть уже сейчас 9 штук, то что может быть сведено к типовому API ещё примерно 10 разных типов API и вариантов экспорта данных, а также есть огромное число произвольных API или даже сайтов без API, из которых самые значимые это большие онлайн каталоги открытых данных где публикуется их, условно, от 100 тысяч наборов данных.

Все собираемые данные через API из этих каталогов - это JSON или XML и природа данных такова что преобразовывать их в плоские таблицы - это потратить много сил на проектирование структур данных, с каждого API данные преобразуются от 1 до 10 таблиц и, также, одна из задач в сохранении всех первичных данных чтобы с ними можно было бы удобно работать в будущем.

Всё это пока что нельзя отнести к большим данным или данным реального времени, тут нет пока что большого технического челленжа, но есть челленж аналитический и решение задачи по интеграции и преобразовании данных. Большие данные тоже будут, но позже, когда уже начнётся сбор не только описаний наборов данных, но и самих файлов, а там уже данных очень много, петабайты если не больше, если обрабатывать всё.

А пока с построением поискового индекса возникает резонный вопрос как всё собирать и обрабатывать и это то почему я постоянно сетую что не хватает ETL/ELT инструментов с поддержкой NoSQL. Потому что поисковый индекс это тоже не плоские таблицы, это хранилище, тоже NoSQL, например, Elasticsearch.

Итого, на входе тысячи источников данных, с данными в JSON, не менее чем 9 разных схем, хранением первичных данных, преобразованием этих данных в унифицированный формат и итоговый поисковый индекс. И для всего этого хочется ещё и observability, управляемые конвейеры для обработки (pipelines), контроль качества и ELT/ETL для трансформации первичных данных в унифицированный формат, а инструментов для этого из коробки просто нет.

Но решать надо и я позже расскажу как эта задача сейчас решается, а пока мысли вслух о какими данными приходится работать.

#opendata #dataengineering #datarchitecture

Читать полностью…

Ivan Begtin

Benn Stancil наиболее точно описал новый продукт от Microsoft как Microsoft builds the bomb [1] про их новый продукт Fabric. Для всех кто пользуется стеком Microsoft повседневно, особенно для компаний сидящих на их облачных продуктах - это находка. Причём я согласен с Беном что продукты у Microsoft могут быть очень далеки от идеала, но благодаря критической массе корпоративных клиентов и тому что именно у таких клиентов есть деньги и предпочтение унифицированным платформам, то у Fabric хорошее будущее. Остальные платформы (Google, AWS) могут пойти таким же путём и начать добивать Modern Data Stack состоящий из очень хороших, но фрагментированных инструментов.

Неспроста многие в последнее время говорят и пишут о том что профессия инженера-данных превращается в профессию инженера платформ работы с данными. Всё это, разумеется, не про российские реалии, а про мировую тенденцию.

Ссылки:
[1] https://benn.substack.com/p/microsoft-builds-the-bomb

#dataengineering

Читать полностью…

Ivan Begtin

Многие знают что в России отсутствует национальная инфраструктура по публикации исследовательских данных похожая на Zenodo в ЕС или SciDb в Китае, но не все знают что есть небольшое, но живое число низовых инициатив.

Лично мне известно 4 такие инициативы"
- Репозиторий открытых данных по русской литературе и фольклору (Институт русской литературы (Пушкинский дом) РАН)
- Репозиторий психологических исследований и инструментов RusPsyData
- Портал электронных ресурсов Южного федерального университета
- Другой портал научных данных на базе Figshare, Южного федерального университета

Можно обратить внимание что таких инициатив нет у ведущих российских ВУЗов и тем более у Минобрнауки РФ. Каждый проект по открытым научным данным кажется необычным именно потому что недостаточна институциональная среда для их появления. Но они есть хотя их и немного. Также я время от времени пишу про более точечные узкоотраслевые научные инициативы.

#opendata #openaccess #openscience #datasets

Читать полностью…

Ivan Begtin

[RU] Многие открытые данные и материалы культурного наследия Армении и армян разбросаны по архивам по всему миру, картины художников, работы скульпторов, книги писателей доступны на сайтах музеев, галерей и архивов. Чаще всего их невозможно найти просто указанием страны, не все архивы позволяют искать идентифицируя по культурному происхождению или по стране.

В некоторых странах, например, в Российской Федерации значительная часть культурных данных доступны в виде больших наборов данных, доступных для выгрузки, анализа и исследований. Где найти эти культурные данные?

Госкаталог музейного фонда (https://goskatalog.ru)

Создан Минкультуры РФ, включает описание и превью более чем 37 миллионов экспонатов. В каталоге много материалов относящихся к Армении, например, картины Ованесса Айваязана (Ивана Айвазовского) [1] или картины и иные материалы связанные с работой Мартироса Сарьяна [2]. Данные из Госкаталога доступны в на портале открытых данных Минкультуры РФ, их можно скачать и найти в них эти и другие материалы связанные с культурой и историей Армении и армянского народа.

Артефакт – гид по музеям России (https://ar.culture.ru)

Другой проект Минкультуры России охватывает множество музеев РФ и предоставляет изображения экспонатов в высоком качестве. В этом проекте, также, немало картин имеющих отношение к Армении и армянским художникам. Там есть страница и галерея посвящённая Ивану Айвазовскому (Ованесу Айвазяну) [4], или Налбандяна Дмитрия Аркадьевича [5] и многих других художников. В системе Артефакт не публикуются открытые данные, но есть недокументированное API и возможность собрать данных через скрейпинг данных.

Национальная электронная библиотека (https://rusneb.ru)

В Национальной электронной библиотеке собраны миллионы книг открытого доступа из библиотек и архивов России. Многие книги в НЭБ написаны армянскими писателями на русском языке или переведены на русский язык. Например, в НЭБ есть книги Мартироса Сарьяна [6] и Ованеса Туманяна [7], а также небольшое число книг на армянском языке [8]. У НЭБ нет открытого API или открытых данных, но эти и другие материалы можно найти поиском и собрать скрейпингом с веб-страниц НЭБ. Также в НЭБ немало документов Российской Империи включающих историю и статистику губерний населённых армянами.

Этот список источников далеко не исчерпывающий, многие художественные произведения публикуются на сайтах других музеев, галерей, библиотек и архивов. Мы собираем список таких источников данных со всего мира и если Вы знаете такие сайты, обязательно напишите нам, мы опубликуем итоговый список в в каталоге данных Open Data Armenia и организуем сбор этих данных.

Ссылки:
[1] https://t.ly/MbOQ
[2] https://t.ly/g2-LI
[3] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[4] https://ar.culture.ru/ru/person/ayvazovskiy-ik
[5] https://ar.culture.ru/ru/person/dmitriy-arkadevich-nalbandyan
[6] https://t.ly/A9ph
[7] https://t.ly/T71z
[8] https://t.ly/FAsT

#opendata #digitalheritage #culture #armenia #datasets

Читать полностью…

Ivan Begtin

Я ранее несколько раз писал про портал открытых данных Казахстана data.egov.kz [1] и то что на портале есть множество ограничений по выгрузке данных (не более 100 записей за один раз, каптча), а ранее неграждане страны вообще не могли ничего оттуда выгружать. Теперь, пересмотрев несколько тысяч порталов с данными по всему миру могу сказать что вот этот казахстанский пример абсолютно уникален, ни на одном национальном портале данных в мире нет таких ограничений.

Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.

Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]

Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]

А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.

Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.

Ссылки:
[1] /channel/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ

#opendata #datasets #dataportals #datacatalogs

Читать полностью…

Ivan Begtin

Я, кстати, кажется не писал про PortalJS [1] это относительно недавняя разработка с открытым кодом компании Datopian, той же команды что стоит за поддержкой ПО CKAN используемого повсеместно для каталогов открытых данных.

Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.

Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.

На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].

Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.

Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.

Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk

#opendata #datacatalogs #opensource #dataportals

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, открытые данные Республики Таджкистан (Ҷумҳурии Тоҷикистон). В Таджикистане нет национального портала открытых данных и данные госорганов по прежнему рассеяны по множеству сайтов и информационных систем, в то же время в Таджикистане есть 3 каталога общедоступных геоданных, это:
- http://maps.wis.tj:555 портал геоданных Национальной информационной системы о воде создан на базе Geonode. 8 слоёв геоданных
- https://sdi.tj - портал геоданных созданных кооперацией ряда органов власти и Aga Khan Agency for Habitat. Также на базе Geonode и 43 слоя геоданных
- https://nsdi.tj/datasets - национальная геопространственная инфраструктура Таджикистана, на момент написания сайт не открывался.

В Таджикистане также был каталог микроданных на базе NADA http://nada.stat.tj (достаточно давно, то ли закрытый паролем, то ли вместо него другая информационная система).

В целом же Таджикистан - это одна из стран по которым данных немного, что, возможно, связано с отсутствием на месте сообщества, а также с тем что, как и в африканских странах, многие данные собираются в рамках международной помощи и доступны на сайтах программ ООН и других глобальных инициатив.

Каталоги открытых данных Таджикистана собраны в реестре Common Data Index https://registry.commondata.io/country/TJ и в каталоге данных https://datacatalogs.ru

#opendata #tajikistan #datasets

Читать полностью…

Ivan Begtin

Рубрика "Циничная нефтедобыча"
Сергей Плуготаренко, директор РАЭК, 2020 год: "Информация и данные — новая нефть экономики"
Сергей Плуготаренко, Генеральный директор АНО "Цифровая экономика", 2023 год: "Кадры — новая нефть цифровой экономики"
Похоже, назревает циничный опрос на тему следующих "новых нефтей".

Читать полностью…

Ivan Begtin

В The Verge очень подробное интервью Kevin Scott, CTO Microsoft о том что компания планирует поместить AI инструменты разработки практически во все свои инструменты [1]. В MS Office, в инструменты разработки, в терминал и всюду и всюду и всюду. Прям даже интересно, в ядро ОС они его тоже встроят или ещё рано?

Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.

Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.

Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney

#ai #readings #microsoft

Читать полностью…

Ivan Begtin

Пришло время рассказать о том, чем я давно занимаюсь, а это, трам-парам-пам, ни много ни мало, а создание проекта по открытым данным в Республике Армения - Open Data Armenia, также посвященного армянской культуре, языку и истории по всему миру.

Признаюсь, идея начать делать проекты по открытости, связанные с Арменией, была у меня давно. Среди моих предков - амшенские армяне, в начале 20-го века бежавшие из Трапезунда в Турции от Геноцида армян. Планы были давно, и наконец-то удалось к ним приступить.

Любой проект по открытым данным начинается с портала открытых данных https://data.opendata.am, который пока существует в общественном статусе и наполняется нашей командой и волонтерами. Мы ищем интересные наборы данных, связанные с Арменией по всему миру, и вносим их раз за разом.

Что дальше? Конечно же, конкурсы, хакатоны, интересные проекты на открытых данных.. И хотя у нашей команды и был соблазн сразу делать что-то интересное на открытых данных, начали мы именно с каталога, поскольку, как оказалось, в Армении его до сих пор не было. Теперь этот каталог есть, и есть телеграм канал /channel/opendataam и телеграм-чат, в котором мы будем формировать сообщество по открытым данным /channel/opendataamchat.

Проекту можно помочь многими способами. Если Вы из ИТ-компании в Армении или связанной с Арменией, то можно помочь собрать призовой фонд для хакатонов и конкурсов. Если Вы программист, то можно помочь с преобразованием немашиночитаемых данных в форматы CSV/JSON/XML. Если просто интересуетесь, то подсказать где найти интересные данные, предложить идеи проектов на основе данных.

Идеи, предложения партнерства, готовность помочь и тд. - пишите на opendata@opendata.am или в личку в телеграм.

#opendata #armenia #opengov

Читать полностью…

Ivan Begtin

По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt

Читать полностью…

Ivan Begtin

В телеграм канале Счетной палаты РФ начали публиковать материалы уровня ликбеза о том что такое ГРБС или что такое Бюджетная роспись. Когда то я в Счетной палате вёл проект Госрасходы, а ранее несколько лет совместно с Минфином РФ организовывал несколько конкурсов BudgetApps по разработке приложений и визуализаций данных открытых государственных финансов. Это очень большая и важная тема в любой стране, в России она была на довольно высоком уровне много лет, и тем печальнее, конечно, смотреть на происходящее последние 1.5 года если не больше, когда доступность финансовой информации снижается.

Однако, возвращаясь к определениям. Когда-то, ещё при работе над вовлечением участников в BudgetApps у нас была задача дать простые и понятные описания сложным бюджетным определениям. Задача это сложная по двум причинам.

Во первых некоторые определения дать реально сложно потому что они описывают сложные понятия финансовой системы которые несведующему человеку прочитать непросто. Переводить в простой и понятный язык это сложно

Во вторых когда даёшь простое и понятное определение то оно всегда не-юридическое, а юристы сразу встают на дыбы и говорят что так описывать нельзя ни в коем случае.

Для госорганов второе особенно катастрофично и в текстах что в телеграм канале Счетной палаты видно что они особо то не упрощают, потому что пытаются соблюсти юридическую чистоту.
Работает это плохо, не специалистом это непонятно.

Ещё много лет назад я считал что самое яркое объяснение бюджетных определений можно дать через описание бюджета какой-то очень большой семьи например, ... мафиозной.

Что такое ГРБС? Предположим босс мафии уже старенький, а организация велика, один капо курирует бордели, другой утилизацию мусора, третий распространение запрещёнки, а ещё есть не только те кто зарабатывает, но и отмазывает от полиции, защищает в судах и тд., то есть только тратящих. И бойцов и других расходов у них много. Не самому же боссу выдавать лично деньги каждому сотруднику члену семьи. Вот он и распределяет регулярно собранное этим капо, а чтобы те не воровали назначает казначея чтобы следить и выдавать деньги.

Что такое бюджетная роспись? Это когда тот же босс мафии на регулярной встрече с этими же капо в начале года распределяет кому и как сколько положено и на что пойдет во всех деталях. А поскольку босс капо не доверяет то требует чтобы расписано было во всех подробностях. Сколько на выплаты бойцам, сколько на взятки, сколько на помощь семьям сидящем в тюрьме и тд. Получается такая большая простыня таблицей. Вот этот план расходов на год и можно называть бюджетной росписью.


Конечно такой словарик никогда бы не опубликовали, он так и остался у меня в черновиках.

#openfinances #government #budget #likbez #humour

Читать полностью…

Ivan Begtin

For everyone ready to help with data collection for Open Data Armenia, we have started publishing tasks for volunteers. The first six tasks are already available via the link. If you have some free time, you are a programmer or an analyst; you can help the community. If you need programming skills but know where data needs to be collected/transformed, or you have ideas about what can be built on their basis, we invite you to share your thoughts in the general chat.

Для всех кто готов помочь со сбором данных для Open Data Armenia мы начали публиковать задачи для волонтеров. Первые 6 задач уже доступны по ссылке. Если у Вас есть немного свободного времени, Вы программист или аналитик, то Вы можете помочь сообществу. Если Вы не умеете программировать, но знаете где есть данные которые нужно собрать/преобразовать или у Вас есть идеи что можно на их основе построить, приглашаем поделиться идеями в общем чате.

Բոլորի համար, ովքեր պատրաստ են օգնել Open Data Armenia-ի տվյալների հավաքագրմանը, մենք սկսել ենք կամավորների համար առաջադրանքներ հրապարակել: Առաջին վեց առաջադրանքներն արդեն հասանելի են հղման միջոցով։ Եթե ունեք ազատ ժամանակ, դուք ծրագրավորող եք կամ վերլուծաբան; դուք կարող եք օգնել համայնքին: Եթե Ձեզ անհրաժեշտ են ծրագրավորման հմտություններ, բայց գիտեք, թե որտեղ պետք է տվյալները հավաքվեն/փոխակերպվեն, կամ ունեք գաղափարներ այն մասին, թե ինչ կարելի է կառուցել դրանց հիման վրա, մենք ձեզ հրավիրում ենք կիսվել ձեր մտքերով ընդհանուր չաթում:

Tasks list https://github.com/opendataam/opendatam-tasks/issues
Chat for discussion /channel/opendataamchat

#opendata #armenia #tasks #volunteering

Читать полностью…

Ivan Begtin

По поводу московского проекта hub.mos.ru конкурента Github'а буду краток:
1. В мире нет таких порталов создаваемых органами власти, потому что это дорого и бессмысленно. Все крупные онлайн сообщества такого типа коммерческие или некоммерческие
2. Новая площадка для спама, первый за долгое время проект властей Москвы где граждане не только могут что-то загружать, но и это загруженное является информационной системой города и общедоступно.
3. Хаб сделан на базе Gitlab, но нигде на сайте это не упоминают. Как бы не было тут нарушений использования бесплатной версии Gitlab

А в остальном не знаю даже как это комментировать. Скорее как то что у властей Москвы очень и очень много лишних денег. Лучше бы исходные коды своих информационных систем публиковали и данные.

#opensource #moscowcity #government

Читать полностью…

Ivan Begtin

Software Licenses in Plain English [1] ровно тот случай когда простой и понятный язык, в данном случае Plain English, помогает понять юридические тексты лицензий и условий использования ПО.
Проект очень давно напрашивающийся и существующий уже какое-то время, но мне ранее не попадавшийся.

Всего там более 140 лицензий с кратким сжатым понятным изложением того что в них написано и полными текстами для тех кому нужно иметь и юридический текст под рукой. Полезная штука, этому сайту нехватает только ещё и набора данных чтобы когда ты на своём сайте/продукте даёшь возможность пользователю выбрать лицензию, то и была бы возможность подсветить основные отличия лицензий.

Ссылки:
[1] https://www.tldrlegal.com

#openlicenses #opensource #opendata

Читать полностью…

Ivan Begtin

Свежий State of Data Engineering report 2023 от LakeFS [1].

Не очень детальный, на мой взгляд, не тянущий на полноценный State of ... доклад, но содержащий полезные факты и тезисы и упоминания некоторых продуктов про которые я лично не слышал или когда-то видел, но не впечатлившись отложил на потом.

Отчет короткий поэтому прочитать его несложно в любом случае.

Ссылки:
[1] https://lakefs.io/blog/the-state-of-data-engineering-2023

#dataengineering #startups #reports

Читать полностью…

Ivan Begtin

В рубрике интересных продуктов на открытом коде по работе с данными и не только:
- Apache Baremaps - инструмент ETL и дополнительных функций по обработке геоданных, создан как развитие утилиты osmosis которую OSM перестали развивать в 2018 году. Кроме труб данных умеет ещё и геокодировать, публиковать карты, OGC сервер и многое другое. Интересно почему для геоданных нет, "чистого" ETL инструмента? Оно давно напрашивается. Потому что совмещение таких функций не логично, а полноценное ETL более чем.

- Gorilla инструмент и научная работа по подключению больших языковых моделей к 1.6 тысяче API. Как минимум интересная идея, хотя и немного пугающая, как и все продукты по усилению LLM. Впрочем главное в чём Gorilla может хорошо помочь - это в генерации документации и примеров по тому как с API работать, думаю что что-то похожее уже в разработке внутри инструментов вроде Postman.

- Jesth новый человеко-читаемый формат по сериализации данных, пока ещё на ранней стадии и он уж очень как-то безсхемный, но сам по себе любопытен совмещением синтаксиса TOML и Markdown. Возможно его можно применить для написания структурированной документации в коде, а может и ещё для чего-то

- All languages are NOT created (tokenized) equal - статья с примерами и кодом о том почему не все языки созданы равными, про стоимости токенизации для разных языков как стоимости тренировки и работы языковых моделей. Общий посыл в том что есть языки простые вроде английского и языки значительно более сложные по своей структуре, создание и поддержание языковых моделей для существенно дороже. Ничего радикального нового, но полезный взгляд на известное.

- Modding Age of Empires II with a Sprite-Diffuser фанат обновил стили и вид изображений зданий в Age of Empires II с помощью Sprite-diffuser. Выглядит очень неплохо и может дать толчок новому тренду, глубокой кастомизации игр с помощью ИИ, особенно старых игр которые могут получить второе/третье дыхание. Без программирования там пока не обойтись

- Writing design docs for data pipelines о том что надо и как надо писать архитектурные документы к трубам данных. Полезно, хотя и хочется больше примеров живых с конкретными шаблонами

- clickhouse-local vs DuckDB on Two Billion Rows of Costs сравнение clickhouse-local и DuckDB на 2-х миллиардах строк с ценами и выигрывает Clickhouse-local. Сравнение достаточно короткое чтобы не запутаться, и достаточно конкретное чтобы понять преимущества инструментов.

#opensource #db #ai #datatools

Читать полностью…

Ivan Begtin

Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage

Читать полностью…

Ivan Begtin

Про публикацию открытых государственных данных в России иногда, всё же, можно рассказать и что-то хорошее, хотя и нечасто. ФНС России обновило портал ФИАС [1] (Федеральной информационной адресной системы) в которой собраны сведения о более чем 32 миллионах зданий и сооружений и других связанных с ними объектов [2]. Система эта существует достаточно давно и доступ к ней есть через скачивание полных дампов, скачивание дельт изменений, API и СМЭВ. В общем это очень хороший пример того как правильно публиковать данные в открытом доступе если делать это на системной основе.

Я бы сказал что высокие оценки ФНС в части открытости [3] вполне оправданы, это редкое по нынешним временам системное раскрытие нужных бизнесу данных, причём данных референсных, составляющих базовую цифровую инфраструктуру. По сравнению с каким-нибудь Минэкономразвития России ФНС большие молодцы.

Особенно важно что в ведомстве понимают продолжают публиковать данные для массовой выгрузки в виде полных дампов, до 36GB в сжатом виде один дамп. К сравнению власти Санкт-Петербурга "похоронили" свой портал открытых данных ради портала API [4], что власти города конечно не красит.

Возвращаясь к ФИАС, конечно, даже подобная публикация данных неидеальна и её есть куда улучшить, особенно если смотреть не на форму, а на суть данных. А суть в том что это геоданные, без геоидентификаторов. Для того чтобы данные можно было применять в большой аналитической работе необходимо чтобы записи о муниципалитетах, улицах, зданиях и иных объектах содержали их геокоординаты, геоформу, включали Shape файлы, KML, GeoJSON, GML и все остальные геоформаты доступа к таким данным. Иначе говоря были бы интегрированы с данными Росреестра и доступны для выгрузки.

Другая важная сторона публикации данных в раскрытии их под свободными лицензиями. До сих пор на сайте ФИАС нет явно указанных, четких, не имеющих оговорок, условий использования этих данных. А чтобы использовать их в таких проектах как Wikidata или OSM лицензии имеют значение. Публикация данных под Creative Commons Zero выглядит наиболее логично.

Ссылки:
[1] https://fias.nalog.ru
[2] https://fias.nalog.ru/Statistics/
[3] /channel/ahminfin/568
[4] https://api.petersburg.ru

#opendata #geodata #russia #api #datasets

Читать полностью…

Ivan Begtin

В течение 27 мая Архив Санкт-Петербурга будет открытым

В честь Дня города (27 мая) Архивный комитет Санкт-Петербурга открывает на сутки доступ к документам, размещенным на портале "Архивы Санкт-Петербурга» (spbarchives.ru).

На сайте доступны различные исторические документы, в том числе и финансовые, например:

- Протоколы заседаний комиссии по бюджету (1928-1929)
- Переписка о финансировании по бюджету (1941-1942)
- Отчеты об исполнении бюджета г. Ленинграда (1940)
- Проекты районного бюджета Красногвардейского района (1942)
- Местный бюджет Ленинградской губернии (1926-1927)
- Протокол заседания комиссии по пересмотру бюджета Ленинградских академических театров (1928)

Есть несколько особенностей:
- оцифровано не все, поэтому лучше сразу поставить фильтр «только с электронными образами»
- доступ только по ЕСИА (Госуслуги)
- качество электронных образов не очень высокое, есть водяные знаки. Если нужны качественные сканы, то доступ только платный - 20 руб/страница.

На конкурс «Твой Бюджет 2.0» мы подавали идею проекта «Петербургский цифровой архив госфинансов и госуправления» и услышали критику о том, что «работа архивариусов стоит дорого, поэтому за нее нужно платить». Но мы, как налогоплательщики, уже заплатили за создание архивов и работу Архивного комитета. Тем более, не зная прошлого нельзя построить будущее, особенно если для получения знаний создаются искусственные барьеры.

У Яндекса есть поиск по архивам (yandex.ru/archive), который был бы невозможен, если бы архивы 7 российских регионов не публиковались в открытом доступе. К сожалению, Санкт-Петербурга в этом списке нет, но хочется надеяться, что власти города поймут, что открытость принесла бы городу гораздо больше, чем те небольшие деньги, которые архивная служба зарабатывает на простых и не очень богатых людях, большинство из которых хотят узнать историю своей семьи с помощью высокотехнологических инструментов. И если Яндекс и другие организации (тот же Минфин России) позволяют бесплатно искать по миллионам сканированных документов (в том числе и по рукописным с использованием алгоритмов распознавания текста), то документы из «закрытых» архивов, таких как Петербургские, остаются для нас малодоступными.

#госархив #открытыеданные #архивныйкомитет #санктпетербург #твойбюджет #госфинансы

Читать полностью…

Ivan Begtin

Where to find sociological data about Armenia? Let's take a look:

- IPUMS International database of the sociological survey. It's not a data catalog but a unified database. It includes data on Armenia surveys in 2001 and 2011
- World Bank Microdata catalog database of all microdata surveys in the World. It includes 81 survey datasets from Armenia.
- Food and Agriculture Microdata Catalogue 25 survey datasets from UN FAO agency.

And Armenian statistical agency provides Armstat Microdata Library with 26 datasets available after registration.

Microdata datasets is not always provided as open data, but sometimes they could be downloaded as public files or requested from a data provider.

#opendata #datasets #sociology #data #armenia

Читать полностью…

Ivan Begtin

А теперь о хорошем, прекрасная визуализация домохозяйств в США на от Nathan Yau на Flowing Data [1]

Кроме 100 наиболее распространённых типов домохозяйств по отношениям между входящими в него людьми и визуализация крупнейшего домохозяйства 19 человек.

Крупнейшего, конечно, с оговоркой что это не данные переписи, а данные опроса 2021 American Community Survey которые автор выгрузил из IPUMS [2] это такая хорошо известная социологам сеть баз данных опросов по США и другим странам. Главное в работе с ними понимать как они устроены поскольку для неподготовленного человека можно легко запутаться в выборе переменных и их сочетаниях.

И вдогонку очень рекомендую визуализацию 2016 года разницы между структурой домохозяйств в США между 1970 годом и 2014 [3] всё кажется очень очевидным, меньше пар с детьми, больше одиночек, и очень наглядным.

Ссылки:
[1] https://flowingdata.com/2023/05/23/all-the-household-types-in-the-u-s/
[2] https://www.ipums.org/
[3] https://flowingdata.com/2016/08/09/household-types-then-and-now/

#opendata #dataviz #infographics

Читать полностью…

Ivan Begtin

Да-да, не могу не добавить, не без иронии, что в 2020 году активно начали (продолжали) закрывать в России данные, а теперь начинают (начали) закрывать людей?

Читать полностью…

Ivan Begtin

Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.

Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.

#opendata #datasets #dataportals #datacatalog

Читать полностью…

Ivan Begtin

В рубрике как это работает у них IRDB (Institutional Repositories DataBase) [1] японский агрегатор результатов научной деятельности в котором собрано более 3.8 миллионов записей, большая часть которых - это научные публикации, но более 100 тысяч открытые наборы данных.

В агрегаторе собираются материалы из 486 японских исследовательских репозиториев, а для сбора данных используется JPCOAR [2], японский вариант стандарта публикации результатов научных работ.

Эту базу можно, в чём-то сравнить с китайским SciDB, однако последний сделан с акцентом только на данные, а здесь все научные результаты. Поэтому корректнее сравнивать его с европейским OpenAIRE, на который он по смыслу и идеологии весьма похож.

Ссылки:
[1] https://irdb.nii.ac.jp/en
[2] https://schema.irdb.nii.ac.jp/en
#opendata #openaccess #japan #openscience

Читать полностью…

Ivan Begtin

Есть такой тип данных как референсные данные или, как их чаще называют в России, справочники и классификаторы. Одна из особенностей данных по России в том что какое-то количество референсных данных опубликовано на специальных порталах.
- ЕСНСИ Госуслуг https://esnsi.gosuslugi.ru
- НСИ ФОМС http://nsi.ffoms.ru
- НСИ Минздрава https://nsi.rosminzdrav.ru
- НСИ Москвы https://nsi-asur.mos.ru/List/ (вообще их система требует авторизации, но есть прямая ссылка на полный список)
- Система НСИ Санкт-Петербурга https://classif.gov.spb.ru
И ещё много других.

Эти порталы очень похожи на порталы открытых данных, также разные наборы данных, также возможность машиночитаемой выгрузки и есть API, разница в том лишь что нет отдельных лицензий и множества публикаторов. Условия использования, как правило, единые.

В мире таких порталов, на удивление, не так много или они порталы с открытыми данными не напоминают, и устроены несколько иначе. Чаще всего в виде сложных моделей данных и схем, также общедоступных. В России же многие справочники выведены в открытый доступ, это, особенность, в первую очередь создания очень крупных информационных систем с большим числом интегрируемых ИС, в том чтобы такие данные были доступны. В мире такие системы референсных данных могут быть в США, ЕС и ряде крупных стран, но, опять же, подчеркну что не на виду.

Лично я до сих пор не понимаю относить ли такие системы к порталам открытых данных, например, в Common Data Index сейчас включены:
- Порталы открытых данных
- Геопорталы
- Научные репозитории
- Порталы микроданных
- Порталы индикаторов
- Порталы данных для машинного обучения
- Системы поиска по данным
- Маркетплейсы данных
и Каталоги API

В общем каталогов референсных данных тут нет, а если добавить то будут только российские. Так что вопрос остаётся открытый в том числе и в том что польза от таких данных опосредованная.

#opendata #datasets #referencedata

Читать полностью…
Подписаться на канал