Telegram-канал begtin - Ivan Begtin: Бизнес и стартапы - каталог телеграмм

begtin | Бизнес и стартапы

Подписаться на канал

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

11 марта 2024 06:24

В рубрике закрытых данных в России портал открытых данных ЯНАО (data.yanao.ru)

В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.

Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb

#opendata #closeddata #datasets #data #russia

Читать полностью…

Ivan Begtin

09 марта 2024 09:20

К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.

Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.

Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.

Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.

Но про эти ограничения важно не забывать.

#opendata #russia #dateno #datacatalogs

Читать полностью…

Ivan Begtin

08 марта 2024 15:07

Открытые данные в Армении

На прошлых выходных мы провели первый Open Data Day в Армении. Он прошел в уютной атмосфере лофта Еревана с выступлениями представителей госорганов, дата-специалистов и журналистов.

Армения находится в начале своего пути работы с открытыми данными, поэтому на Дне открытых данных планами Министерства Высокотехнологичной Промышленности поделился Аршак Левонович Керобян, начальник Управления цифровизации.

Самым интересным, на мой взгляд, является намерение Министерства поддерживать концепцию open by default - открытость по умолчанию. В этой концепции все, что не является закрытым, должно быть доступным и открытым. Россия не придерживается концепции открытости по умолчанию, поэтому существует (устаревший) список наборов данных, которые должны быть открытыми.

Вторым интересным моментом является инвентаризация всех государственных данных и публикация созданного каталога. При этом, была озвучена идея о том, что госорганы не могут пользоваться и ссылаться на те данные, которые не включены в каталог. На мой взгляд, это отличное решение для того, чтобы госорганы своевременно вносили информацию о своих наборах данных (тем самым актуализируя каталог) и не забывали публиковать их в открытом доступе.

Рассказывали также доработке закона О свободе информации и о том, какую бурную дискуссию он вызвал даже среди потенциальных бенефициаров, которые так долго боролись за повышение открытости и прозрачности.

Закон о персональных данных также сейчас разрабатывают. Удивительно, что для регистрации информации о гражданах существует несколько не связанных друг с другом реестров, каждый из которых устаревает через пять минут.

Надеюсь, что все это (ну или хотя бы то, что касается открытых данных) в ближайшее время будет реализовано.

Кстати, некоторое время назад мы запустили общественный портал открытых данных Армении (https://data.opendata.am), загрузив первые 815 наборов данных. Государственный портал армянское правительство тоже анонсировало.

Читать полностью…

Ivan Begtin

06 марта 2024 09:14

Если Вы ещё не подключились, трансляция онлайн Дня открытых данных в Москве идет вот тут https://www.youtube.com/live/qOEg6lvC1hY?feature=shared

Доклады уже начались

#opendata #events #russia

Читать полностью…

Ivan Begtin

05 марта 2024 13:07

День открытых данных: 6 марта с 11:00

6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.

В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.

Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.

Регистрация по ссылке: https://opendataday.ru/msk

Читать полностью…

Ivan Begtin

04 марта 2024 12:57

Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".

Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.

Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.

Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.

Не забудьте зарегистрироваться и присоединиться!

#opendata #opendataday #events #russia

Читать полностью…

Ivan Begtin

03 марта 2024 07:13

В рубрике как это работает у них городская панель управления (city dashboard) города Тайбэя [1].

Распространяется как открытый код [2] под лицензией AGPL, используется городскими властями внутри и для публики доступно общедоступное demo.

А также к продукту есть обширная документация [3].

Городские дашборды в юго-восточной Азии не редкость, например, есть такой у Гонконга как часть портала открытых данных [4], но к нему не припомню открытого кода.

А вот в Ирландии есть целый проект Building City Dashboards [5] с разными дашбордами, научными работами и открытым кодом. Можно сказать что системный подход к вопросу.

Ссылки:
[1] https://citydashboard.taipei/dashboard-demo/dashboard?index=childcare
[2] https://github.com/tpe-doit/Taipei-City-Dashboard
[3] https://tuic.gov.taipei/documentation/front-end/introduction
[4] https://data.gov.hk/en/city-dashboard#city
[5] https://dashboards.maynoothuniversity.ie/

#dataviz #opensource #opendata #opengov #cities #roc

Читать полностью…

Ivan Begtin

02 марта 2024 15:36

🏆 Results of the Open Data Armenia Contest Announced

Nomination "Data Visualization"

2nd place:
- Armenia's Energy Profile project (https://rasscrom.github.io/armenia-energy/). Authors: Beisenbaev Alikhan, Kushlevich Artem, Akynzhanov Tolegen.

3rd place:
- Armenian newborn children 2014-2023 project (https://yuu.space/2024/02/18/armenian-names-of-newborns-statistics). Author Ani Hovhannisyan.

- Project “Geoportal of Armenia build on new "Sloy" engine» (https://sloy.io/armenia). Authors:

- Project Խաղողագործության բնագավառի խնդիրները (Problems of viticulture sphere) (https://multimedia.alttv.am/page43582628.html). Authors: Khachik Danielyan, Angela Stepanyan.

Nomination "Cultural Apps"

2nd place:
- Armenian Literature project (https://arm-lit-archive.vercel.app). Author Mushegh Movsisyan.

Congratulations and thank you for your participation! In the coming days, the organizers will contact the authors of the prize-winning projects.

Читать полностью…

Ivan Begtin

01 марта 2024 18:11

В качестве небольшого оффтопика подписывайтесь на телеграм канал @ministryofpoems где в поэтической, в основном, форме, а иногда и в прозе и в визуализации появляются стихи которые, конечно же, ни на что не намекают и никакого отношения к реальности не имеют. Вот пример графом, а также прообраз в виде стихотворной стенограммы /channel/ministryofpoems/247

Читать полностью…

Ivan Begtin

01 марта 2024 13:21

Open Data Day - это 231 мероприятие в 2024 году организованные волонтёрами по всему миру [1]. Мероприятия разные по формату: оффлайновые митапы, хакатоны, дататоны, лекции, конференции и многое другое. Где-то большие события, где-то встречи групп в несколько человек.

Обратите внимание на мероприятия:
- День открытых данных в Москве (виртуальный) https://opendataday.ru
- ODD Armenia, оффлайновый митап https://odd.opendata.am
- Вечер оживших карт в Перми https://eduthon.timepad.ru/event/2789535/

На постсоветском пространстве осталось только мероприятие в Украине, но ничего нет даже в балтийских республиках или в Центральной Азии.

У многих мероприятий будет онлайн так что будет что посмотреть потом.

#opendata #events #opengov

Читать полностью…

Ivan Begtin

29 февраля 2024 13:27

Интересные open source проекты про данные и не только:
- pipelined query language [1] - Спецификация и реализация компилятора из языка PQL в диалекты SDQL. Идеологически вдохновлён Kusto Query Language [2] от Microsoft, выглядит любопытно, особенно если проект проживёт долго и будет применяться.
- FileQL [3] - очередная реализация принципа "всё SQL", обёртка для SQL запросов в отношении операций с файловой системой.
- Magika [4] - программный модуль для Python и утилита по определению типа файла на основе модели обученной с помощью ML. Обещают лучшую точность и всё такое. Фактически замена программы magic для аналогичных целей в Unix/Linux.
- Gatus [5] продвинутый монитор доступности и статуса серверов/сервисов, ориентирован на разработчиков, управляется через YAML файлы конфигурации
- SSH3 [6] эволюция протокола SSH2 для дистанционного подключения к терминалам на удалённых серверах. Обещают большую производительность и большую безопасность. Может быть полезно для проксирования трафика тем кому это нужно.

Ссылки:
[1] https://github.com/runreveal/pql
[2] https://learn.microsoft.com/en-us/azure/data-explorer/kusto/query/
[3] https://github.com/AmrDeveloper/FileQL
[4] https://github.com/google/magika
[5] https://github.com/google/magika
[6] https://github.com/francoismichel/ssh3

#opensource #datatools

Читать полностью…

Ivan Begtin

29 февраля 2024 09:30

Рубрика "Циничная лингвистика"
"Умное правительство" на монгольском - "Ухаалаг засаг".
Вот все-таки есть что-то глубинное в языке степных кочевников!

Читать полностью…

Ivan Begtin

28 февраля 2024 09:16

В качестве регулярного напоминания, в России уже 11 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] /channel/begtin/4714

#opendata #closeddata #russia

Читать полностью…

Ivan Begtin

27 февраля 2024 11:25

Программа Дня открытых данных 2024: открытые данные для науки, статистика внешней торговли, госфинансы и многое другое

🗓 Дата и время: 6 марта, 11:00-14:30
💻 Формат: онлайн-трансляция

Опубликована программа российского Дня открытых данных. Темы выступлений:

1. Открытые данные для управления российской наукой: проблемы и возможности. Спикер Иван Стерлигов, советник проректора по науке НИУ ВШЭ.
2. Открыть нельзя закрыть: особенности работы со статистикой внешней торговли России. Спикер Алина Владимирова, руководитель направления сетевого анализа, Институт востоковедения РАН.
3. Презентация проекта Dateno — поисковика по открытым и общедоступным данным по всему миру. Спикер Иван Бегтин, директор АНО «Инфокультура».
4. Открытость госфинансов: вчера, сегодня, завтра. Спикер Ольга Пархимович, руководитель проекта «Госзатраты».
5. Презентация проекта ДумаБинго: Что мы можем сказать о работе Государственной думы, используя открытые данные. Спикер Александр Верещагин, аналитик проекта.
6. Тендерскоп: инструмент общественного контроля публичных закупок. Спикер Ирина Чарикова, руководитель проекта.

📍Регистрируйтесь на мероприятие и добавляйте его себе в календарь. Подробности на сайте: https://opendataday.ru/msk

Организатором Дня открытых данных в России выступает АНО «Информационная культура».

Читать полностью…

Ivan Begtin

26 февраля 2024 17:13

Я давно не писал про некоторые базовые принципы работы с данными, хотя регулярно о них задумываюсь в практическом контексте применения концепций и принципов инженерии данных к открытым и общедоступным данным. Например, про data lineage, которое на русский язык коллеги переводят как генеалогию данных. Я буду использовать термин data lineage, как более употребимое.

Так вот интересное тут то что в корпоративном мире с густой аналитикой (когда аналитические команды есть и они сильные, и запрос на аналитику есть), так вот в корпоративном мире data lineage - это понятное явление, если не привычное, то активно обсуждаемое и применяемое. Потому что decision maker'ы часто задают вопросы о том как та или иная цифра вышла и надо иметь ответ о том, а как же это оно есть. А вот в мире общедоступных данных, статистики и, отчасти, науки, с data lineage всё, скажем там, плоховато или очень специфично.

В случае научных данных общего типа, происхождение данных, обычно, описано текстом, неструктурировано и, частично, выявляется из ссылок на данные которые использовались. Иногда по этим ссылкам можно определить быстро первоисточник и способы обработки, иногда сложнее. Для хорошо структурированных научных областей вроде биоинформатики это должно быть проще, для других наук сложнее и тд.

В других случаях это сложнее, иногда реально сложно. Ещё сложнее со статистикой, при том что там источники данных указываются практически всегда, но это указание может быть не на первоисточник, а на глобальный источник. Простой пример, какой-нибудь агрегатор данных статистики вроде портала данных ООН (data.un.org) может собирать данные из портала данных Международного валютного фонда (IMF) data.imf.org, а тот из первоисточника, страницы раскрытия данных на сайте резервного банка или статслужбы страны. А кто-то коммерческий может, опять же, собирать данные с портала ООН и выдавать в своём сервисе.
Будем ли он при этом рисовать полноценный data lineage от портала данных ООН до сайта статслужбы ? Вообще-то нет, источником будет указан портал ООН.

С открытыми данными данными ещё хуже, там даже приближения к генеалогии данных нет, даже если в первоисточнике базы из которой создан датасет он есть.

Потому что есть огромное немаловажное явление - это технологический разрыв между порталами раскрытия и системами управления данными.
Он особенно остро ощущается теми кто работает в обоих мирах, с корпоративными данными, и с общедоступными данными.

Лично я его ощущаю довольно сильно и проекты и инициативы которые создаются дата инженерами и, условно, идеологами и активистами отличаются очень сильно.

Первые продвинуты технологически и сразу ориентированы на разработчиков (API, структурированное хранилище, преобразование данных в удобные форматы JSON, Parquet и др.), но, часто, забывая про базовые принципы открытости.

Вторые, наоборот, ориентированы на государственную или корпоративную прозрачность, но технологическая реализация всегда оставляет ощущение архаики.

Как выглядят идеальные порталы/сайты индикаторов или порталы публикации геоданных? Лично я считаю что главное в них это максимальная ориентация на использование дата-инженерами и дата-аналитиками владеющими современными инструментами. Даже, если не суперсовременными, но хотя бы актуальными.

Это реализация data lineage, это проектирование по принципу API First, это современные форматы предоставления данных для data science, это _всегда_ наличие bulk download, это концепция в основе что data as a product, а не данные как производный продукт от чего то ещё.

#opendata #data #dataengineering #thoughts

Читать полностью…

Ivan Begtin

10 марта 2024 15:14

Те кто видел мою презентацию про Dateno могли обратить внимание что я упоминал там про семантические типы данных, о которых неоднократно тут писал и о которых всегда полезно напомнить.

Семантические типы данных - это характеристики колонок в таблицах/полей в JSON и тд. которые определяют их смысловое наполнение. То есть если тип поля: строка, число и тд. определяют способ хранения и тип данных, то семантический тип определяет смысл. Например, строка может быть идентификатором организации или UUID, или датой или кодом продукта. Для всего это я когда-то написал утилиту metacrafter [1] и библиотеку для Python, которая умеет сканировать файл или таблицу в СУБД и выдавать отчёт по семантическим типам привязывая их к единому реестру. Реестр довольно обширный [2] по самым разным направлениям, а сама утилита включает набор простых правил описываемых в YAML нотации.

Эти правила бывают, как очень простые, так и довольно сложные, с разной вероятностью ложных срабатываний, но, в целом, довольно точно работающие.

Собственно не секрет что основным источником выявления правил были порталы открытых данных UK, USA, России, Франции и многих других стран.

А теперь осталось добавить их в фильтрацию в наш поисковик по данным. Это не так просто как кажется, потому что правила есть пока только для некоторых стран/языков, потому что много ошибок в первичных данных, потому что данных много, но, несомненно очень интересно.

Если, кстати, вы обогащаете внутренние каталоги данных дополнительными метаданными, то metacrafter может оказаться очень полезной штукой. Она создавалась изначально для этого и может помочь найти персональные данные в самых неожиданных местах.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.apicrafter.io/

#opendata #opensource #data #datatools

Читать полностью…

Ivan Begtin

09 марта 2024 07:34

Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.

У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»

Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".

Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.

Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.

Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.

Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.

Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.

Не любят людей в Рослесхозе, ох как не любят.

P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц

Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest

#opendata #datasets #forestry #russia #closeddata #baddata

Читать полностью…

Ivan Begtin

06 марта 2024 14:38

Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data

Читать полностью…

Ivan Begtin

05 марта 2024 14:07

Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch

Читать полностью…

Ivan Begtin

05 марта 2024 12:44

В рубрике интересных наборов данных данные по тестированию дисков от облачного провайдера Backblaze [1] огромный датасет замеров работы почти 270 тысяч жестких дисков, с зарегистрированными фактами почти 17 тысяч отказов.

Общий объём датасета более 100GB, там же много аналитики от Backblaze про сами диски и это бесценная информация для всех кто выбирает диски для долгосрочного хранения. У них же очень интересная аналитика [2] за многие годы.

Ссылки:
[1] https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data
[2] https://www.backblaze.com/blog/backblaze-drive-stats-for-2023/

#opendata #data #datasets

Читать полностью…

Ivan Begtin

04 марта 2024 11:43

В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps

Читать полностью…

Ivan Begtin

03 марта 2024 06:51

Свежие и полезные инструменты с открытым кодом для загрузки и обработки данных:
- PyAirbyte [1] библиотека для Python от команды Airbyte для того чтобы перенести логику этого движка по сбору данных в Python. Поддерживает все коннекторы Airbyte ранее написанные на Python
- dlt [2] Data Load Tool, явно созвучное dbt, библиотека для Python для реализации принципа Extract-Load-Transform. Выглядит довольно целостно, стоит изучить внимательнее
- ingestr [3] утилита командной строки по переносу баз данных из одного источника в другой. Поддерживает основные SQL СУБД
- sling [4] инструмент для выгрузки/загрузки данных с большинства основных СУБД включая облачные, файловых систем и различных дата файлов. Реализован на Go, важное ограничение GPL 2 лицензия (для сравнения у dlt лицензия Apache 2, а у ingestr MIT).

И конечно остаются такие инструменты как Meltano, Dagster, CloudQuery и многие другие

Ссылки:
[1] https://airbyte.com/blog/announcing-pyairbyte
[2] https://dlthub.com
[3] https://github.com/bruin-data/ingestr
[4] https://github.com/slingdata-io/sling-cli

#opensource #dataengineering

Читать полностью…

Ivan Begtin

01 марта 2024 18:11

Рисуем стихи в схемах:)

Читать полностью…

Ivan Begtin

01 марта 2024 17:49

В рубрике интересных проектов с открытым кодом Latino [1], язык программирования на испанском языке. Да, примерно как в СССР были языки программирования с ключевыми словами на русском, так же и тут, но в основе испанский.

Язык появился в 2015 году, он вполне работоспособен, хотя и, наверняка, не так продвинут как более общеупотребительные языки разработки.

По синтаксису что-то среднее между Python и Lua.

Полезен может быть тем кто учит испанский и программирует, чтобы, потренировать свои навыки и языка разговорного и языка программного.

Ссылки:
[1] https://www.lenguajelatino.org/

#opensource #programming

Читать полностью…

Ivan Begtin

29 февраля 2024 14:50

К вопросу о современных дата продуктах, один из способов работы с данными сейчас - это комбинация DuckDB и Polars. Например, DuckDB так стремительно набирает популярность что я не удивлюсь что скоро данные начнут распространять и публиковать как базы DuckDB, примерно как много лет назад публиковали DBF файлы и файлы MS Access [1] и также как иногда сейчас публикуют sqlite файлы [2].

В общем и целом за этим хайпом есть реальные продукты которые стоит посмотреть своими глазами.

P.S. Картинка из блога Christophe Blefari

Ссылки:
[1] https://catalog.data.gov/dataset/municipal-fiscal-indicators-2014-2018-ms-access-database
[2] https://catalog.data.gov/dataset/x-ray-properties-database-in-sqlite-format

#opensource #datatools

Читать полностью…

Ivan Begtin

29 февраля 2024 10:07

К вопросу о инвентаризации данных, это, как ни странно, до сих пор большая-актуальная тема как в корпоративном мире, так и в задачах data discovery (поиска данных) и создания каталогов открытых данных. Нашёлся ещё один свежий ресурс, шаблон по инвентаризации данных от Open Contracting [1].

Честно говоря, у меня лично он не вызывает какого-то восторга, довольно простой гайд и простая форма для заполнения. Даже карточки регистрации датасетов в CKAN и других каталогах данных выглядят куда обстоятельнее, а в корпоративных каталогах данных всё ещё интереснее.

Кроме того то что они называют Dictionary, по факту это схема данных и заполнять это вручную, скажем так, непрофессионально. Сбор структуры полей из файлов с данными вполне автоматизируем.

Тем не менее, для какого-то упрощённого подхода в инвентаризации это применимо.

А я напомню про разницу в инвентаризации данных между открытыми каталогами, госкаталогами и бизнес потребностями:
—
Для бизнеса ключевое:
- максимально полный охват внутренних ресурсов (баз данных)
- фиксация всех режимов доступа (кто имеет право доступа к чему)
- прослеживаемость данных, data lineage и тд.
- автоматизация измерения качества данных
- инвентаризация не только данных, но и всех data flows (процессов и потоков обработки данных)
- автоматически/автоматизированно актуализируемая документация

Для государства:
- сведения о информационной системе
- нормативный статус данных
- идентификация ответственного/владельца данных
- режим доступа к данным
- не только базы данных, но и все дата файлы и то что должно быть превращено в дата файлы

Для открытых и общедоступных данных:
- условия повторного использования
- контакты ответственного лица
- общедоступная документация
- сведения о повторном использовании и публикациях на основе данных
—

Ссылки:
[1] https://www.open-contracting.org/resources/data-inventory-template/

#opendata #data #datainventory #readings

Читать полностью…

Ivan Begtin

29 февраля 2024 09:30

А на чешском "Хитра влада"

Читать полностью…

Ivan Begtin

28 февраля 2024 08:15

В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe

Читать полностью…

Ivan Begtin

26 февраля 2024 18:15

Я тут читаю про российский Евразийский IT-форум (ссылки давать не буду, легко гуглится) и мнение имею что в общем-то российским госИТ продавать там нечего. Есть ли что продавать негосударственным ИТ ничего не скажу, скорее всего есть, но поможет ли им в этом российское гос-во есть некоторые, немалые сомнения.

Что могу сказать точно, так это то что результаты более чем скромные. Внедрение того же Гостеха или Госуслуг в Беларуси, если оно когда-либо, случится, то будет исключительно за деньги российского бюджета. Во внедрения в странах АСЕАН я просто не верю, там есть те кто сами могут много что продавать другим. Так же как и в случае арабских стран.

Меня, признаться, удивило отсутствие представителей Талибана в участниках, они как-то естественно бы там смотрелись вместе с представителями Ирана и КНДР😜😱

Но физически меня там не было, так что если у кого-то есть интересные инсайды, то было бы интересно послушать тех кто знает больше/лучше. Можно анонимно, источники раскрывать не буду 🙊

#government #it

Читать полностью…

Ivan Begtin

26 февраля 2024 09:49

Join us in celebrating Open Data Day in Armenia!

Date and time: March 2, 2024, 11:00 AM
📍Location: Loft at 3 Moskovyan Street, Yerevan, Armenia

The Open Data Day event will be for the first time in Armenia.

The program of the event includes:
- Discussion “Open data projects landscape. View in Armenia”
- Open Data Armenia Contest Ceremony (https://contest.opendata.am/)
- Presentation “Open Data Armenia Data Citizen Portal”
- Discussion “Government Open Data in Armenia”
- Master class “Armenia Data Discovery”
- Master class “Data Scraping”
- Master class “Government Finances Open Data”

This event is part of the International Open Data Day initiative, which helps to promote the concept of open data and information transparency in the activities of public authorities, businesses, non-profit organizations and other participants. The events are held all over the world. In Armenia, this event is organized by Open Data Armenia Project Team.

The event may be of interest for developers, data researchers and analysts, digital humanities specialists, data journalists, and other engaged specialists and students.

Don't miss the opportunity to be inspired by projects, make new contacts and contribute to the development of open data in Armenia. Join us and be part of the open data community in Armenia!

More information about the event on the website: https://odd.opendata.am.

Registration Form: https://forms.gle/EZqvXg9zAAF5zade7

Organizer: Public Organization “Open Data Development Center”.

Читать полностью…

Подписаться на канал