begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Первый день открытых данных в Армении пройдёт 2 марта в Loft Yerevan, в форме митапа, если Вы тут находитесь или будете проездом - заходите. Будут мастер-классы, рассказ про то что мы делаем в Open Data Armenia, разговоры о проектах на открытых данных в Армении. А также на ODD Армения я расскажу, наконец-то, про поисковик по открытым данным над которыми мы работали почти год (спойлер - более 10 миллионов датасетов, моментальный поиск). Это будет оффлайн, без трансляции, но точно интересно.


6 марта пройдет виртуальный Open Data Day в России (Москве) https://opendataday.ru/msk, запишите его себе в календарь и присоединяйтесь онлайн. Российский ODD будет целиком из докладов сообщества и его программа скоро будет доступна. После него обязательно будут видеозаписи и вот тут я также расскажу про поисковик на данных и это уже будет на более широкую аудиторию. Следите на сайте и в ТГ канале Инфокультуры @infoculture.

#opendata #opengov #vents #opendataday

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных Data Citation Corpus [1] от Datacite появился в рамках проекта Make Data Count. Сами данные владельцы пока не отдают в свободный оборот, надо заполнить форму запроса на использование [2], но для исследовательских проектов это не должно быть помехой.

Также, у набора данных есть дашборд с визуализацией [3].

Проект любопытный, на нём можно построить гораздо более интересную аналитику чем то что сейчас предоставляет DataCite.

Ссылки:
[1] https://makedatacount.org/data-citation/
[2] https://docs.google.com/forms/d/e/1FAIpQLSd1l7ovTQs3EMw9mz4HFaVB2SuUQ8Z8FldoCDgvD74GV-vh0Q/viewform
[3] http://corpus.datacite.org/dashboard

#opendata #data #openaccess #researchdata

Читать полностью…

Ivan Begtin

Свежая картинка по продуктам с открытым кодом в области дата инженерии.

Подробнее о ней в блоге её автора на Substack [1].

А я скажу что такие картинки хороши когда надо синхронизировать картинку в голове с изменениями за год, правда, мне лично, вот такой иконостас иконок всегда казался не наглядным и куда практичнее были обзоры по наиболее интересным развивающимся и новым продуктам.

Вот в этой картинке, например, нет SODA для data quality, в платформе метаданных зачем-то CKAN, хотя он про другое.

Я, кстати, несколько по другому систематизирую инструменты с открытым кодом. Когда-то просто стал делать закладки в Github по категориям [2] и там много их, больше 30 списков.

А заодно для тех кто интересуется разного рода экзотическим открытым кодом. Markdowndb [3] наглядная реализация принципов "всё таблица" и "всё SQL". Это фреймворк превращающий документы с разметкой Markdown в SQL базу данных к которой можно делать запросы к содержимому этих файлов с фильтрацией по тэгам, файлам и тд. Внутри используют Sqlite, в гайдах рассказывают как заменить статические файлы на эту базу в статических сайтах.

Ссылки:
[1] https://practicaldataengineering.substack.com/p/open-source-data-engineering-landscape
[2] https://github.com/ivbeg?tab=stars
[3] https://markdowndb.com

#opensource #data #dataengineering #datatools

Читать полностью…

Ivan Begtin

Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.

У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.

А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.

Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.

И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].

Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm

#opendata #data #finances #china #banking

Читать полностью…

Ivan Begtin

Я давно не напоминал что, помимо всего прочего, я веду реестр каталогов данных по всему миру, Common Data Index [1] и там уже почти 10 тысяч записей, большая часть которых - это геопорталы/каталоги геоданных. Но также много порталов открытых данных, микроданных, научных данных, каталогов индикаторов и каталогов данных для машинного обучения. Список пополняется постоянно, но работы ещё много.

В последнее время всё больше новых каталогов данных из систем национальной статистики и национальных банков стран, о них много что можно рассказать. А пока поделюсь некоторыми накопленными наблюдениями тезисами


1. Очень малое пересечение современной дата инженерии, дата анализа и data science с порталами открытых данных и вообще почти всеми системами раскрытия информации госорганами. Публикация данных в Parquet большая редкость, в лучшем случае доступны данные в форматах SPSS или Stata, а чаще просто CSV/XLS. Официальная статистика, в принципе, феноменально консервативна. Не так много статслужб публикующих данные на постоянной основе как открытые данные, но почти все так или иначе данные публикуют.

2. Наибольший прогресс и потенциал развития в открытости научных данных. Там есть хорошие обоснования, институциональная поддержка, системная работа, обоснованная аргументация, государственные программы и многое другое ориентированное на открытость. Но нет рынка. Нет областей применения себя любому амбициозному человеку поскольку всё построено на коллаборации и согласованности совместной глобальной работы. Поэтому (но не только поэтому) в этой области почти нет стартапов и активного бизнес присутствия.

3. Государства практически не создают каталогов данных для развития ИИ. Два концентратора данных и моделей - Kaggle и HuggingFace используются всеми, частными, корпоративными и государственными исследователями. Только в некоторых странах такие наборы данных публикуются на официальных порталах открытых данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #data #thoughts

Читать полностью…

Ivan Begtin

#events #RadioGroot

📍В гостях: Иван Бегтин, Data, Data engineering, Tech, Open Government, автор канала про данные

🕓Дата: 13 февраля в 19:00 по мск

🖼Формат: онлайн, трансляция в канале

🔗Добавить в календарь: здесь

Первый эфир

🗣Обсудим:

⬇️срез с предыдущего выпуска
⬇️управление данными
⬇️предпринимательство
⬇️транспарентность в законодательстве и документах

Читать полностью…

Ivan Begtin

7. При этом что российские госуслуги, что лучшие мировые примеры вроде Эстонии или Сингапура или госуслуги Казахстана через КаспиБанк, увы, не являются отчуждаемыми продуктами. Даже частично, даже в какой-то разумной доле снижающей стоимость внедрения. Во многих других областях решения есть: порталы данных, официальная статистика, гражданские бюджеты, порталы открытой демократии и открытого диалога и ещё много чего, но не для госуслуг. Да чего уж там, даже для национальных цифровых идентификационных платформ нет универсальных решений. Слишком большая вариативность уже созданного и необходимого для интеграции и местных законов, местной цифровой готовности и тд.

8. Поэтому пиар российских Госуслуг - это странно, очень странно. Может ещё одно предположение что всё это было к кадровым перестановкам в Пр-ве? Но, что-то вот верится с трудом. Пока всё идет к тому что ничего не поменяется (с)

9. Хорошо бы он выглядел если бы на сцену вышел бы какой-нибудь российский вице-премьер и так бы и сказал: "Друзья, мы тут с Гостехом облажались и решили его закрыть. А вот Госуслуги это супер, Госуслуги это зашибись. Теперь будем на их основе госпроекты развивать". Шучу, наверное;) Это на меня так сюрреализм происходящего влияет.

Часть 2 из 2

#thoughts #government #russia

Читать полностью…

Ivan Begtin

В рубрике закрытых в России данных. Министерство юстиции РФ с 2022 года не публикует в официальной статистике [1]:
- Сведения о контроле и надзоре в сфере государственной регистрации актов гражданского состояния
- Сведения о государственной регистрации актов гражданского состояния и органах ее осуществляющих

Кроме того, как минимум, с 2021 года в официальной статистике Минюста РФ не раскрываются сведения о регистрации смерти. Эти данные есть в статистике за 2019 год [2] и отсутствуют в статистике за 2021 [3].
Статистика за 2020 год на федеральном уровне не публиковалась.

При этом на региональном уровне, в некоторых регионах таких как Республика Алтай, терр управления Минюста РФ публикуют статистику, в том числе полугодовую и в том числе за 2023 год и в том числе о регистрации смертей [4]. В других регионах, терр. упр. по Владимирской области отправляют на оф. сайт Минюста РФ и сами ничего не публикуют [5], а в Республике Адыгея вообще ничего не размещают [6].

P.S. Фактически эти данные были одним из немногих источников сведений о смертности, полезные для перепроверки других источников. Но и они "были", и ненадёжны.

Ссылки:
[1] https://minjust.gov.ru/ru/activity/statistic/
[2] https://minjust.gov.ru/uploaded/files/sbornikpominyusturossii0261912.xls
[3] https://minjust.gov.ru/uploaded/files/kopiya-17241652-66814750.xls
[4] https://to02.minjust.gov.ru/ru/pages/svedeniya-o-gosudarstvennoj-reg29012024/
[5] https://to33.minjust.gov.ru/ru/activity/statistic/
[6] https://to01.minjust.gov.ru/ru/activity/statistic/

#closeddata #opendata #russia #statistics #demographics

Читать полностью…

Ivan Begtin

Микрофоны в туалетах начали устанавливать в Великобритании в некоторых школах [1] чтобы отслеживать вэйпинг и буллинг школьников. Сенсоры продает Triton Sensors [2]. Когда ключевое событие происходит то администрация школы автоматически уведомляется с помощью SMS.

Похожие сенсоры под брендом HALO Smart Sensors в США внедряет компания IPVideo (часть Motorola). Ими охвачено уже более 1500 школ.

Причём согласия родителей не требуют поскольку персональные данные не собираются, только предупреждения рассылаются администрации.

Интересно что дальше будет. Автоматические химические анализаторы в в унитазах и канализационных трубах для выявления наркотиков? Обязательные наручные бэнды для отслеживания уровня стресса? Есть некоторое ощущение что школы превращаются в анти-утопические центры образования.

Ссылки:
[1] https://schoolsweek.co.uk/schools-install-toilet-sensors-that-actively-listen-to-pupils/
[2] https://tritonsensors.com/3d-sense-pro/
[3] https://halodetect.com/

#privacy #security #schools

Читать полностью…

Ivan Begtin

У меня уже очень долгое время в пассиве домен "kremlin.io" который я ещё давно хотел превратить в дата-проект, но всё это время откладывал и откладывал и откладывал и в этом году тоже отложу, потому что много всего другого в работе. Тоже про данные, но всякое другое.

Применить его можно про всякое. От исторического проекта про разные кремли с их панорамами обзорами, до дата-журналистики про то какой плохой/хороший основной Кремль как политическая институция.

До какого-нибудь софтверного продукта компонента с названием Kremlin, что будет странно по нынешним временам, но почему бы и нет?

Лично я когда-то хотел этот домен использовать в двух разных сценариях:
1. Как каталог данных про РФ именно про госуправление и госполитику.
2. Как проект по мониторингу государственной ИТ/цифровой политики в РФ.

Но оба сценария сейчас не проходят фильтра в виде вопроса "Зачем?", другие сценарии не придумываются, а домен превратился в пассив.
Так что готов его отдать за очень много денег которые все пожертвую на нашу НКО.

#questions #domains #kremlin

Читать полностью…

Ivan Begtin

Опубликовано видео на youtube-канале проекта!

Дорогие подписчики, опубликовали для вас видеозаписи, прошедших вебинаров, приуроченных к конкурсу Open Data Armenia Contest.

1. Вебинар "Обзор открытых данных Армении: лицензии и источники".

2. Вебинар "Введение в визуализацию данных: проекты, методы и инструменты".

📍Подписывайтесь на канал, ставьте лайки и жмите на колокольчик для получения уведомлений о новых видео: OpenDataArmenia/videos" rel="nofollow">https://www.youtube.com/@OpenDataArmenia/videos

Читать полностью…

Ivan Begtin

Изостатистика - одна из первых книг по инфографике

Так как мы решаем большую задачу «собрать бюджеты России за 100 лет», приходится часто искать новые источники исторических книг и документов. Одной из самых интересных находок стала книга И.П. Иваницкого «Изостатистика. Изобразительная статистика и венский метод», изданная в «Москве-Ленинграде» в 1932 году.

Изостатистика, как оказалось, примерно то же самое, что в современном мире называют «инфографикой», и что в книге зовется «количественной системой диаграммирования».

Книга описывает базовые принципы создания диаграмм, приводит большое количество примеров исторических инфографик и разбирает каждую из них.

К сожалению, книга черно-белая, но все равно уникальная.

Скачать книгу можно с сайта НЭБ (уникальный источник исторических книг): https://rusneb.ru/catalog/000199_000009_005073846/

#открытыеданные #инфографика #диаграммы

Читать полностью…

Ivan Begtin

Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google

Читать полностью…

Ivan Begtin

Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] /channel/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime

Читать полностью…

Ivan Begtin

[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Правительство Бразилии обновило план действий по открытости государства на 2023-2027 годы, он есть на сайте Open Government Partnership [1]. Он включает список сделанного за 2023 год и перечень следующих шагов.

Что было сделано:
- Появилась процедура партисипаторного планирования когда граждане участвуют в принятии решения по долгосрочным государственным программам. Это как партисипаторное бюджетирование, но долгосрочное
- Произошло расширение Transparency, Integrity, and Anti-Corruption Council (CTICC), специального совета из граждан и чиновников по обеспечению прозрачности. Решено расширить его включением большего числа представителей гражданского общества и НКО
- Был создан Social Participation Office (Офис по социальному участию) при Президенте - содействует вовлечению граждан в деятельность гос-ва. Начиная с партисипаторного бюджетирования и продолжая другими подобными инициативами

Что планируется:
- Разработку Open Government Strategy единой стратегии, которая охватит все стороны открытости гос-ва в стране
- Внедрение партисипаторного бюджетирования в бюджетный процесс
- Множество континентальных мероприятий по открытости таких как: Open Region, Condatos и др

И ещё множество обязательств (commitments) по открытости и по доступности данных. В Бразилии открытость данных имеет чёткий акцент на противодействии коррупции. В целом же очень много усилий по вовлечению граждан во все стороны деятельности гос-ва.

Ссылки:
[1] https://www.opengovpartnership.org/es/documents/brazil-action-plan-2023-2027-december/

#opendata #opengov #brazil

Читать полностью…

Ivan Begtin

В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github

Читать полностью…

Ivan Begtin

В блоге Observable основатель, Mike Bostock пишет про Observable 2.0 который вот-вот вышел 15 февраля и в его основе теперь Observable Framework [2] являющийся генератором статических сайтов с визуализацией и с открытым кодом [3].

Выглядит всё это более чем интересно, фактически - это возможность делать общедоступные и корпоративные аналитические работы в виде гибких дашбордов и дата-историй. При этом всё проектируется в JS + Markdown, а итоговая визуализация может быть довольно продвинутая.

Интересен и сам факт того что автономный продукт с открытым кодом отделяется от облачного сервиса. Чаще всё происходит наоборот, вначале авторы создают крутой open source проект, а потом монетизируют сервис на его основе. А тут сервис есть с самого начала и он остаётся востребованным потому что даёт удобный инструмент для совместной работы.

У Observable, в итоге, получаются очень качественные продукты, как облачные, так и с открытым кодом и для нового фреймворка несомненно будет много интересных задач.


Ссылки:
[1] https://observablehq.com/blog/observable-2-0
[2] https://observablehq.com/framework/
[3] https://github.com/observablehq/framework

#dataviz #opensource

Читать полностью…

Ivan Begtin

В рубрике как зарабатывают на открытых данных проект The Observatory of Economic Complexity (OEC) [1] визуализирует и даёт инструменты интерактивного анализа международной торговли. При том что оперируют далеко не оперативными данными, по многим странам они только за 2021 год (но есть и те по которым они есть за ноябрь 2023). Монетизируют доступ к визуализации, возможности массовой выгрузки и так далее. Pro аккаунт стоит $299, Premium за $1999. Главная добавленная стоимость именно в визуализации.

Международные датасеты отдают бесплатно, национальные за деньги.

Ссылки:
[1] https://oec.world

#opendata #business #data #trade

Читать полностью…

Ivan Begtin

В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives

Читать полностью…

Ivan Begtin

Как центральные банки в мире публикуют данные? В большинстве стран резервные/центральные/национальные банки это весьма консервативные организации, чаще всего публикующие данные в виде Excel, а то и PDF файлов на своих сайтах и если и предоставляющие API, то только для курсов валют. Тем не менее есть примеры системной публикации открытых данных некоторыми из них.

Портал открытых данных центрального Банка Бразилии [1] сделан на CKAN, включает как оперативные, так и редко обновляемые данные. Все они публикуются под открытой лицензией Open Data Commons Open Database License (ODbL)

Открытые данные Банка Греции [2] это де-факто каталог индикаторов с возможностью их выгрузки в Excel формате и дополнительной фильтрацией по частоте обновления. Все под лицензией Creative Commons 4.0

ECB Data Portal [3] портал данных Европейского Центрального Банка, включает продвинутое API для публикации данных с поддержкой SDMX.

ECOS Economic Statistics System [4] система индикаторов Банка Кореи. Визуально наглядно, но несколько устаревший. Нет открытого API, но есть недокументированное.

Примеров публикации официальной статистики банками гораздо больше, полноценные открытые данные всё ещё редкость.

Ссылки:
[1] https://opendata.bcb.gov.br/
[2] https://opendata.bankofgreece.gr
[3] https://data.ecb.europa.eu
[4] https://ecos.bok.or.kr

#opendata #finances #banking #datasets #datacatalogs

Читать полностью…

Ivan Begtin

Сегодня, любопытства ради, я посмотрел трансляцию Минцифры РФ со "Дня госуслуг".

Всё думал как это прокомментировать, сформулирую мысли тезисами:
1. Госуслуги в России действительно существуют, в отличие от Гостеха, там есть реальное нечто о чём создатели могут рассказать и что могут показать. Показали они не так много как могли, рассказали что-то кому-то общеизвестное, кому-то новое, но главное - живое. Поэтому в качестве комплимента можно сказать что их пиар достаточно правдив, хотя и неуклюж, но неуклюж достаточно естественно.

2. Конечно, правильно было бы назвать не "День Госуслуг", а день Ростелекома. По сути большая часть происходящего и большинство выступавших именно оттуда, из РТК Лабс. Но это просто констатация факта, от этого не горячо, не холодно.

3. Ключевой вопрос, важный всегда и везде, а на кой .. зачем всё это мероприятие проводилось? Вопрос немаловажен тем что в отличие от того же Гостеха, Госуслуги не надо продавать. Госуслуги - это монопольный государственный продукт работа с которым для госорганов - это не опция, а уже скорее обязательство и функция. "Продавать его" госслужащим, федеральным или региональным смысла нет. Как и нет смысла "продавать его" аудитории форума Россия. В принципе нет никакого смысла его продавать, кроме как если надо рассказывать о достижениях РФ в ИТ и уже понятно что с Гостехом так знатно облажались что надо говорить о чём-либо реальном.

4. Почему выглядит странно? Потому что, по хорошему, у российских Госуслуг могут быть три канала коммуникации:
4.1. Руководство - это когда надо "продать идею" чтобы влить в них ещё больше денег. Но это, как бы, давно уже не проблема. Скорее проблемой было какое-то время то что часть сервисов внутри Госуслуг планировали (планируют ли ещё?) передать в Гостех. Но не передали, что показательно
4.2. Разработчики, но для этого надо превращать Госуслуги в экосистему и открывать код/API, документацию и тд. Эту "поляну" Пр-во уже слило в Гостех, где идея госэкосистемы благополучно-неблагополучно приобретает свою доменную смерть.
4.3. Потенциальные покупатели из других стран. Поскольку уже понятно что даже на постсоветском пространстве Гостех никто не купит, потому что этот "кот в мешке" ещё даже не родился и уж тем более ничего показать нельзя. А вот Госуслуги живые. Но что-то не было похоже что аудитория именно этого форума была хоть как-то приближена к такой продаже.

5. О последнем подробнее. Да, Госуслуги в РФ - это гораздо более живой проект чем многие другие и выступавшие на форуме в целом, общем и в частностях не врали. Но кое-что осталось за кадром (не договаривали), а это стоимость. И стоимость там огромна поскольку она включала ещё и стоимость внедрения, интеграции, доработки многих информационных систем и ещё много чего. В общем это дохрена, не каждая развитая страна может позволить себе такие расходы. Я лично с трудом могу поверить что какая-либо из стран являющаяся российским торговым партнером или, хотя бы, не вводившая санкции начнёт вот так просто такой продукт внедрять.

6. Более проглядывается сценарий что, либо внедрение будет как политическое решение и на российские же деньги в виде огромного кредита, либо в формате какой-либо большой сделки обмена "условные снаряды на Госуслуги" с одной из сильно подсанкционных стран. Но опять же, я в обозримом будущем не вижу чтобы это произошло каким-либо естественным образом. Только политика и ничего кроме политики.

Часть 1 из 2

#thoughts #government #russia

Читать полностью…

Ivan Begtin

Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics

Читать полностью…

Ivan Begtin

В рубрике пока ещё доступных российских данных, порталы радиационного мониторинга.

Единая государственная автоматизированная система мониторинга
радиационной обстановки на территории Российской Федерации
[1] включает данные мониторинга и ежемесячные отчёты. Открытых данных нет, есть недокументированные API и регулярные ежемесячные и годовые отчеты с детализацией до города/поселения

Радиационная обстановка на предприятиях Росатома [2] с ежесуточным обновлением. Открытых данных нет, есть недокументированное API.

Радиационная обстановка Красноярского края [3]. Открытых данных нет, есть ежесуточные данные, нет API, нет исторических данных в открытом доступе.

А также существует ещё как минимум десяток сайтов и порталов структур входящих в Росатом и Росприроднадзор публикующих регулярно обновляемые данные.

В форматах открытых данных их никто не публикуют, но и до сих пор не закрывают.

[1] https://egasmro.ru
[2] https://www.russianatom.ru
[3] http://www.krasecology.ru/operative/radio

#opendata #datasets #russia #radiation

Читать полностью…

Ivan Begtin

Свежий портал геоданных Республики Молдова geodata.gov.md [1] похоже что какой-то своей разработки и пока 16 карт и слоёв с данными. Внутри всё работает на Geoserver в котором слоёв уже побольше, 25 [2], но, всё равно, пока довольно скромно.

И удивительно что своя разработка, а не какой-нибудь Geonode, который с открытым кодом и даёт точно такой же портал.

В целом же данные страны проще пока найти на геокаталоге NSDI страны [3] где опубликовано 165 слоёв, а также в Молдове есть некоторое число общедоступных серверов ArcGIS и Geoserver, также, с геоданными.

Ссылки:
[1] https://geodata.gov.md/#/
[2] https://geodata.gov.md/geoserver
[3] https://geoportalinds.gov.md

#opendata #datasets #geodata #moldova

Читать полностью…

Ivan Begtin

Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla

Читать полностью…

Ivan Begtin

В качестве регулярных напоминаний, помимо этого телеграм канала я время от времени пишу на других площадках:
- рассылка лонгридов на Substack на русском языке https://begtin.substack.com/
- блог в Medium на английском языке ibegtin" rel="nofollow">https://medium.com/@ibegtin
- в Фэйсбук'е https://www.facebook.com/ibegtin (почти дублируется с телеграм каналом)
- в VK https://vk.com/ivbeg пишу сильно реже, мне как и многим эта соцсеть не нравится, но часть аудитории там.

А также другие телеграм каналы:
- Инфокультура /channel/infoculture с анонсами проектов и новостями АНО Инфокультура
- Национального цифрового архива /channel/ruarxive о архивации цифрового русскоязычного и российского контента
- проекта Госзатраты /channel/clearspending - ведут мои коллеги в Инфокультуре, в основном туда роботы постят инфу про интересные госконтракты. Вот уже много лет
- Open Data Armenia /channel/opendatam - телеграм канал Open Data Armenia, армянской НКО которую я возглавляю (Yes hay em) и где на трёх языках: английском, армянском и русском про открытые данные в Армении


#readings #opendata #russia #armenia #telegram

Читать полностью…

Ivan Begtin

“Госзатратам” 10 лет!

4 февраля 2014, ровно 10 лет назад, был запущен проект “Госзатраты” (clearspending.ru) - один из первых в России информационно-аналитических проектов, направленных на повышение осведомленности граждан о состоянии, тенденциях, проблемах и рисках в сфере планирования и исполнения государственных расходов.

10 лет “Госзатрат” - это 10 тысяч уникальных посетителей в сутки (а за 10 лет - уже 16 миллионов), 53 миллиона просмотренных страниц и данные о 55 миллионах контрактов.

Вот уже 10 лет мы непрерывно скачиваем портала Госзакупок данные о госконтрактах, преобразовываем их и предоставляем разработчикам в формате API.

С 2014 по 2019 год мы активно проводили онлайн и офлайн-мероприятия – хакатоны и семинары по тематике госфинансов, команда проекта принимала участие в «Днях открытых данных».

С 2019 года по июль 2023 года наша команда разрабатывала проект СП РФ “Госрасходы” (spendging.gov.ru), поэтому “Госзатраты” оставались в режиме поддержки. Но, с учетом регулярно обновляющейся схемы данных портала госзакупок, работы нам и в этот период хватало :).

В конце 2023 года мы вернулись к активной разработке проекта и скоро представим вам новую базу данных и обновленный альфа-версию обновленного сайта проекта. Мы будем вести разработку в “открытом режиме”, поэтому у всех пользователей будет возможность протестировать и привыкнуть к новому интерфейсу, оставить обратную связь и предложения по новому функционалу. Предложения и комментарии можно будет оставлять в комментариях к этому посту или на почту oparkhimovich@infoculture.ru.

Также мы заранее анонсируем необходимость авторизации для использования API проекта, но у вас будет достаточно времени для регистрации и перехода на новую схему данных.

Благодарим всех наших пользователей, разработчиков, использующих API и открытые данные, поставщиков данных (Минфин России и Казначейство России, надеемся, что данные останутся доступными) и, конечно, команду проекта.

Читать полностью…

Ivan Begtin

За текучкой дел я почти упустил и не успел посмотреть выступления на FOSSDEM и уж совсем упустил податься туда рассказать о том что делаю сам и с командой, тем не менее там много что есть посмотреть по теме данных и открытого кода и по теме Open Research [1] где как раз про открытые данные много.

На что стоит обратить внимание из связанного с данными:
- Updating open data standards [2]
- The French Open Science Monitor: steering the science based on open bibliographic databases [3]
- Unlocking Research Data Management with InvenioRDM [4]
- Cosma, a visualization tool for network synthesis [5]

Там ещё много узкотехнических докладов, не сомневаюсь что многие их если ещё не посмотрели, то посмотрят.

Ссылки:
[1] https://fosdem.org/2024/schedule/track/open-research/
[2] https://fosdem.org/2024/schedule/event/fosdem-2024-3109-updating-open-data-standards/
[3] https://fosdem.org/2024/schedule/event/fosdem-2024-3185-the-french-open-science-monitor-steering-the-science-based-on-open-bibliographic-databases/
[4] https://fosdem.org/2024/schedule/event/fosdem-2024-3452-unlocking-research-data-management-with-inveniordm/
[5] https://fosdem.org/2024/schedule/event/fosdem-2024-3394-cosma-a-visualization-tool-for-network-synthesis/

#opendata #data #events

Читать полностью…

Ivan Begtin

И, кстати, не могу не добавить что ЦБ РФ с 2022 года не раскрывает данные по трансграничным переводам в РФ и из РФ http://www.cbr.ru/hd_base/tg/ и теперь чуть ли не один из многих способов узнать о них - это смотреть цифры в других странах, например в Армении. В Армении статистика, к тому же, более гранулярна, не ежеквартальная, а ежемесячная.

Читать полностью…
Подписаться на канал