begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7027

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Свежий портал геоданных Республики Молдова geodata.gov.md [1] похоже что какой-то своей разработки и пока 16 карт и слоёв с данными. Внутри всё работает на Geoserver в котором слоёв уже побольше, 25 [2], но, всё равно, пока довольно скромно.

И удивительно что своя разработка, а не какой-нибудь Geonode, который с открытым кодом и даёт точно такой же портал.

В целом же данные страны проще пока найти на геокаталоге NSDI страны [3] где опубликовано 165 слоёв, а также в Молдове есть некоторое число общедоступных серверов ArcGIS и Geoserver, также, с геоданными.

Ссылки:
[1] https://geodata.gov.md/#/
[2] https://geodata.gov.md/geoserver
[3] https://geoportalinds.gov.md

#opendata #datasets #geodata #moldova

Читать полностью…

Ivan Begtin

Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla

Читать полностью…

Ivan Begtin

В качестве регулярных напоминаний, помимо этого телеграм канала я время от времени пишу на других площадках:
- рассылка лонгридов на Substack на русском языке https://begtin.substack.com/
- блог в Medium на английском языке ibegtin" rel="nofollow">https://medium.com/@ibegtin
- в Фэйсбук'е https://www.facebook.com/ibegtin (почти дублируется с телеграм каналом)
- в VK https://vk.com/ivbeg пишу сильно реже, мне как и многим эта соцсеть не нравится, но часть аудитории там.

А также другие телеграм каналы:
- Инфокультура /channel/infoculture с анонсами проектов и новостями АНО Инфокультура
- Национального цифрового архива /channel/ruarxive о архивации цифрового русскоязычного и российского контента
- проекта Госзатраты /channel/clearspending - ведут мои коллеги в Инфокультуре, в основном туда роботы постят инфу про интересные госконтракты. Вот уже много лет
- Open Data Armenia /channel/opendatam - телеграм канал Open Data Armenia, армянской НКО которую я возглавляю (Yes hay em) и где на трёх языках: английском, армянском и русском про открытые данные в Армении


#readings #opendata #russia #armenia #telegram

Читать полностью…

Ivan Begtin

“Госзатратам” 10 лет!

4 февраля 2014, ровно 10 лет назад, был запущен проект “Госзатраты” (clearspending.ru) - один из первых в России информационно-аналитических проектов, направленных на повышение осведомленности граждан о состоянии, тенденциях, проблемах и рисках в сфере планирования и исполнения государственных расходов.

10 лет “Госзатрат” - это 10 тысяч уникальных посетителей в сутки (а за 10 лет - уже 16 миллионов), 53 миллиона просмотренных страниц и данные о 55 миллионах контрактов.

Вот уже 10 лет мы непрерывно скачиваем портала Госзакупок данные о госконтрактах, преобразовываем их и предоставляем разработчикам в формате API.

С 2014 по 2019 год мы активно проводили онлайн и офлайн-мероприятия – хакатоны и семинары по тематике госфинансов, команда проекта принимала участие в «Днях открытых данных».

С 2019 года по июль 2023 года наша команда разрабатывала проект СП РФ “Госрасходы” (spendging.gov.ru), поэтому “Госзатраты” оставались в режиме поддержки. Но, с учетом регулярно обновляющейся схемы данных портала госзакупок, работы нам и в этот период хватало :).

В конце 2023 года мы вернулись к активной разработке проекта и скоро представим вам новую базу данных и обновленный альфа-версию обновленного сайта проекта. Мы будем вести разработку в “открытом режиме”, поэтому у всех пользователей будет возможность протестировать и привыкнуть к новому интерфейсу, оставить обратную связь и предложения по новому функционалу. Предложения и комментарии можно будет оставлять в комментариях к этому посту или на почту oparkhimovich@infoculture.ru.

Также мы заранее анонсируем необходимость авторизации для использования API проекта, но у вас будет достаточно времени для регистрации и перехода на новую схему данных.

Благодарим всех наших пользователей, разработчиков, использующих API и открытые данные, поставщиков данных (Минфин России и Казначейство России, надеемся, что данные останутся доступными) и, конечно, команду проекта.

Читать полностью…

Ivan Begtin

За текучкой дел я почти упустил и не успел посмотреть выступления на FOSSDEM и уж совсем упустил податься туда рассказать о том что делаю сам и с командой, тем не менее там много что есть посмотреть по теме данных и открытого кода и по теме Open Research [1] где как раз про открытые данные много.

На что стоит обратить внимание из связанного с данными:
- Updating open data standards [2]
- The French Open Science Monitor: steering the science based on open bibliographic databases [3]
- Unlocking Research Data Management with InvenioRDM [4]
- Cosma, a visualization tool for network synthesis [5]

Там ещё много узкотехнических докладов, не сомневаюсь что многие их если ещё не посмотрели, то посмотрят.

Ссылки:
[1] https://fosdem.org/2024/schedule/track/open-research/
[2] https://fosdem.org/2024/schedule/event/fosdem-2024-3109-updating-open-data-standards/
[3] https://fosdem.org/2024/schedule/event/fosdem-2024-3185-the-french-open-science-monitor-steering-the-science-based-on-open-bibliographic-databases/
[4] https://fosdem.org/2024/schedule/event/fosdem-2024-3452-unlocking-research-data-management-with-inveniordm/
[5] https://fosdem.org/2024/schedule/event/fosdem-2024-3394-cosma-a-visualization-tool-for-network-synthesis/

#opendata #data #events

Читать полностью…

Ivan Begtin

И, кстати, не могу не добавить что ЦБ РФ с 2022 года не раскрывает данные по трансграничным переводам в РФ и из РФ http://www.cbr.ru/hd_base/tg/ и теперь чуть ли не один из многих способов узнать о них - это смотреть цифры в других странах, например в Армении. В Армении статистика, к тому же, более гранулярна, не ежеквартальная, а ежемесячная.

Читать полностью…

Ivan Begtin

И вновь про доступность данных, вопрос, а никто не знает куда подевалась статистика внешней торговли Казахстана с Россией и Беларусью?

Например, её нет в отчетах за 2022 год [1] и во всех остальных отчетах что я проверял с 2018 года, но может и раньше.

Ещё более странно, что нет статистики торговли с Арменией, хотя перепроверка по Армстату показывает что товарооборот между странами есть [2].

Просто таки даже интересно, это "военная цензура" в Казахстане и там перезалили все файлы таможенной статистики или вот уже много лет так публикуют, но тогда это очень и очень странно.

UPD. Похоже исключили вообще всю статистику торговли со странами ЕАЭС (Армения, Кыргызстан, Россия, Беларусь). Но в Армении эту статистику всё ещё публикуют

UPD2. Оказывается статистика торговли со странами ЕЭАС публикуется в отчетах на сайте Казстата [3], что делает вопрос ещё более интересным. Это на Казстате ещё не удалили эти данные или что-то не так с базой статистики на сайте Комитета госдоходов РК?

Ссылки:
[1] https://kgd.gov.kz/sites/default/files/exp_trade/svt_12n_22.zip
[2] https://www.armstat.am/en/?nid=717&thid%5B%5D=398&years%5B%5D=2023&years%5B%5D=2022&years%5B%5D=2021&years%5B%5D=2020&year%5B%5D=2023&year%5B%5D=2022&year%5B%5D=2021&year%5B%5D=2020&monid%5B%5D=1&monid%5B%5D=2&monid%5B%5D=3&monid%5B%5D=4&monid%5B%5D=5&monid%5B%5D=6&monid%5B%5D=7&monid%5B%5D=8&monid%5B%5D=9&monid%5B%5D=10&monid%5B%5D=11&monid%5B%5D=12&submit=Search
[3] https://stat.gov.kz/ru/industries/economy/foreign-market/spreadsheets/?year=2022&name=40108&period=&type=

#opendata #questions #kazakhstan #trade #statistics

Читать полностью…

Ivan Begtin

Для тех кто интересуется тем как в Евросоюзе внедряется Digital Services Act (Закон о цифровых платформах), стоит посмотреть на DSA Transparency Database [1] специальный портал в виде открытой базы данных регистрации действий платформ по модерации контента. По каждому факту модерации есть зарегистрированное событие которое можно посмотреть и найти [2] можно скачать всю базу событий целиком [3]. А база там немалая, более 3.5 миллиардов записей из которых 2.9 миллиардов записей отрепорчено Google Shopping.

С одной стороны - это важный шаг ЕС в регулировании платформ и усилении давления на Bigtech.

А с другой стороны, там в целом то непонятно как провести связь между пользователями которые жалуются на Bigtech и этими зарегистрированными фактами модерации поскольку никакой дополнительной идентифицирующей информации кроме указания даты и времени, языка и UID'а события там практически нет. Миллиарды почти идентичных сообщений, по ним можно замерять их интенсивность, языка, экономическую зону, и другие стат. показатели, но никаких качественных данных не извлечь. В общем-то много вопросов есть и будет.

Тем не менее данных там много, 67GB CSV файл в последнем дампе, так что можно попробовать найти что-то интересное.

К примеру, России, там совершенно точно нет, а вот модерация контента на русском языке есть. Более 556 тысяч фактов модерации. И даже для армянского языка, 33 факта модерации.

Ссылки:
[1] https://transparency.dsa.ec.europa.eu
[2] https://transparency.dsa.ec.europa.eu/statement
[3] https://transparency.dsa.ec.europa.eu/data-download

#opendata #transparency #private

Читать полностью…

Ivan Begtin

Я давно не кидался окаменелостями в адрес российского Гостеха, и тут, уж извините, дам ссылку на выступление Мишустина на Digital Astana 2024 [1]. Как всегда, важно не то что он говорил, а то что _не говорил_. Ни разу не упомянул Гостех, ограничившись разговорами про Госуслуги и российские цифровые платформы. А почему он его не упомянул?

А потому что:
1. Значительная часть государственных информационных систем в Средней Азии делаются за счёт международной поддержки: USAID, скандинавские страны, Германия и др., разного рода глобальные институты развития. Рассчитывать что их будут интегрировать с российскими ИТ разработками или что там будет сотрудничество не стоит. Но это не самое главное.
2. Власти Казахстана уже "отбились" от попыток впаривания им Гостеха, ловко соскочив после того как Сбер попал под санкции. Я бы оценивал шансы на возвращение как минимальные.
3. Российские технологические решения которые пушит Пр-во в другие страны будут восприниматься как инструменты российской "мягкой силы" и влияния, поэтому у их внедренцев неслабые такие шансы влететь на санкции.
4. Гостеха не существует! [2]

В общем-то это показательно что даже главный продвигатель Гостеха теперь этот бренд не продвигает, но внутренней аудитории его продолжают скармливать, в основном потому что у нее выбора меньше.

Ссылки:
[1] /channel/government_rus/11105
[2] /channel/begtin/5370

#government #govtech #russia #thoughts

Читать полностью…

Ivan Begtin

Рубрика "Циничные картинки"

Читать полностью…

Ivan Begtin

«Открытые данные для ИИ: Что дальше». ЮНЕСКО опубликовало руководящие принципы

В цифровой библиотеке ЮНЕСКО опубликован отчет «Открытые данные для ИИ: Что дальше» [1]. Авторы позиционируют данное издание как руководящие принципы, цель которых - «донести до государств-членов понимание ценности открытых данных, а также описать порядок их купирования и открытия. В документе содержатся конкретные шаги, которые необходимо предпринять для открытия данных. Эта публикация призвана сыграть важную роль в поддержке Рекомендаций ЮНЕСКО по открытой науке и содержит призыв к открытию данных для целей искусственного интеллекта».

Публикация содержит базовые понятия о том, что такое открытые данные, зачем их публиковать и как это делать. Есть даже описание пятизвездочного рейтинга открытых данных, описание которого выглядит немного странным для публикации в 2024 году. Раздел «Классификация открытых данных» содержит только критерии, по которым можно классифицировать данные, в разделе «Индикаторы и барометры в области ОД» также встречается только список существующих рейтингов.

Раздел «Руководящие принципы» разбивает на 4 шага каждый этап работы над открытыми данными:

1. Подготовка (разработка стратегии управления данными и их совместного использования; сбор и накопление качественных данных; развитие потенциала в области открытых данных; подготовка данных для использования в ИИ).

2. Открытие данных (выбор наборов данных для открытия; юридическое открытие наборов данных; техническое открытие наборов данных; формирование культуры открытых даных).

3. Обеспечение повторного использования и устойчивости (поддержка участия граждан; поддержка международного участия; поддержка полезного применения ИИ; поддержка высокого качества данных).

Не могу сказать, что в руководстве есть какая-то новая информация или практические алгоритмы, которые могут помочь желающим раскрыть данные, но задачу привлечения внимания к тематике открытых данных и призывом к действию оно вполне может быть.

Также авторы указывают, что «120 стран не приняли политических мер по открытым данным», но, к сожалению, ссылки на первоисточник или каких-то поясняющих комментариев об этой статистике в руководстве нет.

[1] https://unesdoc.unesco.org/ark:/48223/pf0000388373

Читать полностью…

Ivan Begtin

Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее актуальных тем последних лет - это Digital Public Infrastructure или, по-русски, Цифровая общественная инфраструктура.

Что это такое? Аналог можно провести с дорогами. Они могут быть магистральными или городскими, бесплатными или платными, но они создаются, за редким исключением, как общественная инфраструктура и ограничения по их использования не дискриминационны, а функциональны (по каким-то можно ездить большегрузам, а по каким-то нельзя).

Цифровая общественная инфраструктура - это что-то вроде сети дорог или иных общественных служб. Она состоит из сервисов которые обеспечиваются государством в широком смысле для решения общественных задач.

Например:
- государственная система идентификации, примерно как авторизация через Google или Facebook, как аналогии из коммерческого мира
- государственная система платежей
- государственная система обмена персональными данными (secure data exchange)

И в этот список ещё можно добавлять некоторое число других услуг и компонентов которые выходят за пределы использования только органами власти.

Знаете что самое интересное? Спикеры по этой теме в качестве примера приводят Россию. В их трактовке, вполне логично, НСПК (карты Мир и Система быстрых платежей) - это как раз часть Digital Public Infrastructure. А то что Россия, своевременно или с запозданием, подобное делает - это как раз очень правильно и логично, чтобы не зависеть от частных/глобальных подрядчиков и сервисов. Потому что они могут в любой момент уйти, накручивать цену или иным образом выворачивать руки.

Конечно, цифровая общественная инфраструктура - это куда более глубокая концепция включающая понятия подотчетности, прозрачности, интероперабельности, инклюзивности и ещё много чего, в первую очередь, общественного надзора. Также надо понимать что это скорее социалистическая/патерналистическая модель, которая идеологически ближе к РФ, если не делать оговорку на коррупцию и "сливания тем" приближённым олигополиям.

Лично я пока во многих странах виду движение в сторону DPI и даже предполагаю что рано или поздно это может стать одной из зонтичных концепций продвигаемых одной из междгосударственных структур.

#thoughts #digital #infrastructure

Читать полностью…

Ivan Begtin

Отвлекаясь немного от тем данных глобально и локально, по поводу того что РКН активно начали штрафовать зарубежных хостеров за то что те не локализовались в России, а зарубежные хостеры, в свою очередь, массово начали отказываться от клиентов у которых есть хоть какая-то аффиляция с Россией. Пример Hetzner'а и Godaddy показательны. То есть почти все хостеры где есть хотя бы какое-то количество клиентов связанных с Россией будут от таких пользователей избавляться, и не из-за санкций и не невозможности оплаты, а потому что юристы им подобное порекомендуют, думаю что уже рекомендуют достаточно активно.

Но важно не только это. По сути это регулирование и его применение РКН на практике - это шаг к полной изоляции Рунета, возможно один из серьёзнейших. Во первых оно предполагает практически прямую цензуру поисковой выдачи, а единственная поисковая компания до которой российские власти могут сейчас дотянутся - это Яндекс, потому что можно говорить что Google здесь уже нет. Во вторых надо понимать что "зарубежные хостеры" - это практически весь интернет. То есть РКН может уже сейчас _формально законно_ заблокировать вообще всё.

Такая законность - это очень мутно-херовая штука, уж простите за резкость. И без того российскую юрисдикацию воспринимают как токсичную, а тут ещё и подобное.

Кстати, есть же часы судного дня для применения ядерного оружия. А нужны часы судного дня про отключение России от интернета. Произойти это может в любую сторону, но больше шансов что будет это изнутри.

#thoughts #russia #network #regulation #internet

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных и частичный ответ на вопросы что я задавал тут и на Reddit [1] про данные по ISO 3166, мне накидали ссылок частично решающих ту же задачу:
- https://github.com/stefangabos/world_countries/tree/master/data/subdivisions
- https://github.com/dieghernan/Country-Codes-and-International-Organizations
- https://github.com/samayo/country-json
- https://www.ip2location.com/free/iso3166-2
- https://github.com/amckenna41/iso3166-updates

Последний совсем свежий проект с регулярными апдейтами и возможностью сделать локальное API для себя.

Правда ни один из них не решает задач:
1) Связки с макрорегионами/группами стран
2) Возможности найти страну/регион написанные на многочисленных языках и множеством способов.

Но в части целостных баз ISO 3166-2 и систематизации стран хорошо что есть много полезных проектов и уже есть с чем поработать.

А также обратите внимание на то как распространяют референсные данные. Где-то в виде пачки дата файлов под разные использования: csv, xml, parquet, sql, json или даже сразу генерация кода для Python или PHP. Где-то в виде API развёртываемого локально. Некоторые проекты, вроде того же iso3166-updates выглядят как хорошая дипломная работа. Превращение справочных данных в удобную базу данных с одновременной демонстрацией навыков аналитики, программирования и документирования кода.

Ссылки:
[1] /channel/begtin/5371

#opendata #datasets #data

Читать полностью…

Ivan Begtin

Вообще я зарекся комментировать российские госинициативы последних лет, во первых потому что хороших мало, во вторых поскольку берегу своё душевное здоровье, хочется думать о хорошем (открытых данных в мире, например), а не об этом всём. Но на днях прокомментировал Forbes о том почему реестр военнообязанных в РФ не будут делать на Гостехе [1].

Комментарий там у меня получился "мягким", в жизни и здесь в канале я про Гостех пишу куда жёстче. Так вот от того что реестр военнообязанных не будут делать на Гостехе есть две стороны, плохая и хорошая.

Плохая в том что отсутствие Гостеха в этом уравнении даёт куда большую гарантию что этот реестр появится, что он будет разработан быстрее и дешевле. Гостех отнюдь не снижает стоимость и скорость разработки, то что это "волшебная платформа" ни от кого кроме его создателей и ФКУ не услышишь, да и не светят её технические характеристики по той же причине, слишком легко будет доказать обратное. Как бы то ни было, всем кто не хотел бы чтобы этот реестр появился - это плохая новость. Я, также, не фанат этого реестра, во всех смыслах он будет очередным инструментом репрессивного воздействия на общество.

Хорошая новость в том что, в очередной раз это демонстрация убогости того что Федеральное Пр-во РФ продвигает как Гостех. А я напомню что Гостех провалился в Москве, от него отказались в Казахстане и сейчас его российские власти пытаются продать в Кыргызстан и некоторые развивающиеся страны. Ну как продать, на самом деле его за деньги никто и не стал бы покупать, готов поспорить что даже если его кому-то "впарят", то это будет продажа в форме российского кредита и сам Гостех, по сути, в этих переговорах - это продажа "инструмента мягкой силы", создание зависимости у другого государства от российской цифровой инфраструктуры. Чем больше будет таких публичных историй провала Гостеха, тем меньше шансов что даже от таких "роскошных" условий внедрения Гостеха другие страны откажутся.

Да, это хорошая новость.

Я не буду в очередной раз рассказывать всё что я про эту инициативу думаю, вместо этого повторю ключевой тезис.

Гостеха не существует!

Не существует не в том смысле, что нет Platform V от Сбера на которой он построен, или что нет одноименного ФКУ которое его продвигает, или что нет каких-то мелких информационных систем которые создаются каким-то образом (технических подробностей то нет, только госмаркетинг и госпиар). Так вот Гостеха не существует в том смысле что если завтра ФКУ ликвидируют, финансирование Гостеха прикроют, кого-то из этой команды уволят, а кого-то посадят, так вот для РФ как государства и для граждан - это будет абсолютно незаметно!

Потому что ничего критически значимого зависящего от инфраструктуры и инструментов Гостеха в РФ как в государстве сейчас нет. В отличие от: Электронного бюджета, АИС Налог-3, ЕПГУ, ЕИС, многих других критичных федеральных государственных информационных систем.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/504631-vlasti-otkazalis-ot-idei-sozdania-servisa-elektronnyh-povestok-na-platforme-gosteh

#thoughts #govtech #russia

Читать полностью…

Ivan Begtin

Опубликовано видео на youtube-канале проекта!

Дорогие подписчики, опубликовали для вас видеозаписи, прошедших вебинаров, приуроченных к конкурсу Open Data Armenia Contest.

1. Вебинар "Обзор открытых данных Армении: лицензии и источники".

2. Вебинар "Введение в визуализацию данных: проекты, методы и инструменты".

📍Подписывайтесь на канал, ставьте лайки и жмите на колокольчик для получения уведомлений о новых видео: OpenDataArmenia/videos" rel="nofollow">https://www.youtube.com/@OpenDataArmenia/videos

Читать полностью…

Ivan Begtin

Изостатистика - одна из первых книг по инфографике

Так как мы решаем большую задачу «собрать бюджеты России за 100 лет», приходится часто искать новые источники исторических книг и документов. Одной из самых интересных находок стала книга И.П. Иваницкого «Изостатистика. Изобразительная статистика и венский метод», изданная в «Москве-Ленинграде» в 1932 году.

Изостатистика, как оказалось, примерно то же самое, что в современном мире называют «инфографикой», и что в книге зовется «количественной системой диаграммирования».

Книга описывает базовые принципы создания диаграмм, приводит большое количество примеров исторических инфографик и разбирает каждую из них.

К сожалению, книга черно-белая, но все равно уникальная.

Скачать книгу можно с сайта НЭБ (уникальный источник исторических книг): https://rusneb.ru/catalog/000199_000009_005073846/

#открытыеданные #инфографика #диаграммы

Читать полностью…

Ivan Begtin

Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google

Читать полностью…

Ivan Begtin

Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] /channel/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime

Читать полностью…

Ivan Begtin

[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz

Читать полностью…

Ivan Begtin

Давно подумываю сделать небольшой список/коллекцию и обзор плохих практик публикации государственных данных. Причём, как технических, так и про доступ к ним. Вот очень небольшой но показательный пример. В статкомитете Кыргызской республики публикуют открытые данные под лицензией CC-BY-NC [1] (Creative Commons «Attribution-NonCommercial-ShareAlike»).

Помимо того что версии лицензии Creative Commons для некоммерческого использования не являются свободными, так ещё и применение их для официальной статистики более чем спорно. Официальная статистика создаётся на деньги налогоплательщиков и используется, как гражданами, так и журналистами, так и бизнесом. Коммерческие компании являются одним из основных типов потребителей официальной статистики. Поэтому CC-BY-NC - это очень странная и запретительная лицензия для распространения государственных данных. Ещё она странная потому что показывает что те кто её указали, как минимум прочитали про лицензии Creative Commons, и понимают отличия CC-BY от CC-BY-NC, но, почему-то, не понимают что данные созданные на деньги налогоплательщиков и в рамках выполнения органами власти своих функций таких ограничений содержать не могут.

Но чаще, конечно, большая часть официальной статистики на многочисленных сайтах статслужб по всему миру, не содержат вообще никакого указания на условия использования.

Ссылки:
[1] https://www.stat.kg/ru/opendata/

#opendata #kyrgizstan #statistics #licenses

Читать полностью…

Ivan Begtin

Ещё один любопытный рейтинг и оценка стран Global organized crime index (Глобальный индекс организованной преступности) [1].

Его, оказывается, проводили ещё в 2021 году, а потом недавно повторили в 2023, а в его основе методика оценки уровня преступности применявшаяся ранее к африканским странам (проект ENACT).

Содержит два ключевых показателя:
- Criminality score (уровень преступности), чем ниже тем лучше
- Resilence score (уровень устойчивости), чем выше тем лучше.

По всем показателям лидирует Финляндия, хорошие оценки у Армении.

Каждый может найти что-то интересное для себя самостоятельно.

Датасет отдают как открытые данные, правда в Excel [2]


Ссылки:
[1] https://ocindex.net
[2] https://ocindex.net/assets/downloads/global_oc_index.xlsx

#opendata #ratings #crime

Читать полностью…

Ivan Begtin

Присоединяйтесь ко Дню открытых данных 2024

6 марта приглашаем к участию в нашем ежегодном мероприятии для сообщества — «День открытых данных 2024».

Мероприятие пройдет в онлайн формате. Центральный фокус программы мероприятия этого года — открытые данные для сообщества. Мы планируем включить программу ваши доклады, презентации проектов и мастер-классы.

Оставьте заявку до 15 февраля, если хотите стать спикером и выступить на мероприятии, и мы с вами свяжемся: https://forms.gle/HMxjCkKi9cR3NYS77

Приглашаем разработчиков, ИТ-специалистов, дата-журналистов, гражданских активистов и других участников российского движения открытости.

Организатором Дня открытых данных в России выступает АНО «Информационная культура».

Подробности и регистрация: opendataday.ru/msk.

Читать полностью…

Ivan Begtin

Тем временем в Испании Федерация испанских провинций и муниципалитетов приняла типовое положение по управлению данными в местном самоуправлении [1]. Документ на испанском языке, но в целом достаточно прост и понятен.

В его основе:
- Глобальная хартия открытых данных (Open Data Charter)
- Европейское законодательство
- Испанские стандарты UNE 77 и UNE 78 по управлению данными и открытым данным

Ссылки:
[1] https://drive.google.com/file/d/1vam_TAcMrdXr0oKwbiFq1OyHpngi1Lpb/view

#opendata #spain #spanish #localgov

Читать полностью…

Ivan Begtin

В истории с отключением Рунета сегодня важно задать самим себе следующие вопросы:
1. Много ли было случаев таких "технических проблем" с другими крупными/некрупными национальными зонами?
2. Будет ли полноценное расследование этой "технической проблемы" с детальным разбором произошедшего и принятых мер?
3. Сколько людей _реально_ пострадало от произошедшего? Можно ли измерить материально возникший ущерб?
4. Если реально пострадавших было немного и экономику не затронуло то насколько это повышает отключение Рунета от интернета в будующем?
5. Стоит ли после этого "события" вообще регистрировать домены в зоне .ru ?

#questions #internet #runet

Читать полностью…

Ivan Begtin

В рубрике интересных каталогов данных UN Arab Region Data and Policy Support Hub [1] и ARGP: Arab regional geospatial portal [2] порталы данных платформы регионального сотрудничества ООН посвящённые арабским странам.

Отличаются тем что агрегируют довольно много данных из других порталов ООН (data.un.org, data.worldbank.org) и других источников около 10 тысяч наборов данных часть из которых представлена статистическими индикаторами, часть геоданными. Поскольку агрегация данных выборочная лишь частично то много данных собрано не только по арабским странам.

Также декларируют наличие данных и моделей для машинного обучения. Хотя вот это для меня загадка поскольку почти все индикаторы там внутри - это годовые показатели, впрочем в геоданных есть наложение разных детализированных данных и там такое применение вполне логично.

Туда же можно отнести поисковую систему Manara (Istinara) позволяющая искать по миллионам ООНовских документам данным и картам. Конкретно сейчас поиск по данным у них был поломан, но поиск по картам работал вполне сносно

Ссылки:
[1] https://data.as-rcp.org
[2] https://data.as-rcp.org/GIS
[3] https://manara.as-rcp.org

#opendata #data #indicators #datacatalogs #un

Читать полностью…

Ivan Begtin

В рубрике как это работает у них проект PDAP, Police Data Accessibility Project [1], как очевидно из названия посвящён он доступности данных полиции в США для граждан и исследователей. Фактически это база из 1764 записей со ссылками на общедоступные данные полиции в США. Доступные в самых разных формах: геоданные в виде шэйпов, CSV файлы, страницы HTML или отчёты в PDF и с разбивкой по типу категории данных: преступность, вызовы полиции, остановки на дорогах, сведения о заключённых и так далее. Много всего и на основе этого можно, например, сравнивать штаты и отдельные графства по уровню актуальности и открытости их правоохранительных данных.

Для США это задача актуальная, полиция там децентрализована, систематизация данных процесс трудоёмкий, но одновременно с этим много хороших практик которые можно приводить в пример.

Ссылки:
[1] https://pdap.io

#opendata #usa #crime #police #data #datasets

Читать полностью…

Ivan Begtin

Для тех кто хочет заниматься проектами на открытых данных за деньги Open Knowledge Foundation ищет серьёзного разработчика Senior Developer for a Desktop Application (React + Python + Electron) [1]. Я бы сказал что лет 10 назад я бы сам подался бы на такую вакансию, но я ни разу не JS разработчик и React меня скорее пугает (вернее все JS фреймворки это совсем не моё, синтаксис JS мне тяжело заходит), тем не менее если Вы не в России, ищите работу под частичную занятость, любите открытые данные и хотите поработать над реально нужными проектами, то это хорошая возможность. Потому что тут и открытый код, и открытые данные и полезная задача.

Ссылки:
[1] https://okfn.org/en/jobs/senior-developer/

#opendata #vacancies #opensource

Читать полностью…

Ivan Begtin

В рубрике данных которых нехватает, я сегодня задал вопрос на Reddit'е [1] на который, если честно не особо ожидаю увидеть ответа который бы меня устроил. А вопрос про наличие датасета ISO3166-2 включающего коды всех подрегионов стран. Эти данные есть в Википедии, рассеянные по статьям вроде ISO_3166-2:AM [2] (часть ISO 3166-2 по Армении) и так по каждой стране. Но вот цельный датасет мне нигде не попадался, также как и датасет включающие страны вместе с макрорегионами. Опять же в удобном, легко загружаемом формате, потому что так-то данные связки страны и макрорегиона извлекаются из открытых систем Всемирного Банка, ООН и других международных структур.

Но более всего интересно иметь библиотеку для Python позволяющую быстро по разным кодам страны/региона/подрегиона получать все необходимые метаданные такие как: развание, разные уникальные коды, иерархию и ещё уметь идентифицировать страну или регион каким бы языком она не была написана: "USA", "США", "United States", "United States of America" на примере США и таких примеров много. В идеале ещё и до субрегионального уровня.

В общем пока оказывается что такого инструмента нет. Просто хоть сам его создавай (шутка), но потребность в нём есть и регулярная причём

Ссылки:
[1] https://www.reddit.com/r/datasets/comments/19djrir/is_there_any_iso_3166_second_level_dataset_and/
[2] https://en.wikipedia.org/wiki/ISO_3166-2:AM

#opendata #question

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Google News Is Boosting Garbage AI-Generated Articles [1] статья о том что Google News бустят новости не с оригинальных сайтов, а с тех что рерайтят оригинал с помощью ИИ. Статья под пэйволом, но, в общем, всё сказано в заголовке. Непонятно только что с этим делать.
- Paper on Sleeping Agents [2] о том как помещать бэкдоры в языковые модели которые бы могли проходить проверки безопасности. Отдельное новое направление для команд занимающихся инфобезом.
- It's time to build [3] свежая заметка от Benn Stancil о том что для того чтобы создавать дата-стартапы (инструментальные стартапы) не надо новых идей, надо старые идеи/продукты сделать современными.
Не могу с этим не согласится и примеры он приводит релевантные.
- Python Packaging, One Year Later: A Look Back at 2023 in Python Packaging [4] о том как устроены пакеты в Python, технический и прикладной обзор за 2023 год. Может показаться сугубо технической темой, но она актуальна для всех кто создаёт или распространяет пакеты для Python. От себя добавлю что пакеты для Python уже давно стали одним из отражений качества любого продукта или сервиса. Уже не просто API предоставляется, а сразу пакет для Python для доступа к API.
- SQLMesh [5] - open-source движок для преобразования данных близкий и сравнимый с dbt по идеологии и авторы которого продвигают концепцию Virtual Data Environment (VDE) [6]. Концепт как минимум интересный. Кстати, эти же ребята авторы python библиотеки SQLGlot [7], парсера и оптимизатора SQL запросов
- Omni [8] свежий стартап по BI, упомянутый недавно Benn Stancil, делают то же что и все просто проще и симпатичнее. У меня в списке продуктов на потестить визуализацию разным образом. Главное удобство - это комбинация SQL запросов и визуализации данных.
- DataHem odyssey - the evolution of a data platform, part 2 [9] подробный рассказ о эволюции аналитической платформы в Mathem со множеством подробностей про использование dbt и не только.

Ссылки:
[1] https://www.404media.co/google-news-is-boosting-garbage-ai-generated-articles/
[2] https://arxiv.org/pdf/2401.05566.pdf
[3] https://benn.substack.com/p/its-time-to-build
[4] https://chriswarrick.com/blog/2024/01/15/python-packaging-one-year-later/
[5] https://sqlmesh.com
[6] https://tobikodata.com/virtual-data-environments.html
[7] https://github.com/tobymao/sqlglot
[8] https://omni.co
[9] https://robertsahlin.substack.com/p/datahem-odyssey-the-evolution-of-95f

#readings #data #datatools #opensource #dataengineering #ai

Читать полностью…
Подписаться на канал