Я регулярно рассказываю про порталы данных и другие госпроекты по открытости в странах мира. Можно уже создать такую отдельную регулярную рубрику и в этот раз про портал открытых данных Республики Киргизия data.gov.kg
Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.
Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API
Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается
Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.
Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.
#opendata #kyrgyzstan #dataportals
Я сегодня потратил какое-то время и посмотрел видео вначале встречи Президента РФ, а потом главы Пр-ва РФ с молодыми учёными и в обоих случаях речь шла про доступ учёных к данным. Понятно что на таких встречах все вопросы и выступления заранее готовятся, фильтруются и доходят в каком-то ограниченном объёме. Но без весьма серьёзного сожаления слышать всё это было невозможно. Состояние науки в РФ достаточно давно оказывается в состоянии когда Минобрнауки или РАН не имеют возможности/ресурсов/потенции/мотивации к тому чтобы научная информационная инфраструктура существовала и развивалась. Отсюда и запросы, вроде жалобы на отсутствие доступа к данным судовых измерений, к примеру.
Особенно учитывая что российская наука сейчас оказывается от мировой особняком, хорошо ещё что российским институциям дают возможность получать коды DOI и не все подписки на зарубежные научные ресурсы ограничены. Впрочем сами исследователи лучше чем я могут рассказать о своих проблемах.
А я расскажу о проблемах в странах где открытость исследований, наоборот, ставится во главу угла. В США сейчас у учёных развернулась дискуссия среди астрономов по поводу свежей темы госполитики по максимально оперативному раскрытию исследований на деньги налогоплательщиков. В частности, работа телескопов вроде Хаббл - это тоже расходы налогоплательщиков и, казалось бы, это очень хорошо что данные будут раскрываться сразу. Справедливо даже и может значительно ускорять научные работы большого числа учёных. А с другой стороны, многие астрономы активно пользовались тем что ранее материалы публиковались с 6 месячной задержкой и благодаря этому у них был эксклюзивный материал для научной статьи. А если публиковать сразу то другие узнают над чем ты работаешь. Так может и пропасть интерес к здоровой конкуренции. Об этом весьма подробно вышла статья What's the fairest way to share cosmic views from Hubble and James Webb telescopes? [1]
Но это, повторюсь, проблема другого рода. Это проблема как раз конфликта сложившихся общественных отношений, индивидуальной мотивации и требований государства по открытости. В данном случае государство в США выступает не ограничителем открытости, а, наоборот, принуждает к ней.
А применительно к отсутствию данных для исследователей в России, я напомню мою июльскую заметку Открытость как признак жизни [2]. Когда открытость не обеспечивается - это синоним обезжизнивания отрасли, либо в виду отсутствия кооперации между участниками, либо симуляции деятельности.
Ссылки:
[1] https://www.npr.org/2023/02/07/1154840710/whats-the-fairest-way-to-share-cosmic-views-from-hubble-and-james-webb-telescope
[2] https://begtin.substack.com/p/26
#opendata #openaccess #openscience
Ещё одна любопытная альтернатива формату файлов parquet - это lance [1]. Обещают 100-кратное ускорение при произвольном доступе, совместимость с Apache Arrow и DuckDB. Создатели позиционируют это как альтернативу Parquet, Iceberg и Delta.
По формату есть дизайн гайд [2], презентация [3]. В общем и целом посмотреть на него будет любопытно, как минимум.
Остаётся, правда, вопрос с объёмом хранения, потому что опций сжатия нет, а если данные не сжаты, то хранение их будет дороже чем parquet.
Ссылки։
[1] https://github.com/eto-ai/lance
[2] https://eto-ai.github.io/lance/format.html
[3] https://docs.google.com/presentation/d/1a4nAiQAkPDBtOfXFpPg7lbeDAxcNDVKgoUkw3cUs2rE/edit#slide=id.p
#datatools #opensource
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
У Jordan Tigani, основателя компании Mother Duck стоящей за СУБД DuckDB замечательный текст Big Data is Dead [1] который, трам-пам-пам, как вы догадались, о том что Big Data это уже давно мёртвый хайп. Не он первый и не он последний об этом говорит, но никогда не лишний раз напомнить.
Краткое изложение его текста։
- большая часть данных, на самом деле, не так уже велика
- а даже если велика то чаще всего нет необходимости делать запросы ко всем данным
- и даже если так, то чаще всего это можно сделать на одном компьютере
- если нет, то по прежнему данные можно суммаризировать и сжимать
- так почему же инструменты делают в основном для оставшихся 1% случаев?
Ссылки։
[1] https://motherduck.com/blog/big-data-is-dead/
#data #readings
В рубрике как это устроено у них. В Турции нет единого национального портала открытых данных, однако есть много государственных систем и региональных порталов где они публикуются.
Наиболее полный их список собран в Open data index of Turkey [1] репозитории на Github. Там перечислены ключевые национальные, региональные и частные инициативы, такие как։
- Data portal for statistics [2] портал данных статистической службы с возможностью выгрузки всех данных в машиночитаемой форме.
- IMM Open Data Portal [3] - портал открытых данных Стамбула, классический портал открытых данных на базе CKAN с 286 наборами данных
- Izmir Acik Veri Portali [4] портал открытых данных города Измир, 32 организации, 180 наборов данных
- Konya Acik Veri Portali [5] портал открытых данных города Konya, 16 организаций, 115 наборов данных
Кроме того в Турции довольно много открытых геоинформационных систем на базе ArcGIS данные откуда тоже доступны, хотя формально открытыми данными не являются.
Турецкий опыт нельзя рассматривать как пример именно продвинутого опубликования данных. Ничего нет про данные для ИИ, всё довольно слабо в части предоставления открытых API, нет национального портала открытых данных, но для понимания того как развивается открытость государства в других странах.
Турция вступала в Open Government Partnership в 2012 году, а в 2017 окончательно вышла из организации [6]. Но, практически все активности по открытости данных начались уже ближе к 2020 году. Без наличия национальных планов по открытости, а на уровне муниципальных инициатив.
Ссылки:
[1] https://github.com/evrifaessa/open-data-turkey
[2] https://data.tuik.gov.tr/
[3] https://data.ibb.gov.tr
[4] https://acikveri.bizizmir.com/
[5] https://acikveri.konya.bel.tr/
[6] https://www.opengovpartnership.org/turkey-withdrawn/
#opendata #turkey #opengov
Элон Маск, по видимому, решил всё же разрушить экосистему Twitter'а и теперь Twitter API только за деньги [1]. Это повлияет на то что от соцсети отключаться очень многие сервисы, продукты и инструменты. Например, ранее Twitter был одной из самых лояльных к архивации социальных сетей и было несколько хороших инструментов по архивации контента. Теперь, похоже, как и Facebook, Instagram и другие в Twitter'е начнут ловить и блокировать разного рода ухищрения работать с их контентом через неофициальные API.
Не знаю из какой парадигмы в новой команде Twitter՛а исходили в этом решении, считали ли они бесплатных пользователей API нахлебниками, или просто то что надо монетизироваться любой ценой. К тому же есть примеры соц сетей вроде Facebook'а которая всегда была закрытой. Но по модели использования Twitter не Facebook и не Instagram. Его реально можно заменить на Mastodon, пусть и с неудобствами.
Ссылки։
[1] https://twitter.com/TwitterDev/status/1621026986784337922
#API #twitter #socialnetworks
В рубрике интересных наборов данных, небольшой, но полезный датасет проекта Caniuse [1] посвящённый тому какие веб-технологии поддерживают современные браузеры. Всего 530+ технологий и 19 браузеров из которых 6 настольных и 13 мобильных. Кроме того что информацию можно наглядно посмотреть на сайте или скачать в JSON формате.
Вообще это большая работа и один человек делает то что обычно делают исследовательские лаборатории в крупных компаниях или университетах.
Ссылки։
[1] https://caniuse.com/
[2] https://github.com/Fyrd/caniuse
#opendata #datasets #browsers #web
В каталог каталогов открытых данных Datacatalogs.ru добавлен BI портал Росстата http://bi.gks.ru где публикуются ряд показателей с возможностью их получения в машиночитаемом виде. А также планируется к удалению Витрина статистических данных (https://showdata.gks.ru), поскольку данный сайт более недоступен, при том что Росстат не уведомлял и предупреждал закрытии этой информационной системы.
В дальнейшем планируется добавить в каталог больше общедоступных BI систем органов власти в которых присутствует возможность получения данных в машиночитаемых форматах. Если Вы знаете такие порталы/сайты, пишите нам, мы их обязательно добавим в каталог․
#opendata #data #datacatalog #statistics
Как продвигать открытость органов власти и международных структур финансируемых за счет общественных средств? Публичными кампаниями. Например, есть такое Международное энергетическое агентство (IEA) которое финансируется взносами стран участников, собирает от них данные, но предоставляет их только за деньги [1].
Активисты запустили сайт Free IEA Data [2] ещё год назад и тогда же был большой текст объясняющий зачем это нужно [3]. Если кратко, то это сейчас единственный источник подробных и выверенных данных по энергопроизводству и энергопотреблению, охватывающий почти весь мир.
Лично я подозреваю что недоступность этих данных как открытых вызвана не только жадностью, но и тем что ряд стран не хотят делать общедоступными их данные и могут перестать передавать их IEA в случае полной открытости.
Но я лично согласен что такие данные должны быть общедоступны и общественные кампании - это одна из форм воздействия на лиц принимающих решения в пользу открытости этих данных.
Ссылки:
[1] https://www.iea.org/data-and-statistics
[2] https://free-iea-data.com/
[3] https://ourworldindata.org/iea-open-data
#opendata #energy
Любопытный стандарт публикации продуктов на данных Open Data Product Specification [1] специально для тех компаний и не только компаний которые торгуют данными. Да, да, это не [Open Data] Product specification, а именно [Open] Data Product Specification. Слово Open тут про открытость стандарта, а не про открытые данные.
Что, впрочем, не делает стандарт менее любопытным. Идея любопытная как альтернатива спецификациям общедоступных данных для повышения находимости именно коммерческих данных. Хорошо бы дополнило стандарт Schema.org.
Ссылки։
[1] https://opendataproducts.org
#opendata #data #specifications #
Я тут уже какое-то время размышляю над тем чтобы начать и написать лонгрид о том "Что не так с российским ГосТехом?", но эти размышления не проходят важный фильтр "а нахрена?". Потому что, во первых, надо для этого интересоваться госинформатизацией в России больше чем я сейчас интересуюсь, во вторых, оно и так само помрёт, и в третьих, это как в грязи копаться, если уж разбирать эту историю во всех подробностях.
Единственный резон в том чтобы об этом писать тщательно и детально, это сравнивать с проектами в других странах под общей идеей того как делать не надо.
Поэтому я напишу только самое очевидное оставив полноценное исследование/расследование/анализ за рамками и я повторю пару тезисов о которых не раз писал ранее.
1. В госсекторе если система/продукт/инфраструктура не является жизненно необходимой, она гарантированно умирает. (с)
Да, можно придумать безумную хрень и влить в неё 100500 миллиардов бюджетных средств, да многие ГИСы дублируют друг друга, да ведомства российские и не только большие мастера в лоскутной информатизации, но... важно понимать что есть информационные системы которые создавались 10-15 лет, и они никуда не денутся не по той причине что они хорошо сделаны.
Поэтому чтобы там не происходило, портал Госуслуг будет жить долго, или портал госзакупок, или портал госторгов, или Электронный бюджет и ещё много что. Да, эти системы могут переделывать, объединять, и тд., но лишь путём довольно сложных операций. Опытные госинформатизаторы и группы интересантов как внутри компаний поставщиков так и их лоббистов знали и знают что главное - это то чтобы от закрытия финансирования твоей системы пострадали ключевые функции государства или конкретного ведомства. Я таких случаев знаю очень много, не про все лишь могу/имею право рассказывать.
ГосТех в России пытаются протаскивать именно как информационную систему. Не архитектурную доктрину, не огненную команду сверхлюдей, не идеологическую основу, не концепцию, и даже не как фундаментальную цифровую инфрраструктуру, а именно информационную систему. При этом критической она не является, какой бы пиар шум не создавался, нормативкой она полноценно не обвязана, на ней пытаются создавать какие-то новые сервисы/информационные системы ни одна из которых критической не является.
Что это означает? что в любой момент финансирование можно прикрыть, ФКУ ГосТех переименовать во что нибудь другое (оно и ГосТех то стало после переименования), команду всю распустить, а не-нормативку почистить за короткий срок. И ничего не случится (с). А это означает что если госаппарат может без этого прожить, значит при любом последующем секвестре бюджета это всё порежут.
2. Сначала люди потом системы
Все без исключения инициативы по инновациям в госсекторе которые я знаю в мире - это инвестиции в людей. Гостех в Сингапуре - это команда, GDS в Великобритании - это команда, 18F в США - это команда и так далее, таких команд много. Все эти команды набирались по модели сбора топовых разработчиков для разработки открытого кода, дебюрократизации, работы в роли пожарных команд и других альтернатив классическим отношениям в госсекторе։ заказчик-подрядчик. Продукты созданные этими командами имеют ценность, но именно как капитализация ценности этих команд для государства.
Разное полезное чтение про данные, технологии и не только։
- ivanreznikov/how-misused-terminology-is-damaging-the-data-field-28881a96c7f">How Misused Terminology is Damaging the Data Field - заголовок слегка провокационный, а по сути там разбор того как связаны и пересекаются термины вроде Business Intelligence, Data engineering, Data science и другие. Ценность в наглядности
- Fivetran free plan - для тех кто не знает, Fivetran - это крупнейший облачный ETL сервис, популярный среди тех кто пользуется крупнейшими облачными хранилищами, не в России в общем, и в обновлении прайс-листа они обнародовали бесплатный тариф с ограничением до 500 тысяч строк. Конкуренция среди продуктов такого типа растёт, так что шаг больше похож на вынужденный
- Whalesync: Announcing Our $1.8M Pre-Seed Round - стартап в виде ETL для контента, упоминают кучу коннекторов и интеграцию с Webflow и Wordpress. Анонсируют раунд в $1.8M что, в целом, немного для этого рынка, с одной стороны, а с другой - это pre-seed раунд.
- A Major App Flaw Exposed the Data of Millions of Indian Students - разработчики государственного индийского приложения для дистанционного обучения, Diksha, держали большие объёмы персональных данных на открытом, незащищённом сервере в облаке Azure. Этот сервер нашли исследователи безопасности, неизвестно сколько успели найти и забрать хакеры.
- 2023 Edelman Trust Barometer Reveals Business is the Only Institution Viewed as Ethical and Competent; Emerges as Ethical Force for Good in a Polarized World - это довольно интересное явление, ежегодный индекс доверия граждан к разным общественным институтам, государству, СМИ, бизнесу и др. В 2023 году резко вырос уровень доверия бизнесу причём связывают это с исходом более чем 1000 зарубежных компаний из России. Там ещё много интересного, например, растущий кризис доверия к государству. В 16 из 28 стран уровень доверия госорганам ниже 51%
- Global Renewables Watch - проект по мониторингу установок на солнечной энергии и ветровых турбин, делается Microsoft, Planet и The Nature Conservancy. Пока в private beta, интересно что будет когда откроется.
#readings
В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.
На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.
Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/
#opendata #covid19 #datasets
В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.
Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/
#opendata #datasets #openaccess #openscience
В рубрике как это устроено у них, проекты по систематизации доступа к данным и госсервисам для разработчиков в мире. Я несколько раз писал о таких проектах, но не грех и напомнить.
- API.GOUV.FR - каталог API, стандарты и рекомендации Франции
- API.GOVERNMENT.AE - каталог API Объединённых Арабских эмиратов
- API.GOV.UK - каталог государственных API Великобритании
- API.GOV.AU - австралийский государственный стандарт предоставления API и каталог общедоступных API
- DEVELOPER.VIC.GOV.AU - портал для программистов (каталог API) правительства штата Виктория, Австралия
- DEVELOPER.TECH.GOV.SG - портал для разработчиков от Правительства Сингапура, API, документация и тд.
Общедоступные API создаются на тех же принципах что и порталы открытых данных, в их основе восприятие ИТ компаний и ИТ специалистов как отдельной аудитории для коммуникации. Признание самого факта что государства создают продукты не только для конечных потребителей, но и развивают внутренний рынок ИТ продуктов и сервисов, предоставляют данные аналитикам и журналистам.
#opengov #government #api #opendata
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.
https://webcast.unesco.org/events/2023-02-07-software-heritage/
#opensource #opendata #software
Мы продолжаем работать над нашим проектом Каталога каталогов данных в котором собраны ссылки на порталы открытых данных, а также иные источники данных которые должны наполнять эти порталы. Бета версия нового портала размещена по адресу datacatalogs.infoculture.ru. Пока она, в основном, воспроизводит функции предыдущей версии, но даёт больше возможностей по фильтрации и больше метаданных теперь отображается на веб-странице.
Мы, также, приступили к добавлению в каталог источников данных по пост-советскому пространству. В первую очередь поддерживающих русский язык в этих источниках данных. В том числе это такие источники данных как։
- Данные Армении для Целей - Устойчивого Развития https://sdg.armstat.am
- ArmStatBank https://statbank.armstat.am
- Портал открытых данных Республики Узбекистан https://data.egov.uz
- Талдау. Информационно-аналитическая система Бюро Национальной статистики Агентства по стратегическому планированию и реформам Республики Казахстан https://taldau.stat.gov.kz
- Портал открытых данных Республики Казахстан https://data.egov.kz/
- Открытые данные Алматы (Smart Almaty) https://opendata.smartalmaty.kz/
- ASIS. Azerbajan statistical information service https://www.azstat.org/portal/?lang=en
Мы вносим в каталог, в первую очередь, источники по следующим категориям։
* порталы открытых данных
* порталы/каталоги репозиториев научных данных
* порталы/сайты с базами статистических показателей
* порталы геоданных
* сайты проектов открытого бюджета (как правило включают много наборов данных или документов которые должны ими быть)
* порталы справочников и классификаторов
Список постоянно пополняется. Если обнаружите ошибку или есть предложения по наполнению сайта, напишите нам, проект продолжает развиваться. А все материалы доступны под лицензией CC-BY.
#opendata #datacatalogs
В рубрике интересных открытых проектов на открытых данных, французский проект Inventaire [1] для коллаборативного ведения списков собственных книг и возможности делиться информацией с друзьями, коллегами и тд., в том числе запоминая кому и когда какие книжки ты отдавал или у кого ты их брал.
Особенность проекта в том что книжки сопоставляются с записями в Wikidata, а также данные проекта доступны в виде дампов [2] и API [3]
У проекта открытый код [4], его автор давний контрибьютор в Wikidata, а этот проект развивает с 2015 года.
Как и у всех подобных проектов, главные вопрос в экономической модели. Его создатель изначально делал проект на чистом энтузиазме, с 2019 года создал НКО в форме некоммерческой ассоциации и получил небольшие гранты от нидерландского фонда NLNet.
Ссылки:
[1] https://inventaire.io
[2] https://data.inventaire.io/
[3] https://api.inventaire.io/#/Entities
[4] https://github.com/inventaire/inventaire
[5] https://wiki.inventaire.io/wiki/Economic_model
#opendata #data #wikidata
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.
Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.
И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.
Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html
#opendata #alternativedata #china #covid
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.
Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable
#opensource #data #startups #moderndatastack
Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.
Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.
Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)
Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.
MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.
От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.
Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/
#opendata #idiotseverythere #data #moscow #government
Много лет своей жизни я провёл анализируя данные госзакупок/госконтрактов/госфинансов. Это привело к созданию таких проектов как Госзатраты clearspending.ru и Госрасходы spending.gov.ru, а также множеству расследований публичных и непубличных. Я много что могу рассказать о том как система госзакупок в России формировалась, почему она открыта настолько насколько открыта и о истинной природе многих требований 44-ФЗ и 223-ФЗ которые регулировали систему госзакупок в целом.
По поводу предложений Валентины Матвиенко, главы Совфеда о моратории на действие закона о госзакупках, видимо она имела в виду 44-ФЗ, на время военных действий я много что могу сказать.
Особенность системы госзакупок в России в том что в одних и тех же законах открытость была смешана с процедурным контролем. В одном и том же 44-ФЗ прописаны, как все полномочия о контроле, так и требования к открытости. При этом это явления разного порядка.
Введение и усиление контроля изначально в 94-ФЗ и в 44-ФЗ далее было сделано для усиления связки Минфин, Казначейство, ФАС. Мало кто вспоминает что ранее регионы и муниципалитеты осуществляли контроль самостоятельно, более того, эта модель куда более соответствовала Конституции РФ поскольку субъекты федерации и муниципалитеты самостоятельно должны управлять своими бюджетами. Но ещё даже в первых редакциях законов только некоторые чиновники в Правительстве Москвы сопротивлялись этим введениям, но недолго.
Из-за огромного дисбаланса процедурных требований, требований бюджетного кодекса, ограничений по согласованиям в рамках госпрограмм и нацпроектов, сложившаяся российская система госзаказа крайне громоздка и построена так что контролёры всегда могут найти нарушения. Более того любой госзаказчик который хочет обеспечить качество работ или товаров, должен действовать также как и коррупционный заказчик. Вначале искать поставщика какими-то другими методами, а потом искать возможность заключить контракт именно с ним. Это будет долго объяснять почему невозможно иначе, но все кто когда-либо выступал в роли поставщика или заказчика по 44-ФЗ знают о чём идёт речь.
Открытость этой системы была её единственным плюсом. Открытость давала если не эффективность, то хотя бы отчасти возможность предупреждать совсем уж запредельные случаи воровства. Хоть какой-то гражданский контроль был возможен только благодаря раскрытию информации о том кто является победителем по госконтрактам.
Поэтому приостановка закона или его отмена в будущем имеет две важные грани։
1. Для кого-то из госзаказчиков эффективность работы повысится просто потому что отпадёт процедурный контроль. После этого ФАС можно распускать, но в какой-то степени в каких-то областях эффективность процессов в государстве даже повысится. В основном там где речь идёт про стройку и крупные контракты. Но это предположение, не аксиома.
2. А вот снижение открытости приведёт неизбежно к тому что всё что связано с контрактами затрагивающими жизнь людей станет сильно хуже. Общественный контроль всегда был в этой области сильнее и тут он будет резко ограничен.
Условно "правильная" реформа госзаказа должна была быть в разделении непосредственно регулирования процедур закупок и исполнения контрактов в один закон и обеспечение открытости отдельным нормативным документом. В изменении самого смысла контроля от контроля процедур, к контролю результатов и ещё много чего связанного с мониторингом исполнения контрактов, а не только с финансовым контролем.
Поэтому, если коротко, закон менять надо, а вернее писать новый(-е), а вот ставить мораторий на открытость глупо, и ни к чему хорошему не приведёт. Разве что кроме того что добьют региональную журналистику, вслед за федеральной.
Но это всё уже очень далеко от данных и технологий про которые мне говорить и писать куда интереснее.
#opengov #procurement
Dataskop [1] свежее приложение от команды AlgorithWatch по сбору и визуализации данных которые собирает о пользователе ТикТок и с возможностью пожертвовать эти свои данные на исследования в области приватности. Сама идея интересная, делать приложения по анализу приватности в виде приложения с браузером внутри. Вместо того чтобы делать расширение для браузера, согласовывать его с владельцем магазина расширений, проще поместить Chromium в оболочку и делать исследование в замкнутом пространстве. Хорошая идея, тянет на возможность её универсальной реализации, не только применительно к ТикТоку.
А пока можно скачать приложение и поэкспериментировать. Я вот, к сожалению, проверить не могу, ТикТоком совсем не пользуюсь.
Ссылки:
[1] https://dataskop.net/overview-in-english/
#privacy #software #tiktok
В рубрике интересных проектов на данных, общественный проект OpenAQ (Open Air Quality) посвящённый, как вы догадались, качеству воздуха и инструментам его измерения. Они обновили свой навигатор по датчикам, теперь можно увидеть [1] их во многих странах, особенно в Евросоюзе и США. А также много датчиков в Чили, Австралии и в Таиланде.
Проект любопытный, с открытыми данными, интерфейсами для разработчиков и тд.
Ссылки:
[1] https://explore.openaq.org/
#opendata #datasets #API #airquality #lifequality
Так вот Гостех в России такой командой не является. Это некая закрытая группа без заметных публичных результатов кода, документов, гайдов, системных подходов и всего остального. В текущей модели существования - они прослойка между госорганами и платформой Сбербанка (читай - Сбербанком) и являются "приложением к единой цифровой платформе". Иначе говоря, по модели реализации Гостеха в России, люди вторичны, информационная система первична. А что касается информационной системы см. пункт 1. Гайд по Agile сделанный командой ГосТех՛а - это ещё раз подтверждает. Это обезличенный забюократизированный документ с заложенными минами привязки к ЕЦП Гостех и при этом оторванный от реальности госпроектов ограниченных законами о госзакупках, госслужбе и практике согласования с Минцифрой, планами информатизации и последующими проверками прокуратуры и Счетной палаты. Кто-то скажет что, "но иначе же невозможно!". Возможно, и как раз большая часть инновационных команд в мире специализировались на том чтобы это было возможно.
Инвестиции в людей и сбор сильных команд в госсекторе не является простой задачей, в мире тоже не так много примеров, но они есть. в России они мне почти неизвестны, а там где они есть присутствует очень сильная отраслевая специфика.
—
Выводы можете сделать самостоятельно.
#govtech #russia #government #thoughts
Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.
Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.
Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.
Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.
Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org
#readings #articles #opendata #openscience #openaccess
В Open Government Partnership опубликовали доклад Broken Links: Open Data to Advance Accountability and Combat Corruption [1] где на основе результатов Global Data Barometer подсветили практики открытости по всему миру, в первую очередь в странах входящих в OGP, на постсоветском пространстве - это Латвия, Литва, Эстония, Украина, Киргизия, Грузия, Армения и Азербайджан. В данном случае у них акцент на открытости и прозрачности в контексте борьбы с коррупцией и подотчетности власти. Обзор хорош конкретными примерами, вроде украинской системы системы закупок Prozorro, или Латвийского реестра лоббистов, или изменения в регулировании Армении с раскрытием бенефициаров в реестре владельцев компаний.
В российских реалиях обзор применим только с точки зрения понимания "как всё развивается у них", Россия не входит в OGP, а для многих постсоветских и не только стран увидеть пробелы в собственной открытости.
Ссылки։
[1] https://www.opengovpartnership.org/broken-links
#opendata #opengov
У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.
Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.
Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.
Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.
Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.
Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/
#data #regulation #policies #oecd #datapartnership
Напоминаю что в пятницу будет проходить Privacy Day 2023, на сайте доступен перечень спикеров и программа. А само мероприятие будет транслироваться на Youtube.
Мероприятие ранее проходило ежегодно в Москве, теперь организаторы сделали его международным и проходящим полностью онлайн. Так что будет интересно всем для погружения в повестку приватности не только в России.
#events #privacy