Портал открытых данных РФ закрыт на ревизию
Федеральный портал открытых данных (data.gov.ru) с сегодняшнего дня недоступен, т.к. «закрыт на ревизию». По информации Минэка, портал планируют развивать «в рамках перехода системы на платформу «Гостех». О Гостехе хорошо пишет Циникс, который уже успел прокомментировать недоступность портала [1].
Пока сложно предположить, когда портал и данные станут снова доступными (и будут ли данные открытыми, бесплатными и доступными для скачивания без регистрации и смс), т.к. конкретные сроки не указаны (но планируют завершить работы «как можно скорее»), да и каких-либо содержательных комментариев по развитию портала не было.
Еще в феврале уточняла у Минэка, будет ли доступен портал в формате архива, сохранятся ли текущие ссылки на наборы данных, но, к сожалению, единственное, что сейчас доступно в открытом доступе, - это PDF-список с адресами сайтов госорганов, наборы которых были размещены на портале [2]. Но, как обычно, Иван Бегтин сделал копию сайта, ссылки на которую можно найти в его комментариях по порталу [3].
Что больше всего удивляет в данной ситуации:
- непонятно, зачем нужно закрывать сайт, и почему нельзя разрабатывать новую версию на тестовом сервере параллельно с доступностью текущей или хотя бы разместить архив/дамп с текущими наборами открытых данных?
- непонятно, почему перечень порталов публикуется в формате pdf, который не относится к открытым данным, не является пригодным для автоматической обработки и анализа?
- почему публикуются только списки госорганов и их главных страниц сайтов, если можно было выгрузить из БД портала и опубликовать весь реестр наборов данных и все ссылки на первоисточники? Почему перечень госорганов не разбит хотя бы по уровню власти?
- и больше всего удивляет недоступность открытых данных Минэкономразвития. Раньше я уже поднимала вопрос отсутствия полноценного раздела Открытых данных на сайте Минэка, но всегда получала ответ о том, что данные Минэк публикует только на портале ОД, а с его работой и доступностью проблем нет. Теперь же мы видим сообщение о том, что «все данные, которые ранее автоматически предоставлялись, вы можете получить на ресурсах, перечисленных в PDF-файле», находим в этом списке сайт Минэка, и не можем скачать данные с сайта Минэка, потому что их там и не было [2].
- и еще один важный вопрос, а доступны ли данные 3-летней или 7-летней давности на порталах госорганов? Ведь мы часто сталкиваемся с тем, что исторические данные удаляют, или, например, не переносят на новый портал при разработке новых версий сайтов.
Пока много вопросов и мало ответов.
[1] /channel/CynExp/4149
[2] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[3] /channel/begtin/4714
Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.
Мне так много есть что сказать по этому поводу что короткого текста может не получится, но я постараюсь․ Начну же с того что предвидя такое развитие событий мы в Инфокультуре сделали полный слепок данных портала 2 февраля 2022 года [3], это 13ГБ в сжатом виде и 29ГБ в распакованном виде. За год данных на портале появилось и обновилось немного, так что дамп можно считать вполне полным.
Про качество данных на портале я писал неоднократно [4], но важно не только это. Важнее то что вот уже более 7 лет большинство порталов открытых государственных данных в России перестали обновляться и наполняться, Данные всё ещё публиковались на некоторых государственных информационных системах и отдельными органами власти, но, в целом, тему открытости начали "сливать" давно, вначале приведя к формальному исполнению требований и публикацией потока бессмысленных сверхмелких административных данных, а далее, при последнем российском правительстве, даже на это стали забивать.
Собственно и в этом событии важен уровень принятия решения. Это уровень не председателя Пр-ва, не вице-премьера, и даже не министра. Просто руководитель департамента в Минэкономразвития завил что мол мы портал закроем и когда-нибудь сделаем другой. В общем, портал не стал часть национальной цифровой инфраструктуры, а Минэкономразвития лишь одно из министерств без особых полномочий указывать другим органам власти что им публиковать в открытом доступе. Я, опять же, не про бессмысленный поток административных данных (вакансий, инфы по учреждениям и тд), а про реальные реестры, ведомственную статистику, крупные базы данных в управлении ФОИВов и их подведов.
Казалось бы что мешало Минэкономразвития создавать новую версию портала параллельно и анонсировать его замену после эксплуатации бета версии? Я вот не знаю что, я вижу что текущая ситуация больше похожа на заметание мусора под ковёр, чтобы никто их за руку не поймал с тем как плохо сопровождался этот портал.
В любом случае, проблема не только в словах о временном закрытии, которое с лёгкостью может стать постоянным. И даже не в анонсе переноса портала на несуществующий Гостех, а в том что даже если новый портал создать и даже не таким плохим технически как предыдущий, то чем его наполнять.
За многие годы не были видны никакие усилия Минэкономразвития в том чтобы была доступна детальная статистика по качеству жизни։ уровню преступности, загрязнении, качеству образования, здравоохранению, заболеваемости с детальностью до районов (да даже детальность до регионов не вся!). За все эти годы на портале даже не начинали публиковать наиболее востребованные данные по судебным производствам (привет Судебному Департаменту создавшему рядом коммерческую монополию) или свежезакрытым данным госфинансов или почти полностью отсутствующим в открытом пространстве геоданным, которые как раз более всего раскрываются по всем миру?
Эти риторические вопросы имеют лишь один ответ, блок на реальную открытость государства не только и не столько в этом портале. Он в отсутствии повестки открытости у текущего федерального правительства.
В качестве завершения я напомню что в мире сейчас нет развитых стран без порталов открытых данных. Даже в Китае такой есть, с акцентом на публикацию научных данных, зато неимоверного количества и объёма. Порталов открытых данных нет только у некоторых африканских стран, стран третьего мира иными словами. Стремление российского правительства руками Минэкономразвития, в данном случае, войти в список третьих стран лично у меня вызывает лишь недоверие ко всей остальной политической риторике о том "как тут всё хорошо" и как замечательно идут нацпроекты и поддержка бизнеса.
Никак не идут.
В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.
Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.
Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]
Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.
Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.
Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html
#opendata #geodata #usa #datasets
В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.
Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.
А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.
В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.
А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.
Ссылки:
[1] https://nada.ihsn.org/
[2] http://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] http://www.ihsn.org/software/ddi-metadata-editor
#opendata #microdata #statistics #knowhow
Команда проекта Если быть точным сделала неплохой обзор того что исчезает с сайтов органов власти. Почитайте, там всё хорошо систематизировано и многое описано, есть о чём подумать.
Я также регулярно пишу про закрываемые в России данные здесь в телеграм канале по тэгу #closeddata.
При этом закрывается данных гораздо больше, просто трудно отследить все изменения. Многое из закрываемого никогда как открытые данные и не публиковалось, это могут быть доклады, отчеты, статистика и открытые контуры информационных систем. Часто о их закрытии знают только отраслевые специалисты, часто закрывается не всё, а только самое главное что делает остальное бессмысленным.
При этом, поскольку изначально в России уровень открытости государства был довольно велик, хотя и специфичен (госфинансы - открыты, а данные о качестве жизни нет), то до сих пор может казаться что не всё так плохо. Но не надо обманываться, важнее всего то что у государства в России внятной национальной стратегии работы с данными нет.
Написал в рассылку текст #32. Открытые данные в мире, в фактах и тезисах [1] о том как развиваются открытые данные в мире, в науке, в рамках политической подотчетности, в корпорациях и не только. Фактически это ответ вопросы "что не так с порталом открытых данных моей страны?" и "А как там у других?", а у других вот так.
А также не могу не напомнить об одном из недавних текстов #26. Открытость как признак жизни [2] о том что открытость данных, государства и не только - это один из признаков жизнеспособности какой-либо области/темы. Если нет науки, то и нет открытости науки, если нет журналистики, то и данные для журналистов не раскрываются, если нет политики, то и политическая подотчетность сводится к минимуму.
Ссылки:
[1] https://begtin.substack.com/p/d4f
[2] https://begtin.substack.com/p/26
#opendata
В рубрике как это работает у них проект Sciencebase.gov [1], каталог публикаций, материалов, карт и геоданных Геологической службы США (USGS). В каталоге содержится более 50 тысяч наборов данных связанных только с геологическими исследованиями, там же публикуются выпуски данных геологической службы и данные полученные исследователями и научными службами финансируемыми USGS.
Интересно и то что этот репозиторий лишь один из нескольких десятков аккредитованных USGS как рекомендуемых к публикации научных данных [2], все они, либо государственные, либо академические, либо от консорциумов университетов/научных центров.
В случае Sciencebase у всех записей большой объём метаданных включающий геокоординаты набора данных, уникальные идентификаторы, информацию о авторах, организации и многое другое.
Ссылки։
[1] https://www.sciencebase.gov/catalog/
[2] https://www.usgs.gov/office-of-science-quality-and-integrity/acceptable-digital-repositories-usgs-scientific
#opendata #openaccess #openscience
По поводу новости о том что российский портал открытых данных собираются переносить на Гостех и потратить на это всё 50 миллионов рублей [1] мне много что есть сказать, в первую очередь анекдотом «Когда в борделе продажи падают, надо работниц(-ков) менять, а не кровати переставлять».
Российский портал открытых данных, хотя и сделан очень криво, на довольно идиотских методических рекомендациях (нигде такого в мире нет), без нормального API и ещё много чего, но кривых национальных порталов открытых данных в мире какое-то количество есть. Сделан он плохо, но проблемы с доступностью данных даже не в нём, а в том он не является частью госполитики ни коим образом. Нет ни одного действующего плана по открытости органов власти, нет раскрытия данных по ключевым общественным событиям, достаточно вспомнить тот же ковид, нет ответственных ни на уровне органов власти, ни на уровне пр-ва РФ за развитие открытости гос-ва и тд.
С учётом этого всего портал оказывается огромной цифровой помойкой, забитый наборами данных в 3 строки, от муниципалитетов и без практического применения где бы то ни было. Я могу от себя сказать что за всё время существования портала открытых данных не было ни одного случая когда я и моя команда в Инфокультуре использовала бы на практике данные публикуемые на data.gov.ru. Потому что, либо данные там отсутствовали, либо устарели, либо автоматизированный доступ к ним был невозможен (бессмысленное и непригодное для работы API) и во всех случаях можно и предпочтительнее было работать с первоисточниками данных.
Ссылки։
[1] /channel/CynExp/4126
#opendata #closeddata #russia
Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.
Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.
При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.
Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527
#privacy #china #facerecognition
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]
- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.
- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.
Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b" rel="nofollow">https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8
#readings #data #dataengineering #uk #government
Мы продолжаем пополнять наш проект Каталог каталогов данных (datacatalogs.ru)
На этот раз в него включены сервера геоданных и ГИС порталы России и Казахстана на базе продуктов Geonetwork и Geoportal։
- Сервер геоданных портала Новые инвестиционные проекты Минэкономразвития России https://mnp.economy.gov.ru/geoserver/web/
- Сервер геоданных портала Московский транспорт https://transport.mos.ru/geoserver/web/
- Информационно-аналитическая среда для поддержки научных исследований в геологии http://geologyscience.ru/
- Геопортал Калининградской области https://geoportal.gov39.ru/
- ГИС-портал Спутникового Центра ДВО РАН http://gis.satellite.dvo.ru
- ГИС-портал проекта Национальная инфраструктура пространственных данных Республики Казахстан https://map.gov.kz
#opendata #datacatalogs #datasets
Пока единственный вывод из демо GPT-4 для разработчиков в том что это "ещё более лучшая замена StackOverflow". Помощь в поиске ошибок в коде, актуализация под последнюю документацию к программным продуктам и человеко-понятные и объясняющие ответы с примерами готового кода. Всё это в совокупности неплохо, хотя и далеко от страхов что вот-вот и ИИ заменит разработчиков. Поиск ответов на вопросы - это лишь небольшая часть отладки кода, которая может отнимать до 90% при разработке кода. Поэтому продуктивность команд разработки GPT-4 может поднять, но будет ли оно более значимым чем другие инструменты разработки на базе ИИ или развития no-code и low-code платформ, вот в чём вопрос.
В целом у меня осталось чувство что, то ли сами разработчики пока не раскрывают весь потенциал применения, то ли они его ещё не знают/не ощутили.
#openai #ai #softdev #gpt4
Open Data Fabric - открытый протокол/спецификации по обработке данных с использованием Web 3.0 и умных контрактов. Малоизвестно широкой публике и большинству дата-инженеров, разработано компанией Kamu в 2020 г. [1] как часть их платформы по работе с корпоративными данными в среде распределённых реестров. Любопытно детальностью проработки спецификации, наличием инструмента для работы и то что продукт и спецификация развиваются. За пределами экосистем вокруг блокчейна всё это выглядит экзотикой, особенно обработка данных на IPFS, всё это далеко от Modern Data Stack, но внимания всё же стоит, тут могут быть интересные идеи как минимум.
Поэтому из плюсов - хорошо проработанная спецификация. Из минусов - абсолютная ориентация на плоские простые таблицы и схемы и SQL для реконструкции наборов данных. Никакие иные данные кроме табличных не рассматриваются.
И туда же ещё ряд похожих проектов։
- Holium [2] - движок по обработке данных поверх IPFS
- Bacalhau [3] платформа для выполнения задач по обработке данных поверх IPFS по модели Compute Over Data [4]
Про Compute Over Data отдельный разговор, это явление из Protocol Labs почти полностью закольцованное на экосистему Web 3.0, блокчейна и тд. Лично я не видел до сих пор ни одного применения продуктов из этой среды коммерческими компаниями за пределами мира "крипты" что доверия им не добавляет.
Но, возвращаясь к спецификации и Open Data Fabric, сама по себе она может быть интересной.
Ссылки։
[1] https://docs.kamu.dev/odf/
[2] https://docs.holium.org/
[3] https://docs.bacalhau.org/
[4] https://www.cod.cloud/
#openprotocols #openspecifications #data #etl
Чума, война и утечки данных (с)
Как и многие, я слежу за тем сколь многие данные утекают сейчас из российских сайтов, информационных систем и сервисов. Причём если раньше были утечки у коммерческих компаний и их продуктов, вроде утечек СДЭК, Деливери.Клаб, Яндекс.Еда и Вкусвилл и регулятор(-ы) чуть ли не сразу заговорили об оборотных штрафах, а пользователи, не без оснований, возмущались непомерно малыми штрафами. Я знаю какое-то количество людей до сих пор расстроенных что не получили компенсации от коммерческих компаний после масштабных утечек.
Однако, лично меня ещё тогда заботил вопрос, а что будет когда утечки данных начнут происходить с сайтов госорганов или госкомпаний или разного рода гос-НКО. Им регулятор тоже будет грозить оборотными штрафами?
И вот что можно пронаблюдать сейчас։
- утечки персональных данных из как минимум трёх продуктов Сбера։ Сберлогистика, СберПраво и СберСпасибо
- утечки персональных данных проектов Агентства Стратегических Инициатив
- утечка данных о зарегистрированных пользователях с сайта Минтруда
- утечка данных о сотрудниках и студентах НИУ ВШЭ
Ссылки я приводить не буду, ищущие да и обрящут. Про большую часть упомянутого писали, или СМИ, или профильные телеграм каналы.
И? Где регулятор? Где тотальная проверка организаций после утечек? Где публичные расследования и увольнения руководителей по ИТ и инфобезу если они вообще там есть?
Коммерческие компании, при всех их недостатках, всё это время реагировали куда адекватнее на утечки их данных. Так что всё это показывает, и регулятора, и затронутые госструктуры крайне неприглядно.
Тут есть ещё два немаловажных факта о которых нельзя не упомянуть։
1. Сбер - это не только множество сервисов для потребителей, но и ГосТех. Только если в случае СберПрава вы идёте и пользуетесь им добровольно, то ГосТех - это история принудительная. А что если ГосТех протечёт ...? Пока не так страшно, потому что я давно уже пишу что ничего критического они туда ещё не поместили, но нынешней репутацией Сбербанка сама затея становится ещё более сомнительной.
2. Стремительное закрытие госорганами многих доступных данных, вроде госзакупок, субсидий, данных об учредителях и владельцах недвижимости было, в первую очередь, чтобы скрыть их от журналистов расследователей. Резонный вопрос теперь, а толку то? У журналистов расследователей теперь на руках с каждой неделей всё больше данных из утечек. На их основе можно проводить довольно серьёзный анализ, и то что ещё не так много было публикаций, так это только потому что это персональные данные и этические ограничения.
#data #leaks #privacy #government
Вот так сейчас выглядит сайт российской федеральной государственной информационной системы ГАС "Управление" если её открывать в браузере [1]. Это открытый контур, без необходимости авторизации
Особенность этой системы в том что она не то чтобы вершина творчества и ориентирована всегда была только на госслужащих которые пользоваться ей не то чтобы любят и не то чтобы она нужна.
Но именно вот и не только так в какой-то момент может начать выглядеть понуждение к установке российского корневого сертификата.
Пока это ГАС Управление - это фигня, если это будет VK - это уже будет не фигня. Но больше вероятности что сертификат будут ставить на Андроид с мобильными приложениями.
Ничего хорошего в этом, конечно, нет.
Ссылки:
[1] https://gasu.gov.ru/infopanel?id=11851
#privacy #security #russia #badsecurity
Ссылки։
[1] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[2] https://www.kommersant.ru/doc/5889649
[3] https://hubofdata.ru/dataset/datagovru-20220202
[4] /channel/begtin/3508
#opendata #government #itmarket #closeddata #russia
О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.
Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.
В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.
Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.
Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.
Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.
Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/
#openaccess #science #persistentidentifier #scientificifrastructure
По поводу того что в Минцифре анонсировали создание "российского Pornhub (простите - Github)" и то что на это будет направлено 1,3 млрд. рублей, это примерно 16 миллионов долларов США) [1] все уже по десять раз обсудили. А я вот, честно говоря, не считаю её глупой или бессмысленной, я выражу сомнения иначе. С момента запуска Github привлёк $350 миллионов долларов США [2], а его ближайший конкурент Gitlab и того больше, $413.5 миллионов долларов США [3].
Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.
Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.
Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.
Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․
Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz
#opensource #russia #regulation #government #code
Правительство теперь официально может засекречивать любую статистику. Как минимум 14 ведомств уже это сделали – причем еще до принятия нового закона
В конце февраля Госдума приняла закон, позволяющий правительству приостанавливать публикацию любой государственной статистики. По факту этот процесс идет уже давно: мы рассказывали, что за первые полгода с начала военного конфликта с Украиной как минимум 10 ведомств закрыли свою статистику.
Теперь их стало еще больше. Мы насчитали 14 органов власти, которые частично или полностью ограничили доступ к своим данным. Некоторые полностью закрыли разделы со статистикой, другие – частично ограничили доступность.
Например, Минфин закрыл доступ к оперативным данным о доходах и расходах бюджета, но их все еще можно вытащить обходными путями – через виджет на сайте.
Из хороших новостей: в экономической статистике наметилась небольшая оттепель. ФТС частично возобновила публикацию данных по внешней торговле (которые и так можно было собрать), о планах вернуть обязательную отчетность банков заявил Центробанк.
С другой стороны, среди закрытых показателей больше всего было именно экономических. Так что сломить тренд на снижение доступности данных это не сможет.
👉 подробнее – на нашем сайте
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].
В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.
Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/
#privacy #data #regulation #government #china
Из интересного про YTsaurus от Яндекса
- полноценный продукт для операций MapReduce, замена Hadoop'а для тех кто ещё его использовал
- внутри работа с ClickHouse, YDB и Apache Spark, ИМХО, интереснее всего использование ClickHouse, хотя и было бы интересно посмотреть на бенчмарки
- собственный аналог виртуальной файловой системы и хранилища метаданных Cypress
- собственные форматы хранения данных YSON и Skiff. YSON как замена JSON с несколькими дополнительными типами данных и Skiff как бинарный формат похожий на Protobuff.
- в опубликованном коде нет UI кроме командной строки и примеров кода, потенциальная возможность для стартапов по созданию онлайн сервисов с веб уи и настройкой под себя, как это со многими другими опен сорс продуктами по модели։ открытый код + облачная подписка? просто предположение
- особенность в том что он реально про данные большого объёма, условно от десятков терабайт, хотя в Success Stories приведены примеры с сотнями терабайт. Если работа идёт с меньшим объёмом данных, то скорее всего это будет overkill, а вот если объём и инфраструктура разумно велики, то надо пробовать.
По всем ощущениям продукт очень интересный, хочется в будущем увидеть более подробные его разборы на конкретных кейсах применения и сравнениями.
#opensource #datatools #dataops #dataengineering
Яндекс выкладывает в опенсорс одну из основных инфраструктурных BigData-систем собственной разработки — YTsaurus. Это платформа, предназначенная для распределённого хранения и обработки больших данных.
Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.
В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.
Ссылки на посты на Хабре и Медиуме.
Я ранее писал про сервис ExplainPaper [1] который генерировал сжатое изложение научных статей понятным языком. С той поры сервис быстро коммерциализировался, так что, очень похоже, что услуга эта востребована, а с появлением ChatGPT, GPT-4 и других языковых моделей ещё не раз реинкарнирует.
Из свежих подобных продуктов стартап OpenRead [2]. Сервис автоматически генерирует краткое изложение, так называемое Paper Expresso и позволяет естественным языком задать вопросы по научной статье и получить развернутые ответы. Я проверил на нескольких статьях которые сам читаю, перечитываю, учитываю в своей работе и результаты вполне практичные. Я, правда, не считаю что такие сервисы должны быть сами по себе, гораздо естественнее они будут как часть платформ вроде Google Scholar, Semantic Scholar или Arxive.org и др.
Например, будучи подписанным на рассылки Semantic Scholar по нескольким научным темам могу сказать что главное неудобство в отсутствии кратких понятных аннотаций к статьям. Но это только самое очевидное применение, более интересные модели в уже более серьёзном применении ИИ с предобучением на научных статьях по направлениям, почти наверняка такие AI ассистенты появятся (уже появились?) в ближайшем будущем.
Ссылки։
[1] /channel/begtin/4346
[2] https://www.openread.academy
#startups #ai #science #papers #readings
Интересное чтение про данные, технологии и не только, подборка научных статей։
- Open data-set identifier for open innovation and knowledge management [1] авторы рассуждают о создании OpenDatId, уникального идентификатора для открытых данных. Сама статья, к сожалению, не к открытом доступе.
- Towards a Common Definition of Open Data Intermediaries [2] статья вокруг нового понятия open data intermediaries или по-русски "посредники открытых данных". Любопытно, но слегка наукообразно, а не практично. Статья в открытом доступе
- Open science: Scientists are in favor, what about the librarians? [3], по-русски Открытая наука: учёные – «за», а библиотекари? автор Людмила Шевченко из ГПНТБ СО РАН [4]. О том что библиотекарям необходимо пересмотреть отношение к открытой науке. Статья в открытом доступе
- How the Digital Transformation Changed Geopolitics [5] о том как цифровая трансформация (гос-ва и не только) поменяло геополитику. Статья политизирована насквозь, но отражает один из взглядов последствий развития дата-экономики (data-driven economy).
Ссылки։
[1] https://www.emerald.com/insight/content/doi/10.1108/JKM-07-2022-0514/full/html
[2] https://dl.acm.org/doi/10.1145/3585537
[3] https://ntb.gpntb.ru/jour/article/view/1081
[4] http://www.spsl.nsc.ru/professionalam/bibliosfera/avtorskij-ukazatel/shevchenko-lyudmila-borisovna/
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4378419
#opendata #data #readings #articles
Комментарии к происходящим российским новостям про рынок данных։
- о докладе ЦБ РФ про использование данных в фин. рынке [1] если вкратце, то проблема с качеством данных неизбежна потому что решать её можно только за счёт того чтобы все собираемые данные использовались бы для аналитики, как минимум. Если данные не используют, то их и не чистят и не верифицируют, и они как бы есть, но, как бы, непроверенные.
- о том что в Минцифре создаётся департамент больших данных и искусственного интеллекта. Я бы сказал так, у Минцифры большие провалы в системной, стратегической и нормативной работе и, при этом, если некоторые успехи в проектной работе и существенные успехи в антикризисной, кто бы что там говорил, на фоне других ФОИВов конечно. Вот этот департамент оказывается опять про проектную работу, а не про стратегии и про регулирование. Хорошо ли это? Я лично считаю что стратегии первичны, проекты вторичны.
- о слухах что Минэкономразвития собираются переносить портал открытых данных на платформу Гостех. Я скажу так, минус на минус плюсом не будет. Лично меня уже давно попустило то что российский федеральный портал открытых данных оказался настолько плох, я уже не вижу смысла объяснять тем кто его ведёт почему они делают это плохо и как делать это нормально, потому что это вопрос не технологий, а политической воли к раскрытию ключевых наборов данных и последовательной госполитики в открытости. И того и того сейчас есть достаточно острый дефицит.
Ссылки:
[1] https://www.cbr.ru/Content/Document/File/145403/Consultation_Paper_14032023.pdf
#opendata #itmarket #data #regulation
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.
Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.
Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/
#machinelearning #stateof #reports #readings
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].
Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.
Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4
#openai #gpt4 #languagemodels #ai
Я совсем пропустил что в ORelly вышла 1 марта любопытная колонка Technology Trends for 2023 [1] про технологические тренды которые они измеряют с помощью своей образовательной платформы.
Там много интересного про разработку ПО в принципе, ключевое, ИМХО в 35% росте того что называют code practices, по сути это работа с репозиториями кода и того
недостаточно знать язык программирования, важно уметь самоорганизовывать свой код и работать по правилам в команде.
Но интереснее большой блок про данные и разницу между 2021 годом и 2022-м, тут сразу несколько интересных трендов с моими комментариями։
- рост интереса к дата-инженерии на 35% - совершенно неудивительно потому что дата-инженерия имеет порог вхождения ниже чем data science, но всё ещё требует высокой квалификации и туда не такой мощный поток новичков с минимальными знаниями, зато многие выбирают это направление для смены специализации внутри профессии.
- Hadoop превращается в унаследованную платформу - вообще это давно происходит, если кто-то сейчас говорить про большие данные, Hadoop и тд. можно помечать что человек уже оторвался от современного технологического стека. Я это чувствую давно, а тут ещё такое замечательное подтверждение от ORelly.
- на 15% вырос интерес к языку R - вот тут кто бы подумал, я то полагал что Python давно уже станет безусловным мэйнстримом для всего что касается работы с данными, но нет, не Python'ом единым. R всё ещё используется и активно, для самых разных, обычно, аналитических задач
И там ещё много интересных инсайтов чтобы задуматься о грядущих изменениях в технологиях и на рынке труда.
Ссылки:
[1] https://www.oreilly.com/radar/technology-trends-for-2023/
#trends #it #data #orelly
Я 3 дня не писал в канал, это довольно большой срок, поскольку я даже когда не пишу и не публикую сразу, обычно 3-4 темы "подвешиваю" для автоматической публикации и редко бывает что я что-то не читаю и не пишу об этом. Но в этот раз причина объективная, очередное поветрие то ли гриппа, то ли чего-то ещё, сильно ограничило возможности что-либо записывать, но не читать.
Итак։
- Datasets at your fingertips in Google Search [1] в блоге Google Research свежие новости и цифры про их поиск, Google Dataset Search. Можем узнать что там уже проиндексировано 45 миллионов наборов данных, то что они делают ставку на описание наборов данных по стандарту schema.org и то всё более делают фокус на доступность данных для исследователей и индексацию научных репозиториев данных. Я ранее критиковал поисковик Гугла [2] и эта критика остаётся актуальной, но альтернативных поисковиков по данным пока просто нет.
- Mathesar [3] не текст, но инструмент по созданию интерфейса над базой PostgreSQL похожий на Google-sheets или Airtable. Интереснейшая штука пригодна не только для простых задач, надо поизучать, возможно она конкурентноспособна в сравнении с Strapi, Directus и других DMS (Data management system) и HCMS (Headless CMS).
- Predicting wine quality using chemical properties [4] исследование энтузиаста в области food science с созданием предсказательной модели оценки качества вина на основе химических свойств.
- I made JSON.parse() 2x faster [5] очень практическая, техническая статья о том как автор существенно ускорял разбор JSON документов для интеграции Javascript движок Hermes.
- Toward a 21st Century National Data Infrastructure: Mobilizing Information for the Common Good (2023) [6] исследовательский отчёт о создании национальной инфраструктуры данных в США. Текст подробный, со многими полезными упоминаниями существующих проектов.
- The URBAN AI GUIDE [7] от французских исследователей руководство о том как применять ИИ в городском контексте
- datacatalogs.ru update [8] наш коллега по Инфокультуре, Глеб Свечников пишет в LinkedIn о работе над обновлением интерфейса datacatalogs.ru, полезно всем кто думает о визуализации коллекций разных данных, не только каталогов данных
Ссылки։
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html
[2] ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d" rel="nofollow">https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
[3] https://github.com/centerofci/mathesar
[4] https://spiralizing.github.io/DSEntries/WineQuality/
[5] https://radex.io/react-native/json-parse/
[6] https://nap.nationalacademies.org/read/26688/chapter/1#v
[7] https://urbanai.fr/our-works/urban-ai-guide/
[8] https://www.linkedin.com/pulse/datacatalogsru-update-gleb-svechnikov/
#readings #data #ai #opendata
Big Transitions in the Tech Industry [1] отчёт Hired State of Software Engineers за 2023 год в виде 55 слайдов по рынку труда для разработчиков ПО, в том числе тех кто работает с машинным обучением и дата-инженерией.
Все слайды приводить не буду, только некоторые которые меня больше заинтересовали и выводы։
1․ Python - язык номер один для работы с данными и в инфобезе, для других областей язык номер 2-3-5, в общем всё равно очень популярен
2. Самые "горячие" индустрии по мнению разработчиков։ AI/ML/Data science, Fintech, Healthtech, Cybersecurity
И самое удивительное, наибольший дефицит сейчас разработчиков на Ruby on Rails, Ruby и Go. Это про разрыв ожиданий рынка и того что эти языки совсем не так популярны, не самые популярные.
С важной оговоркой что Hired оценивали рынок США и частично Канады и Великобритании.
Ссылки:
[1] https://pages.hired.email/rs/289-SIY-439/images/Hired_2023%20State%20of%20Software%20Engineers.pdf
#data #readings #jobmarket #itmarket