Telegram-канал begtin - Ivan Begtin: Бизнес и стартапы - каталог телеграмм

begtin | Бизнес и стартапы

Подписаться на канал

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

03 ноября 2022 22:24

О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu

Читать полностью…

Ivan Begtin

03 ноября 2022 05:24

В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web

Читать полностью…

Ivan Begtin

01 ноября 2022 19:07

История Рунета нашими глазами

За 10 лет в цифровом мире произошло много всего. Сейчас мы собрали наиболее важные события, связанные с блокировками в Рунете и другими нарушениями цифровых прав: от «чёрного списка» сайтов, через слежку, блокировку Telegram и Tor, а также давление на СМИ, до военной цензуры.

Россия прошла регрессивный путь в области свободы Рунета. Но хорошее тоже было. Хорошее – это мы с вами. То, что мы делали, чтобы отстоять свои цифровые права и свободы. К сожалению, они не даются без борьбы. Но мы верим, что технологии развиваются быстрее, чем цензура.

Мы остаёмся на страже цифровых прав и желаем всем вам быть в безопасности, а мы вместе с вашей помощью продолжим отстаивать наши с вами цифровые права всеми своими силами и возможностями!

История Рунета нашими глазами
➡️ https://x.roskomsvoboda.org/

Другие релизы сегодняшнего дня: материал издания «Новая газета. Европа» о десятилетии блокировок в России, большое обновление Censor Tracker, а также обновление визуализации нашего реестра запрещённых сайтов
➡️ https://roskomsvoboda.org/post/desyat-let-jubiley-rks/

Читать полностью…

Ivan Begtin

01 ноября 2022 15:05

В полку сервисов/продуктов на базе ИИ по автоматизации написания кода прибыло, в Arstechnica статья и Replit Ghostwriter [1], прямой конкурент Github Copilot и умеющий программировать и объяснять на 16 языках. Они предоставляют несколько тарифных планов, начиная с бесплатного и до $7 в месяц [2] для работы в online IDE.

С одной стороны такие сервисы это явный и безусловный прогресс, не всё можно автоматизировать, но очень многое. А вместе с NoCode платформами есть шанс на то что часть разработки перейдет на такие IDE и платформы автоматизация программирования.

А с другой стороны, конечно, это сильный драйвер в сторону зависимости от облачных платформ, даже ещё больше чем сейчас. Сейчас, по моему личному мнению, настольные IDE очень хороши и мигрировать в облака большого резона нет, кроме тех областей где иначе нельзя. А в продуктах вроде Copilot и Ghostwriter закладывается модель cloud-first и цикл разработки компании получает ещё одну зависимость.

Тем не менее тема очень горячая, у меня нет сомнений что инвестиции в неё и гибриды с NoSQL будут существенно расти в ближайшие годы.

Ссылки:
[1] https://arstechnica.com/information-technology/2022/10/replits-ghostwriter-ai-can-explain-programs-to-you-or-help-write-them/
[2] https://replit.com/pricing

#ai #programming

Читать полностью…

Ivan Begtin

30 октября 2022 06:31

В Великобритании запустили свежий портал открытых данных, на сей раз по теме планирования и управления территориями, planning.data.gov.uk [1].

В отличие от файлов/классических порталов открытых данных он написан с нуля и его код открыт [2] и все загруженные в него данные доступны изначально в структурированных унифицированных форматах, с полным описанием входящих таблиц которые сейчас отдают в форматах JSON и CSV и API, а обещают ещё и добавить экспорт в формат data packages и GeoJSON. У проекта есть дорожная карта [3] где обещано это и новые данные.

На что стоит обратить внимание:
1. Это портал открытых данных создаваемый с чётким пониманием того как данные будут использоваться.
2. Структурированное представление данных похоже на то что мы делаем в проекте Datacrafter.ru [4] и ещё ряде продуктов. Не просто файло-помойка данных, а хорошо подготовленные данные.

Ссылки:
[1] https://www.planning.data.gov.uk/
[2] https://github.com/digital-land/digital-land.info
[3] https://www.planning.data.gov.uk/about/roadmap
[4] https://datacrafter.ru

#opendata #uk #planning #housing #datacatalogs

Читать полностью…

Ivan Begtin

28 октября 2022 20:19

Интересный текст про сжатие данных и эволюцию DuckDB в этом направлении [1]․ Если вкратце, то текст о том как разработчики DuckDB организовали хранение данных улучшив за полтора года его примерно в 3 раза.

Для CSV файла в 17ГБ в версии 0.2.8 от июля 2021 г. данные занимали 15.3ГБ, а текущей версии они занимают порядка 4.8ГБ.

Для того чтобы обеспечить это сжатие разработчики использовали новый алгоритм Chimp [2] для сжатия чисел с плавающей запятой.

Это ниже чем сжатие алгоритмами Zstd или Snappy, но, важно помнить что сжатие в DuckDB обеспечивается практически без потери производительности.

Это важно поскольку DuckDB - это весьма перспективная SQL OLAP база данных, предназначенная для оптимизации аналитических расчётов.

Сам подход такого сжатия, ориентированного на быструю декомпрессию данных, весьма любопытен и наверняка переносим на другие продукты, многие из которых также используют похожий алгоритм Gorilla [3], на базе которого и построен алгоритм Chimp.

В обоих случаях числа сжимаются через специально подобранные операции основанные на XOR и повторяемости значений в битах чисел с плавающей запятой.

И, чтобы два раза не вставать, туда же в тему интересных исследований про данные, статья прошлого года в VLDB - DBOS: A DBMS-oriented Operating System [4] о том что вполне возможно построить операционную систему на основе высокопроизводительной базы данных. Подход очень оригинальный, это не просто data-shell, оболочка для работы с OS словно с базой данных и не data API для работы с функциями и настройками ОС через интерфейс API, а прямо таки полноценная ОС. А оно, тем временем, развивается [5] и может быть когда-то появится.

Ссылки:
[1] https://duckdb.org/2022/10/28/lightweight-compression.html
[2] https://www.vldb.org/pvldb/vol15/p3058-liakos.pdf
[3] https://www.vldb.org/pvldb/vol8/p1816-teller.pdf
[4] https://www.vldb.org/pvldb/vol15/p21-skiadopoulos.pdf
[5] https://dbos-project.github.io/

#dbms #duckdb #olap #dwh

Читать полностью…

Ivan Begtin

28 октября 2022 06:57

Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].

Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.

Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.

Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.

Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.

Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export

Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)

Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).

Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.

Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.

Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.

Ошибки, идеи и предложения пишите в Issues на github [5]

Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues

#opensource #webarchives #digitalpreservation #opendata

Читать полностью…

Ivan Begtin

20 октября 2022 10:28

В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.

В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на infoculture@infoculture.ru или чате к этому каналу.

Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.

#digitalpreservation #webarchive

Читать полностью…

Ivan Begtin

19 октября 2022 19:07

Есть у меня такая особая рубрика, "надолго отложенные проекты", может быть даже навсегда, не могу сказать сейчас. Это те гражданские технологические проекты (civic tech) которые невозможно создать сейчас потому что на них нет финансирования в России, или есть серьёзные риски что придётся их цензурировать настолько что проще не делать. Я последние лет 10 нарисовал десятки схем идей таких проектов, а по другим написал их краткие концепции.

Но это такой особый жанр напоминания себе что на один сделанный проект 5 проектов замороженных/отложенных/невозможных.

А сейчас ещё и остро неактуальных, потому что войны (внешние и внутренние) и прозрачность государства совершенно не сочетаются.

#opendata #opengov #mindmaps

Читать полностью…

Ivan Begtin

19 октября 2022 14:14

Для тех кто интересуется темой приватности, завтра будет проходить одна из наиболее интересных русскоязычных конференций по этой теме Евразийский конгресс по защите данных [1].

Я также там буду выступать с краткой презентацией про трекеры в мобильных приложениях которые мы нашли в магазине мобильных приложений RuStore.

На конгрессе много интересных докладов, всячески рекомендую прослушать её целиком. Если бы я завтра не бегал первую половину дня по официальным делам, то тоже также бы и сделал, поэтому то что не смогу посмотреть вживую, буду смотреть онлайн.

Ссылки:
[1] https://edpc.network/
[2] https://rustoreprivacy.infoculture.ru

#privacy #events

Читать полностью…

Ivan Begtin

18 октября 2022 07:40

В качестве регулярных напоминаний, о том где брать открытые данные в России и о России.

Негосударственное
- datacatalogs.ru каталог порталов открытых данных, государственных, академических, некоммерческих и всех других. Охватывает практически порталы всех уровней кроме некоторых муниципальных.
- hubofdata.ru - общественный хаб открытых данных, здесь всегда можно опубликовать свои наборы данных
- clearspending.ru - общественный проект по прозрачности контрактной системы в России. Дампы данных по госконтрактам.
- Awesome opendata Russia - список ссылок в Github на ресурсы посвящённые открытым данным в России. Был прообразом для datacatalogs.ru.
- репозитории Инфокультуры - многочисленные репозитории с данными и кодом Инфокультуры, в том числе с большими датасетами

Государственное
- data.gov.ru - официальный портал открытых данных Российской Федерации.
- fedstat.ru - официальные статистические показатели, в том числе в форматах открытых данных
- data.mos.ru - официальный портал открытых данных Правительства Москвы
- ehd.moscow - единое хранилище данных г. Москвы (статпоказатели и отчеты, нет открытых лицензий)

Международное
- data.worldbank.org - портал данных Мирового Банка, есть данные статистики по России
- data.un.org - портал статистики ООН, есть данные статистики по России

Рекомендации и руководства
- opendatareview.infoculture.ru - работа с открытыми данными: особенности публикации и использования в российском правовом поле

Коммерческие
- datacrafter.ru - каталог проекта Датакрафтер, с открытыми и иными данными собранными из официальных источников и доступных в формате API.
- labelme.ru - каталог данных для машинного обучения от компании LabelMe

Академические
- sophist.hse.ru - единый каталог экономических и социологических данных НИУ ВШЭ
- social.ranepa.ru - социологические данные РАНХиГС

Доступных данных гораздо больше, если Вы знаете каталоги данных которых нет в datacatalogs.ru, отправьте их через форму и мы его обязательно добавим.

#opendata #russia

Читать полностью…

Ivan Begtin

17 октября 2022 09:08

Я продолжаю довольно много читать про то как развивается тема открытых данных в мире, того как развиваются корпоративные каталоги данных и научные репозитории данных. Всё это три разных направления о которых я много раз писал, например, тут [1].

Чем больше я наблюдаю тем больше вижу оторванность всех трех направлений друг от друга. Технологическое и регуляторное их пересечение невелико, а аудитории пересекаются незначительно.

Например, для Data Scientist'ов преимущественные инструменты для работы связаны с работой с хорошо структурированными данными, пригодными для быстрой загрузки в СУБД или инструменты вроде программных сред разработок. Почти все порталы открытых данных, или вообще никак, или довольно посредственно предоставляют документацию и схемы данных. Чаще всего эти описания не гармонизированы, а преобразование открытых данных в данные для машинного обучения требует существенных усилий.

Другой пример, стандарты вроде Frictionless Data [2] существуют давно, делает их команда которая когда-то имела отношение к проекту CKAN, наиболее популярному открытому ПО для каталогов открытых данных. Но реально почти нет внедрения этого стандарта за пределами научных сообществ [3] и научных проектов. Госорганы создающие порталы открытых данных очень медленно внедряют стандарты обеспечивающие качество данных. В лучшем случае в порталах внедряются стандарты метаданных вроде DCAT, позволяющие работать с метаданными наборов данных.

Научные репозитории данных уходят во вселенную отраслевой специализации. Очень сильной специализации, вроде продуктов Galaxy для биоинформатики, множества медицинских репозиториев провязанных с PubMed и похожими реестрами и многим другим для других научных областей.

Эволюция государственных каталогов открытых данных, на мой взгляд, возможна в двух важнейших направлениях. Первый - это поощрение инноваций, развитие ИИ и инвестиции в создание общедоступных значимых сопровождаемых ключевых наборов данных. Второй - это развитие каталогов открытых данных с акцентом на прикладное научное использование с выдачей DOI, привязкой к научным работам и интеграцией в агрегаторы результатов и источников научной деятельности.

Прозрачность государства остаётся одной из ключевых тем, но и она должна сопровождаться с интеграцией с этими направлениями. Потому что некачественные и недостоверные данные о деятельности госорганов, также, имеют малую пользу и ценность.

Причём, всё вышенаписанное, можно отнести практически к любой стране.

Ссылки:
[1] https://begtin.substack.com/p/11
[2] https://frictionlessdata.io/
[3] https://frictionlessdata.io/adoption/

#opendata #thoughts #datacatalogs

Читать полностью…

Ivan Begtin

15 октября 2022 08:05

Похоже Google делают ключевую ставку на поглощённый ими продукт Looker и переименовывают Google Data Studio в Looker Studio [1] и планируют развивать этот бренд и направление․

Это стратегия на явное усиление их продуктов по работе с данными, в первую очередь, продукты для BI.

Looker был куплен Google ещё 2.5 года назад [2] и уже сейчас вокруг него выстроена экосистема интегрированных продуктов и большого числа расширений где 20 источников данных предоставляются внутри Looker Studio, а 660 являются партнерскими источниками и коннекторами.

У всего этого, конечно, сильнейшая сторона в доступе к маркетинговым данным. Всё то что является частью "капитализма слежки".

В этом смысле Looker идеально соответствует бизнес модели Google о том что данные входят-данные не выходят.

Поэтому то что на Looker делается ставка, лично меня совершенно не удивляет.

Ссылки:
[1] https://www.youtube.com/watch?v=Bc_hcLVyFJI
[2] https://techcrunch.com/2020/02/13/google-closes-2-6b-looker-acquisition/

#datatools #clouds #google

Читать полностью…

Ivan Begtin

13 октября 2022 18:19

Практика цифрового сохранения США

Программа сохранения цифровых данных (Digital Preservation Framework) Национального архива США (NARA) описывает оценку рисков и рекомендуемые планы сохранения для более 600 форматов файлов. Система цифрового сохранения архивов состоит из матрицы рисков, приоритетов и планов действий по сохранению форматов файлов. Планы открыто опубликованы для исследователей и архивистов в специальном репозитории.

В документации системы каждый формат данных отнесен к одной из 16 категорий, таких как «цифровое аудио», «электронные таблицы», «программное обеспечение и код». В августе этого года появилась категория «связанные открытые данные» (linked open data).

Доступ к открытым данным, связанным с цифровым сохранением, можно получить путем массовой загрузки, по категориям записей (цифровое видео, электронная почта и т.д.) или просмотрев полный список сотен форматов файлов.

Также наборы данных коллекций доступны через API.

Подробнее о Digital Preservation Framework Linked Open Data: https://www.archives.gov/preservation/digital-preservation/linked-data

Читать полностью…

Ivan Begtin

13 октября 2022 08:49

По поводу постановления Правительства РФ о национальном репозитории кода [1] мне много что есть сказать. Хорошего, плохого и разного.

Начну с хорошего:
1) Раскрытие кода информационных систем органов власти - это правильно для внутреннего и внешнего их аудита, отчуждаемости систем от их разработчиков, обеспечения прослеживаемости кода, повышения качества его сопровождения и тд.
2) Важно помнить что репозитории кода есть во многих органах власти федеральных и региональных. Есть они у Федерального казначейства, ДИТа Москвы, МЧС РФ и большей части органов власти которые хоть немного заботятся о том что они делают. Но не всегда работа с этим кодом носит системный характер, не всегда есть даже внутренние документы обязывающие поставщиков передавать туда код.

Плохое:
1) Открытая лицензия - это свободная лицензия. Она должна быть OSI совместимой. Just google "osi-compatible open source licenses" и у того что под ней публикует должен быть выбор, потому что там есть вариации. То что вместо адаптации лицензий вроде MIT, Apache, Creative Commons и тд. изобретается велосипед приведет к невозможности или ограничениям использования кода в проектах под другими лицензиями.
2) На самом деле масштаб открытости кода мы не знаем. Репозиторий может включать много кода, но закрытого, а открываться будет лишь малая часть. А для целей "национальной безопасности" могут обязать для доступа авторизовываться только через Госуслуги.
3) То что создается именно государственная платформа для кода имеет те риски что туда могут начать запихивать не только код госпроектов, но и обязать туда сдавать код всех получателей господдержки и субсидий как обязательный шаг.

И, наконец, ключевое соображение. Для раскрытия кода не надо 2-х и более лет и даже больших расходов на создание новых платформ. Нужно только желание. Мало кто понимает что ключевое на платформах вроде Github или Gitlab их инфраструктурность и интегрируемость. Через них устанавливаются пакеты (библиотеки) кода для большинства известных языков программирования, это крупнейшие хабы для коммуникации разработчиков, это ещё много всего из-за чего оттуда разработчики не уходят даже несмотря на репутационные и иные риски когда Github запускал проект Co-Pilot.

Может ли такой платформой стать национальный репозиторий? Я пока не вижу сценария/стратегии/понимания подобного от регуляторов и инициаторов.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202210120022

#digital #opensource #russia

Читать полностью…

Ivan Begtin

03 ноября 2022 13:48

Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive

Читать полностью…

Ivan Begtin

02 ноября 2022 05:26

В июне 2022 г. я писал несколько предсказаний [1], в том числе то что VPN станет госуслугой. За 3 месяца этого не произошло, но вот свежая новость

Минцифры проводит работу по изучению потребностей и особенностей использования технологий и сервисов VPN (Virtual Private Network) на территории Российской Федерации. [2]

Зачем сотрудники Минцифры это делают можно предполагать разное, но сценарий с блокировкой всех основных VPN протоколов и регистрация пользователей VPN через Госуслуги я бы не исключал. В рамках текущего цензурного госрегулирования это вполне очевидный шаг, плохой, но очевидный.

Что будет в итоге? Правильно, расцветут VPN'ы через все "нестандартные" протоколы.

Ссылки:
[1] /channel/begtin/3971
[2] /channel/Telecomreview/9682

#vpn #security #privacy #government #russia

Читать полностью…

Ivan Begtin

01 ноября 2022 16:51

Меня время от времени спрашивают что я думаю про те или иные российские технологические государственные инициативы, вроде того же ГосТеха. И я давно хочу написать про самый главный важнейший приоритетнейший и тд. критерий при рассмотрении всех таких систем и, кстати, деятельности любых госорганов, организаций и всего остального.

Критерий очень простой - насколько стране и скольким людям станет плохо если это исчезнет, безвозвратно и невосстановимо. Самое простое и понятное - представьте что упадёт метеорит (менее красивый, но более реалистичный аналог - представьте что сменится правительство и новое всех разгонит).

Например, давайте предположим на ФКУ Гостех упадёт метеорит и упадёт он так точно что накроет сразу здание, команду, сервера и все что касается проекта. То есть Гостех перестанет существовать как сущность в какой-либо форме. Насколько серьёзно пострадает работа госорганов? Сколь многих людей это затронет?

Я подскажу, затронет немногих, критическая инфраструктура не пострадает, граждане не останутся без госуслуг, госорганы не потеряют возможности коммуникации, ключевые бизнес процессы и функции государства не пострадают.

Для сравнения если аналогичный метеорит упадёт на ФГИС Электронный бюджет, АИС Налог-3 или портал Госуслуг, то стране будет плохо, число пострадавших граждан, бизнесов и тд. будет исчисляться десятками миллионов.

Аналогичный подход применим и к любым организациям и госструктурам. Если, например, случится зомби-апокалипсис, или упадёт метеорит, или ликвидируют одним днём, или ещё что-то не менее смешное и апокалиптичное случится с Россотрудничеством, Росмолодежью, или вот уже случилось с Ростуризмом, и ещё со многими госорганами, то никто и не заметит. А если затронет "корневые" органы власти вроде Минфина и др. то заметят сразу и все.

Поэтому, в отношении Гостеха всё, на самом деле, очень просто. Пока он не стал критичной инфраструктурой он может просто не пережить электоральный цикл и смену Пр-ва. А если не станет в ближайший год-два, то точно не переживёт.

#thoughts #government #it

Читать полностью…

Ivan Begtin

01 ноября 2022 05:34

В рубрике интересных ссылок про данные, технологии и не только:
- This Implant Turns Brain Waves Into Words [1] в журнале IEEE Spectrum об импланте преобразующем мозговые волны в слова на экране. Выглядит как большой прорыв и он основан, в том числе, на нескольких больших датасетов собранных исследователями и объединённых в нейросеть: данные по нейро активности и данные кинематики (движения мускулов) при речи.

Базы данных
- Why is PostgreSQL the most loved database [2] в блоге ByteByteGo о том почему все так любят СУБД Postgres. Если кратко, то многое в ней реализовано и есть немало расширений делающих эту систему ещё лучше.
- RQLite [3] продукт по превращению SQLite в распределённую СУБД. Казалось бы зачем, если есть Postgres, но кому-то нравится. В том числе реализует богатое Data API для доступа к данным.
- Go Performance Case Studies [4] в блоги Dolt внутренние подробности того как их разработчики пишут движок СУБД на Go. Пример того как выглядит технологический евангелизм не от маркетологов, а от инженеров.

Регулирование
- Europe prepares to rewrite the rules of the Internet [5] в Arstechnica о том как европейский Digital Markets Act может поменять экосистемы технологических гигантов, в части регулирования ИИ и многого другого. Косвенными бенефициарами будут и многие другие страны.
- Businesses call for mandatory nature impact data [6] 330 компаний из 52 стран призывают ввести обязательные отчеты для крупных компаний о воздействии их и зависимости от природы и природных ресурсов. Среди подписантов очень много крупных ритейловых, банковых, косметических и строительных холдингов.

Открытые данные
- The open data revolution [7] сэр Nigel Shadbolt, основатель Института открытых данных в Великобритании, рефлексирует над последним десятилетием и будущих годах развития открытости данных.
- Hyperlocal [8] не совсем про открытые данные, но связано с ними, о изменениях на территориях и поселениях на гиперлокальном уровне и принятиях решений связанных с гиперлокальностью

Ссылки:
[1] https://spectrum.ieee.org/brain-computer-interface-speech
[2] https://blog.bytebytego.com/p/ep30-why-is-postgresql-the-most-loved
[3] https://github.com/rqlite/rqlite
[4] https://www.dolthub.com/blog/2022-10-14-golang-performance-case-studies/
[5] https://arstechnica.com/tech-policy/2022/10/europe-prepares-to-rewrite-the-rules-of-the-internet/
[6] https://www.businessfornature.org/
[7] https://theodi.org/article/the-open-data-revolution-sir-nigel-shadbolt-reflects-on-the-odis-first-decade-and-considers-what-the-next-might-hold/
[8] https://www.brookings.edu/book/hyperlocal/

#opendata #opensource #ai #tech #regulation

Читать полностью…

Ivan Begtin

29 октября 2022 07:27

Тем кто следит за российским и не только законодательством по регулированию данных будет интересна научная статья Does South Africa's Proposed State Ownership of Data Make Any Sense? [1] разбор черновика регулирования данных в Южной Африке который правительство страны публиковало в 2021 году для общественного обсуждения.

Там немало того что хорошо знакомо в России и других странах, например, требований по локализации данных. Но есть и одна немаловажная особенность: де-факто национализация всех данных создаваемых в Южной Африке.

Это звучит как:
10.4.1 All data classified/identified as critical Information Infrastructure shall be processed and stored within the borders of South Africa.
10.4.2 Cross-border transfer of citizen data shall only be carried out in adherence with South African privacy protection policies and legislation (POPIA), the provisions of the Constitution, and in compliance with international best practice.
10.4.3 Notwithstanding the policy intervention above, a copy of such data must be stored in South Africa for the purposes of law enforcement.
10.4.4 To ensure ownership and control:
• Data generated in South Africa shall be the property of South Africa, regardless of where the technology company is domiciled.
• Government shall act as a trustee for all government data generated within the borders of South Africa.
• All research data shall be governed by the Research Big Data Strategy of the Department of Science and Innovation (DSI).

Там же ещё много всего, а в научной статье аргументируется почему такой подход не работает и не может работать в принципе.

Но совершенно точно правительства многих стран думают и предпринимают шаги в том же направлении, признании данных аналогом [не]возобновляемого ресурса и вплоть до конституционного признания владения ими государством напрямую или государством через "владение народом".

Что будет если это произойдет? Давайте перенесем на российские реалии. Представьте себе что интернет сервисы будут работать только по концессии и лицензии. Не как сейчас, когда собираешь данные и регистрируешься в реестре операторов перс данных, а так что если ты хочешь собирать те или иные данные, то вначале на это получаешь разрешение с указанием что и как собираешь и где хранишь и только после этого ты можешь сбор и обработку данных начинать.

Кажется фантастикой? А ведь так работают многие отрасли. Так думают многие регуляторы. И только высокая динамика рынка труда ИТ специалистов, венчурного рынка и цифрового бизнеса сдерживает регуляторов от ужесточения контроля.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4238027
[2] https://www.gov.za/sites/default/files/gcis_document/202104/44389gon206.pdf

#data #regulation #laws #southafrica

Читать полностью…

Ivan Begtin

28 октября 2022 17:11

Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.

@mobilefirstasia

Читать полностью…

Ivan Begtin

27 октября 2022 19:58

Полезное чтение про данные, технологи и не только:
- Restfox [1] аналог Postman с открытым кодом, позволяет настраивать и тестировать работу с API. До уровня Postman не дотягивает, но выглядит неплохо
- Python 3.11.0 is released — Impacts to Data Science and Engineering [2] - коротко о том почему надо прямо сейчас обновлять Python до 3.11. Если кратко: быстрее на 10-60%, лучше управление ошибками и много изменения затрагивающих работу с данными.
- Hertz [3] фреймворк для Go по созданию микросервисов. Давно пора переводить микросервисы на Go и Rust.
- Data Catalogs Are Dead; Long Live Data Discovery [4] очередной текст в копилку хайпа про смерть корпоративных каталогов данных и развитие data discovery. Будем честными, ещё каталоги то мало где внедрены, а тут сразу data discovery. Автор Barr Moses, CEO стартапа Monte Carlo, так что текст нельзя считать независимым. Но почитать стоит
- Open Source Law, Policy & Practice [5] вышла вторая редакция книжки про регуляторное регулирование открытого кода. Книга полезная, но как же она далека от госполитики в постсоветских странах! В открытом доступе, к сожалению, нет. Только заказывать за деньги, но если интересуетесь законами про open source, то читать стоит.

Ссылки:
[1] https://github.com/flawiddsouza/Restfox
[2] https://medium.com/codex/python-3-11-0-is-released-impacts-to-data-science-and-engineering-2d6c474611f4
[3] https://github.com/cloudwego/hertz
[4] https://medium.com/towards-data-science/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
[5] https://global.oup.com/academic/product/open-source-law-policy-and-practice-9780198862345?cc=gb&lang=en&#the

#opensource #datatools #data #python #datacatalogs #datadiscovery

Читать полностью…

Ivan Begtin

20 октября 2022 06:31

Особенно интересное на конференции Coalesce - это публичный анонс моделей данных на Python. Об этом в презентации их продуктовой команды [1] и можно найти на сайте конференции [2] запись выступления, по ключевым словам "Announcing dbt's Second Language: When and Why We Turn to Python". По моему, пока доступно только после регистрации на сайте, но может уже выложили или скоро выложат для всех.

Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.

Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.

По ним уже есть документация [3], чат и дорожная карта.

Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.

И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].

Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing

#data #datatools #dbt #python #datamodelling

Читать полностью…

Ivan Begtin

19 октября 2022 16:30

В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives

Читать полностью…

Ivan Begtin

19 октября 2022 08:52

Только что прошла конференция Coalesce (вернее ещё идёт), я пересматриваю и переслушиваю многие доклады, они про то как data teams организуют свою работу.

Из того что особенно запомнилось.

Data teams: kill your service desk [1] о том почему дата-команды не могут и не должны работать по Agile. Основные аргументы в том что данные - это сложный мир, не модульный, не отчуждаемый, требует другого подхода.

Ссылки:
[1] https://docs.google.com/presentation/d/1-JmXX1RZHLf3VKRZJoPHw-QFUodODzOmu13GJSVdkM4/edit?usp=sharing

#data #datateams

Читать полностью…

Ivan Begtin

17 октября 2022 12:50

В рубрике открытых данных интересные наборы открытых данных и статьи:
- 1000 крупнейших налогоплательщиков Армении с суммами выплат налогов за 2022 год [1] в формате Excel, с указанием местонахождения компаний, без указания отрасли компании. По Армении, к сожалению, по юридическим лицам общедоступно гораздо меньше информации и так просто отрасль компании не определить без доступа к данным или их покупки. Тем не менее весьма любопытно, можно сделать немало инфографики
- Broken Links: Open Data to Advance Accountability and Combat Corruption [2] отчет и аналитика по открытости данных в области открытости гос-ва и противодействия коррупции на сайте OGP и на данных Global Data Barometer. Затрагивает только страны OGP, поэтому из постсоветских стран Грузия, Киргизия, Украина, Армения, Литва, Латвия, Эстония и Азербайджан там есть, а Казахстана, Беларуси, России, Туркменистана, Таджикистана, Узбекистана там нет
- The State of Open Data 2022 [3] доклад от Digital Science об открытых данных в науке. Состоит из набора статей, полезных к прочтению. Полезно и для понимания как мостика между открытостью науки и открытостью данных как явления в принципе.
- Open Food Facts database [4] если Вы пропустили этот проект базы данных о ингридиентах еды, то самое время на него посмотреть. В базе более чем 2.5 миллиона ингредиентов/продуктов. Есть кусок и по России в 10 тысяч продуктов, Казахстану 218 продуктов, Армении 97 продуктов. А более всего по Франции, почти 1 миллион продуктов (потому что этот проект родом оттуда). Отдают дампы MongoDB, CSV, API, дельты изменений. В общей крутой общественный проект глядя на который можно думать
"почему его сделал не я?". Шутка. А, база эта бесценна

Ссылки:
[1] https://www.petekamutner.am/Shared/Documents/_ts/_ti/Taxpayer_Information_Listings/2022/ck_hhpektt_2022_3_1000_khv_hark.xlsx
[2] https://www.opengovpartnership.org/broken-links/
[3] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984/2
[4] https://world.openfoodfacts.org/

#opendata #opengov #datasets

Читать полностью…

Ivan Begtin

17 октября 2022 06:56

В рубрике полезных инструментов и полезного чтения о данных:
- The Contract-Powered Data Platform [1] о платформе управления данными с дата-контрактом на каждый тип данных и о её ценности для всех пользователей. Можно весь текст свести к выводу что схемы данных - это хорошо, используйте их повсеместно.
- Compressed Log Processor [2] бесплатное ПО по автоматизации сбора сжатых логов и работы с ними без разжатия. Обещают большую экономию диска и памяти. Делают в стартапе YSCope который также предлагает это же как облачную услугу.
- Data Lineage: State-of-the-art and Implementation Challenges [3] обзор инструментов по прослеживаемости данных, Data Lineage. Главная польза в том что автор уже посмотрел на некоторые из них и, в целом, мои выводы подтверждаются что не все инструменты достаточно зрелые. Плюс в обзоре только инструменты с открытым кодом.
- RecSysOps: Best Practices for Operating a Large-Scale Recommender System [4] наступило время когда все придумывают новые термины. Вот у Netflix'а новая выдумка "RecSysOps" - управление рекомендательными системам. В их блоге сводка некоторых правил того как идёт работа над их внутренней рекомендательной системой. Технических подробностей мало, организационные выглядят любопытными.
- Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images [5] свежий большой набор данных от Google для генерации текстов к изображениям не на английском языке. Большая часть датасетов по этой теме именно на английском, а тут 36 языков.
- State of Data Science and Machine Learning 2022 [6] от Kaggle. Короткие выводы: наибольший рост специалистов по DS в Индии и в Японии, основные языки программирования: Python, SQL, R; основные среды разработки: Jupyter Notebook, RStudio, PyCharm, VSCode; популярность RStudio падает, VSCode растёт. И, популярность всех облачных платформ растёт.
- Microsoft Ignite Book of News [7] очень много новостей о развитии продуктов Microsoft Azule собранных в одной новости. Много про облачные версии их Cosmos DB, развитие MongoDB и множество других СУБД и связанных с базами данных и машинным обучением сервисов.
- The case for a query modification language [8] автор пишет про ещё один язык работы с запросами, QML - Query Modification Language, с акцентом на функции преобразования. Что-то много стало языков запросов и попыток их изменить.

Ссылки:
[1] https://buz.dev/blog/the-contract-powered-data-platform
[2] https://github.com/y-scope/clp
[3] https://medium.com/bliblidotcom-techblog/data-lineage-state-of-the-art-and-implementation-challenges-1ea8dccde9de
[4] https://netflixtechblog.medium.com/recsysops-best-practices-for-operating-a-large-scale-recommender-system-95bbe195a841
[5] https://ai.googleblog.com/2022/10/crossmodal-3600-multilingual-reference.html
[6] https://www.kaggle.com/kaggle-survey-2022
[7] https://news.microsoft.com/ignite-2022-book-of-news/
[8] https://www.thoughtspot.com/blog/the-case-for-a-query-modification-language-qml-and-why-dashboards-are-dead

#data #readings #opensource #opendata

Читать полностью…

Ivan Begtin

14 октября 2022 07:07

В рубрике регулярных напоминаний не могу не рассказать про сервис оценки простоты языка Простой язык (plainrussian.ru) [1] который я много лет назад сделал и передал в Инфокультуру при её создании.

Это очень простой сервис который на вход получает текст на русском языке и на выходе выдает его сложность в баллах где баллы - это число лет учёбы которые необходимо пройти чтобы понимать этот текст. Например, 11.97 баллов - это, примерно, 1-3 курс ВУЗа, а то есть около 12 лет учебы.

При том что анализ текстов - это, довольно сложная задача в общем понимании, но в данном случае было целью сделать как можно более доходчивый сервис для всех и каждого.

У сервиса есть API [2] и открытый код [3]. Код не обновлялся примерно лет 10, во всяком случае та его часть которая использовалась для расчета формул.

И вот в формулах и было самое сложное и интересное. Алгоритмы сервиса работают на тех же принципах что формулы читабельности текста созданные изначально для английского языка: Flesch-Kincaid, SMOG, Automatic Readability Index и другие. В их основе подсчет числа слов на предложение, среднее число слогов на слово, среднее число букв на слово, число редких слов и так далее.

Когда я задумал впервые сделать такой же алгоритм для русского языка, то столкнулся что для него формул нет. Их надо было, или придумать с нуля, или адаптировать коэффициенты английского языка для русского. В итоге я пошёл вторым путем, но составление собственного языкового корпуса с нужной мне статистикой тогда казалось длительной и неэффективной задачей, поэтому коэффициенты были подобраны грубым перебором за несколько недель-месяцев (?) нескольких десятков миллиардов вариантов коэффициентов на обучающей предразмеченной выборке из пары десятков текстов литературы для внеклассного чтения.

Сейчас всё это можно было бы решить гораздо быстрее, с современными ML инструментами расчеты были бы быстрее чем их проектирование.

Особенность итогового результата в том что тексты простые/бытовые он идентифицирует хорошо, а вот тексты юридические или нормативно-государственные оценивает всегда как особо сложные.

По прежнему сайт остаётся одним из тех проектов которым регулярно пользуются несмотря на его неизменность в последние годы.

Ссылки:
[1] https://plainrussian.ru/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian/tree/master/textmetric

#plainrussian #russian #language #api #tools

Читать полностью…

Ivan Begtin

13 октября 2022 11:46

Незаслуженно упущенная мной публикация июля этого года What is the value of data? A review of empirical methods [1] от исследователей из Bennett Institute for Public Policy Университета Кэмбриджа. Они разбирают методы оценки стоимости/ценности данных, в первую очередь, с точки зрения экономических оценок их использования и ссылаются на их же работу 2020 года Value of Data report [2], а также на оценки ОЭСР и других.

С научной точки зрения и с точки зрения лоббирования раскрытия данных и принятия политик представления данных (data sharing) в странах где прислушиваются к доводам исследователей - это полезный текст.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/publications/value-of-data/
[2] https://www.bennettinstitute.cam.ac.uk/wp-content/uploads/2020/12/Value_of_data_summary_report_26_Feb.pdf

#opendata #research #policies

Читать полностью…

Ivan Begtin

13 октября 2022 06:58

В блоге Atlan, продукта для корпоративных каталогов данных, про то что Forrester поменял классификацию каталогов данных с каталогов данных для машинного обучения на каталоги для DataOps [1].

Новость интересная в смене акцентов, потому что ранее и Gartner заменили их "магический квадрат" по управлению метаданными [2] на руководство по активным метаданным [3].

Для систематизации смыслов, типов и целей продуктов это довольно важно, с рядом оговорок. Сама идея "активные метаданные" - это одна из форм хайпа продвигаемая как раз компанией Atlan и которую Gartner как раз и взяли на вооружение, а далее и многие разработчики продуктов по инвентаризации корпоративных данных используют.

Об активных метаданных писала [4] Prukalpa, сооснователь Atlan и из её описания сложно понять отличия идеи активных метаданных от платформ по наблюдению за данными (data observability platforms) таких как Monte Carlo [5]․ Лично по мне так наблюдаемость данных куда как более важный приоритет чем активные метаданные. В случае активных метаданных речь идет о том что "у вас много данных о которых вы не знаете или мало используете", а в случае наблюдаемости данных речь о том что "у вас много критических процессов сбора и обработки данных, вам нужно оперативно их исправлять если что-то идет не так". По аналогии: в одном случае это управление активами, а в другом процедурами и процессами. Что важнее?

Впрочем что Forrester, что Gartner, это известные собиратели трендов и хайпов вперемешку, часто оторвано от реальной практики, и их выбор важнее с точки зрения понимания движения рынка инвесторов чем для реальных технических задач.

Ссылки:
[1] https://humansofdata.atlan.com/2022/10/forrester-enterprise-data-catalogs-dataops/
[2] https://www.gartner.com/en/documents/3993025
[3] https://www.gartner.com/en/documents/4006759
[4] https://towardsdatascience.com/what-is-active-metadata-and-why-does-it-matter-add3408c228
[5] https://www.montecarlodata.com/blog-what-is-data-observability/

#datacatalogs #data #thoughts

Читать полностью…

Подписаться на канал