begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

К лекции о безопасности и необходимости регулировать ИИ. В X пользователь делится рецептом пиццы в которую ИИ рекомендует добавить клея, немного, 1/8 стакана и нетоксичного😜. А всё потому что некий пользователь fucksmith когда-то написал в Reddit'е такой коммент.

Регулирование ИИ неизбежно, как обязательное тестирование на безопасность, а разработчики не могут не избегать юридических последствий.

Но что будет с open source LLM ?

#ai #safety #regulation

Читать полностью…

Ivan Begtin

Firecrawl [1] любопытный новый инструмент по работе с данными с помощью LLM. Обещает что умеет отдавать команды LLM по извлечению данных по определенным схемам.

Плюс публикуют исходный код, но только клиентской библиотеки к своему сервису.
Всё это выглядит любопытно и какие то простые схемы действительно удалось с его помощью извлечь. Пока выглядит, конечно, не суперпродвинуто, но и в такой простоте есть плюсы для тех кто не хочет писать тысячи парсеров для бесконечного числа сайтов.

Я когда-то много времени посвятил теме преобразованию сайтов в данные, но остановился когда написал алгоритм превращения в RSS любой вебстраницы со списками чего-то.

Полноценно превращать сайты в базы данных осложнено тем что надо их вначале краулить, потом анализировать и уже по итогам идентифицировать характер хранимой информации и превращения её в данные. Тем не менее задача не невозможная.

Ссылки:
[1] https://firecrawl.dev

#data #datatools #ai

Читать полностью…

Ivan Begtin

Ещё в копилку происходящего с регулированием данных в России, одна из причин почему я лично перестал как-либо пытаться влиять на госполитику в этой области в том что весь GR в цифре свёлся к "защитному GR'. А то есть он не про продвижение каких-то инициатив выгодных бизнесу, типа открыть какие-то данные, а про снижение вреда от нового регулирования и совсем уж людоедских законопроектов.

Вот и со сдачей данных ровно точно также. Тот же цифровой крупняк в ассоциации толстых котов больших данных хотел бы чтобы этой инициативы вообще не существовало, но вместо этого предлагают модель дата брокеров по обезличиванию данных. Хотя всем прекрасно понятно что главный бенефициар госрегулирования это спецслужбы и пара госов которые получат монополию на частные данные. А обезличивание тут - это дело такое, необезличенные данные кому надо всегда будут доступны. Поэтому история с дата брокерами - это как самих себя высечь небольно, чтобы барин сильно не высек.

А как оно в мире? А в мире всё наоборот. Бизнес обсуждает с государством о том как получать доступ к госданным через дата брокеров, когда не госорганы раздают права, а госорганы дают чувствительные данные сертифицированным дата брокерам и те обезличивают их и передают бизнесу для коммерческих продуктов.

Почувствуйте, что называется, задницу разницу.


#data #government #regulation #russia

Читать полностью…

Ivan Begtin

The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.

Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.

Другие примеры тоже весьма любопытны.

Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/

#opendata #datasets #data #reports #thegovlab #opendatalab

Читать полностью…

Ivan Begtin

Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government

Читать полностью…

Ivan Begtin

В блоге UBER история о том как они реализовали движок по автоматической категоризации данных DataK9 [1]. Выглядит интересно и очень похоже на то что я делал в опенсорсном продукте Metacrafter [2].

Если пересказать вкратце, то они взяли чуть более 400 тысяч датасетов для анализа, а до этого 1 тысячу датасетов для обучения и ручной разметки людьми и далее натравили созданные людьми правила на оставшиеся датасеты. Правила готовились людьми вручную, но пишут что и ИИ применяли где-то, до конца непонятно где.

Описания правил у них в YAML что тоже очень похоже на Metacrafter

В чём сходства и отличия:
1. В их правилах есть bloom filters и value range, что является хорошей идеей, надо к ней присмотреться.
2. Кроме include patterns они используют ещё и exclude patterns что тоже весьма логично и разумно.
3. Cмешивают типы данных и правила, фактически правила детекции привязывают к типу прямо в YAML файле. В Metacrafter'е это иначе. Типы данных и правила разделены.
4. Не имеют языковых особенностей при идентификации, всё про английский язык.
5. Не используют семантические типы данных. В Metacrafter они вынесены в отдельный реестр [3]

Ключевое, конечно, в среде эксплуатации. DataK9 работает в корп среде с внутренними данными заточенными под AI/ML, а Metacrafter писался под работу с общедоступными данными на разных языках.

Ссылки:
[1] https://www.uber.com/en-DE/blog/auto-categorizing-data-through-ai-ml
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry

#opensource #data #datatools #semanticdatatypes

Читать полностью…

Ivan Begtin

Для тех кто ищет данные сейчас и регулярно не могу не напомнить что в Dateno перенесен каталог порталов данных который ранее был Common Data Index и если в самом Dateno каталог ещё не проиндексирован, можно самостоятельно в него зайти и поискать на его сайте.

Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.

Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.

#opendata #dateno #datasets #datasearch

Читать полностью…

Ivan Begtin

В прошедшую субботу я потерял потратил несколько часов на просмотр выступлений зам министров Минцифры про нацпроект "Экономика данных". Хорошая новость в том что экономики там нет, плохая в том что данных тоже нет. В общем-то я лично так и не понял жанра выпихивания неподготовленных спикеров выступления зам. министров на сцене, без предварительного насильственных тренировок ораторским навыкам продумывания речей. Если это было для демонстрации открытости министерства, то лучше бы документы и данные вовремя и в полноценно публиковали. Что в итоге войдет в этот нацпроект до сих пор непонятно, но судя по интенциям впихнуть туда капиталку на сети связи, квантовые технологии и ИБ, то не пора ли переименовать нацпроект во что-то более экстравагантное? Лично у меня фантазии не хватает. Хорошо хоть Гостех не упоминали.

Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.

В целом всё что я вижу по зарубежному регулированию, там это происходит со звериной серьёзностью без шоу и пиара. А сдвиг российской госполитики в пиар и шоу никакими санкциями не оправдать.

#government #russia #policy #showoff #ai #regulation

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6

Читать полностью…

Ivan Begtin

Статистические данные Банка России в формате временных рядов теперь доступны по API и в виде машиночитаемых наборов данных

Всего доступно 49 статистических показателей, среди которых можно найти:

- статистику по ипотечному жилищному кредитованию
- структуру денежной массы
- объемы кредитов, предоставленных субъектам МСП
- платежный баланс РФ
- процентные ставки по вкладам физлиц в рублях
- сведения по кредитам нефинансовым организациям и физлицами
- и многое другое.

Также на сайте Банка России доступна подробная инструкция по работе с сервисом (https://www.cbr.ru/statistics/data-service/user_guide/) и документация к API (https://www.cbr.ru/statistics/data-service/APIdocuemntation/).

Отличная новость, т.к. не так часто нас балуют новыми открытыми данными, особенно финансовыми. Было бы здорово, если и другие финансовые организации возьмут пример с Банка России. Например, Сбер мог бы расширить и детализировать данные, доступные сейчас в СберИндексе, а Тинькофф - хотя бы добавить возможность скачивать данные, доступные в графиках Тинькофф Индекса.

Ссылка на сервис получения данных: https://www.cbr.ru/statistics/data-service/

Читать полностью…

Ivan Begtin

Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом.

Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.

К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.

Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.

Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.

И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".

Ссылки:
[1] /channel/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/

#opendata #data #thoughts #datasets #dateno

Читать полностью…

Ivan Begtin

Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata

Читать полностью…

Ivan Begtin

В рубрике больших интересных наборов данных Global Contract-level Public Procurement Dataset [1] единая база из 72 миллионов госконтрактов по 42 странам собранная в Central European University. Охватывают 2006-2021 годы, обещают обновления тут [2], но пока их не выкладывали. Что характерно, это не база Open Contracting, данные собирались из разных источников и в разных форматах.

Много это или мало? В российском проекте Госзатраты собрано более 58 миллионов госконтрактов [3]. По стандарту Open Contracting в мире публикуют около 55 стран, точное число контрактов сказать не могу, но точно миллионы-десятки миллионов.

В США на портале USASpending [4] опубликовано тоже порядка 58 миллиона федеральных контрактов, а если считать все процедуры предоставления госсредств (гранты, субсидии, прямые платежи), то около 150 миллионов.

Так что 72 миллиона в датасете - это, да, много. Тем кто исследует данные такого типа может быть интересно.

Ссылки:
[1] https://www.sciencedirect.com/science/article/pii/S2352340924003810
[2] https://www.govtransparency.eu/category/databases/
[3] https://clearspending.ru/
[4] https://usaspending.gov

#opendata #datasets #procurement #data #contracts

Читать полностью…

Ivan Begtin

К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china

Читать полностью…

Ivan Begtin

Я тут на днях думал о том какие ML задачи возникают при работе с открытыми и с общедоступными данными и как они отличаются от внутрикорпоративных задач. У нас в Dateno таких задач немало и растёт, когда наш продукт станет побольше, обязательно сформируем ML команду под их решение. Но и сейчас многие из них в работе.

Итак:
- Идентификация условий использования данных. Датасеты и API часто сопровождают информацией об условиях использования и не всегда стандартизировано. Тексты могут быть короткими, может быть аббревиатурой одной из лицензий CC, а может быть ссылка на внешний ресурс. Эту задачу не обязательно решать через ML, например, в рамках Dateno я публиковал код cdi-licensemapper где нет ML, а только вручную собранные правила для сопоставления текстов и ссылок лицензий по словарю в режиме сравнения 1к1. Но ML тут применимо и может охватить гораздо больше датасетов и описаний API.
- Идентификации тематики данных. Отличается от идентификации тематики текста, данные могут быть структурированы, данные могут почти не содержать текста, метаданные могут почти не содержать детальных описаний, но почти всегда есть информация о первоисточнике. Когда первоисточник сам обладает тематикой (которую тоже надо идентифицировать вручную или автоматически), то иногда её можно сразу транслировать на датасет. Типа если у нас каталог данных по биоинформатике, логично что все датасеты по биоинформатике тоже. Но, много случаев, когда в крупнейших каталогах данных данные по разным темам. Это и портал данных США, и европейский портал данных и ещё много какие другие. Поэтому задача тут двойная, создать классификатор тем и автоматически по нему идентифицировать. В идеале решить сложную задачу, создать автоматически расширяемых классификатор тем и уметь привязывать к нему датасеты. Частично эта задача в Dateno решается через простые правила и простые справочники тем в коде cdi-topicmapper, но, опять же, пока без ML
- Понимание данных. Это не одна задача, а группа ML задач дающих ответ на вопросы: "А что там внутри датасета? А что это за формат данных? А что с ним можно делать?". Соответственно к таким практическим задачам можно отнести:
- идентификация формата файла. Это то что частично умеет делать Google Magika Эта задача много где актуальна и востребована, не только в отношении датасетов.
- идентификация структуры данных и простых типов данных. Большая часть современных инструментов умеют понимать когда получают на вход строки, числа, даты и тд., но вариативность типов гораздо больше и что важнее это понимание структуры файла. Например, стат показатель можно описать в режиме двух колонок, значение и год, а можно вытянуть в одну строку и каждому году дать отдельную колонку. И так и так встречается часто, в профессиональных статистических продуктах, чаще даже сложнее. Основные шаблоны структур файлов подаются типизации, но нет продуктов умеющих такое делать.
- идентификация семантических типов данных задача актуальная для всего что касается автоматического анализа баз данных, идентификации персональных данных, задач EDA (Exploratory Data Analysis) и ещё много чего другого. Я лично какое-то время назад писал специальную библиотеку и утилиту metacrafter которая много что умеет идентифицировать, но там есть над чем работать, в первую очередь по автообнаружению неизвестных типов и по снижению числа ошибочной классификации. Тут точно нужно много ML
- Автоматизированная обработка данных. Напрямую связана с задачами понимания данных и относится к тому какие автоматические операции над датасетом можно предпринять для изменений и преобразований. Можно разделить на несколько подзадач:
- автоматизация очистки данных. Идентифицируем структурные аномалии и аномалии значений, определяем способы их устранения, определяем можно ли действовать автоматически или требуется участие оператора. Много где уже об этом думают, постепенно будут появляться продукты помогающие в таких задачах на типовых данных. Примеров коммерческих продуктов очень много, с открытым кодом пока не так много как хотелось бы.

Читать полностью…

Ivan Begtin

В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].

Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.

Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.

Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.

Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.

В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.

Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz

#opendata #data #geodata #russia #api

Читать полностью…

Ivan Begtin

Бизнес предложил государству свой способ работы с обезличенными данными
🔸Бизнес предложил государству ввести экспериментальный правовой режим для тестирования технологий по обезличиванию персональных данных россиян. Он поможет компаниям из разных сфер разрабатывать более технологичные сервисы и услуги, в большей степени отвечающие потребностям потребителей.
🔸Инициатива является, по сути, альтернативой законопроекту Минцифры, согласно которому компании по требованию государства будут предоставлять имеющиеся у него персональные данные в государственную информационную систему для обезличивания и формирования дата-сетов. Документ неоднократно подвергался критике со стороны бизнеса.

Читать полностью…

Ivan Begtin

Рубрика "Циничная приоткрытость"
Стоило мне похвалить организаторов ЦИПРа за размещение презентаций спикеров в ТГ-канале АНО ЦЭ, как из поста про выступление замминистра Минэка Максима Колесникова презентация как раз исчезла, хотя была там поначалу.
Видимо, были там какие-то цифры, не предназначенные для широкой публичности.
Вот так Минэк (ответственный, между прочим, за реализацию остатков открытости государства в РФ) трактует эту самую открытость.
Штош... Мне остается протрактовать эту открытость по-своему и повесить здесь ту самую презентацию.
Попробуйте понять, что не захотел показывать Минэк ширнармассам

Читать полностью…

Ivan Begtin

Фразы которыми можно пугать дата инженеров на собеседованиях и не только:
- данные у нас в CSV и Excel на FTP сервере
- наши Excel файлы обновляются в реальном времени на сетевом диске
- требуется работать с большим числом серверов и таблиц из SAP/1С/Oracle Application (нужное тяжелое легаси подставить)
- данные в личных папках пользователей в Sharepoint, надо их синхронизировать
- мы хотим сделать наше озеро данных на Hadoop'е
- большая часть данных у нас в PDF, мы не знаем тексты там или сканы
- требуется 10-летний опыт с dbt cloud

А чем Вы пугаете, чем пугают Вас ?

#humor #dataengineering

Читать полностью…

Ivan Begtin

В продолжение про категоризацию данных я расскажу о том какое моё видение по развитию Metacrafter'а [1]. Напомню что это опенсорс утилита по идентификации семантических типов данных, категоризации и автодокументирования данных.

1. Это расширение числа семантических (смысловых) типов данных и правил их идентификации. Сейчас есть сотни типов и сотни правил, но далеко не для всех типов данных правила есть и добавлять там много что есть. В особенности когда это касается отраслей: медицина, биохимия, финансовые структуры, нефтянка, и много что другое. Специфики отраслевой немало, правила для них готовятся совсем не быстро.
2. Расширение видов правил идентфикации смысловых типов данных. В первую очередь определение уникальных полей, общих префиксов и других особенностей.
3. Возможно обновление языка управления правилами и добавление и переписать правила для добавления bloom filter, пространств значений для цифр и исключающих фильтров.
4. Перестройка работы metacrafter'а на работу с сервером по умолчанию. Сейчас для работы утилиты командной строки правила каждый раз загружаются и компилируются из файлов с правилами. А это небыстро, дольше чем сама работа категоризатора. Альтернатива в виде prefech и запуска локального сервера и работы через него.
5. Введение режима идентификации неизвестных типов данных. Это когда Metacrafter'у скармливаются датасеты для обучения и по определенным правилам он рекомендует разметить конкретные поля и конкретные типы данных. Это самая сложная и исследовательская задача. Вот её по настоящему интересно решить.

Ну и как не добавить что сейчас создаётся архив датасетов проиндексированных Dateno и по ним как раз идёт тестирование Metacrafter'а и будущая доработка.

Ссылки:
[1] https://github.com/apicrafter/metacrafter


#opensource #data #datatools #semanticdatatypes

Читать полностью…

Ivan Begtin

Подборка полезных ссылок про данные, технологии и не только:
- Scrapegraph-ai проект с открытым кодом по интеграции языковых моделей в задачи скрейпинга данных с сайтов. Выглядит как бэкэнд для будующих и текущих проектов по скрейпингу для не-Итшников или как полезный инструмент тем кто хочет упростить себе эту работу.
- pyspread альтернатива Excel написанная на Python. Открытый код под почти все платформы. Может показаться странным, но, как минимум, идея заслуживающая внимания.
- Substrait межязыковая сериализация операций над данными. Спецификация, будет понятна всем кто делает запросы к данным в разных СУБД и не только SQL и непонятна тем кто с таким не сталкивался. Одна из попыток создать универсальный подход/язык запросов поверх десятков диалектов SQL
- Data Council 2024 видео с выступлениями спикеров конференции Data Council 2024 в Austin. Много интересного по дата инженерии, стандартам и созданию больших датасетов. Хорошая концентрация интересных докладов
- nimble новый формат хранения больших колоночных данных. Под открытой спецификацией, сделан внутри Meta. Подробнее в выступлении рассказывают про главный акцент на скорости загрузки датасетов и о том что загрузка датасетов для ML задач занимает до 30% времени.

#opensource #data #datatools

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy

Читать полностью…

Ivan Begtin

В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource

Читать полностью…

Ivan Begtin

Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?

#digitalpreservation #webarchives #archives

Читать полностью…

Ivan Begtin

В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.

Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].

В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.

Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml

#opendata #datacatalogs #astronomy #astrophysics #data

Читать полностью…

Ivan Begtin

Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.

2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.

3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.

Иначе говоря, ничего неожиданного.

#opendata #government #data #russia #govtech

Читать полностью…

Ivan Begtin

Стоило мне чуток отвлечься на активный отдых на майские праздники так тут столько всего интересного не-произошло. В РФ правительство не-сменилось и в мире много чего ещё не-приключилось. А я уже очень скоро вернусь к регулярным текстам про каталоги данных, природу данных, инструменты, регулирование и не только.

В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах.

#opendata #data #blogging

Читать полностью…

Ivan Begtin

Сегодня 109-я годовщина Геноцида армян, первой гуманитарной катастрофы XX века. 24-е апреля – день, когда была арестована и казнена армянская интеллигенция, однако систематическая резня армян в Османской империи началась ещё в 1890-х и завершилась лишь около 1922 года, распространившись также на территорию Арцаха и нынешнего Азербайджана.

Мы подготовили небольшую подборку ресурсов и источников данных о Геноциде, его последствиях, а также о быте западных армян до изгнания с исторической родины.

Сайт Музея-института Геноцида армян
Houshamadyan – проект, направленный на реконструкцию жизни армян в селах и городах Османской империи
3D клипы и изображения из средневекового Ани, оставшегося по ту сторону границы

Историческая статистика

Данные об армянах, прибывших в США морским путем с начала XX в. до 1930-х, а также элементы статистики натурализации, заключения браков. смертности и др.
Статьи с деталями о демографии и миграциях в отдельных провинциях

Фотографии и истории

Репозиторий с оригинальными фотографиями, запечатлевшими армянский быт в Османской империи с 1860-х гг., включая портреты из лагерей и поселений беженцев
Истории сбережённых семейных вещей и фотографий
Архив исторических фотографий Granger

Свидетельства очевидцев и СМИ

Список записей о Геноциде в архивах дипломатов и миссионеров и частных коллекций
Освещение Геноцида в мировой прессе в 1915-1920 и в XXI в. На сайте Armenian National Institute также доступны фотоколлекции, списки памятников жертвам Геноцида по странам, публичные заявления о Геноциде и др.
Видео и аудио-свидетельства уцелевших во время Геноцида на разных языках с детальными метаданными и контекстом (требуется регистрация, многие видео с субтитрами)

Не забывайте делиться с нами важными находками.

Читать полностью…

Ivan Begtin

- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning

Читать полностью…

Ivan Begtin

В рубрике особенно больших открытых данных для тех кто хочет поработать с данными большого размера Umbra Open Data [1] открытый каталог данных спутниковых снимков со спутников Umbra работающих по технологии Synthetic Aperture Radar (SAR) с разрешением до 16 сантиметров и способные делать изображения ночью, сквозь облака и отслеживать изменения.

В открытом каталоге опубликовано более 17 терабайт изображений в форматах NITF, GeoTIFF и CPHD. Доступ к данным через API Amazon AWS, напрямую скачивая из S3 корзины или через STAC Browser.

Всего в каталоге Amazon 20 крупных наборов спутниковых данных, все доступны под спецификацией STAC, а общий объём составляет сотни терабайт.

Ссылки:
[1] https://registry.opendata.aws/umbra-open-data/
[2] https://registry.opendata.aws/

#opendata #datasets #satellites #data #geodata

Читать полностью…
Подписаться на канал