«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег», 1870 г.
Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).
Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.
Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).
Оригинал текста на скриншоте, но для удобства цитирую ниже:
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».
В рубрике как это устроено у них в мире существует как минимум две большие инициативы по международной кооперации вокруг открытых данных и открытости государства.
Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.
Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.
В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.
Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.
Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.
В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.
Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.
Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/
#opendata #opengov #datasets #data
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)
И так по каждому из ОЭС в рамках ЕЭС.
Данные остались только в Интернет архива [2].
В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.
Ссылки:
[1] /channel/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/
#statistics #russia #opendata #closeddata #energy
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.
Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health
#readings #ai #data #privacy
В рубрике полезных инструментов по работе с данными:
Milvus Lite [1] безсерверная версия продукта Milvus, с открытым кодом и библиотекой для Python. Является векторной базой данных позволяющей реализовывать поиск по тексту или по изображениям. А также много примеров по применению вместе с языковыми моделями. [2]. Про движок Milvus [3] также забывать не стоит.
Относительно векторных баз данных то чуть ли не лучший их обзор - это примеры в документации LLamaindex [4] в разделе "Vector stores". Нет информации о производительности хранилищ, зато там перечислены практически все такие продукты.
Правда я подозреваю что DuckDB может оказаться более удобным инструментом для векторных данных и операций, если не уже, то скоро.
Ссылки:
[1] https://github.com/milvus-io/milvus-lite
[2] https://github.com/milvus-io/bootcamp/tree/master/bootcamp/tutorials
[3] https://milvus.io/
[4] https://docs.llamaindex.ai/en/stable/examples/
#vectordb #opensource #databases
Два интересных и противоположных текста. В NYTimes о том как Марк Цукерберг поднабрал кармы и репутации выбрав open-source путь для развития AI в Meta. И, в целом, текст про пользу от открытия кода LLAMA.
Второй текст авторский от John Luttig из фонда Founders Fund, финансирующего многие AI стартапы что у нас на слуху, о том что фундаментальные модели ИИ будут с закрытым кодом. Потому что дорого, потому что национальная безопасность и много разных соображений.
Где правда? Я бы предположил что правда в будущих прецедентах. Если кто-то из недружественных для США стран попадётся на применении open-source LLM в каком-нибудь военном непотребстве конфликте, то open source LLM пришибут очень быстро.
Как бы то ни было тема важная, забывать про неё нельзя.
#opensource #ai #LLM
Поднакопилось какое-то количество мыслей про доступность/открытость данных и дата инженерию, прежде чем писать по каждой мысли отдельный текст, изложу тезисами:
- проблема поиска данных под конкретную задачу в том что структурированных данных может и не быть. Ищущий решает задачу интеграции данных в свой продукт/решение своей задачи и машиночитаемость данных - это лишь снижение барьера по работе с ними, а так то данные могут быть и распарсены из любого неструктурированного формата или собраны вручную. Из-за такой модели потребления главный недостаток поиска структурированных данных в том что их может не быть и пользователю нужен первоисточник.
- самое сложное - это производство данных и ещё сложнее производство хороших данных. Создавая Dateno одной из мыслей было хотя бы частично решить задачу нахождения данных индексируя основных производителей. Но это не решает проблему отсутствия данных. Как поощрять их создание? Конкурсы для волонтеров? Datathon'ы ? Вопрос открытый.
- геоданные очень прикольная штука когда они очищены и приведены в удобную форму. Можно, например, довольно быстро сделать геопортал Армении на базе TerriaJS и интегрировать туда данные из нашего портала открытых данных data.opendata.am даже сейчас пара сотен слоёв данных наберётся из открытых источников и результат даже будет вполне симпатичен и открыт. Стоит ли делать его с учётом скорого обновления maparmenia.am (не отовсюду и не всегда доступен, неизвестно чем будет после обновления) ? Стоит ли делать такой портал для других стран?
- особенность доступности данных в России что всё что на сайтах госорганов названо "открытыми данными" таковыми не является, или бесполезно, или не обновлялось от 4 до 8 лет. Создать портал открытых данных без гос-ва не так сложно, сколь сложно его держать актуальным и с тем что его надо обновлять. Перезапуск темы открытых данных в России так чтобы данные были востребованы? Ха! Самое очевидное - машиночитаемые нормативные документы и первичные нормативные документы и тексты для машинного обучения, систематизация научных данных и их агрегация и много-много-много датасетов. Это не дорого, этим некому заниматься внутри гос-ва и не похоже что появится кто-то в ближайшие годы. Но если федералы всё же запустят новую версию data.gov.ru то точно сделаем альтернативу ему, больше и лучше, просто чтобы все знали что они не умеют;)
- веб архивация, цифровая архивация находится в кризисе. Причин много, и они нарастают. Во первых многие страны огораживаются, как РФ от поисковых ботов, во вторых информации производится сильно больше чем раньше, волонтеров и НКО недостаточно, далее контент тяжелеет, далее всё больше контента в соцсетях с авторизацией и пэйволов, инструменты устаревают, соцсети блокируют доступ к контенту, а в некоторых странах нет даже политики сохранения даже ключевого контента.
#opendata #data #thoughts #webarchives #geodata
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
Свежий доклад State of Data Engineering 2024 от команды LakeFS.
Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.
Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.
Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.
И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.
А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.
#datatools #opensource #stateof #dataengineering #moderndatastack #readings
В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].
Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.
Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.
Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.
Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.
В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.
Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz
#opendata #data #geodata #russia #api
⚡Бизнес предложил государству свой способ работы с обезличенными данными
🔸Бизнес предложил государству ввести экспериментальный правовой режим для тестирования технологий по обезличиванию персональных данных россиян. Он поможет компаниям из разных сфер разрабатывать более технологичные сервисы и услуги, в большей степени отвечающие потребностям потребителей.
🔸Инициатива является, по сути, альтернативой законопроекту Минцифры, согласно которому компании по требованию государства будут предоставлять имеющиеся у него персональные данные в государственную информационную систему для обезличивания и формирования дата-сетов. Документ неоднократно подвергался критике со стороны бизнеса.
Рубрика "Циничная приоткрытость"
Стоило мне похвалить организаторов ЦИПРа за размещение презентаций спикеров в ТГ-канале АНО ЦЭ, как из поста про выступление замминистра Минэка Максима Колесникова презентация как раз исчезла, хотя была там поначалу.
Видимо, были там какие-то цифры, не предназначенные для широкой публичности.
Вот так Минэк (ответственный, между прочим, за реализацию остатков открытости государства в РФ) трактует эту самую открытость.
Штош... Мне остается протрактовать эту открытость по-своему и повесить здесь ту самую презентацию.
Попробуйте понять, что не захотел показывать Минэк ширнармассам
Фразы которыми можно пугать дата инженеров на собеседованиях и не только:
- данные у нас в CSV и Excel на FTP сервере
- наши Excel файлы обновляются в реальном времени на сетевом диске
- требуется работать с большим числом серверов и таблиц из SAP/1С/Oracle Application (нужное тяжелое легаси подставить)
- данные в личных папках пользователей в Sharepoint, надо их синхронизировать
- мы хотим сделать наше озеро данных на Hadoop'е
- большая часть данных у нас в PDF, мы не знаем тексты там или сканы
- требуется 10-летний опыт с dbt cloud
А чем Вы пугаете, чем пугают Вас ?
#humor #dataengineering
В продолжение про категоризацию данных я расскажу о том какое моё видение по развитию Metacrafter'а [1]. Напомню что это опенсорс утилита по идентификации семантических типов данных, категоризации и автодокументирования данных.
1. Это расширение числа семантических (смысловых) типов данных и правил их идентификации. Сейчас есть сотни типов и сотни правил, но далеко не для всех типов данных правила есть и добавлять там много что есть. В особенности когда это касается отраслей: медицина, биохимия, финансовые структуры, нефтянка, и много что другое. Специфики отраслевой немало, правила для них готовятся совсем не быстро.
2. Расширение видов правил идентфикации смысловых типов данных. В первую очередь определение уникальных полей, общих префиксов и других особенностей.
3. Возможно обновление языка управления правилами и добавление и переписать правила для добавления bloom filter, пространств значений для цифр и исключающих фильтров.
4. Перестройка работы metacrafter'а на работу с сервером по умолчанию. Сейчас для работы утилиты командной строки правила каждый раз загружаются и компилируются из файлов с правилами. А это небыстро, дольше чем сама работа категоризатора. Альтернатива в виде prefech и запуска локального сервера и работы через него.
5. Введение режима идентификации неизвестных типов данных. Это когда Metacrafter'у скармливаются датасеты для обучения и по определенным правилам он рекомендует разметить конкретные поля и конкретные типы данных. Это самая сложная и исследовательская задача. Вот её по настоящему интересно решить.
Ну и как не добавить что сейчас создаётся архив датасетов проиндексированных Dateno и по ним как раз идёт тестирование Metacrafter'а и будущая доработка.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
#opensource #data #datatools #semanticdatatypes
В рубрике интересных наборов данных
- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.
Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html
#opendata #datasets
Нашёл презентацию Paul Bradshaw о недокументированных API веб-сайтов и как их искать [1]. Рецепты у него довольно простые:
- используйте Chrome Developers Tools и аналог в Firefox
- изучайте структуру ссылок и XHR типы запросов
- учитесь декодировать параметры
Ну и примеры недокументированных API тоже. Презентация должна быть доходчивой для журналистов, для которых собственно он и пишет как автор The Online Journalism Handbook.
У меня на эту же тему было несколько презентаций в контексте проблем с архивацией сайтов и в контексте поиска недокументированных API.
Так вот ключевой инструмент в работе с ними - это поисковые системы, возможность найти точки подключения проиндексированные ими.
Второй значимый инструмент - это "типовые", но недокументированные API многих программных продуктов. В первую очередь типовые API CMS.
И третий - это мобильные приложения, декодирование байткода которых или перехват их обращений к сайту также может дать много чего интересного.
Но, опять же, это всё полезно, в первую очередь журналистам, OSINT'щикам и хакерам. Для других задач нужно куда реже.
Ссылки:
[1] https://github.com/paulbradshaw/undocumentedapis/blob/main/Undocumented%20APIs.pdf
#api #readings #datajournalism
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.
Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US
#opendata #usa #datacatalogs #datasets
Хорошая статья [1] о том как добиться высокой производительности Python при обработке очень больших файлов с данными на примере данных конкурса One Billion Row Challenge [2].
Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке
А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]
Больше соревнований хороших и разных!
Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] /channel/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html
#data #dataengineering #contests #python
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами
Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.
Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.
Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc
#tools #opensource #digitalpreservation #webarchives #WARC #software
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.
Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.
Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.
В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.
Ссылки:
[1] https://www.kommersant.ru/doc/6679719
#digitalpreservation #webarchives #closeddata #russia #search
Смешная картинка про российскую ГосТехИИзацию. 😂 Но вместо того чтобы говорить что не так с ГосТех'ом в РФ, я скажу что так с ГосТехом в Сингапуре. В основе ГосТеха в Сингапуре много открытого исходного кода и открытых продуктов созданных командой разработчиков их технологического государственного агентства Продукты живые, исходный код доступен https://github.com/opengovsg
Ответить на вопрос что не так с ГосТехом в РФ каждый может самостоятельно😜
#govtech #singapore #russia #opensource
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»
С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .
АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠
Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e
#opendata #closeddata #russia #energy
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.
Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.
Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html
#opendata #data #tambovregion #dataportals #closeddata
К лекции о безопасности и необходимости регулировать ИИ. В X пользователь делится рецептом пиццы в которую ИИ рекомендует добавить клея, немного, 1/8 стакана и нетоксичного😜. А всё потому что некий пользователь fucksmith когда-то написал в Reddit'е такой коммент.
Регулирование ИИ неизбежно, как обязательное тестирование на безопасность, а разработчики не могут не избегать юридических последствий.
Но что будет с open source LLM ?
#ai #safety #regulation
Firecrawl [1] любопытный новый инструмент по работе с данными с помощью LLM. Обещает что умеет отдавать команды LLM по извлечению данных по определенным схемам.
Плюс публикуют исходный код, но только клиентской библиотеки к своему сервису.
Всё это выглядит любопытно и какие то простые схемы действительно удалось с его помощью извлечь. Пока выглядит, конечно, не суперпродвинуто, но и в такой простоте есть плюсы для тех кто не хочет писать тысячи парсеров для бесконечного числа сайтов.
Я когда-то много времени посвятил теме преобразованию сайтов в данные, но остановился когда написал алгоритм превращения в RSS любой вебстраницы со списками чего-то.
Полноценно превращать сайты в базы данных осложнено тем что надо их вначале краулить, потом анализировать и уже по итогам идентифицировать характер хранимой информации и превращения её в данные. Тем не менее задача не невозможная.
Ссылки:
[1] https://firecrawl.dev
#data #datatools #ai
Ещё в копилку происходящего с регулированием данных в России, одна из причин почему я лично перестал как-либо пытаться влиять на госполитику в этой области в том что весь GR в цифре свёлся к "защитному GR'. А то есть он не про продвижение каких-то инициатив выгодных бизнесу, типа открыть какие-то данные, а про снижение вреда от нового регулирования и совсем уж людоедских законопроектов.
Вот и со сдачей данных ровно точно также. Тот же цифровой крупняк в ассоциации толстых котов больших данных хотел бы чтобы этой инициативы вообще не существовало, но вместо этого предлагают модель дата брокеров по обезличиванию данных. Хотя всем прекрасно понятно что главный бенефициар госрегулирования это спецслужбы и пара госов которые получат монополию на частные данные. А обезличивание тут - это дело такое, необезличенные данные кому надо всегда будут доступны. Поэтому история с дата брокерами - это как самих себя высечь небольно, чтобы барин сильно не высек.
А как оно в мире? А в мире всё наоборот. Бизнес обсуждает с государством о том как получать доступ к госданным через дата брокеров, когда не госорганы раздают права, а госорганы дают чувствительные данные сертифицированным дата брокерам и те обезличивают их и передают бизнесу для коммерческих продуктов.
Почувствуйте, что называется, задницу разницу.
#data #government #regulation #russia
The OpenDataLab выпустили доклад по использованию открытых данных в генеративном ИИ [1] Выводы в нём все довольно общие и соответствуют общим трендам развития порталов открытых данных, но хорошо систематизированы так что прочитать стоит. Доклад достаточно короткий, интересный примерами которые там разбираются когда на основе данных строят разного рода системы вопросов и ответов.
Например, оттуда я впервые узнал про Wobby [2] систему смешивания открытых госданных и собственных датасетов и построения анализа данных и систем вопросов и ответов, чатботов на основе этого микса.
Другие примеры тоже весьма любопытны.
Ссылки:
[1] http://www.genai.opendatapolicylab.org/
[2] https://wobby.ai/
#opendata #datasets #data #reports #thegovlab #opendatalab
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.
Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.
Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.
Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.
#opendata #closeddata #russia #policy #government
В блоге UBER история о том как они реализовали движок по автоматической категоризации данных DataK9 [1]. Выглядит интересно и очень похоже на то что я делал в опенсорсном продукте Metacrafter [2].
Если пересказать вкратце, то они взяли чуть более 400 тысяч датасетов для анализа, а до этого 1 тысячу датасетов для обучения и ручной разметки людьми и далее натравили созданные людьми правила на оставшиеся датасеты. Правила готовились людьми вручную, но пишут что и ИИ применяли где-то, до конца непонятно где.
Описания правил у них в YAML что тоже очень похоже на Metacrafter
В чём сходства и отличия:
1. В их правилах есть bloom filters и value range, что является хорошей идеей, надо к ней присмотреться.
2. Кроме include patterns они используют ещё и exclude patterns что тоже весьма логично и разумно.
3. Cмешивают типы данных и правила, фактически правила детекции привязывают к типу прямо в YAML файле. В Metacrafter'е это иначе. Типы данных и правила разделены.
4. Не имеют языковых особенностей при идентификации, всё про английский язык.
5. Не используют семантические типы данных. В Metacrafter они вынесены в отдельный реестр [3]
Ключевое, конечно, в среде эксплуатации. DataK9 работает в корп среде с внутренними данными заточенными под AI/ML, а Metacrafter писался под работу с общедоступными данными на разных языках.
Ссылки:
[1] https://www.uber.com/en-DE/blog/auto-categorizing-data-through-ai-ml
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
#opensource #data #datatools #semanticdatatypes