begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

В блоге Clickhouse о том как ускорять запросы в Pandas в 87 раз [1], что, с одной стороны неплохо, а с другой стороны лукавство. Потому что есть Polars, Daft и, конечно, DuckDB. То что chDB может ускорить приведенный пример запросов в 87 раз - вполне можно поверить, но другие то продукты и побыстрее могут.

В общем, в плане технологического евангелизма тут какой-то провал, из рассказов про chDB я вижу только один резон применять его, если вся инфраструктура построена на Clickhouse и есть люди в команде поднаторевшие в оптимизации Clickhouse.

А в данном конкретном случае всё выглядит довольно сомнительно в плане выгоды от применения продукт без рассмотрения альтернатив.

Ссылки:
[1] https://clickhouse.com/blog/chdb-pandas-dataframes-87x-faster

#opensource #clickhouse #datatools

Читать полностью…

Ivan Begtin

Ещё один любопытный ETL продукт VectorETL [1] с открытым кодом под MIT лицензией. Необычен тем что:
a) Включает AI в паплайны обработки данных
б) Изначально ориентирован на векторные (NoSQL) базы данных

Опубликован стартапом Context Data которые предоставляют облачную платформу для задач которые с помощью этого ETL решаются.

Документации немного, но сам продукт любопытный. И попробовать, и почерпнуть идеи.

Ссылки:
[1] https://github.com/ContextData/VectorETL

#opensource #dataengineering

Читать полностью…

Ivan Begtin

Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata

Читать полностью…

Ivan Begtin

К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.

При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.

При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.

Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.

Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.

С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.

Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.

#opendata #zenodo #datasets

Читать полностью…

Ivan Begtin

Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видел или GIF получаются слишком большими.

Интересная задумка, применима не только к деньгам.

Ссылки:
[1] https://neal.fun/printing-money/

#dataviz

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Founder Mode [1] "Режим основателя", текст от Пола Грэхема о том что часто важно чтобы основатели стартапов оставались вовлечёнными в бизнес, а не переводили его в режиме менеджмента. Вроде как очевидно, но мысль и канва рассуждения полезны чтобы освежить эту истину.
- How a startup feels [2] как ощущается жизнь в стартапе, текст от Benn Stancil, хорошо написано и просто таки ощущается. Перекликается с текстом Пола Грэхема.
- Art of Finishing [3] "Искусство завершать" , тоже полезный, уже с более техническим взглядом у автора, про то что надо доделывать то что надо доделывать применительно к программной инженерии.

Ссылки:
[1] https://paulgraham.com/foundermode.html
[2] https://substack.com/home/post/p-148046562
[3] https://www.bytedrum.com/posts/art-of-finishing/

#readings #startup

Читать полностью…

Ivan Begtin

В рубрике интересных открытых данных данные по трафику судов [1] от Finnish Transport Infrastructure Agency. Данные по портам, кораблям, движению, портозаходам и ещё много чему. Всё без ограничений и аутентификации, покрывает практически всё Балтийское море.

Тот случай когда API оправдано на 100%. Для полного счастья нехватает только исторических данных для bulk download.

Ссылки:
[1] https://www.digitraffic.fi/en/marine-traffic/#vessel-locations

#opendata #finland #API

Читать полностью…

Ivan Begtin

⚡️Instagram** в рекламных целях прослушивает каждого пользователя
🔸Издание 404 Media выяснило, что соцсеть Instagram** в рекламных целях прослушивает (опция Active Listening) каждого пользователя. В этом факте признался один из основных партнёров платформы по предоставлению рекламных услуг Cox Media Group (CMG), который уже много лет работает с Google и Meta*.
🔸Согласно презентации CMG в рамках развития опции для контекстной рекламы, которая буквально читает мысли пользователей:
• компания предлагает клиентам услугу «активного прослушивания»;
• опция позволяет ИИ подслушивать ваши разговоры возле смартфона, а также анализировать действия пользователя в сети;
• Active Listening захватывает любые звуки с микрофона любых смартфонов;
• алгоритмы Active Listening позволяют выдавать клиентам самую точную рекламу. Например, после фразы «нужна новая футболка» они видят наплыв таргетированной рекламы футболок;
• главные клиенты CMG: Google, Amazon, Meta.
🔸Примечательно, что Google и Meta* после обнародования данных об использовании Active Listening удалили любые упоминания CMG со своих ресурсов. В Amazon заявили СМИ, что знают об этом сервисе, но никогда им не пользовались. В Facebook* пояснили, что экстренно «начали проверку» этой информации от СМИ.

Meta Platforms*, а также принадлежащие ей ресурсы Facebook и Instagram *признана экстремистской организацией, её деятельность в России запрещена; **запрещены в России.

Читать полностью…

Ivan Begtin

Open data in Scotland: a blueprint for unlocking innovation, collaboration and impact [1] ещё один любопытный документ про открытые данные в Шотландии.

Видимо чтобы подтолкнуть правительство Шотландии создать портал открытых данных региона. При этом надо сказать что в реестре Dateno [2] Шотландии есть 29 каталогов данных и в самом Dateno проиндексировано 7500+ датасетов из Шотландии. Скорее всего данных там реально больше.

Надо, кстати, как-нибудь доработать реестр и отображать каталоги данных на субрегиональном уровне, добавить мониторинг доступности, перевести ведение реестра из формата сборки в формат СУБД.

Но это скорее задачи для бэклога.

Сейчас чтобы работать с реестром каталогов данных Dateno можно просто скачать файл full.jsonl [3] из репозитория и выполнить команду

select uid, catalog_type, software.id, link from (select *, unnest(owner.location.subregion) from 'full.jsonl') where id_1 = 'GB-SCT';


Очень и очень просто. А сам реестр постоянно пополняется.

Ссылки:
[1] https://www.gov.scot/publications/open-data-scotland-blueprint-unlocking-innovation-collaboration-impact/
[2] https://dateno.io/registry
[3] https://github.com/commondataio/dataportals-registry/tree/main/data/datasets

#opendata #datasets #scotland #dateno

Читать полностью…

Ivan Begtin

Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.

В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.

Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.

Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов

и тд. не все варианты простые, но они хотя бы есть.

А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)

или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.

Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.


Ссылки:
[1] https://github.com/orgs/datasets/discussions/386

#opendata #opensource #business #dataproducts

Читать полностью…

Ivan Begtin

Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].

Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb

#opensource #tools #databases

Читать полностью…

Ivan Begtin

Читаю научную статью Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web [1] от команды Google Datasets из которой немного больше понятно о том как устроен их Google Dataset Search и не могу не отметить насколько неглубоко они погружаются в тематику того чем занимаются и с насколько небольшими датасетами метаданных работают. В этом случае они работали с датасетом с метаданными о 2.7 миллионов наборах данных.

Но сама проблема которую они поднимают актуальна. К данным не работают индексы цитирования, а взаимосвязи между ними не всегда можно установить простым образом если авторы сами не указали.

Но, почему я лично считаю их статью неглубокой:
1. Кроме базовых стандартов вроде DCAT, Schema.org и других есть куда больше более сложных стандартов публикации данных, особенно научных, где эти взаимоотношения прописаны куда чётче.
2. Взаимоотношения датасетов, по хорошему, это предмет онтологического моделирования и дополнения/расширения/адаптации DCAT
3. Более сложная эвристика не только и не столько в анализе названий, как это делают авторы, а в общих схеме/структуре данных между датасетами, пересечение по содержанию и тд.

Правда работ в этой области не так много, но от ребят из Гугла я ждал большего.

Когда у меня только начинались мысли про Dateno изначально желание было с запустить процесс постоянного обогащения метаданных чтобы сделать поиск насыщеннее: больше фильтров, лучше связи между данными, больше понимания их содержимого и тд. Но, случайно, получилось собрать быстро много датасетов и по прежнему не покидает ощущение что их слишком мало. Данных всегда мало!😜

Но о том что можно выдавать пользователю инфу про схожие датасеты мысли были и есть. Можно использовать тут сложную эвристику или функции а ля ИИ заложенные в поисковый движок, а можно большее знание о самих данных и простые выборки на основе этого.

Ссылки:
[1] https://www.semanticscholar.org/paper/Relationships-are-Complicated%21-An-Analysis-of-on-Lin-Alrashed/97e3cfd5a6cf88f2b1887c5fefc76b528e92f23b

#opendata #datasets #google #dateno #readings

Читать полностью…

Ivan Begtin

Одна из стран по которой пока в Dateno мало датасетов, всего 58 тысяч, это Индия. 58 тысяч датасетов на страну в более чем 1 млрд человек это очень мало хотя объективно причины и понятны.

В Dateno сейчас 46 каталогов данных связанных с Индией [1], они сейчас обновляются и не все доступны и не все включены.

Итак что с открытыми данными в Индии:
1. В Индии сильная централизация данных на национальном портале data.gov.in Это самописный продукт где заявляется 500+ тысяч дата ресурсов. У его создателей свое восприятие мира и по факту, эти 500+ тысяч ресурсов - это файлы, а то что принято в мире называть датасетами они называют каталогами. Их всего 12.6+ тысяч. Примерно по 40 файлов на один каталог. Поэтому, с одной стороны индийский портал данных кажется огромным, а с другой, совсем нет. Это всего +12.6 тысяч наборов данных для поискового индекса. А это уже не так много и не так масштабно. Что ещё показательно на нац портале не указываются объёмы хранимых данных, а это один из верных признаков что физического объёма там немного. В любом случае стандартизированного API там нет, надо делать парсер их API/веб страниц

2. Индия страна большая, но сравнительно небогатая. Не у всех регионов есть свои информационные системы, геопорталы и тд. Они постепенно появляются, но в общем то есть не у каждого штата.

3. Официальная статистика тоже не отдаётся стандартизированными интерфейсами, а отдельный портал открытых данных [2] и ещё несколько публичных ресурсов о которых я ранее писал.

В принципе же Индию я лично отношу пока к категории стран со своей большей спецификой в работе с данными. Сейчас это: Китай, Россия, Индия.

У меня пока ключевой вопрос в том как измерять качество покрытия поиска Dateno по странам. В пропорции к населению, к ВВП, индексу развития цифровой инфраструктуры (ООН), индексу демократизации или ещё чему-то? Или всем сразу?

При этом понятно что это, одновременно, оценка, и качество наполнения реестра и поискового индекса Dateno, и развитости культуры работы с данными в стране.

Можно свой индекс "забабахать" World data discovery index;)

Ссылки:
[1] https://dateno.io/registry/country/IN
[2] https://esankhyiki.mospi.gov.in

#opendata #india #datasets #datacatalogs

Читать полностью…

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Classifying all of the pdfs on the internet [1] автор проанализировал 8TB PDF файлов собранных через Common Crawl и использовал Llama-3-70B для их классификации.
- Loss Rider [2] библиотека для визуализации Line Rider диаграм. Наглядный импакт!
- quarto-live [3] расширение для Quarto добавляющее интерактивности для R и Python примеров. Хорошо подойдёт для любых онлайн учебных курсов.
- A Gentle Introduction to GDAL Part 8: Reading Scientific Data Formats [4] лонгрид про обработку научных геоданных HDF и NetCDF с помощью GDAL. Выглядит полезным
- LOTUS [5] движок для запросов к запросов к Pandas с LLM

Ссылки:
[1] https://snats.xyz/pages/articles/classifying_a_bunch_of_pdfs.html
[2] https://github.com/jndean/LossRider
[3] https://r-wasm.github.io/quarto-live/
[4] robsimmon/a-gentle-introduction-to-gdal-part-8-reading-scientific-data-formats-1a1f70d5388c" rel="nofollow">https://medium.com/@robsimmon/a-gentle-introduction-to-gdal-part-8-reading-scientific-data-formats-1a1f70d5388c
[5] https://github.com/stanford-futuredata/lotus

#opensource #readings #llm #ai

Читать полностью…

Ivan Begtin

[RU] Больше открытых данных об Армении. На сайте Всемирного метеорологического агентства World Weather Information Service [1] публикуются данные прогноза погоды по 3467 городам мира [2] включая станции мониторинга прогноза погоды по Армении.

Данные доступны в виде страниц городов и могут быть выгружены с сайта в машиночитаемых форматах:
- Ереван https://worldweather.wmo.int/en/json/66_en.json
- Севан https://worldweather.wmo.int/en/json/68_en.json
- Капан https://worldweather.wmo.int/en/json/69_en.json
- Ванадзор https://worldweather.wmo.int/en/json/67_en.json
- Дилижан https://worldweather.wmo.int/en/json/2079_en.json
- Джермук https://worldweather.wmo.int/en/json/2080_en.json

Полный список городов включает идентификаторы [2] по которым можно получить данные используя документацию API на сайте [3].

[EN] More open data about Armenia. The World Weather Information Service [1] website of the World Meteorological Agency [1] publishes weather forecast data for 3467 cities of the world [2] including weather forecast monitoring stations for Armenia.

The data are available as city pages and can be downloaded from the site in machine-readable formats:
- Yerevan https://worldweather.wmo.int/en/json/66_en.json
- Sevan https://worldweather.wmo.int/en/json/68_en.json
- Kapan https://worldweather.wmo.int/en/json/69_en.json
- Vanadzor https://worldweather.wmo.int/en/json/67_en.json
- Dilijan https://worldweather.wmo.int/en/json/2079_en.json
- Jermuk https://worldweather.wmo.int/en/json/2080_en.json

The full list of cities includes identifiers [2] for which data can be retrieved using the API documentation on the website [3].

Links:
[1] https://worldweather.wmo.int
[2] https://worldweather.wmo.int/en/json/full_city_list.txt
[3] https://worldweather.wmo.int/en/dataguide.html

#opendata #armenia #climate #meteorology

Читать полностью…

Ivan Begtin

Неплохая подборка примеров проектов в том что называют Rewrite Bigdata in Rust (RBiR) [1], а то есть по переписыванию функциональности и отдельных продуктов с открытым кодом на Rust, вместо Python или Java.

Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.

А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.

Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/

#opensource #rust #bigdata #datatools #data

Читать полностью…

Ivan Begtin

Свежий любопытный BI(?) проект MotherDuck Data App Generator [1] который позволяет на основе датасета в DuckDB генерировать дата приложение. Приложение с открытым кодом, но зависит от инфраструктуры MotherDuck.

Хотя они и называют его Data App Generator, тут надо быть честными, это такой недо-BI, по крайней мере в текущей форме и примерах по генерации дашбордов.

Мне, честно говоря, показалось странным что они сделали такое, потому что визуализация данных не самая сильная сторона их команды, Mother Duck известны продуктом для облачной аналитики, но не BI. Но в итоге они, похоже, выбирают путь прокачки собственного продукта, а не интеграции с другими, предлагая свой продукт как бэкэнд.

В любом случае идея по генерации приложений на данных имеет право на существование и даже может быть весьма востребована.

Если бы я не был занят Dateno и поиском данных, я бы автоматизацию аналитики ставил бы где в верхней части своих приоритетов, потому что это большая рыночная востребованная тема.

Ссылки:
[1] https://motherduck.com/blog/data-app-generator/

#opensource #duckdb #data #dataapps #startups

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.

При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.

Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.

Ссылки:
[1] https://data.jatengprov.go.id/dataset/

#opendata #indonesia #centraljava #datacatalogs

Читать полностью…

Ivan Begtin

Поделюсь личной болью, я когда-то активно пользовался минималистичным редактором Write! (сайт - wri.tt) не все, но многие заметки вел в нём. У него был экспорт в простые форматы, минималистичный текст и, в принципе, лично мне для заметок был удобный инструмент. С lifetime подпиской что было удобно синхронизовывать между несколькими устройствами и не переплачивать.

Где-то в 2023 году сайт ушёл в оффлайн, приложение превратилось в кирпич потому что проверка авторизации и синхронизацию работала через сайт и теперь в приложение локально просто не войти. Не local-first приложение по идеологии.

Большая часть заметок у меня есть в разных местах в экспортированные, но какие-то надо доставать теперь из внутренней базы. А внутри там собственный XML формат внутри ZIP контейнера и какой-то неочевидный формат локальной базы данных. В общем автор наизобретал там велосипедов и, похоже, теперь единственный способ восстановить часть заметок - это или найти конвертер парсер этих XML файлов или написать его самому.

Если кто-то сталкивался с этим редактором и столкнулся с той же проблемой, расскажите как решали.

А для меня это очередное напоминание о том что:
- cloud first приложения - это безусловное зло.
- базовые стандарты должны соблюдаться, никакой проприетарщины
- lifetime лицензии прекрасны если у бизнеса есть бренд, а так приложение прожило всего 9 лет.

Сейчас есть много local-first альтернатив для заметок, преимущественно работающих с разметкой Markdown и они гораздо удобнее в итоге.

#writing #texts #issues #markdown

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.

Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.

Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.

Ссылки:
[1] https://dateno.io/registry/country/PS

#opendata #datacatalogs #palestine #datasets

Читать полностью…

Ivan Begtin

Ранее Notion, а теперь ещё и Coda. Но Notion писали в стиле "мы теперь не принимаем платежи из РФ", а Coda сразу пишут что из РФ будут недоступны.

#russia #sanctions

Читать полностью…

Ivan Begtin

На фоне "новости" о том что бигтехи следят за нами прослушивая микрофон непрерывно, не могу не напомнить про прекрасный проект https://trackthis.link/ по обману рекламодателей через открытие сотни табов в браузере. Там, правда, не было обновлений за 5 лет и часть открываемых ссылок уже протухли, но не все. Лично я регулярно пользуюсь профилем Doomsday Prepper и ни о чём не жалею!

#privacy #mozilla #humour

Читать полностью…

Ivan Begtin

На всякий случай, для тех кто не знает, посты с рассказом про источники данных и Dateno я дублирую на английском в LinkedIn [1] где можно подписаться на эти и другие новости проекта.

Закидывать туда посты, я, и коллеги, будем нечасто, но регулярно и на английском языке и по теме data discovery.

А в этом телеграм канале я пишу:
а) На русском.
б) Часто
в) Про разное

Ссылки:
[1] https://www.linkedin.com/company/datenoproject/posts/?feedView=all

#opendata #dateno

Читать полностью…

Ivan Begtin

Для тех кто интересуется международной повесткой регулирования данных International Decade for Data (2025-2035) under G20 sponsorship [1] доклад одной из рабочих группы при G20 с предложением по продвижению десятилетия данных под эгидой G20 и основных направлениях.

Удивительно что там ни слова об открытых данных, но много про управление данными в международном аспекте.

Ссылки:
[1] https://www.t20brasil.org/media/documentos/arquivos/TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf

#opendata #data #policy #readings

Читать полностью…

Ivan Begtin

Elasticsearch снова open source, они добавили лицензию AGPL 3.0 к SSPL [1]. Хочется немного позлорадствовать, а стоило ли им идти тем путём что они пошли, но реально это хороший продукт и все эти события добавили ему конкуренции, а конкуренция тоже хорошо.

P.S. Но для поиска Meilisearch лучше [2] и лицензия там MIT.

Ссылки:
[1] https://www.elastic.co/blog/elasticsearch-is-open-source-again
[2] https://github.com/meilisearch/meilisearch

#opensource #elastic #search

Читать полностью…

Ivan Begtin

Я тут тоже думал про всякое применение ИИ, как в продуктовых и рабочих делах, так и общечеловеческих. Рабочие дела - это как применять ИИ для обработки, классификации, повышения качества, поиска, обогащения и тд. в работе с данными. Применений много, о них как-то в другой раз и скорее уже когда будет что показать и рассказать живое.

А вот про рабочее и полезное человечеству.
1. Не теряю всё же надежду что хоть кто-то из разработчиков сделает умный Inbox, AI ассистента нормально работающего с почтой, контактами и документами в рамках корпоративных и личных коммуникаций. Для людей живущих асинхронной жизнью это просто необходимо. Я вот не хочу сортировать почту по папкам, довылавливать спам, дозаполнять контакты после внесения, вспоминать треды переписки и так далее. Это всё совершенно точно поддаётся качественной даже не автоматизации, а глубокой трансформации без потери качества.
2. Есть огромное число малых/не национальных языков, никак не защищаемых государствами или защищаемых незначительно. Какие-то из них стагнируют, некоторые развиваются, большая часть медленно или быстро вымирает. Если по ним есть хоть какая-то устная и письменная история то AI для сохранения и обучения вымирающих языков. Не только как предмет анализа, исследований и научных работ, а по автоматизированному созданию автопереводчиков, словарей, обучающих материалов и так далее. Коммерческой идеи тут, может не быть. Подчеркну что идея тут не в автоматизации перевода, а в автоматизации создания обучающих материалов.

#ai #thoughts

Читать полностью…

Ivan Begtin

Вдогонку к тексту про недокументированные API, маленький лайфхак о котором мало кто знает. У сервисов ArcGIS проверка доступа к ним зависит от вида запрашиваемого контента, для одних и тех же данных. Если обратится по ссылке к HTML представлению то может быть ошибка 403, а если к JSON то всё возвращается.

На скриншотах сервер с данными ArcGIS в Индии. Его можно открыть по ссылке. Он выдаст 403 ошибку, потом добавляем ?f=json и получаем ответ в формате JSON. Что важно, даже несмотря на то что администратор ограничил просмотр директорий с сервисами.

Это уже чуть-чуть ближе к инфобезу, но серьёзные данные и так не выставляют в ArcGIS в открытый доступ, а краулеры вообще не знают что там администратор ограничил. JSON доступен и парсится? Вот и славно.

#opendata #undocumentedapi #datasets #arcgis #geodata

Читать полностью…

Ivan Begtin

Городские дашборды Гонконга [1] из плюсов выглядят довольно неплохо, из минусов данные не обновляли с февраля 2024 г. Интегрированы с национальным порталом открытых данных [2] где много разных данных и API.

В восточной и юго-восточной азии, в принципе, популярны городские и страновые дашборды, но всё время остаётся ощущение что они какой-то эксперимент.

Ссылки:
[1] https://dashboard.data.gov.hk/city-at-a-glance
[2] https://data.gov.hk/tc/

#opendata #data #hongkong #dashboards #dataviz

Читать полностью…

Ivan Begtin

К вопросу о наличии данных о странах, есть два взгляда на это. Первый есть ли вообще какие-то данные о стране в структурированном или неструктурированном виде, не обязательно из источников внутри страны. И второй в том есть ли структурированные источники данных внутри страны. В Dateno идёт агрегация структурированных источников и данные по странам, находятся, или в глобальных агрегаторах вроде индикаторов Всемирного банка, BIS, WHO и других, либо из самих стран, либо, реже, из глобальных и региональных систем раскрытия научных или статистических данных.

И сейчас есть 24 страны по которым нет источников структурированных данных внутри страны. Фактически, ни одного каталога данных: открытые данные, геопорталы, индикаторы, ничего нет.

Страны можно разделить на 3 типа:
- совсем небольшие развитые: Монако, Сан Марино. Их данные агрегируются странами их окружающими
- страны в длительном политическом / экономическом кризисе
- совсем бедные страны

По последним двум группам минимальные инфраструктурные данные есть на Humanitarian Data Exchange [1].

А про развитые страны где тоже маловато данных я ранее писал. Но мало, не значит нет.

В любом случае в Dateno есть уже полное покрытие всех стран именно за счёт данных из глобальных агрегаторов.

┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━┓
┃ Alpha-2 ┃ Name ┃ Internet TLD ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━┩
│ NE │ Niger (the) │ .ne │
│ TM │ Turkmenistan │ .tm │
│ AF │ Afghanistan │ .af │
│ SD │ Sudan (the) │ .sd │
│ SL │ Sierra Leone │ .sl │
│ KN │ Saint Kitts and Nevis │ .kn │
│ ER │ Eritrea │ .er │
│ KM │ Comoros (the) │ .km │
│ SM │ San Marino │ .sm │
│ SY │ Syrian Arab Republic (the)   │ .sy │
│ CF │ Central African Republic (the) │ .cf │
│ GQ │ Equatorial Guinea │ .gq │
│ GA │ Gabon │ .ga │
│ GW │ Guinea-Bissau │ .gw │
│ VC │ Saint Vincent and the Grenadines │ .vc │
│ GN │ Guinea │ .gn │
│ SZ │ Eswatini   │ .sz │
│ TD │ Chad │ .td │
│ GD │ Grenada │ .gd │
│ MC │ Monaco │ .mc │
│ KP │ Korea (the Democratic People's Republic of)   │ .kp │
│ ST │ Sao Tome and Principe │ .st │
│ DJ │ Djibouti │ .dj │
│ TL │ Timor-Leste   │ .tl │
├─────────┼────────────────────────────────────────────────┼──────────────┤
│ Total │ 24 │ │
└─────────┴────────────────────────────────────────────────┴──────────────┘



Ссылки:
[1] https://data.humdata.org

#opendata #nodata #datacatalogs

Читать полностью…

Ivan Begtin

Про уход Notion из России, это, увы, неизбежное и в большинстве уходов хуже всего то по каким критериям большая часть сервисов определяют российскую аффиляцию. Какое-то время назад я переписывался с JetBrains по поводу использования их продукта и задавал им вопросы по поводу использования их продукта не в РФ и может ли компания использовать продукт если кто-то из команды будет иметь доступ к нему из РФ. Ответ был - нет, не может.

То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".

В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.

У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.

#tools #sanctions #opensource

Читать полностью…
Подписаться на канал