begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Не про данные, но про открытость․ В мире продолжается "ползучий тренд" по увеличению сроков действия действия авторских прав [1] и вот свежая новость, правительство Канады с 30 декабря 2022 года продлевает сроки действия авторских прав с 50 на 70 лет [2], тем самым гармонизируя законодательство со странами Евросоюза и США.

Об этом всём и последствиях пишут в блоге интернет-архива Канады [3] и там же ссылка на научную статью What Happens When Books Enter the Public Domain? [4] главный вывод в которой о том что продление сроков авторских прав не приносит пользы обществу.

В России, кстати, также срок действия авторских прав уже давно составляет 70 лет минимум.

Ссылки։
[1] https://ru.wikipedia.org/wiki/Сроки_действия_авторских_прав
[2] https://orders-in-council.canada.ca/attachment.php?attach=42842&lang=en
[3] https://internetarchivecanada.org/2022/11/23/a-missed-opportunity-to-revive-obscure-canadian-literature/
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3401684

#copyright #open

Читать полностью…

Ivan Begtin

В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.

В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].

Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.

Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/

#opendata #datasets #lifequality #pollution #usa

Читать полностью…

Ivan Begtin

На сайте Счетной палаты РФ выложили все открытые бюллетени СП РФ с 1996 года [1] что для российских органов власти шаг абсолютно беспрецедентный даже не потому что многие боятся что-то открывать, а потому что просто продалбывают собственные архивы и даже не пытаются их восстановить когда это понимают.

Поэтому архив отчетов Счетной палаты - это полезная база документов, важная для открытости гос-ва в целом. При этом архив был опубликован в специальном разделе сайта СП РФ [2] недостатком и достоинством которого является то что внутри него используется API для поиска по этим файлам. В результате поисковые системы, Интернет-архив и другие краулеры могут не добраться для индексирования PDF файлов. Но данные из этого же API легко превращаются в набор данных и файлы можно скачать с его помощь.

При смене руководителей организаций очень часто в первую очередь новый руководитель меняет именно сайт. Поэтому мы заархивировали архив отчетов Счетной палаты и слепок всех документов архива находится по ссылке [3], а по другой ссылке набор данных в формате JSONL с метаданными к этим документам [4]

Ссылки։
[1] https://ach.gov.ru/news/project_archive
[2] https://ach.gov.ru/checks/
[3] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/files/
[4] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/data.jsonl.zip

#datasets #opendata

Читать полностью…

Ivan Begtin

В Казахстане на публичное обсуждение выложили Постановление Правительства "О утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных" [1].

Не будучи гражданином Казахстана я принять участие в обсуждении не смогу, но могу прокомментировать тут.

Есть условные два подхода к открытости данных, первый - открывайте всё что не имеет статуса для служебного пользования, а пользователи сами разберутся что им нужно. И второй, открываем "по белому списку" и контролируем любую публикацию. Казахстан идёт по второму пути, как и в России утверждали, только не общий перечень, а требования по обязательному раскрытию всеми госорганизациями определенного списка данных.

Итак, мои комментарии։
1. Будет публиковаться меньше данных. Это приказ заменяет постановление Правительства Республики Казахстан от 28 октября 2021 года № 774 «Об утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных» [2] в котором было 974 пункта, а в этом проекте постановления их 951. Почему перечень был сокращён нигде не упомянуто, в том числе в пояснительной записке к постановлению.
2. Ни в проекте постановления этом, ни в предыдущем, ни где-бы то ни было ещё нет упоминания свободных лицензия и режима доступа к данным. напомню что данные на портале Открытые данные eGov [3] формально критериям открытых данных не соответствуют. Они доступны только после авторизации, только гражданам Казахстана или имеющих право там жить или работать (требуется ИИН), а также данные публикуются без условий их использования.
3. Около 22% (213) наборов данных опубликованы АСПР (Бюро национальной статистики). Фактически это статистические показатели с ежегодным или иным периодом обновления, до ежемесячного. Но в системе Taldau [4] более 3600 показателей, есть ощущение что что-то где-то потеряно или недосказано.
4. Только 76 наборов данных предполагаются к постоянной доступности, по сути это постоянный доступ к базам данных через ведомственные API. Из них 70 наборов - это данные Минфина РК. Фактически, большая часть остальные данных - это ведомственная статистика.
5. Некоторые органы публикуют всего два-три набора данных которые, также, являются лишь статистическими показателями, с редким обновлением.
6. Более половины реестров (ищутся по слову "реестр") имеют период актуализации "ежегодно" или "ежеквартально", что для реестрового учёта и раскрытия совершенно недостаточно. Мало кто будет использовать такие открытые данные, а не идти в первоисточник.

Но, конечно, главный вопрос при публикации открытых данных в том а какие данные есть? Не видно что перед формированием списка органы власти проводили инвентаризацию того что у них есть и уже на основе сформированных списков определяли режим доступа к данным. Поэтому к списку много вопросов, что, впрочем, не отменяет того что очень хорошо что тема открытых данных в Республике Казахстан развивается и, хочется надеяться, что принципы открытости по умолчанию, свободного доступа к данным (без авторизации) и свободных лицензий найдут своё отражение в госполитике страны.


Ссылки։
[1] https://legalacts.egov.kz/npa/view?id=14317392
[2] https://adilet.zan.kz/rus/docs/P2100000774
[3] https://data.egov.kz
[4] https://taldau.stat.gov.kz/

#opendata #data #dataset #kazakhstan

Читать полностью…

Ivan Begtin

В рубрике больших открытых данных библиографические данные научных публикаций в коллекции Bulk Bibliographic Metadata [1]. В этой коллекции собраны полные дампы данных интегрированных в сервис Fatcat [2] из более чем 130 миллионов научных статей в открытом доступе.

Коллекция включает такие наборы данных как։
- полный дамп базы Postgres сервиса Fatcat (более 200 GB)
- дамп базы OpenLex
- дамп метаданных Datacite
- дамп метаданных Crossref
- дамп метаданных DOAJ
- дампы базы DBLP

А также многих других. В общей сложности это 13 терабайт в сжатом виде.

На их основе и построен упоминавшийся ранее проект scholar.archive.org

Ссылки։
[1] https://archive.org/details/ia_biblio_metadata?sort=-publicdate
[2] https://fatcat.wiki/
[3] https://scholar.archive.org

#opendata #datasets #openaccess

Читать полностью…

Ivan Begtin

Кстати, если Вы ещё не подписались на наш телеграм канал @ruarxive, то самое оно время. Не только новости про архивы и сам проект Национального цифрового архива, но и про другие проекты в цифровой гуманитаристики, архивации, сохранении современного культурного наследия

Читать полностью…

Ivan Begtin

Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.

Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en

#privacy #facerecognition #ai #algorithms #regulation

Читать полностью…

Ivan Begtin

В рубрике доступных открытых данных и инструментов работы с ними։
- Ensaio [1] инструмент с открытым кодом для работы с данными о геонауках․ Включает множество наборов наборов данных из проекта Fatiando a Terra [2]
- Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ) [3] набор данных и научная статья о решениях Постоянной палаты международного правосудия Лиги Наций, действовавшей с 1920 года по 1940 год. Данных не так много, 259 документов на английском языке и 260 на французском, но они хорошо структурированы.
- Human and economic impacts of natural disasters: can we trust the global data? [4] статья в Nature о том что невозможно до конца доверять данным о природных катастрофах потому что они недостаточно качественно собираются.
- Redesign and new features for data.europa.eu [5] европейский портал открытых данных готовят к обновлению. Много изменений обещают, главное в том что владельцы данных смогут публиковать их на портале напрямую, а не на национальных порталах открытых данных. А также в том что европейский портал приближается к научным порталам данных и будет поддерживать принципы FAIR.

Ссылки։
[1] https://www.fatiando.org/ensaio/v0.5.0/index.html
[2] https://github.com/fatiando-data
[3] https://zenodo.org/record/7051934
[4] https://www.nature.com/articles/s41597-022-01667-x
[5] https://data.europa.eu/en/news-events/news/redesign-and-new-features-dataeuropaeu

#opendata #readings

Читать полностью…

Ivan Begtin

Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics

Читать полностью…

Ivan Begtin

ТикТок анонсировали API для доступа к их аналитике исследователям/учёным [1]. Сами ссылки на API и форма запроса доступа, видимо, появятся позже, а сейчас с ними работают представители их Content and Safety Advisory Councils (общественных советов по контенту).

Ссылки:
[1] https://newsroom.tiktok.com/en-us/an-update-on-our-platform-api-for-researchers

#api #tiktok #transparency #data

Читать полностью…

Ivan Begtin

У Stable Diffusion, движка с открытым кодом для генерации изображений с помощью ИИ, вышла вторая версия [1] [2].

Среди возможностей:
- визуальное улучшение изображений в плохом разрешении
- развитая генерация изображений на основе изображений с сохранением структуры изображения
- улучшенная генерация изображений из текста
и ещё многое другое.

Если Вы ещё не пробовали Stable Diffusion, то определённо стоит попробовать.

Ссылки:
[1] https://stability.ai/blog/stable-diffusion-v2-release
[2] https://huggingface.co/stabilityai/stable-diffusion-2-base

#ai #opensource #datasets

Читать полностью…

Ivan Begtin

Для тех кто любит диаграммы и не любит рисовать их мышкой, декларативный язык программирования D2 [1] позволяет определить набором простых правил как необходимо отобразить нужные блоки диаграммы и получить нужную диаграмму автоматически.

Опубликовано с открытым кодом [2], может использоваться как утилита командной строки или как библиотека для языка Go.

Развивается стартапом Terrastruct [3] у которого есть облачный сервис генерации диаграмм. Стартап существует с 2019 года, а код D2 они выложили месяц назад. Выглядит он довольно зрелым и похож на внутреннюю разработку выложенную в открытый доступ и открытый код.

Ссылки:
[1] https://d2lang.com
[2] https://github.com/terrastruct/d2
[3] https://terrastruct.com/

#opensource #diagramming #datatools #programming

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities

Читать полностью…

Ivan Begtin

Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency

Читать полностью…

Ivan Begtin

Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.

Поэтому, мой аккаунт в Mastodon ibegtin" rel="nofollow">https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.

На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке ibegtin" rel="nofollow">https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com

#blogging

Читать полностью…

Ivan Begtin

В дополнение к новости про архив отчетов Счетной палаты [1], копия отчетов загружена в Интернет архив [2], это будет удобнее тем кто хочет скачать их одним файлом. Там же набор данных с метаданными и ссылками на документы отчетов. Структура директорий в файле с отчетами воспроизводит структуру сайта Счетной палаты, поэтому можно по каждой ссылки из набора данных найти нужный сохранённый файл.
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде

Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].

Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.

Может быть можно ещё для чего-то.

Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.

Ссылки։
[1] /channel/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks

#opendata #datasets #government

Читать полностью…

Ivan Begtin

Минюст опубликовал единый реестр иностранных агентов [1] в виде PDF файла в 15 страниц и 493 записи. Не буду комментировать странности ведения и публикации этого реестра в PDF файле и тем более его содержание.

В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.

Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf

#opendata #dataset

Читать полностью…

Ivan Begtin

К предыдущему посту прилагаю CSV файл с перечнем открытых данных подлежащих публикации в РК. Список был почищен от опечаток и структурирован для самостоятельного анализа. Может кто-то захочет сравнить его со списком из прошлого постановления Пр-ва РК.

#opendata #data #kazakhstan #datasets

Читать полностью…

Ivan Begtin

PeaceTech (мирные технологии, технологии мира) Новая тема в проектах в области гражданских технологий (civic tech). О них пишут в блоге The GovLab [1] и им посвящён GlobalPeaceTechHub [2] проект EUI School of Transnational Governance и
University of Lucerne вместе с The GovLab ещё в 2021 г.

Основная идея в применении технологии для предупреждения, минимизации последствий военных конфликтов и достижения мира. В качестве примера, ожидаемо, упоминается конфликт на Украине, но явным образом им не ограничивается.

Что характерно, обычно проекты The GovLab финансировались грантами международных фондов или гос-ва, а в данном случае спонсор Kluz Ventures [3] венчурный фонд финансирующий проекты наблюдения за Землёй (спутники) и проекты с ИИ.

Почему это любопытно, поскольку в темах мероприятий по PeaceTech явно звучат вопросы этики данных и ИИ в таких направлениях как "Data as a Weapon" и "Weaponization of ML/AI Learning".

Ссылки։
[1] https://blog.thegovlab.org/post/launch-what-is-peacetech
[2] https://www.globalpeacetech.org/
[3] https://www.kluzventures.com

#ai #civictech #peacetech #opendata #data #regulation

Читать полностью…

Ivan Begtin

⚡️Новый сервис от Internet Archive: scholar.archive.org

Этот полнотекстовый поисковый индекс включает в себя более 25 миллионов научных статей и других научных документов, хранящихся в Архиве Интернета.

Метаданные поступают из fatcat.wiki — открытого каталога научных работ.

Подробнее о сервисе: https://scholar.archive.org/about.

Читать полностью…

Ivan Begtin

Как, возможно, многие обратили внимание я не размещаю рекламу в моём телеграм канале @begtin, а всем кто общается с подобным выставляю нереальный ценник.

Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.

Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.

Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.

#fundraising #projects #blogging

Читать полностью…

Ivan Begtin

Результаты опроса. В итоге видно что уровень доверия в России Росстату (и не только) весьма и весьма низок. Впрочем, ничего неожиданного.

Читать полностью…

Ivan Begtin

Иногда поражает какие стартапы получают финансирование, например, стартап OneSchema [1] автоматизирует загрузку и проверку CSV файлов. Основатели позиционируют свой продукт как the embeddable CSV importer for developers и получили недавно $6.3 миллиона инвестиций от нескольких венчурных фондов.

Лично мне эта задача всегда казалась слишком маленькой чтобы её стоило или было бы важно автоматизировать. Но, нет, оказывается венчурные фонды думают иначе.

Это хороший пример небольшого, но очень точного продукта для работы с данными решающего очень узкую задачу и оказавшегося востребованным.

Ссылки:
[1] https://www.oneschema.co
[2] https://www.oneschema.co/blog/oneschema-announces-6m-fundraise

#datatools #startups #data #csv

Читать полностью…

Ivan Begtin

Забавный текст и термин уютные данные или cozy data [1] за авторством Zach Musgrave в блоге Dolthub. Идея очень проста, в том что cozy data это такой антоним big data. Это такие данные которыми ты занимаешься как хобби, вроде личной картотеки личной коллекции бабочек или результативности игроков в настольный теннис. Иначе говоря это небольшие по объёму, хорошо структурируемые и лично курируемые данные над которыми, как правило, работает один человек, реже больше.

Если не считать того что автор бесстыдно рекламирует Dolthub сама концепция весьма интересная. Cozy дата в этом смысле - это бесконечно число баз в Excel и Access созданное за десятки лет. Частично их создатели перебрались в Google Sheets и Airtable, но далеко не все.

Для тех кто живёт в мире уютных данных главным недостатком онлайн сервисов является подписочная модель оплаты. Я больше поверю в развитие продуктов вроде Strapi и Directus именно для таких пользователей.

Но, кто знает, быть может кто-то ещё сможет создать гармоничное сочетание гибридного клиент-серверного аналога Access'а когда от потери доступа к онлайн сервису доступ к своим данным потерян не будет.

Ссылки:
[1] https://www.dolthub.com/blog/2022-11-18-cozy-data/

#data #datatools

Читать полностью…

Ivan Begtin

Группа исследователей в области инфобеза выяснили что сервис аналитики компании Apple, так и называется Apple Analytics, собирает персонально идентифицирующую информацию о пользователях [1].

В передаваемых данных там есть параметр "dsId" который они проверили и подтвердили что он является "Directory Services Identifier”, уникальный идентификатор аккаунта iCloud, хотя в условиях использования Apple фигурирует что [2] None of the collected information identifies you personally.

Ждём опровержений, исков к Apple, расследований регуляторов в ЕС и США.

Ссылки:
[1] https://twitter.com/mysk_co/status/1594515229915979776
[2] https://www.apple.com/legal/privacy/data/en/device-analytics/

#privacy #security #apple #surveillance

Читать полностью…

Ivan Begtin

В The Verge статья [1] о том что Элон Маск собирается перезапустить механизм прямых сообщений в Twitter и дать возможность обмениваться зашифрованными сообщениями, аудио и видео и тд. И даже собираются сотрудничать с командой Signal в этой задаче. Звучит как конкурент как раз Signal, WhatsApp, Telegram (?), но от Элона Маска.

Может ли Twitter пройти такое преобразование? Почему бы и нет, тогда и логика с платностью аккаунтов и премиумом будет иметь больше пространств для расширения возможностей.

Иначе говоря, если Twitter сможет превратиться аналог в Telegram, то у Telegram՛а появится сильный конкурент. Хотя о чём я, скорее Telegram станет ещё более прямым аналогом Twitter'а ;)

Ссылки:
[1] https://www.theverge.com/2022/11/21/23472174/twitter-dms-encrypted-elon-musk-voice-video-calling

#twitter #telegram #tech #privacy

Читать полностью…

Ivan Begtin

В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.

Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.

А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).

Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.

Ссылки:
[1] https://www.rasgoml.com/

#startups #data #datatools #dataengineering #datacatalogs

Читать полностью…

Ivan Begtin

Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] /channel/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu

Читать полностью…

Ivan Begtin

Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.

Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196

#opensource #readings #datatools #data #ai

Читать полностью…
Подписаться на канал