begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Развитие единой системы предоставления госуслуг на «платформе ГосТех» в срок до 1 июля 2023 года не представляется возможным, в связи с чем необходим перенос срока до 1 июля 2024 года.

Минцифры России разработан соответствующий проект постановления Правительства

Единственный ли это срок, который переносят на год🧐

Читать полностью…

Ivan Begtin

В рубрике открытых данных о которых почти никто не знает. Один из малоизвестных типов каталогов данных за пределами профессионального сообщества - это IPT: The Integrated Publishing Toolkit [1] специально ПО используемое ботаниками, биологами для публикации открытых наборов данных интегрированных в международный проект GBIF (Global Core Biodata Resource).

В России есть множество инсталляций IPT, например, от Зоологического института в СПб [2] и Югорского госуниверситета [3]. Его инсталляции есть даже в Иране [4], а все данные из IPT агрегируются в поиск GBIF где уже более 85 тысяч наборов данных

Некоторые инсталляции IPT по странам находятся в других странах. Например, IPT по Армении [5], поэтому поиск по наборам данных помогает найти данные даже по тем странам где инсталляции IPT формально отсутствуют.

Все данные публикуются под свободными лицензиями, как правило CC-BY

Всё это о том что значительная часть открытых данных в мире находится не на поверхности, неизвестна широкой публики и имеет, преимущественно, узкоотраслевое применение.

Но они есть и их очень много.

Ссылки:
[1] https://www.gbif.org/ipt
[2] http://ipt.zin.ru:8080/ipt/
[3] http://ipt.ugrasu.ru:8080/
[4] http://217.11.23.22/ipt/
[5] https://www.gbif.org/dataset/search
[6] https://armenia.ipt.gbif.no/

#opendata #openaccess #openscience #biology #plants

Читать полностью…

Ivan Begtin

Читаю интересный лонгрид из выступления Брюса Шнайера на тему Rethinking democracy for the age of AI [1] на конференции RSA в Сан-Франциско 25 апреля 2023 г. Прочитать его рекомендую всем кто думает о ИИ не только с технико-прикладной стороны применения языковых моделей, но и социальных последствий. Серьёзный вопрос который есть в его выступлении в том могут ли существовать капитализм и демократия в текущей форме когда развитие ИИ может снова вернуть возможности централизованного планирования, без социальных перегибов, и, возможно, исправить наиболее неэффективные стороны капитализма.

Речь там, конечно, не только об этом, но и о переосмыслении демократий и парламентских систем возникших ещё в индустриальную эпоху. Размышления гораздо более актуальные чем могу показаться с первого взгляда.

И, взгляд с другой стороны, о других социальных последствиях. Развитие ИИ сейчас, в виде языковых моделей, идёт по пути их создания на доступных языковых корпусах. Поэтому они есть для наиболее популярных (коммерчески востребованных) языков и отсутствуют для тех по которым нет или слишком мало текстов, нет языковых корпусов для обучения и тд.
Важный вопрос - судьба "малых и средних языков". Что должны предпринимать правительства стран для сохранения своей языковой культуры? И должны ли вообще?
Есть пример Испании инвестирующей большие ресурсы в испаноязычные языковые модели на государственном уровне, есть похожее в ряде развитых стран и почти ничего про страны экономически и культурно уязвимые. Лично мне пока не попадались исследования и выступления на эту тему, но рано или поздно кто-то должен об этом начать говорить.

Возвращаясь к выступлению Брюса Шнайера, я склоняюсь к тому что регулирование ИИ будет стремительно ужесточаться по всему миру в ближайшие даже не годы, а месяцы.

Ссылки:
[1] https://readwise.io/reader/shared/01h0482q0hkka4hhyhd9qtq9j5/

#readings #ai #government

Читать полностью…

Ivan Begtin

В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.

В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.

В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.

Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.

Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #dataportals #metadata

Читать полностью…

Ivan Begtin

В рубрике как это работает у них Платформа геоданных Малави [1] африканской страны с 16 миллионным населением и довольно небольшой экономикой.

Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.

На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.

И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].

Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.

Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/

#opendata #geodata #malawi #africa #dataportals

Читать полностью…

Ivan Begtin

По поводу перевода сайтов российских госорганов в доменную зону .gov.ru я вначале с большим недоумением прочитал что российские СМИ вообще считают это инфоповодом и активно об этом пишут. Потом я вспомнил про те масштабные ротации и кризис в российских СМИ в последние годы и недоумение пропало, но ситуация от этого менее идиотской не стала.

Я много лет веду реестр всех российских госсайтов, его публичная часть в репозитории на Github [1] и есть ещё непубличная часть в таблице в Airtable и я слишком хорошо знаю сколько и какие домены госорганы используют в работе, где они хостятся и так далее.

Перевод сайтов сайтов в зону .gov.ru обсуждался ещё 10-15 лет назад, и не так давно, пару-тройку лет назад, предпринимались усилия по переносу многих сайтов госорганов, большую часть с той поры перенесли, но не все.

Перенос домена сайта госоргана в зону .gov.ru - это вопрос скорее эстетический, по принципу "почему у всех правильно, а тут нет?", меня тоже всегда раздражало что сайты многих госорганов и госинициатив надо искать. Неудобно же!

Но, тут важно помнить, что нахождение сайтов госорганов в одной доменной зоне может иметь всего два практических смысла:
1. Большее доверие сайтам госорганов в ситуации когда есть "сайты обманки" или каким-то образом возникали ситуации недоверия. Это не то чтобы часто является проблемой, но иногда важно.
2. Возможность архивации сайтов госорганов автоматизированными краулерами. Так, например, устроено в Великобритании, где Национальный архив архивирует все сайты в зоне .gov.uk каждый час. Это называется UK Government Web Archive [2] и такие же инициативы есть в десятках стран, во всех странах где есть думают о будущем, я бы сказал.

Про практический смысл, первый пункт в России не актуален, а второй до сих пор ни в какой форме не реализован. Я за все эти годы не увидел ни одной инициативы внутри российского государства по архивации хотя бы собственных принятых решений. Хочется иронично спросить, как же так, если за то что делаете не стыдно, то сохраняйте для потомков, а если так стыдно что не сохраняете, то может и не делать? Поэтому если кратко, все инициативы по архивации сайтов госорганов в России сейчас гражданские, вроде нашего Национального цифрового архива [3]

Остаётся эстетический смысл исключительно который выглядит так что кто-то хочет обсудить цвет двери которую уже сорвало с петель и порвало на части. Важно ли что эта дверь была зёленая? Может быть салатово-фиолетовой ей было бы быть лучше? Иначе говоря на фоне повсеместного постепенно закрытия госданных, исчезновение ключевой информации с сайтов госорганов, изначальная непрозрачность множества инициатив, де-факто разрушение российской журналистики и исчезновение возможности журналистам получать содержательные ответы от госорганов, и при этом говорить про госдомены в зоне .gov.ru ? Самое близкое к этому - это публичное рукоблудие. Общественное внимание привлекает, смысла не имеет, приличия тоже.

Лично мне нет никакой разницы находится ли сайт криминальной статистики crimestat.ru в зоне .gov.ru или нет если он более не обновляется. Нет разницы находится ли национальный портал открытых данных data.gov.ru в зоне .gov.ru или нет, если он закрыт, и судя по сумбурности представителей Минэка, надолго если не навсегда и так далее.

В истинном золоте блеска нет и двулично говорить о том что надо делать хоть что-то что можно в текущей ситуации. Просто не надо тратить время на эту ерунду. Я вот немного потратил его, о чём уже жалею, и написал про это всё и больше не буду.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://www.nationalarchives.gov.uk/webarchive/
[3] https://ruarxive.org

#government #transparency #websites #opendata #opengov

Читать полностью…

Ivan Begtin

Очень забавный по подаче проект карты Github'а [1] с визуализацией 400,000+ Github репозиториев.

Автор собрал базу в 350 миллионов лайков ("звездочек" в Github) и подсчитал коэффициент Жаккара для всех репозиториев и собрал кластеры репозиториев и далее оформил в интерактивную карту. Многие делали разные базы и визуализации Github, но вот эта, пожалуй, особенно неплоха.

Например, я там нашёл "полуостров открытого кода для публикации открытых данных" (CKAN, Dataverse и тд). Там видны довольно чёткие кластер по ИИ и данным и так далее.

Практического применения этому пока не видно, но как визуализация вполне неплохо.

Ссылки:
[1] https://anvaka.github.io/map-of-github/

#opensource #dataviz #github

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.

Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.

Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.

Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.

Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования

Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings

#opendata #datasets #microsoft #geospatial

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu

Читать полностью…

Ivan Begtin

Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.

Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.

Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.


Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916

#opensource #datacatalogs #metadata

Читать полностью…

Ivan Begtin

В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, http://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.

По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.

Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork

#opendata #geodata #belarus #datacatalogs

Читать полностью…

Ivan Begtin

They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽

На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.

По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.

Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.

Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.

Рекомендуем к просмотру!

Читать полностью…

Ivan Begtin

The Guardian: WhatsApp может покинуть рынок Великобритании из-за нового законопроекта

– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK

@ftsec

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.

- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.

- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.

- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.

- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.

Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/

#readings #data #tech

Читать полностью…

Ivan Begtin

Часть 1 из 2

Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].

А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.

Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.

Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.

1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.

2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".

3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.

Читать полностью…

Ivan Begtin

Я про российский ГосТех пишу мало не потому что за ним не слежу, а потому что "что тут писать когда всё понятно?". Надо понимать что срок переноса Госуслуг на ГосТех не временный, а единственный сценарий при котором Госуслуги будут на Гостехе - это если Ростелеком переподчинят Сбербанку или Сбербанк Ростелекому. Но как бы помягче, сценарий такой маловероятен.

Что я могу точно сказать, так после глобальной пиар акции Пр-ва по продвижению ГосТеха вывод можно сделать один продукт настолько говно несовершенен что нужны административные ресурсы на уровне главы Пр-ва чтобы продавить его использование что на федеральном уровне, что у субъектов федерации. Это очень и очень печально и на месте команды ГосТеха я бы крепко напрягся (хотя может они уже а я и не знаю?) потому что главные бенефициары тех или иных госинициатив вылезают на свет выходят на сцену только когда ситуация находится в серьёзном внутреннем кризисе.

Ещё много лет назад, мне знакомые прокуроры объясняли как всё работает. Топов никогда не привлекают к ответственности по иным причинам кроме политических, а вот средний менеджемент подписывающий документы прекрасно попадают под определение всё продолбали ввели руководство в заблуждение. Триггером будет когда хоть кто-то на высшем уровне заговорит о том какая же замечательная идея ГосТех, но в этот раз не получилась, но мы от неё не откажемся. После чего будут искать виноватых. А тут срабатывает правило любой авантюры, тот кто в команде не знает кто за это будет сидеть, тот и главный кандидат;)

Как мне в кулуарах говорили уважаемые люди на российском рынке, если тебя в ГосТех позовут работать и тебе деньги ну очень нужны, то стоит идти, только ничего не подписывай!.
Мне печально лишь наблюдать, не в первый раз, о том что вначале много лет учишь тому как госинформатизация происходит в мире, а потом она реинкарнирует в России в наиболее извращённой местной форме.

#government #regulation #it #russia #govtech

Читать полностью…

Ivan Begtin

Кратко об открытых данных в Санкт-Петербурге: 3 новых набора данных за 2022-2023 гг

Раз уж пришлось погрузиться в обдумывание идей «Цифровых сервисов» для Санкт-Петербурга, решила заодно посмотреть, что же стало с «Порталом открытых данных», который в марте 2021 года объединили с Системой классификаторов Санкт-Петербурга (до сих пор непонятно, почему Портал ОД является подмножеством Системы классификаторов, но там так интересно все устроено, что об этом будет отдельный пост).

На запрос об «упразднении Портала» Правительство Петербурга ответило: «публикация всех актуальных данных и доступ к уже опубликованным ранее теперь происходят на одном ресурсе». Кстати, спустя два года на сайте Комитета по информатизации нет упоминания о том, что ГИС «Открытые данные Санкт-Петербурга» упразднен, а посвященная ему страница есть.

Что изменилось за два года?

- «исторические» метаданные всех наборов, опубликованных до 2021 года утеряны. Все наборы перенесены с датой версии (первой публикации?) от марта 2021 года. Что было до - не восстановить;

- в паспорте набора нет ни одной даты: невозможно узнать дату актуализации, дату обновления набора данных, дату первой публикации набора данных. Для поиска всех наборов, опубликованных в первые в 2022-2023 году, мне пришлось вручную пройтись по внутренним вкладкам каждого набора данных;

- единственная доступная дата - «дата создания версии». Не нашла на портале, что имеется в виду: Дата выгрузки набора данных из информационной системы? Дата загрузки набора данных на Портал открытых данных? Дата актуальности?

- за 2022-2023 год опубликовано 3 новых набора данных: список светофорных объектов, торговый реестр, внутридворовые спортивные площадки Санкт-Петербурга. Все. В 2020 году на сайте было 194 набора данных, сейчас - 198.

- какие-то старые наборы данных обновляются, некоторые даже регулярно. Но без метаданных их использование затруднительно.
То есть формально Портал открытых данных объединен с Системой классификаторов СПб, но фактически работа над ним не ведется, новые данные не загружаются. Ожидаемо.

При этом в Петербурге есть уникальные и интересные системы, работа над которыми активно ведется: Портал API для разработчиков; Система классификаторов (не в части Портала ОД); Реестр ГИСов Санкт-Петербурга. Жаль, что Порталу открытых данных так «не повезло».

#открытыеданные #спб #системаклассификаторов #открытость

Читать полностью…

Ivan Begtin

Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.

Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].

Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th

В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.

Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en

#opensource #opendata #geodata #dataportals

Читать полностью…

Ivan Begtin

Свежая статья о том кто контрибьютит открытый код в мире [1]. Авторы изучили вклад 43 миллионов человек в 160 миллионов проектов включая репозитории кода с 1971 года. Собственно авторы Rossi и Zacchiroli одни из основателей и участников французского проекта по архивации исходного кода Software Heritage, где эти данные с кодом и собираются и накапливаются. Можно увидеть что большая часть контрибьторов происходят из США и Европы и значительная доля уже у Южной и Центральной Америки.

У России там что-то около 5%, малых стран по отдельности нет, они попадают в макро-группы.

И в том же контексте, исследование октября 2021 года про региональность OSS разработчиков [2], часто несвязанную с концентрацией ИТ компаний/специалистов. Там внутри есть и по странам, и по Европе отдельный фокус. Пропорциональность они считали по числу OSS разработчиков на 100 тысяч человек и использовали только данные Github.

Ссылки:
[1] https://dl.acm.org/doi/pdf/10.1145/3524842.3528471
[2] https://arxiv.org/pdf/2107.03200.pdf

#opensource #readings

Читать полностью…

Ivan Begtin

🇪🇺Европарламент принял поправки к закону об ИИ.

В Европарламенте приняли первые в истории правила для искусственного интеллекта. Правила придерживаются риск-ориентированного подхода, и устанавливают обязательства для поставщиков и пользователей в зависимости от уровня риска, который может генерировать ИИ.

Запреты установлены на следующие использование систем ИИ:

- Системы удаленной биометрической идентификации “в реальном времени” в общедоступных пространствах;
- Системы биометрической категоризации, использующие чувствительные характеристики (например, пол, раса, этническая принадлежность, статус гражданства, религия, политическая ориентация);
- Системы прогнозирования полицейской деятельности (на основе профилирования, местоположения или прошлого преступного поведения);
- Системы распознавания эмоций в правоохранительных органах, управлении границами, на рабочих местах и в учебных заведениях; и
- Неизбирательное удаление биометрических данных из социальных сетей или видеозаписей с камер видеонаблюдения для создания баз данных распознавания лиц (нарушение прав человека и права на неприкосновенность частной жизни).

Также правила предусматривают обязательства для поставщиков базовых моделей - таких как GPT, дополнительные требования прозрачности, в частности раскрытие того, что контент был сгенерирован ИИ.

Читать полностью…

Ivan Begtin

Интересный текст Silicon Valley’s Civil War [1] от Nadia Asparouhova о контрэлите из Кремниевой долине. Контрэлита, в данном случае, это совокупный образ сверхбогатых техно-олигархов вроде Маска или Цукерберга провопоставляемых условно "классической элите", а в данном случае автор ещё и сопоставляет их с Давосским форумом, как совокупное представление элиты.

В тексте хорошие примеры очень быстрой реакции именно контрэлиты в лице Ryan Petersen из Flexport по личному анализу проблем с доставкой во время COVID-19 и про Patrick Collison, сооснователя Stripe, который в течение недели собрал и раздал грантов на $50 миллионов учёным исследующим COVID-19 и долго ожидающим начала финансирования от National Institute of Health в США.

Текст, кстати, во многом объясняющий столь контрастную реакцию на деятельность Элона Маска, он довольно яркий представитель контр-элиты. В статье есть также противопоставление поколенческое и, возможно, им же можно объяснить этот термин контр элит, но важное отличие именно представителей контр элиты в индивидуализме, собственном восприятии мира и готовностью менять мир.

В итоге текст интересный, как минимум дающий дополнительный взгляд на происходящее

Ссылки:
[1] https://www.tabletmag.com/sections/news/articles/silicon-valley-civil-war

#readings #tech

Читать полностью…

Ivan Begtin

Я периодически читаю и слышу вопросы на тему где найти данные о xxx по стране yyy? В сообществах по открытым данным это самый частый вопрос, второй по частоте это где найти бесплатные данные о xxx ? Это когда автор вопроса данные уже нашёл, но платить не готов или не готов платить то за сколько данные продают самые очевидные продавцы.

Так вот про то где искать данные я уже неоднократно писал, например в рассылке в публикации Где искать данные?[1] и с тех пор список рекомендаций регулярно пополняется.

И вот ещё несколько таких пополнений:
- Geolode [2] открытый каталог открытых геоданных. Включает как ссылки на порталы геоданных, так и ссылки на конкретные большие базы георесурсов. Из плюсов - весь каталог машиночитаемый и все записи помечены темами и кодами местонахождения. Из минусов - многие записи устарели и описания имеющихся очень короткие. Тем не менее полезный инструмент когда Вы ищите геоданные привязанные к конкретной территории, можно найти очень неочевидные источники

- DataShades [3] каталог инсталляций портала открытых данных CKAN. CKAN не единственный, но самый популярный движок для открытых данных и в его инсталляциях в нужных странах можно найти довольно много интересного.

- Open Data Inception [4] большой каталог каталогов данных от OpenDataSoft. Они там, конечно, врут про 2600+ каталогов данных, там очень многие ссылки - это ссылки на законы, госполитику, отдельные датасеты и тд. Так что верить им нельзя, но есть и вполне полезные ссылки.

Эти ресурсы не являются поисковиками по данным, а скорее являются метакаталогами источников данных. Полезными при ручном поиске нужных данных в привязке к конкретным странам.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://geolode.org
[3] https://datashades.info
[4] https://opendatainception.io
[5] https://github.com/commondataio/dataportals-registry

#opendata #datadiscovery

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.

Из интересного, на портале реализован довольно полезный раздел аналитики [2].

Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.

Всё это о том что не надо ждать милости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.

Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland

#opendata #datasets #uk #scotland

Читать полностью…

Ivan Begtin

В рубрике полезного чтения про данные, технологии и не только:
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.

- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.

- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.


Ссылки:
[1] hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d" rel="nofollow">https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/

#data #datatools #readings #etl

Читать полностью…

Ivan Begtin

Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.

И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.

Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf

#surveillance #izrael #privacy

Читать полностью…

Ivan Begtin

В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)

Читать полностью…

Ivan Begtin

В рубрике неочевидных источников информации и наборов данных о порталах данных о которых многие могут не подозревать.

Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.

Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.

Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].

Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.

Ссылки:
[1] /channel/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia

#opendata #geodata #datasets #datacatalogs

Читать полностью…

Ivan Begtin

Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.

Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/

#opendata #openaccess #openscience #spain #eu

Читать полностью…

Ivan Begtin

Часть 2 из 2.

4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.

5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.

6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.

7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.

8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени

Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr

#opendata #commondataindex #datacatalogs #dataportals #datasets

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных платформа открытых геоданных по Кавказу [1] от UN Environment Programme/GRID-Geneva

118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.

В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.

Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]

Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.

Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.

Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)

Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/

#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets

Читать полностью…
Подписаться на канал