10. Из массовых потребностей о которых никто почти публично не говорит - это полная закрытость и торговля государства геоданными. В большинстве развитых стран сейчас наоборот геоданные максимально общедоступны. Государства не монетизируют их, а раздают в удобных форматах потому что от их доступности есть прямой и очевидный экономический эффект для всех. Может ли государство Российское сделать общедоступными Фонды пространственных данных? Могло бы, если бы было способно.
11. Аналогичная ситуация с сотнями крупнейших государственных информационных систем по которым нет внятной госполитики кроме "никому ничего не давать, а то как бы чего не случилось чего мы даже не знаем".
12. Впрочем, в текущих реалиях см пункт 8. Попытки пр-ва собирать госпроекты развития в ситуации де-факто военной экономики выглядят заведомо провально.
(часть 2/2)
#opendata #russia #regulation
После моего выступления на SmartData чуть ли не большая часть вопросов, во всяком случае существенная, была про семантические типы данных. Я много писал про них ранее. Для тех кто не читал или подзабыл, семантические типы данных - это когда полям таблицы или дата-файла добавляется идентификатор характеризующий содержание этой колонки/полня с данными.
Например, не просто колонка со строкой, а колонка с полными ФИО человека, или колонка с названием страны, или города, или кодом организации и так далее. Это нужно для многих задач, самая распространённая из которых - выявление персональных данных в базах данных.
И напомню про инструмент metacrafter [1] который ещё 2 года назад я выкладывал в открытый код и в котором реализована идентификация семантических типов.
Инструмент работает через набор правил описываемых в YAML файлах и ссылающихся на реестр семантических типов [2].
Правила отличаются от очень простых, до довольно сложных. Простые сводятся к соответствие 1 к 1, сложные к комплексным регулярным выражениям и описанию правил скриптами или кодом для pyparsing [3].
pyparsing - это, кстати, реальная находка для таких задач поскольку конечные автоматы описанные этой библиотекой работают гораздо быстрее регулярных выражений в Python и выглядит более читабельно через регулярные выражения, хотя и длиннее.
Пример: Word(nums, exact=3) + Literal('-').suppress() + Word(nums, exact=1) + Literal('-').suppress() + Word(nums, exact=2) + Literal('-').suppress() + Word(nums, exact=6) + Literal('-').suppress() + Word(nums, exact=1)
Этот код для идентификации кодов для ISBN13, а сами правила можно посмотреть в репозитории [4].
Инструмент работает как библиотека для Python и как утилита командной строки. Поддерживает файлы в форматах CSV, JSON, NDJSON, Parquet, XML, и базы SQL и MongoDB.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.apicrafter.io
[3] https://github.com/pyparsing/pyparsing/
[4] https://github.com/apicrafter/metacrafter/tree/main/rules
#opensource #datatools #metacrafter
Для тех кто будет сегодня в Москве или в онлайне на конференции Smart Data 2023 напоминаю что я буду там выступать в 11:30 с докладом Common Data Index. Как построить поисковую систему по открытым данным такую же, как Google Dataset Search, но проще и быстрее [1]
Тема будет довольно необычной, систем поиска общедоступных данных в мире не так много, я буду рассказывать как про предметные, так и про технические сложности в её построении. Через какое-то время будет доступна и презентация, но, конечно, я в выступлении рассказываю значительно больше того что остаётся в слайдах.
Ссылки:
[1] https://smartdataconf.ru/talks/6d6d864c6f5840a491d1f7921e7b79c7/
#opendata #events #datasearch
В рубрике как это работает у них Национальная платформа общественных геопространственных сервисов Китая [1] включает:
- онлайн карты на сайте
- API для данных и геокодирования
- API по стандартам OGC: WMTS и другие
- API для встраивания в сайты
- каталог слоёв карт и данных
- подпорталы и каталоги геоданных для каждой из провинций Китая
Портал поддерживается National Geomatics Center of China находящемся в подчинении у Министерства природных ресурсов КНР.
Непонятно на каком движке сайт работает, скорее этой какой-то самописный/самостоятельный продукт.
В Китае довольно мало открытых стандартизированных API для геоданных, но есть общедоступный ArcGIS сервер компании Geoq [2] который упоминают китайские геоаналитики в своих обзорах.
Ссылки:
[1] https://www.tianditu.gov.cn
[2] https://map.geoq.cn/arcgis/rest/services
#opendata #geodata #china #datasets
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.
Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.
Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].
А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.
Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me
#data #research #readings #eu
В качестве вот уже регулярного вынужденного отвлечения на российское регулирование, меня недавно несколько изданий расспрашивали про то на что повлияет инициатива НПА от Минцифры про запрет и блокировки публикаций о том как обходить блокировки. Это, несомненно, такая же вредная инициатива как и многочисленные законы и законопроекты расширяющие государственную цензуру, но одновременно оно же и весьма бессмысленное, на текущей стадии.
Во первых о том как обходить блокировки могут быть совершенно невинные тексты просто о том как устроены VPN и какие продукты существуют. Нет-нет, не призывая их использовать, просто рассказать о них.
Во вторых пишут о VPN сервисах достаточно часто на русском языке те кто в российской юрисдикции никогда не находился или не находится уже давно.
И, наконец, в третьих пока не заблокировали Google, нет шансов что этот запрет будет хоть как-то эффективен.
Я же хочу обратить внимание и ещё раз сделать ключевой акцент, на том что самое неприятное это гораздо менее активно обсуждаемое насаждение госприложений и приложений компаний находящихся под прямым или опосредованным государственным контролем. В частности это касается магазина приложений RuStore.
Почему это опасно? Потому что главный, ключевой и наиболее серьёзный барьер к тотальной слежке - это отсутствие контроля за конечными устройствами. Это то что есть у глобальных корпораций и то чего нет у большинства государств. Обязательные госприложения, с системными правами, например, для просмотра установленного ПО или доступа к сетевой активности, могут в любой момент быть использованы против пользователя, а на постоянной основе создавать дополнительный контур слежки. Я сознательно не хочу описывать сценарии как это можно делать, но исключать такие сценарии нельзя.
Это как с российским корневым сервером для выдачи сертификатов для доступа к сайтам. Очень и очень плохая затея для конечных пользователей.
#privacy #security #regulation
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
Предпосылки для развитого сектора высоких технологий в Армении были всегда. К сожалению, удручающая экономическая ситуация 1990-х и утечка мозгов привели к растрате мощного потенциала, но, судя по темпам развития IT-сектора в Армении, инновационное мышление и профессиональные знания и навыки, передававшиеся из поколения в поколение, лишь ждали своего часа, чтобы проявиться снова.
Сегодня хотим поделиться с вами прекрасным проектом IT-музея DataArt – виртуальной выставкой «Математические машины Армении». Выставка повествует об армянских инженерах-электронщиках и вычислительной технике, созданной ими во второй половине XX века. Авторы проекта наглядно показывают важность разработок армянской столицы для технологического развития различных сфер жизни всей Восточной Европы. Ереванский научно-исследовательский институт математических машин разработал первую в СССР автоматизированную систему продажи ж/д билетов, самую сбалансированную машину международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Обо всём этом в переплетении с человеческими судьбами и культурой и атмосферой Еревана и Армении вы узнаете на онлайн-выставке.
Не все знают что в Шотландии до сих пор действует закон 1491 года об общественном имуществе The Common Good Act 1491 [1]. Язык его ещё не современный английский, читать его непросто несмотря на краткость, важно знать что он определяет то что местные советы в Шотландии ведут учёт общественного имущества, движимого и недвижимого, отдельно от учёта всего остального. К общественному имуществу относятся многие земли, здания и, например, картины.
Шотландские общественники сделали сайт Commongood.scot [2] с единым реестром такого имущества.
Сейчас там всего 2960 объектов, доступных на карте, в поиске и в виде открытых данных в формате CSV.
Ссылки:
[1] https://www.legislation.gov.uk/aosp/1491/19/contents
[2] https://commongood.scot/
#opendata #uk #scotland
Привет! Это Арнольд Хачатуров, руководитель проекта «Если быть точным». Сегодня важный день, к которому мы готовились последние несколько месяцев. С 1 сентября 2023 года «Если быть точным» — независимый проект.
Почему мы отделяемся. Это было совместное решение нашей команды и коллег из фонда. Мы остаемся партнерами и хорошими друзьями, но дальше каждый пойдет своей дорогой.
За последние годы «Если быть точным» вырос из первоначальных рамок. Когда-то мы концентрировались на том, чтобы помогать некоммерческим организациям принимать решения с опорой на данные: развивали крупнейший в России каталог НКО, оценивали динамику благотворительных пожертвований и измеряли эффективность помощи.
Всем этим продолжит заниматься фонд «Нужна помощь», а мы ставим перед собой другую цель — сохранение и развитие открытых данных в России. Мы продолжим рассказывать о социальных проблемах и продвигать экспертную дискуссию с опорой на данные, но будем делать это для более широкой аудитории.
Что будет дальше. Открытые данные тают на глазах — минимум 17 ведомств скрыли важные показатели. Официальный портал открытых данных России отправили «на доработку» на неопределенный срок. Социальных проблем при этом меньше не становится.
Даже в этих условиях мы находим способы, как сделать статистику более доступной. Например, недавно мы опубликовали данные о загрязнениях воздуха в российских населенных пунктах, которые скрыл Росприроднадзор, а еще сделали инструмент для выгрузки данных с 2,5 тысяч сайтов российских судов, которым может воспользоваться любой желающий.
Чтобы развиваться и достигать своих целей, нам нужна ваша помощь. Мы больше не проект фонда, а это значит, что теперь мы финансируем себя самостоятельно. Конечно, это волнительно, но мы знаем, что у нас есть вы.
Поддержите нас, оформив регулярное пожертвование на Boosty (рубли) или на Patreon (валюта). В будущем мы откроем больше возможностей для тех, кто хочет помочь. Но прямо сейчас нам нужно убедиться, что мы сможем работать дальше — за счет вашей поддержки.
В качестве регулярного напоминания, хотя я в последние годы делаю проекты не только в России, но и в Армении, а также некоторые глобальные, но АНО Инфокультура от лица которого наша команда создавала проекты по открытости в России всё ещё действует и, несмотря на все ограничения, действовать будет дальше, как я надеюсь, во всяком случае.
Мы продолжаем и поддерживаем такие проекты как:
- Госзатраты [1] агрегатор всех государственных и муниципальных контрактов по 44-ФЗ. 223-ФЗ, 94-ФЗ и ряда постановлений Пр-ва РФ. Все доступно для поиска, доступно как открытые данные. Мы продолжим развивать его и дальше
- Открытые НКО [2] портал прозрачности НКО в России. Хотя российское Пр-во начало скрывать данные по учредителям организаций НКО ещё с весны 2021 года, мы продолжаем обновлять данные, хотя и остальные возможности развития проекта ограничены.
- Простой язык [3] сервис определения простоты текстов на русском языке. Проект остаётся неизменным уже много лет, форма куда можно отправить текст и получить оценку его простоты в годах обучения. Мы думаем как его улучшать и развивать, регулярно приходят пользователи с разными запросами.
- Хаб открытых данных [4] негосударственный портал открытых данных. Из-за потоков спама нам пришлось отключить там свободную регистрацию, но сам хаб никуда не исчезает, думаем о его перезапуске. Может быть когда Минэкономразвития России опубликует обновлённый портал data.gov.ru на Гостехе мы специально обновим Хаб открытых данных чтобы показать всем какую хрень может сотворить министерство за 100500 денюх и насколько лучше можем мы сделать с минимальным бюджетом.
- Национальный цифровой архив России [5] наш проект по архивации сайтов, был более актуален когда шла совсем полная срань с ликвидацией сайтов многих российских "инагентов", менее критично сейчас, с одной стороны, с другой всё ещё актуально. Стало сложнее архивировать госсайты, они все обзавелись капчами и блокировкой любых не-российских IP адресов. Поэтому, в очередной раз, думаем о смене приоритетов и актуализации программы архивации. У проекта есть отдельный телеграм канал /channel/ruarxive, не стесняйтесь, подписывайтесь на него.
- День открытых данных в России [6] мы не проводили его в 2022 году, всё же провели в 2023 году и планируем в том же формате в 2024 году, по большей части онлайн. Госполитика в области открытых данных в России давно уже сдувается, а сейчас ещё и сталкивается с военной цензурой и общей "разрухой в головах" , но существует всё ещё сильное русскоязычное сообщество по открытости и только ради него мы это проводим.
Хотелось бы делать больше, но существующая политическая повестка этого не позволяет. Хорошо что получается сохранять то что есть, хотя и с ощущением что в любой момент может возникнуть политическое давление и даже это будет сложно сохранить.
Из России всегда можно поддержать эти проекты на странице Инфокультуры https://www.infoculture.ru/donation/ если от физ лица или напишите мне если хотите сделать это от юридического лица.
Ссылки:
[1] https://clearspending.ru
[2] https://openngo.ru
[3] https://plainrussian.ru
[4] https://hubofdata.ru
[5] https://ruarxive.org
[6] http://opendataday.ru
#opendata #russia #infoculture #opengov
Полезный материал для тех кто изучает ценность и стоимость данных, научная статья What is the value of data? A review of empirical methods [1] в первую очередь относится к данным общедоступным, создаваемым для предоставления другим и продаваемым на маркетплейсах и иначе монетизируемых. Полезно для разговоров с про обоснование стоимости данных и не только. Полезно для измерения ценности открытия данных.
Ссылки:
[1] https://onlinelibrary.wiley.com/doi/full/10.1111/joes.12585
#opendata #articles #readings
Давно откладываю и всё никак не завершу обещанный обзор корпоративных каталогов данных и больше лонгридов, но пока длинные тексты даются мне с трудом. Кстати, до сих пор это как одно из последствий ковида, просто чувствую как на способность много-много-много писать он повлиял.
А вот что касается публикации открытых данных, то я на днях обновил список на Awesome Open Data software [1] и там большая подборка открытого и коммерческого ПО для публикации открытых данных, геоданных, научных данных и ещё ссылки на инструменты их подготовки и многочисленные стандарты.
Если думаете как и на чём публиковать данные, список будет полезен. Я постоянно нахожу что-то новое при создание каталога-каталогов данных и всё записываю в этот список, так что он растёт и развивается.
Ссылки:
[1] https://github.com/commondataio/awesome-opendata-software
#opendata #opensource #datacatalogs
Во второй раз за пару дней репощу @ahminfin, на сей раз про культуру "открытости" коммуникации ЦБ РФ. Хотелось бы сказать, они же публикуют данные и не всё так плохо, но... на деле то у ЦБ данных очень много и они рассеяны по всему их сайту и никогда не сводились в каталог для доступа. Максимум, что было - это что-то доступно через API, но далеко, далеко не всё. Учитывая что Пр-во РФ давно уже сползает от открытости данных к "открытости коммуникаций" с заведением аккаунтов в соцсетях госорганов, то можно пронаблюдать как такие коммуникации происходят. ЦБ, конечно, не орган власти, но всё очень и очень показательно;)
#opengov #russia #bankofrussia
Действительно несколько лет назад я делал такое исследование и его несложно повторить. В одном российском госоргане это привело к большим внутренним проверкам, но это было давно.
Читать полностью…Поскольку в России, вот уже в который раз, запускают госинициативу по работе с данными, на сей раз нац. проект "Экономика данных", то я сделаю краткий экскурс текущего состояния открытых данных:
1. С момента ликвидации Открытого пр-ва в 2018 году полномочия по открытости данных остались у Минэкономразвития как министерства и аппарата Пр-ва как вышестоящей структуры. В аппарате правительства эти полномочия были у вице-премьера Григоренко, который за 5 лет ничего не предпринял в этом направлении, также как и Минэкономразвития ничего не делало, ни в регуляторике, ни в практическом применении.
2. Ключевое не сделанное - это, фактически, полностью заброшенный план по открытости данных в органах власти. Его тихо замели под ковер, по нему ничего не делали, а потом он просто перестал быть актуальным и его не обновляли.
3. Из активно сделанного в минус - это то что национальный портал data.gov.ru сначала "превратился в руины" в свалку данных, а потом просто был закрыт Минэкономразвития. Сейчас декларируется его перенос на платформу Гостех, но, как бы и Гостех это не плюс, а ещё более жирный минус. Учитывая что публичной работы над ТТ и ТЗ на портал не велось, то ожидания от потенциального нового портала не лучше чем от предыдущего.
4. Минэкономразвития России, которое отвечает формально за открытые данные, потеряло последние компетенции по работе с данными внутри себя. Их портал data.economy.gov.ru год от года уменьшался по объёму публикуемого, а также многие собственные наборы данных министерства публиковались на data.gov.ru который, внимание, они же и снесли. Это не говоря уже о том что в ведении министерства было и есть более десятка государственных информационных систем.
5. В отдельных российских ведомствах и регионах всё ещё публикуются новые и обновляются существующие наборы данных. В основном в тех где всё ещё понимают необходимость коммуникации с профессиональным сообществом, бизнесом и гражданами. В большинстве же данные не обновляются, порталы (региональные) с открытыми данными закрываются.
6. Есть отдельные положительные примеры, порталы с данными университетов, учреждений, порталы API субъектов федерации, но они лишь редко выбиваются из общей безрадостной картины.
7. Отдельная тема что работа с государством сейчас стала сверхтоксична. Многие эксперты более не взаимодействуют с любыми органами власти или нигде не афишируют это поскольку, и качество госуправления, скажем так, невысокое, и с тем что берегут свою репутацию
8. Думаю что причины сверхтоксичности государства вполне очевидны - это не только полностью провальная внешняя политика с военным конфликтом на Украине, "сливом" Арцаха, заигрыванием с наиболее одиозными диктаторами и талибаном, это ещё и нарастающая репрессивная внутренняя политика и ужесточающаяся пропаганда делающая жизнь в России всё менее комфортной. Многие из тех кто остаются делают это не благодаря, а вопреки действиям государства. А многие из тех кто уезжают, делают это не от недостатка патриотизма, а от глубокого разочарования в будущем. Впрочем это относится ко всем областям требующим осмысленных дейстий.
9. Ещё одна особенность происходящего и следствие плохого госуправления - это неспособность регуляторов услышать большую часть стейкхолдеров и то что почти всё регулирование сводится к ограниченной собственными интересами группе крупных лоббистов. У них дела, тоже, не то чтобы хорошо идут. Технологические компании в большинстве до сих пор не понимают что в России модели "мягкого лоббизма" давным давно померли и работают только модели "жёсткого лоббизма" коррупции через внедрения собственных акторов на руководящие посты.
(часть 1/2)
#opendata #russia #regulation
Немного рефлексии после выступления на Smart Data 2023:
1. Многие говорят что надо делать поисковик по данным общедоступным даже при его текущем несовершенном виде, а там всего 3.3 миллиона датасетов в демо версии, неоптимизированный фронт, косяки с отображением описаний датасетов в HTML и тд. в общем-то всё сравнительно легко исправляется, но на всё нужно время:) Я пока затягиваю публичный анонс, но, наверное, можно будет его сделать раньше.
Пока демо версию я впервые публично показывал на Smart Data и её видело максимум пару десятков человек.
2. К выступлению в реестре каталогов данных Common Data Index уже почти 10 тысяч каталогов данных. Всё больше и больше геодкаталогов, геосерверов, геоданных. С оговоркой что количество каталогов данных - это не число самих наборов данных и не их объём.
3. По моим ощущениям аудитории моё выступление зашло, некоторые вопросы были о том можно ли оптимизировать большой пласт ручной работы. Как бы я сам хотел бы это оптимизировать! Например, как было бы круто уметь определять название организации и её тип (госструктура, университет, нко) по сайту её каталога данных и как было бы круто определять автоматически город/регион/страну для каталогов данных у которых невозможно сразу определить их по gtld.
4, Важный вопрос о том что некоторые ссылки в поисковой системе ведут в пустоту потому что каталоги меняются и отваливаются и что с этим делать. Самое правильное решение - архивировать, иметь локальную копию, предоставлять её по запросу.
Мой доклад слегка выбивался из общего списка корпоративных дата-инженерных выступлений, кстати, весьма интересных, но слушателей было немало и у меня:)
А в качестве завершения могу сказать что Smart Data, однозначно, одна из наиболее полезных конференций по данным идущих в России, ради неё стоит приезжать в Москву послушать и пообщаться вживую. Собственно и не секрет что многие дата-инженеры, программисты и аналитики приезжают на такие конференции не из России, давно уже перебравшись в близлежащие страны.
#opendata #events #thoughts
Открытые данные в России о которых многие не знают,
- Открытые данные ГУАП [1] ГУАП - это Санкт-Петербургский государственный университет аэрокосмического приборостроения, а на сайте у них есть раздел с API с информацией о ВУЗе. Есть внятное API, для полной открытости нехватает условий использования.
- Открытые API для сервисов Санкт-Петербурга [2] категорически малоизвестный портал Санкт-Петербурга с их официальными API к городским информационным системам. Развивают они его, почему-то, параллельно порталу открытых данных, а не совместно. Как и во многих других случаях, "забывают" написать про условия использования, но сами данные есть.
- Геопортал СВКНИИ ДВО РАН [3] и другие их ГИС сервисы [4] с картами и слоями карт по Дальнему востоку. Включает доступ к данным через открытое API сервера ArcGIS
Ссылки:
[1] https://api.guap.ru/data/
[2] https://api.petersburg.ru
[3] http://hags.north-east.ru:8080/geoportal/catalog/main/home.page
[4] http://www2.neisri.ru/index.php/ru/%D0%B3%D0%B8%D1%81-%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D1%8B.html
#opendata #datasets #api #russia #geodata
More Armenian open data available. We added list of all branches of Armenian post (Haypost) [1] in Armenian, English and Russian. Data collected from Haypost public but undocumented API.
Also we added lists of Armenia related keywords [2] in Russian and, in future, in English to collect Armenia-related data from Russian data sources like Goskatalog and National Electronic Library. These lists are still in development and include mostly geographic names related to Armenia and family names related to Armenians.
We keep working to collect more interesting datasets for our upcoming open data contest that we will announce soon!
LInks:
[1] https://data.opendata.am/dataset/armenian-post-branches
[2] https://github.com/opendataam/armenian-keywords
#opendata #armenia #datasets
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.
В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.
Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/
#privacy #data #mozilla #research
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft
А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.
Правда этот список на 6 сентября и явно будет расти постепенно.
Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.
Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349
#regulation #eu #datamarket #digital
В качестве регулярного напоминания, кроме всего прочего я за последние лет 15 занимался тем публиковал довольно много кода как открытый код. В основном с надеждой на вовлечение сообщества и, где-то, это получалось, а где-то не очень. Случаев когда получалось и появлялись контрибьюторы довольно много, так что почему бы и не напомнить, на случай если возникнуть желающие воспользоваться и помочь в разработке:
- newsworker - библиотека для Python для извлечения новостей из веб страниц. Один из моих экспериментов с автоматизацией парсинга HTML закончился написанием этой библиотеки которая умеет распознавать даты в любом написании, ссылки и заголовки и текст новости.
- docx2csv - библиотека для Python и утилита командной строки по извлечению таблиц внутри файлов Microsoft Word (.DOCX).
- qddate - библиотека для идентификации дат в любом написании для условно любых языков. Изначально писалась как часть newsworker, потом была отделена. Поддерживает более 300 шаблонов написания дат.
- lazyscraper - утилита командной строки для превращения массивов HTML тэгов и HTML таблиц в таблицы CSV
- russiannames - на удивление оказавшаяся востребованной библиотека для Python и база данных для имён на русском языке и распознаванию стилей их написания. Создавалась из многих открытых источников, полезна, например, для задач когда надо понять в каком формате написано ФИО и что в нём есть что
- undatum - утилита командной строки для работы с разными структурированными данными, в первую очередь JSON lines. Фактически делалось как аналог csvkit для JSON lines, лично я ей пользуюсь ежедневно хотя и её ещё надо и надо допиливать.
- govdomains - база российских госдоменов и ассоциированного с этим кода, да, да, это не только зона .gov.ru, но и многое другое. Делалось изначально для проекта Ruarxive для понимания того что надо архивировать. Список большой, но с 2022 года развиваемый в закрытую по объективным причинам, чтобы не помогать хакерам находить уязвимости.
- metacrafter - утилита и библиотека идентификации семантических типов данных. Поддерживает десятки типов данных собранных в специальном реестре, изначально это был один из внутренних инструментов в продукте Datacrafter
- apibackuper - тоже утилита которой я пользуюсь регулярно, она создавалась для того чтобы архивировать данные предоставляемые через API. Причём всё это делается через простой конфиг файл. До сих пор многие датасеты из API я генерирую с её помощью.
- wparc - утилита архивации содержания Wordpress сайтов через API Wordpress если оно не отключено.
- ydiskarc - утилита архивирования материалов на Яндекс Диске, использует, по большей части документированное официальное API, но не требует к нему токенов или авторизации
- pyiterable - попытка унифицировать работу с данными в разных форматах: CSV, JSON, JSON lines, BSON, в том числе внутри контейнеров архивов. Регулярно сам этим пользуюсь. Изначально был план переписать undatum с использованием этой библиотеки, но руки не доходят.
- datacrafter - облегчённая ETL на Python для работы с открытыми данными, используется в одноимённом проекте datacrafter.ru, аналогично я ей сам регулярно пользуюсь когда надо систематизировать извлечение данных из открытых источников. К ней множество примеров для работы с данными на российских госсайтах.
#opensource #tools #data #datatools
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].
Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory
#opendata #datasets #wikipedia #wikidata
Полезное чтение про данные, технологии и не только:
- Artwork Similarity Search: Exploring the Power of Vector Databases [1] технический, практический и весьма полезный обзор того как использовать векторную базу для поиска по подобиям для произведений художественного искусства. Полезно именно практичностью, буквально хоть бери Европеану или Госкаталог музейного фонда, натравливай модель и засовывай результаты в векторную БД.
- Dara Application Framework [2] очередной движок для генерации дашбордов, с открытым кодом и на Python. Выглядит неплохо, документация подробная
- Dataherald [3] преобразователь естественного языка в SQL, с открытым кодом, но требует ключа для OpenAI.
- DuckDB vs. The Titans: Spark, Elasticsearch, MongoDB — A Comparative Study in Performance and Cost [4] сравненеи DuckDB и всякого NoSQL. Сравнивается, конечно, фиолетовое с пупырчатым, но почему бы и нет.
Ссылки:
[1] https://www.otmaneboughaba.com/artwork-similarity-search
[2] https://github.com/causalens/dara
[3] https://github.com/Dataherald/dataherald
[4] https://medium.com/walmartglobaltech/duckdb-vs-the-titans-spark-elasticsearch-mongodb-a-comparative-study-in-performance-and-cost-5366b27d5aaa
#opensource #data #datatools
Хорошие ребята из проекта Если быть точным отделились в отдельный фонд и продолжают развивать свой проект с социальными показателями по России. Работа у них важная и непосредственно связанная с использованием и созданием открытых данных.
Читать полностью…В копилку плохих новостей про открытые данные, более недоступен портал Госрасходы (spending.gov.ru) [1]. Откуда его не открывай, из Армении, Европы или из России, всегда выдаётся 403 ошибка.
По этому статусу не определить отключён ли проект полностью или недоступен для широкой публики, но важная часть моей работы в Счётной палаты теперь недоступна. При том что я покинул Счетную палату уже давно и проект развивался и после моего ухода, но увы, я действительно не знаю всех причин почему его закрыли. Думаю что не последней причиной был уход Кудрина из Счетной палаты и что вот уже очень долгое время новый председатель так и не назначен.
Конечно, ещё остаётся надежда что Госрасходы отключены из-за проблем в настройках сети или случайных действий админов, но больше похоже что нет, его больше нет.
Здесь я не могу не напомнить что у нас в АНО Инфокультура (@infoculture) остался общественный проект clearspending.ru [2] где не было такой продвинутой аналитики по национальным проектам и бюджету, зато всегда была доступна и остаётся база госконтрактов. Проект останется открытым и включает дампы всей внутренней базы контрактов.
Ссылки:
[1] https://spending.gov.ru
[2] https://clearspending.ru
#opendata #contracts #sprf #infoculture
Корейский поисковик Naver выпустил языковую модель
Разработка называется HyperCLOVA X. На её базе действует похожий на ChatGTP чат-бот CLOVA X и генеративный поисковый сервис Clue, аналогичный Bing от Microsoft.
Число параметров не раскрывается, но известно, что предыдущая версия модели, HyperCLOVA, разработанная в 2021 году, имела 204 млрд параметров.
Над моделью работала команда из 500 экспертов в области ИИ и Naver теперь входит в пятёрку компаний, имеющих собственную большую языковую модель с более чем 100 млрд параметров.
Также компания разрабатывает мультимодальную языковую модель, которая могла бы генерировать помимо текста ещё и графику, видео и аудио.
Naver фокусирует продукты на национальных языках региона и стремится распространить своё покрытие на Корею, Японию, страны Юго-Восточной Азии и Ближнего Востока, для которых международные гиганты типа Microsoft и Google пока не открыли свои флагманские ИИ-сервисы.
#LLM #чатботы
https://techcrunch.com/2023/08/24/koreas-internet-giant-naver-unveils-generative-ai-services/
«А с чего вы взяли, что мы обиделись?», «Молчать придется вам», «У вас какой-то особенный канал связи с реальностью?» - Банк России завел телеграм-чат и теперь общается с гражданами
Банк России добавил к телеграм-каналу @centralbank_russia чат и активно взаимодействует с гражданами.
Приведу несколько цитат админов чата (см. скрины):
- "Знаете, если вы чего-то не видели, это не значит, что этого нет"
- "Если вы будете придерживаться такого тона, то молчать придется вам"
- "Простите, но это просто чушь"
- "А как по-вашему формировать статистические данные? Может быть, у вас есть какой-то супер лайфхак?"
- "У вас какой-то особый канал связи с реальностью, где инфляция 70%? Не нужно тут писать ерунду, здесь рады только конструктивным диалогам и интеллигентному юмору (иногда)"
- "Стоит думать, прежде чем воспользоваться любым советом, и не дважды, а постоянно"
- "Если вы знаете наш ответ, то зачем продолжаете спрашивать? Думаете, повторение одного и того же действия может дать иной результат?"
- "Просьба только обойтись без сарказма вроде тезиса об уборке помещений, это грубо. Мы ведь и ответить можем )"
- "Может быть у вас есть аргументы сильнее, чем "бред сивой кобылы"?"
- "Не нужно тут ставить никому оценок, тем более админам. За хамство - бан"
- "Вы о чем вообще?". "У кого "у нас" не работают переводы? И с чего вы взяли что мы пользуемся swift?"
- "А с чего вы взяли, что мы обиделись? Мы просто следим тут за порядком"
- "То есть вы считаете, что мы все сложили в одну кучу? А с чего вы это взяли? Вернитесь к текстам по ссылкам еще раз, там указано, какие другие были кучи и каких активов"
- "Разозлившийся комментатор, пишущий саркастический комментарий - это не оскорбление. Злиться нормально, писать комментарии - тоже. Не обижайтесь )"
- "Оскорбления (и постановка диагнозов по интернету) в комментариях запрещены"
Кстати, меня в этом чате забанили после вопроса о том, как записаться на экскурсию в Музей ЦБ, но на таком фоне это и не удивляет - наверно, не вписалась в корпоративную стилистику :D
Интеллектуальная собственность: охрана или …?
Роспатент объявил закупку на развитие ГИС «Омниканальное взаимодействие Роспатеннта с заинтересованными лицами в ходе предоставления госуслуг, услуг в рамках международных соглашений и договоров, публикации общедоступной информации о деятельности в сфере регистрации и охраны объектов интеллектуальной собственности в формате открытых данных».
НМЦК составляет 59 млн руб., поэтому ожидала найти в контракте что-то интересное о публикации открытых данных Роспатента. К сожалению, функции подсистемы «открытые данные» в данном случае сводятся к:
- публикации и просмотру расписания коллегий ППС;
- реализации реестра возражений и заявлений и поиска по нему
- возможности получения информации по делопроизводству и статусов по всем ОИС для включения в раздел «Открытые реестры».
Но в данной закупке зацепило другое. Свойства файла «Проект государственного контракта» говорят нам о том, что документ подготовлен Вероникой Ч. из организации «SPecialiST RePack». А именно такое наименование организации может говорить о пиратском происхождении софта, о чем в 2021 году писал Иван Бегтин (@begtin) и CNews.
С учетом функций Роспатента и закупки на развитие ГИС «для взаимодействия в сфере охраны объектов интеллектуальной собственности» получается весьма иронично.
It is Web Archive Wednesday My Dudes
В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.
Сделали подборку новостей и находок по теме.
● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».
● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.
● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.
● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.
Enjoy! 🤓
#WebArchiveWednesday #opendata #digitalculture