begtin | Бизнес и стартапы

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Подписаться на канал

Ivan Begtin

Давно хочу написать про недооценённые и не всегда очевидные профессии на рынке данных, они как бы есть, но им часто названий нет и им не учат։

1. Специалисты по поиску данных нет точного названия этой деятельности, самое близкое data discovery и можно было бы назвать профессию data discoverer. Это те кто ищут данные, общедоступные, или из коммерческих источников, или во внутренних базах данных, но главное что ищут и находят. В реальности этим занимаются дата аналитики, дата сайентисты, дата инженеры, это довольно частая деятельность, очень и очень редко отчуждаемая от других задач. Чаще всего это задача для дата-аналитиков пишущих ТЗ для остальных. Этому почти не учат, этого нет как образовательной дисциплины .

2. Специалисты по документированию данных ближе всего к ним по функциям и задачам те кто занимаются документированием ПО. У описания данных есть свои особенности, отдельные инструменты вроде каталогов корпоративных данных и профессию можно было бы назвать Data Technical Writer или Data Documentation Specialist. Многие воспринимают документирование, что ПО, что данных, что технических продуктов как очень un-sexy профессию. Знания нужны как у специалиста по базам данных или дата инженера, а понимание ценности такой работы есть не у всех работодателей и команд. Но эта работа особенно важна для любых дата продуктов, когда ты создаёшь открытые данные или коммерческие на продажу, их надо хорошо и правильно описывать.

3. Специалисты по производству данных здесь я теряюсь как правильно их назвать․ Data producers? Data creators? Data workers? Есть те кто изначально создаёт данные, реже руками, чаще при проектировании их сбора, автоматизированно или автоматически. Это одна из важнейших и плохо описанных и понимаемых профессий во многих областях. Очень часто из-за недооценённости правильного проектирования сбора данных проекты по машинному обучению не взлетают или дают сомнительные и спорные результаты, потому что обучающая выборка оказывается очень субъективной. Об этом часто можно прочитать в обсуждениях моделей распознаваний, например, лиц которые обучали на ограниченных данных только одной расы и они плохо работают на остальных.

Это не полный список недооценённых профессий. Не все могут, хотят и становятся дата-сайентистами, дата-аналитиками или дата-инженерами, внутри команд по работе с данными есть разные потребности и задачи.

#data #thoughts #professions

Читать полностью…

Ivan Begtin

Почему открытые данные - это всегда культура и далее технологии на примере данных о COVID-19 в России. Если кто-то не знает, в России за 2.5 года ковида Пр-во и Минздрав РФ в частности не публиковали наборы данных по эпидемии. Вместо этого они создали портал стопкоронавирус.рф имеющий скорее PR функцию и некоторые графики с отображением цифр. Да, были те энтузиасты кто эти графики преобразовывал в данные (используя парсинг), но в целом официальной публикации данных не было. А с декабря 2022 года, ещё и этот портал перестали обновлять.

Однако всё это время публиковался и продолжает публиковаться Еженедельный бюллетень по гриппу [1] в котором, в том числе, есть информация по заболеваемости COVID-19, но сам бюллетень публикуется в формате "не сказать бы лишнего". Там есть слова и графики и нет таблиц, нет разбивки заболеваемости по регионам и по городам, хотя такие сведения совершенно точно собираются и есть у составителей бюллетеня из ФГБУ «НИИ гриппа им. А.А. Смородинцева». Эти данные совершенно точно есть у сотрудников Минздрава РФ и знаете что самое удивительное? Что даже этот бюллетень доступен.

Минздрав РФ чуть ли не худшее ведомство в России по уровню открытости, я очень рекомендую послушать и посмотреть выступление Ксении Бабихиной из проекта Если быть точным [2] об опыте взаимодействия, отрицательном опыте, к сожалению.

А возвращаясь к данным о COVID-19, то, казалось бы, что мешает НИИ Гриппа публиковать развернутую статистику, что мешает Минздраву РФ размещать эти данные на портале открытых данных РФ, что мешало АНО "Диалог" или кто там вёл проект стопкоронавирус.рф предоставлять данные в машиночитаемом формате. Тем более что все они действовали и действуют на деньги налогоплательщиков.
Можно было бы посмотреть на пример Швейцарии и их опыта раскрытия не просто статистики, а всех случаях заболевания в обезличенном виде [3].

Вопрос о том "что мешает?" риторический.

Ссылки։
[1] https://www.influenza.spb.ru/system/epidemic_situation/laboratory_diagnostics/
[2] https://www.youtube.com/live/zYSr8gYJd4c?feature=share&t=3141
[3] /channel/begtin/4662

#opendata #healthcare #covid19

Читать полностью…

Ivan Begtin

ODS.AI когда-то было очень активное и продвинутое сообщество, но время не щадит никого и ничего, особенно когда по очереди вылезают вот такие проблемы описываемые автором. Российское сообщество по открытым данным мы собирали в телеграм изначально, хотя и делали попытки делать сообщество в Slack'е, но ничего не вышло, а в Телеграм всё было вполне естественно. Другие площадки вроде Matrix вполне могут существовать, но часто это сбор почти с нуля. Например, сообщество по открытым данным при Open Knowledge Foundation существует в Matrix, оно живое, но на уровне сообщения в месяц. Не умирает, но не бурлит. Сообщества - это важно, больше сообществ хороших и разных и не токсичных.

А каких сообществ по данным нам не хватает в русскоязычном и не только пространстве?

#community #data

Читать полностью…

Ivan Begtin

Интересное чтение про данные, технологии и не только։

- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.

- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.

- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.

- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.

Ссылки։
[1] luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0" rel="nofollow">https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/

#datatools #data #readings #dataengineering

Читать полностью…

Ivan Begtin

День открытых данных ещё продолжается, а я тем временем выступил с презентацией Как искать данные с помощью каталогов данных. Проект datacatalogs.ru о том как проект устроен, развивается, для чего создавался и к чему идёт. А создавался он для появления поисковика по данным в будущем.

Видео тоже вскоре будет доступно.

Ссылки։
[1] https://www.beautiful.ai/player/-NPgdYTNJKkJTXp_0zgA

#opendata #opengov #datadiscovery

Читать полностью…

Ivan Begtin

Управление статистики ООН опубликовало мобильное приложение UNdata app [1] с данными статистики с портала data.un.org. По отзывам оно хоть и не вау, но средняя оценка 4.3 [2] и оно не то чтобы совсем бесполезно, а может даже и весьма пригодится кому-то.

Кстати стат ведомства в мире не то чтобы балуют пользователей удобным доступом через мобильные приложения. Из известных мне, только у швейцарского SwissStat есть официальное мобильное приложение [3]

Надо ли статведомствам делать самим мобильные приложения? Нет, я считаю что нет. Надо делать очень хорошие API и возможность массовой выгрузки наборов данных, и организовывать конкурсы и хакатоны для создания приложений с открытым кодом.

Правда, в случае ООН это очень сложно, международная бюрократия совсем неповоротлива.

Ссылки։
[1] https://unstats.un.org/UNSDWebsite/Publications/StatisticalPocketbook/
[2] https://play.google.com/store/apps/details?id=unstats.un.org.countrystats
[3] https://play.google.com/store/apps/details?id=ch.admin.bfs.swissstat

#opendata #un #mobileapps

Читать полностью…

Ivan Begtin

В качестве напоминания, завтра с 11։00 по 16:20 по Москве будет проходить День открытых данных [1], в этом году он пройдет только онлайн и в укороченном формате, без параллельных секций, с 3 часами мастер классов. Всё будет транслироваться онлайн на сайте, так что не пропустите. Зарегистрировалось онлайн уже почти 400 участников так что не проходите мимо, интересно будет не только тем кто остаётся и занимается открытостью и данными в России, но и всем кто работает с данными и владеет русским языком.

Ссылки:
[1] https://opendataday.ru/msk#program

#opendata #events

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них, портал по COVID-19 конфедеративного правительства Швейцарии [1]. Вся информация не только представлена в виде графиков и продолжает обновляться и по сей день, но и все данные опубликованы как открытые данные на портале открытых данных opendata.swiss [2] и в виде хорошо документированного API [3].

В общей сложности там несколько сотен мегабайт, может быть около гигабайта ежесуточной подробной статистики и иной информации.

Ссылки:
[1] https://www.covid19.admin.ch
[2] https://opendata.swiss/de/dataset/covid-19-schweiz
[3] https://www.covid19.admin.ch/api/data/documentation

#opendata #datasets #data #switzerland

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них каталог геоданных Швейцарии [1] создан на базе открытого ПО Geonetwork [2], включает 12859 наборов геоданных в форматах DXF, Shapefile, GeoPackage, INTERLIS 2 и множеством вариантов экспорта метаданных.

Данные используются во множестве проектов связанных с данными геоданными в Швейцарии и в Европе, например, в официальной карте Швейцарии [3].

Таких государственных порталов геоданных в мире не так уж мало и чаще всего они построены именно на GeoNetwork

Ссылки։
[1] https://www.geocat.ch
[2] http://geonetwork-opensource.org/
[3] https://map.geo.admin.ch/


#opendata #opengov #switzerland #geodata

Читать полностью…

Ivan Begtin

Полезное чтение про данные, технологии и не только։
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости

- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]

- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.

- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.

- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.

- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in

- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in

Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com

#readings #openaccess #openscience #datatools #dataviz

Читать полностью…

Ivan Begtin

В качестве напоминания, через 3 дня будет проходить День открытых данных по всему миру [1], кое-где он проходит целую неделю, с 4-го по 10-е марта, но большинство сообществ проводит его один день. Команда Инфокультуры (@infoculture) возвращается к его проведению в Москве и на сайте Дня открытых данных в России opendataday.ru [2] можно узнать программу.

Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.

Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.

В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.

Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.

Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.

Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.

А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.

Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru

#opendata #opengov #events #data

Читать полностью…

Ivan Begtin

Продолжая рубрику "закрытые данные в России", годовые отчёты государственного портового контроля РФ не публикуются Росморречфлотом начиная с 2020 года [1].

Эти отчеты не являлись открытыми данными, но они содержали статистические сведения и факты портового контроля, как правило публиковались в апреле следующего года.

Подскажу что в непубличной информационной системе ИЦГПК эти отчёты есть и их даже можно найти при желании. Хоть и система непубличная, но не настолько чтобы поисковики не индексировали некоторые файлы. Важнее что в соответствующем разделе на сайте Росморречфлота этих отчётов нет. И это при том что и без того это очень высокоуровневые агрегированные цифры, публикуемые в PDF, а даже не в машиночитаемом виде.

Ссылки։
[1] https://morflot.gov.ru/deyatelnost/napravleniya_deyatelnosti/morskoy_flot/gosudarstvennyiy_portovyiy_kontrol/godovyie_otchetyi_gpk_v_rf/

#opendata #closeddata #russia #transport

Читать полностью…

Ivan Begtin

В рубрике исчезающих открытых данных в России (теперь эта рубрика будет частой, читайте по тегу #closeddata) исчезнувшие данные по системообразующим предприятиям и по НКО наиболее пострадавшим при COVID-19.

Первый набор данных данных по системообразующим предприятиям был доступен на сайте данных Минэкономразвития РФ data.economy.gov.ru [1] до начала 2022 года, после чего исчез. А второй, по пострадавшим НКО исчез ещё в 2021 году [2].

А теперь при открытии главной страницы этого сайта открывается только набор данных с перечнем СО НКО [3].

Если по системообразующим предприятиям ещё что-то можно было предположить по санкциям, то второй датасет выглядит как заметание следов.

Я про данные российского Минэкономразвития писал ещё 2.5 года назад в колонке в РБК [3]. С той поры мало что поменялось, хотя нет, всё хуже и хуже у министерства с данными.

Ссылки։
[1] https://web.archive.org/web/20220205012417/https://data.economy.gov.ru/
[2] https://web.archive.org/web/20210908020047/https://data.economy.gov.ru/analytics/sonko-affected
[3] https://data.economy.gov.ru
[4] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

#opendata #closeddata #russia

Читать полностью…

Ivan Begtin

В продолжение истории про Slack и о том что Slack добровольно урезал функциональность своего продукта российским НКО

Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].

Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.

Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу
accessnow.org/help-ru [4]

Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.

Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.

Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] http://accessnow.org/
[4] http://accessnow.org/help-ru

#sanctions #russia #slack

Читать полностью…

Ivan Begtin

В рубрике любопытных стартапов на данных и не только, Spellbook.legal [1] обещают ИИ помогающий составлять контракты, соглашения, NDA и другие юридические документы. Они не одни такие, таких стартапов сейчас всё больше. Они добывают в открытом доступе и другими способами базы таких документов и обучают ИИ писать по их подобию.

Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.

А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?

Ссылки։
[1] https://www.spellbook.legal

#ai #legal #data #startups

Читать полностью…

Ivan Begtin

Открытый код, открытые данные, открытые стандарты, как назвать всё это вместе? Экосистема открытости или как-то ещё? Один из ответов на этот вопрос - это совместная инициатива нескольких международных агентств развития под названием Digital Public Goods Allience [1] вокруг понятия Digital Public Goods которое можно перевести как цифровое общественное достояние

По этой концепции они разработали стандарт Digital Public Goods Standard [2] под который подпадают։
- Open Software
- Open Data
- Open AI models
- Open Standards
- Open Content

Весь этот стандарт и инициативы построены вокруг целей устойчивого развития (SDG) [3] и структур и повестки ООН.

Я как-то писал что международная бюрократия очень медленна в адаптации всего нового, и ООН и агентства международного развития очень медленно шли в направлении открытости, но когда пришли, то теперь это надолго и тема открытости будет для структур ООН одной из ключевых ещё долго.

Ссылки։
[1] https://digitalpublicgoods.net
[2] https://digitalpublicgoods.net/standard/
[3] https://sdgs.un.org/goals

#opendata #opensource

Читать полностью…

Ivan Begtin

О покойниках или хорошо, или ничего.

Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.

Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:

Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.

Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.

А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.

Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.

@ohmydataengineer

Читать полностью…

Ivan Begtin

Мы продолжаем пополнять наш проект Каталог каталогов данных (datacatalogs.ru)

В этот раз в каталог были добавлены геопорталы в республиках Узбекистан и Казахстан։
- Общественный геопортал Кадастрового агентства Республики Узбекистан https://open.ngis.ru
- Геопортал Комитета по правовой статистике Генеральной прокуратуры Республики Казахстан https://gis.kgp.kz
- Геопортал компании Карачаганак Петролиум Оперейтинг Б.В. https://maps.kpo.kz
- Картографическая основа Управления Земельного кадастра и Автоматизированной информационной системы государственного земельного кадастра https://aisgzk.kz/aisgzk/ru/content/maps/
- Геоинформационный портал города Астана https://gis.esaulet.kz
- Геопортал Акционерного общества «Национальная геологическая служба» https://ngs.geology.kz

На этих порталах публикуются от десяти до сотен слоёв с данными и предоставляется доступ к данным через API сервисы ArcGIS на базе сервера которого они созданы.

Записи об этих порталах вскоре появятся в поиске каталога.

#opendata #datacatalogs

Читать полностью…

Ivan Begtin

Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии

- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима

- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data

- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана

- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет

- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией

- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая

Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] http://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] http://data.library.sh.cn/index

#opendata #digitalhumanities #ancienthistory #datasets #openscience

Читать полностью…

Ivan Begtin

Продолжая тему статистики и ООН, 3 марта завершилась 54 сессия Статкомитета ООН посвящённая статистике. Там довольно много документов опубликовано по итогам [1], по стандартам, большим данным, качеству данных, в том числе все документы публикуются на 6 языках включая русский язык. Например, многим будет любопытен документ по большим данным Report of the Committee of Experts on Big Data and Data Science for Official Statistics [2] с некоторым количеством примеров их использования статведомствами по всему миру, но интересно не только это.

В этом году было принято официально включить тему открытых данных как элемент официальной повестки UNStats. Об этом пишут в НКО Open Data Watch [3] которые все эти годы двигали эту тему․

И тут я не могу не обратить внимание на то что лидеры по работе с большими данными сейчас - это Китай. В частности Правительство Китая намеренно разместить глобальный центр по большим данным для работы с мировой/глобальной статистикой и работой экспертов из многих стран. Они почти наверняка будут представлять его на конференции UN Data Forum в Ханчжоу в этом году.

Что можно сказать про пост-советское пространство? В деятельности комиссии по большим данным принимает участие только статкомитет Грузии. Российский Росстат, к примеру, и все экономические образования вроде Статкомитета СНГ и ЕАЭС во всём этом не участвуют.

Ссылки:
[1] https://unstats.un.org/UNSDWebsite/statcom/documents/54
[2] https://unstats.un.org/UNSDWebsite/statcom/session_54/documents/2023-17-BigData-R.pdf
[3] https://twitter.com/OpenDataWatch/status/1631428639983009793

#opendata #statistics #bigdata #un #unstats

Читать полностью…

Ivan Begtin

Федеральная торговая комиссия в США оштрафовала компанию BetterHelp на $7.8 миллонов, создателей одноимённого мобильного для мониторинга здоровья и рекомендаций за то что те врали потребителей о том что не передают их данные, а сами передавали их рекламным компаниям вроде Facebook, Pinterest, Criteo, Snapchat [1]. Штраф пойдет на компенсацию пользователям пострадавшим с 2017 по 2020 год.

Решение символическое, первое такого рода и думаю что не последнее. Однако не могу не обратить внимание что рынок продавца не существует без рынка покупателя. Это как проституция не существует если на неё нет спроса.

А не должны ли были покупатели этих данных в лице перечисленных ранее компаний проводить полную проверку источника покупки? Не должна ли комиссия по ценным бумагам проверить и их и выписать им многократно большие штрафы? Ведь не покупай они эти данные, их бы и не продавали.

Ссылки:
[1] https://www.ftc.gov/news-events/news/press-releases/2023/03/ftc-ban-betterhelp-revealing-consumers-data-including-sensitive-mental-health-information-facebook

#privacy #usa #mobileapps

Читать полностью…

Ivan Begtin

Один из необычных наборов данных которые мне попадались - это данные к научной статье об определении зрелости филиппинских кокосов с помощью машинного обучения по акустическим сигналам [1] группа учёных, и не маленькая группа, 8 человек как-никак, придумали устройство для простукивания кокосов, выбрали 129 кокосов для тестирования и сделали 132 300 замеров (data points) после чего выложили статью и к ней набор данных со всеми замерами [2]. Набор данных в большом Excel файле, на 250+ мегабайт.

Возможно - это какая-то важная задача в автоматизации труда при сборе и сортировке кокосов, честно говоря я недостаточно знаю о кокосовых фермах и их производстве, но звучит довольно необычно. Как если бы кто-то сделал устройство для простукивания арбузов и провел машинное обучение по автоматическому определению их зрелости и типа.

Ссылки:
[1] https://www.sciencedirect.com/science/article/abs/pii/S0168169919324767
[2] https://www.sciencedirect.com/science/article/pii/S2352340923000549

#openscience #opendata #curious #food

Читать полностью…

Ivan Begtin

Я чуть было не пропустил, а тут интересный материал от фонда Mozilla под названием "Is it even legal?" (А это вообще легально?) [1] состоит из серии гайдов по странам о том как защищать свои права на обработку данных и бороться с тем что данные распространяются без Вашего согласия. Гайды привязаны к странам и сейчас по 4-м из них։ Кения, Германия, США и Индия. Каждый гайд - это очень продолжительный лонгрид помогающий ответить на вопрос "А как там у них?", а у них там есть сложные юридические конструкции и множество примеров когда рядовые граждане используют свои возможности.

#privacy #mozilla


Ссылки:
[1] https://foundation.mozilla.org/en/research/library/is-that-even-legal/builders-guide/

Читать полностью…

Ivan Begtin

На днях я думал что можно сделать в Армении хорошего по тем темам что я знаю хорошо. А это всё что связано с открытостью, данными, технологиями вокруг них и тд. Самое очевидное - в Армении нет портала открытых данных и его довольно несложно создать.

Однако беда в том что создать его быстро, а вот наполнить куда сложнее. В стране очень мало официальных материалов опубликованных под свободными лицензиями, значительно меньше данных в машиночитаемых формах. Например, у Минкультуры нет реестра всех музеев, а реестр их собственных музеев публикуют в формате ․docx. Много данных по налогам, компаниям, экономике, госфинансам и мало данных культуре, науке, языке и всему что касается digital humanities.
Хотя тема digital humanities здесь одна из самых значимых, как в поощрении изучения языка, так и во всём что касается культурного и исторического наследия.

А самое главное нет устойчивого сообщества, его надо собирать практически с нуля и такое ощущение что больше возможности собрать сообщество вокруг Армении, в том числе вовлечённых в
диаспорах, чем внутри. Но буду рад ошибиться, возможно я каких-то сообществ не знаю.

На базе исторических данных очень хорошо бы выглядели проекты по аналогии с Vici.org или Pleaiades (https://pleiades.stoa.org), но чтобы к ним прийти нужны данные и первый их каталог и портал.

В любом случае если такой портал делать нужна стратегия его устойчивости, нужен кто-то кто бы выступал дата стюардом и работа по data discovery, поиску данных на официальных и частных ресурсах. А сам портал надо проектировать сразу на армянском, русском, английском и французском языках.

Если Вы кого-то знаете владеющего։ армянским и русским языками или армянским и английским, а, в идеале, всеми тремя и готовым и с опытом работы с данными за небольшие, но не совсем на волонтерских началах выступить аналитиком на таком проекте - дайте мне знать. Это парт тайм работа, примерно на 3 месяца в начале, неважно в какой стране человек находится, главное интерес к теме.

#opendata #armenia #job

Читать полностью…

Ivan Begtin

В рубрике как это работает у них проект Data Mexico [1] по наглядному представлению экономической, социальной, демографической и иной статистики и данных о Мексике.

Проект сделан на том же техническом решении что и DataUSA, довольно давний проект сделанный компанией Deloitte, но в отличие от него Data Mexico сделан по заказу Правительства Мексики и эксплуатируется Secretaria de Economia (Секретариатом по экономике) страны.

Разработчики проекта компания DataWheel [2] сделала немало других проектов. Например, новый сайт Обсерватории экономической сложности [3] и Навигатор по промышленности Перу [4] и ещё довольно много всего.

Ссылки։
[1] https://datamexico.org
[2] https://www.datawheel.us/
[3] https://oec.world
[4] https://data-peru.itp.gob.pe/

#opendata #dataviz #mexico #data

Читать полностью…

Ivan Begtin

Я всё задаюсь вопросом можно ли хоть что-то хорошее сказать про российскую платформу ГосТех, но как-то не получается, и уже начинаю сомневаться что получится. Они анонсировали новый домен platform.gov.ru [1] который, по факту, является теперь сайтом ФКУ Гостех с раскрытием документов которые ФКУ должны публиковать, прошлый сайт ФКУ который был digitalcc.ru теперь перенаправляет на этот новый сайт. Но туда же теперь перенаправляет и ранее существовавшая документация на Platform V которая была по адресу platform.digital.gov.ru (теперь там ничего нет кроме перенаправления).

Иначе говоря вместе с анонсом нового сайта, заодно и снесли сайт с документацией. Теперь про "платформу Гостех" вообще ничего нет кроме маркетинговых и презентационных материалов.

При этом какие-то ошметки документации начали вносить на новый сайт, вроде описания компонента Platform V DataGrid, привожу скриншот и ссылку [2]. Не буду говорить как я его нашёл.

Если Всё так круто как об этом рассказывается публично, если столько охренительных примеров внедрения и спроектированных "доменов" (предметных областей), то почему всё настолько через жопу выглядит непривлекательно?

Ссылки։
[1] https://platform.gov.ru/
[2] https://platform.gov.ru/components/dannye/bystryj-start/

#government #govtech #techonology #russia

Читать полностью…

Ivan Begtin

Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике»

Вы узнаете о реальных кейсах на данных телеком-оператора и открытых данных, а также о том, как их получать. Спикеры покажут, как делать карты в библиотеке Folium: от отрисовки базовых геометрий и создания слоев FeatureGroup — до работы с графами и гексами. Мастер-класс проведут:

- Артем Каледин, старший аналитик-разработчик математических моделей, команда Геоаналитики.
- Артем Смирнов, руководитель по анализу данных, лид чаптера аналитиков.

Мероприятие пройдет в рамках Дня открытых данных. Программы и форма регистрации доступны по ссылке: https://opendataday.ru/msk.

#ODD2023 #OpenDataDay #OpenData

Читать полностью…

Ivan Begtin

Открытость - это не только данные, например, пишут что РЖД сжали все изображения в фотобанке у себя на сайте [1] до 800x533 и теперь журналисты не могут использовать оттуда изображения и вынуждены покупать другие в фотобанках или использовать какое-то одно постоянно. Вопрос тогда, а зачем РЖД фотобанк ведёт? А самое главное, почему вместо того чтобы публиковать изображения, например, под свободными лицензиями вроде Creative Commons, они наоборот превращают свою фотогалерею в бессмысленное явление на которое ещё и деньги тратят, как я полагаю. В фотобанке более 22 тысяч фотографий, так что это не маленькое изменение, а довольно существенное.

Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.

Ссылки։
[1] /channel/today1520/3978

#russia #closeddata #photo #rzd

Читать полностью…

Ivan Begtin

Совсем забыл о том что ещё в прошлом году поучаствовал в выпуске об открытых исследовательских данных [1] подкаста «Всегда открыты» Управления научно-информационного развития и библиотечного обеспечения РАНХиГС.

Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).

Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285

#opendata #openaccess #openscience

Читать полностью…

Ivan Begtin

Совсем свежий портал открытых данных публикуемых по стандарту Open Contracting - data.open-contracting.org [1]

Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.

Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.

Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.

Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.

Ссылки։
[1] https://data.open-contracting.org/

#opendata #spending #contracts #datasets

Читать полностью…
Подписаться на канал