В рубрике интересных источников данных Wolfram Data Repository [1] каталог из 1041 набора данных от команды Wolfram Research.
Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.
Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.
Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.
P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.
Ссылки:
[1] https://datarepository.wolframcloud.com
#opendata #openscience #research #wolfram
💀 «Выбросы» в бухгалтерской отчетности
Как же журналисты могли ошибиться на почти 1000 трлн руб.? Ответ прост — из-за «выбросов» в данных бухгалтерской отчетности. Если вы отсортируете организации в 2022 г. по выручке, на одном из первых мест будет не Лукойл (выручка 2.9 трлн руб.) или Магнит (2 трлн руб.), а ООО «ЮССА» (ИНН 8601056605
) с выручкой в 214 трлн руб. Это очевидная ошибка бухгалтера маленькой компании, которая подала отчетность, перепутав разряды и написав, скажем, вместо 2.1 млн руб. 214 трлн руб. Журналисты суммировали все подобные выбросы, некритично подойдя к данным, и получили столь искаженный результат.
Откуда это знаем мы? Вместе со студентами программы ПАНДАН (http://pandan.eusp.org) мы тоже собрали все данные бухгалтерской отчетности от ФНС и обработали их. Вот что получается, если просуммировать ключевые показатели компаний по годам некритично:
Год Выручка Материалы Труд КапиталПрим: триллионы рублей, расчеты ИПП ЕУ СПб. До 2019 использованы данные Росстата, с 2019 данные ГИР БО ФНС. Выручка — строка 2110 ОКУД, Материалы — строка 4121 ОКУД, Труд — строка 4122 ОКУД, Капитал — основные средства (строка 1150 ОКУД). Только средние и крупные компании, а так же с ин. участием подают сведения о материалах и труде. Благодарим студента ПАНДАНа Алексея Суханова за сбор данных.
2012 138 72 7 51
2013 170 90 8 58
2014 181 98 9 57
2015 205 102 10 69
2016 224 107 11 74
2017 249 122 12 72
2018 221 128 14 76
2019 208 95 10 66
2020 199 96 10 66
2021 249 122 12 73
2022 478 128 14 79
В рубрике продуктов по каталогизации и обмену данными малоизвестный продукт Geoblacklight [1] опубликованный с открытым кодом и предназначенный для публикации открытых геоданных. Продукт написан полностью на Ruby on Rails и в его основе проект Blacklight [2] популярный для публикации цифровых объектов культурного наследия.
На Geoblacklight работает не менее 12 каталогов данных [3] среди них можно выделить такие как:
- Big Ten Academic Alliance Geoportal [4]
- University of California Berkeley – GeoData Portal [5]
- DRYAD [6]
На каждом из таких порталов содержится до десятков тысяч наборов геоданных, часто охватывающих весь мир.
Ссылки:
[1] https://geoblacklight.org
[2] https://projectblacklight.org
[3] https://geoblacklight.org/showcase/
[4] https://geo.btaa.org
[5] https://geodata.lib.berkeley.edu
[6] https://datadryad.org/search
#opendata #geodata #datasets #dataportals #opensource
В рубрике необычных источников данных, пакеты для Anaconda [1], среды для анализа данных в виде интегрированных тетрадок, дистрибутива Python с пакетами для data science и data analysis, и экосистемой разного рода расширений. У продукта есть реестр пакетов в котором, в основном, пакеты с открытым кодом, но многие пакеты, также, содержат наборы данных [2], особенно много данных в расширениях bioconda, для биоинформатики. Искать их можно по разного рода ключевым словам вроде "data" и "dataset", результат приходит вперемешку с пакетами для обработки данных и наборов данных
Поиск по пакетам общий, типизации пакетов по типу содержания нет, так что нельзя сказать что искать пакеты с данными очень удобно. С другой стороны для тех кто хочет данные из коробки и в единой среде это может быть полезно.
Ссылки:
[1] https://www.anaconda.com
[2] https://anaconda.org/search?q=dataset
#opendata #anaconda #dataanalysis
Хорошо что Казначейство России начало публиковать хотя бы данные по доходам фед. бюджета, но та часть что относится к расходам это даже не смешно. Можно сказать что этих данных практически нет. И их отсутствие это гораздо более плохой сигнал о состоянии экономики России чем любые цифры которые были бы доступны
Читать полностью…В рубрике как это устроено у них, в Гонконге 9 каталогов открытых данных. Основной из них - это государственный портал data.gov.hk [1] с более чем 5200 наборами данных, а также 3 геопортала:
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx
Геоданные также предоставляются властями города.
Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/
Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)
В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.
Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.
В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.
#opendata #hongkong #china
В рубрике интересных наборов данных данные сканирования лидаром Шуховской башни в Москве [1] на сайте Openheritage3D для 3D моделирования объектов культурного значения.
Размер набора данных 1.2Gb, лицензия CC-BY-NC. Опубликовано в 2021 году Институтом истории естествознания и техники им. С.И. Вавилова РАН.
Ссылки:
[1] https://openheritage3d.org/project.php?id=0skp-z245
#opendata #datasets #digitalheritage
Я несколько лет назад регулярно выступал с презентациями на тему Как и где искать данные? в основном рассказывая про внутрироссийские источники данных и мои лекции были, в основном, о том как находить данные для гражданского или государственного проекта. Я тогда делал акцент на анализе государственных информационных систем, ресурсов и основной логике появления данных от полномочий органов власти.
При этом, как оказалось, в мире довольно мало открытых методик по инвентаризации данных. Вернее практически их нет и то что есть сосредоточено в двух областях: научные данные и дата-журналистика.
Что характерно, у большей части крупных зарубежных университетов есть руководства по поиску исследовательских данных. Они легко гуглятся по "finding and re-using research data", я не так давно стал собирать наиболее интересные/полезные и вот несколько примеров:
- Руководство от University of Bath https://library.bath.ac.uk/research-data/finding-data/home
- Руководство от LIBER Europe https://www.youtube.com/watch?v=6PRlf8KiFpA
- Курс в Университете Осло https://www.ub.uio.no/english/courses-events/courses/other/research-data/time-and-place/rdm-uio-spring2023-7.html
А ещё есть модуль Finding hidden data on the Web в курсе на портале данных Евросоюза https://data.europa.eu/elearning/en/module12/#/id/co-01 Поиск скрытых данных в публичных источниках вообще моя любимая тема, столько интересного находится таким образом.
Некоторые рекомендации по поиску данных есть для дата-журналистов, но они находятся внутри общих руководств по дата-журналистике и часто совмещены с гайдами для журналистов расследователей по верификации источников, поиску данных в соцсетях и OSINT.
Отдельная тема - это поиск и систематизация корпоративных данных. Там почти все методики и гайды не про поиск, а про каталогизацию, поскольку задача поиска лишь один из способов использования корпоративных каталогов данных.
В итоге у всего этого отсутствует теоретическая база, data discovery как дисциплина научная, в первую очередь, мало представлена, а жаль слишком многое приходится додумывать самостоятельно.
#thoughts #datadiscovery #data
Продолжу рассказывать про новые каталоги данных в реестре Common Data Index и тому какие данные и где доступны. Сейчас в реестре [1] уже 2304 портала/каталога данных из которых:
- 1086 порталы открытых данных
- 670 геопорталов/геокаталогов
- 342 репозитория научных открытых данных
- 85 каталогов с индикаторами
- 66 каталогов микроданных (переписи, соцопросы)
- 24 сайта со списками наборов данных (в реальности их тысячи, отбираются только самые крупные),
- 12 каталогов данных для машинного обучения
- 7 каталогов API
- 7 поисковых систем по данным
- 5 маркетплейсов с данными
Ещё около 700 порталов в ожидании добавления и ещё около 500-1000 в списках собранных другими и ещё какое-то большое число не найденных ещё .
В добавление к прошлым публикациям о том что удаётся найти, вот ещё несколько мыслей про научные порталы с данными:
1. Более 92 университетских порталов публикации научных результатов на базе Elsevier Pure включают разделы с открытыми данными. Это не так много количественно как Zenodo или SciDb, но уже заметно. В общей сложности там десятки тысяч наборов данных.
2. Университетских порталов на базе Figshare меньше, но многие исследователи сами публикуют данные на этой платформе, поэтому там в общей сложности собрано уже более 1 миллиона наборов данных.
3. Figshare и Elsevier два основных конкурента в этой области и оба конкурируют с бесплатными открытыми репозиториями и тем что университеты разворачивают открытые продукты вроде Dataverse или InvenioRDM. Также у многих университетов остаются ранее используемые системы публикаций на базе DSpace или EPrints в которых изначально публиковались только статьи, но с той поры некоторые стали туда добавлять и датасеты.
4. Есть прямая корреляция между "живостью" науки и открытыми данными. Во всех странах где научная работа ведётся активно есть масштабное раскрытие данных: США, Китай, Европа, Япония, Австралия и тд. Чем далее тем это более заметно. И выбор между тем чтобы создавать свой научный репозиторий или использовать один из глобальных сервисов руководства университетов делают по критериям цены/возможности сбора метрик по публикациям. Собственно измеримость научной деятельности и аутсорс управления инфраструктурой и есть две главных функции у Figshare и Elsevier Pure.
Ссылки:
[1] https://registry.commondata.io
#opendata #datacatalogs #openaccess
Минэк опубликовал «открытые данные», но это не данные, и они не открытые
В конце мая, ровно за день до дедлайна по моему запросу (ответ на который, кстати, был просрочен), Минэк все-таки опубликовал какие-то «наборы данных» на своем сайте. Сделано это было для галочки по следующим причинам:
- нет единого подхода к публикации данных: в каких-то наборах скопировали паспорт с Портала открытых данных (не заменив при этом неработающие ссылки), где-то просто прикрепили csv с структурой данных (без каких-либо комментариев и непосредственно набора данных);
- видна небрежность во всем: прикрепить ссылку (неработающую, конечно) на данные по говядине замороженной вместо риса длиннозерного; указать об отсутствии информации об ответственном лице, а строкой ниже написать его почту «ИвановИИ@минэк.гов.ру»; выложить структуру данных без набора данных; опубликовать вместо ссылки на набор данных ссылку на главную страницу неработающего портала Открытых данных;
- большинство наборов данных устаревшие: например, данные о тарифных квотах на рис, молоко, свинину, индейку и говядину за 2016-2017 гг. Сложно придумать, что на сегодняшний день можно сделать с этими данными 5-летней давности и почему опубликованы только эти категории;
- всего «наборов» 19, но ни одного полезного для себя не нашла. Например, есть потенциально интересный набор «Основные показатели социально-экономического развития России», но внутри прикрепленного файла нет ни одного значения;
- План внутреннего аудита Минэка опубликован на 2022 год, План работы Общественного совета - на 2021 год, Плану работы Коллегии Минэка повезло еще меньше - он доступен только на 2018 год (и в нем только две строки: итоги деятельность за 2016 год и планы на 2017-2018 гг);
- «Данные об охвате населения» формально опубликованы, но паспорта или описания их структуры нет, поэтому невозможно определить, какие поля описаны в файле, и за какой год этот файл.
С учетом качества опубликованных файлов есть большие сомнения в том, что Минэк разбирается в предметной области, сможет курировать данное направление и консультировать другие госорганы, не говоря уже о качестве инвентаризации, проведение которой заявлено в информационном сообщении о закрытии Портала открытых данных (кстати, конкурсная документация для нее готовится уже много месяцев).
И самая большая проблема в том, что с Минэка берут пример другие госорганы, ведь именно Минэкономразвития России отвечает за «открытость» и «открытые данные».
Познакомиться с «открытыми данными» Минэка можно тут: https://www.economy.gov.ru/opendata/, ниже опубликую несколько скриншотов.
#открытыеданные #открытость #порталоткрытыхданных #минэк #гостех
В рубрике интересных и необычных наборов данных, коллекция чатов переговоров между рансомварщиками-шифровальщиками и пострадавшими от них компаниями, стремящимися договориться [1] все чаты анонимизированы, но хорошо иллюстрируют уровень дискуссии и должны быть полезны студентам работающим в области информационной безопасности для их работ, а также исследователям для научных публикаций. А может и для чего-то ещё может пригодиться.
Эти же данные можно увидеть наглядно в Ransomchats Viewer [2], а оригинально они доступны в JSON формате.
Ссылки:
[1] https://github.com/Casualtek/Ransomchats
[2] https://ransomch.at/
#datasets #security #data
[EN] We keep working on new data tasks for volunteers and we added new tasks recently:
- Collect data from legal acts drafts website www.e-draft.am
- Collect metadata on the reports of the Armenian NGOs
- Collect the data of the Exchange Rates Archive
- Worldwide Armenian Churches Lists Extraction
- Convert data of Research on Armenian Architecture from HTML to machine readable data (csv, geojson)
- Extraction of Electronic Catalogue of Armenian Cultural Values
- Collect metadata of Armenian historical documents
And we would like to thank Github user arsen41531 for the first completed task: Extract government budget data from Republic of Armenia interactive budget website. Parser and data available at https://github.com/opendataam/opendatam-egov-am-budget-parser Thanks a lot Arsen!
If you have some free time and programming skills, you could help to create more open data about Armenia or related to Armenia. Please take any of these tasks.
If you don't have programming skills but you have ideas in mind about how to find and use data if it will be machine-readable open data, please write in chat /channel/opendataamchat, we will help to convert ideas into tasks for volunteers.
if you know IT communities willing to help to bring more open data online, please share, like and repost :)
#opendata #opensource #datatasks #volunteering
В Великобритании готовят перезапуск Gov.uk и правительство (кабинет министров) прам-парам-пам, вы не поверите, но решили сделать мобильное приложение. Первым же пунктом у них звучит "Develop a GOV.UK app". И это особенно забавно звучит для тех кто помнит когда их цифровая служба чуть ли гордилась тем что не будет делать мобильные приложения.
Тем более что ещё с ноября 2012 года любая разработка мобильных приложений требовала явного одобрения кабинетом министров, так что мобильных приложений от госорганов в Великобритании было почти совсем ничего, очень мало.
Ждём вот уже скоро этого приложения. Можно сказать что уходит целая эпоха когда аргумент "давайте мы вместо приложения оптимизируем наш сайт под мобильные устройства" потерял уже самых стойких оппонентов.
UK когда-то были очень сильными лидерами в цифровизации государства а потом всё не то чтобы сдулось, но очень сильно потеряло у них внутренний темп развития. Смогут ли они перезапустить это всё в новой современной форме? Пока непонятно, но интересно
#government #uk #govservices
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.
Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.
Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.
#digitalpreservation #archives #ruarxive
Google опубликовали Generative AI learning path [1] из 9 курсов. Там практически все курсы посвящены развертыванию решений на базе Google Cloud.
Полный список курсов:
🤖 Intro to Generative AI
🤖 Intro to Large Language Models
🤖 Intro to Responsible AI
🤖 Intro to Image Generation
🤖 Encoder-Decoder
🤖 Attention Mechanism
🤖 Transformers and BERT Models
🤖 Create Image Captioning Models
🤖 Intro to Gen AI Studio
Ссылки:
[1] https://www.cloudskillsboost.google/paths/118
#ai #learning #generativeai
Я перестал лениться и быстренько, за пару часов извлек из реестра каталогов данных информацию по каталогам для публикации данных и сварганил на Github Awesome Opendata Software список из всех вариантов того как сделать свой каталог открытых данных или данных вообще и на базе какого ПО это делают.
ПО каталогов данных разделено по категориям: порталы открытых данных, геокаталоги и репозитории научных данных. А также разделено на продукты с открытым кодом и коммерческие продукты и сервисы.
В списке совсем нет ничего про корпоративные, не открытые данные и не публичные данные. Их и не планируется, они по другому устроены, их надо рассматривать как отдельную категорию ПО. В списке пока нет ПО для публикации микроданных и статистических индикаторов, будут позже. И пока нет других инструментов и стандартов работы с, в первую очередь, открытыми данными, например, Data Packages, DCAT, DCAT AP и так далее.
#opendata #awesomelists #opensource
Могу лишь подтвердить что ошибки в административных данных это норма. Тем печальнее что ни журналисты, ни ФНС не делают факт чекинг, и входной контроль за данными в ФНС России, похоже, оставляет желать лучшего.
Читать полностью…[EN] Awesome list: a toolkit for text analyzis Armenian language
- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors.
- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.
- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.
- Kevin Bougé Stopword Lists Page includes th Armenian language.
- Ranks NL Stopword Lists Page includes the Armenian language.
If you know of new usefull tools and guides, please share that knowledge with us!
Image author Aparna Melaput
#opendata #armenia #language #tools #digitalhumanities
Казначейство России возобновило публикацию отчетов об исполнении федерального бюджета. Но данных о расходах в отчетах нет
В конце мая Казначейство России возобновило публикацию отчетов об исполнении федерального бюджета на своем официальном сайте, добавив файлы и за 2022 год. В отчетах содержатся:
- детализированные данные по доходам (но без разбивки по администраторам);
- детализированные данные по источникам финансирования дефицита бюджета;
- вкладка «Расходы» осталась, но строк в ней всего две: «Расходы бюджета - всего» и «Результат исполнения бюджета (дефицит / профицит)». Фактически данных о расходах нет.
Если сравним с последним опубликованным полным отчетом (от марта 2022 года), то увидим, что из отчетов пропали:
- разбивка доходов по администраторам;
- детализированные данные о расходах (в т.ч. по администраторам);
- вкладка с детализацией расходов по ФКР.
Напомню, что публикация отчетов об исполнении бюджета на сайте Казначейства России была прекращена в начале прошлого года (последним был опубликован отчет на 1 марта), но до октября данные публиковались на портале ЕПБС в другом формате (с этим тоже были проблемы, т.к. о качестве данные ЕПБС всем известно, а первоисточника для проверки данных не было). Но с октября данные перестали публиковаться и на портале ЕПБС (с последующим удалением данных с апреля по октябрь).
Конечно, публикация данных о доходах и источниках финансирования дефицита бюджета - это уже что-то (и хорошо, что хотя бы в таком виде прошлогодние данные добавили), но хочется большего.
#открытость #казначействороссии #открытыеданные #госфинансы #бюджет #федеральныйбюджет
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]
Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.
При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.
Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.
Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en
#opendata #data #datasearch #china #openscience #openaccess
В рубрике полезного чтения про данные, технологии и не только:
- Generating income from open source [1] автор перечисляет успешные бизнес модели на открытом коде, вроде ничего нового, но и систематизация вполне неплохая. Полезное чтение для всех кто об этом думает.
- Data Documentation 101: Why? How? For Whom? [2] зачем, как и для кого описывать данные и связанную с ними инфраструктуру. Мысли более чем разумные, а я добавлю что автоматизация - это то без чего не выжить в мире документации. Жду не дождусь когда сделают ИИ который за тебя задокументирует код, API, данные и оставит пояснения где ещё надо вручную поправить потому что непонятно.
- The Data Journey Manifesto [3] 22 принципа из мира дата-аналитики. Все как бальзам на душу: не тестируй качество данных вручную, не доверяй поставщикам своим, знай как должно быть и как не должно быть, находи проблемы быстро. Хорошие тезисы, стоит на разные языки их перевести
- DashQL -- Complete Analysis Workflows with SQL [4] научная статья про DashQL язык интегрированный с SQL для построения цельных аналитических конвейеров данных. Статья любопытная, но хочется сразу ненаучного, а так чтобы примеры можно было посмотреть и эксперименты поделать
- Survey reveals AI’s impact on the developer experience [5] исследование от Github о том как разработчикам нравятся ИИ инструменты. Тут есть, конечно, некоторая циничность. Это примерно как если бы Google делал исследование о том как люди любят пользоваться поиском или Microsoft о том как люди любят писать тексты. Тем не менее любопытное там есть, области применения ИИ инструментов и ожидания от них.
- StackOverflow 2023 developer survey [6] результаты опроса разработчиков от StackOverflow, в случае данных два главных навыка остаются критично важными - это Python и SQL. Они же лидируют в общем зачёте, уступая только HTML/CSS и Javascript. Обратите внимание что у профессиональных разработчиков SQL важнее и чаще нужен чем Python, а у начинающих наоборот, Python с большим отрывом. Учите SQL если кратко;)
Ссылки:
[1] https://vadimdemedes.com/posts/generating-income-from-open-source
[2] https://towardsdatascience.com/data-documentation-101-why-how-for-whom-927311354a92
[3] https://datajourneymanifesto.org
[4] https://arxiv.org/abs/2306.03714
[5] https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/
[6] https://survey.stackoverflow.co/2023/
#readings #python #data
Среди порталов с открытыми данными, иногда, выявляются уникальные находки. Например, мало кто знает что во Вьетнаме много порталов открытых данных - страны, провинций, и городов, и университетов. Я об этом отдельно как-нибудь напишу. А из них можно особенно выделить портал открытых данных города Da Nang [1].
Кроме всего прочего они предоставляют данные через SMS.
Я совершенно серьёзно, Можно отправить SMS с текстом на специальный номер и получить в ответ документ или запись из баз данных. Это, конечно, ближе к API чем к выгрузке наборов данных, но зато своя живая экзотика.
Скриншот прилагаю, текст на нём переведён гуглопереводчиком, так что неточности могут быть, но смысл не меняется.
Ссылки:
[1] https://opendata.danang.gov.vn
#opendata #vietnam #dataportals #danangcity
В рубрике интересных наборов данных база [1] из 650 тысяч сегментов пользователей собранных исследователем Wolfie Christl из рекламной платформы Xandr (изначально созданно в AT&T, купленной Microsoft в 2021 году).
Записи включают: имя поставщика данных, ID поставщика, ID сегмента, название пользовательского сегмента.
Данные интересные и ещё интереснее публикация в The Markup по итогам анализа этих данных [2].
Выводы там неутешительные, очень многие сегменты используют самые что ни на есть персональные данные включая самые чувствительные, вроде медицинских данных.
Ссылки:
[1] https://github.com/the-markup/xandr-audience-segments
[2] https://themarkup.org/privacy/2023/06/08/from-heavy-purchasers-of-pregnancy-tests-to-the-depression-prone-we-found-650000-ways-advertisers-label-you
#opendata #privacy #admarket #microsoft
Ещё один общедоступный каталог данных для машинного обучения, на сей раз от DagsHub [1]. Я про этот стартап писал примерно 1.5 года назад и за это время у них прибавилось пользователей и появился каталог данных для машинного обучения, встроенный прямо в платформу. Каталог любопытный, но как-то с совсем скудным набором метаданных и доступом к данным через их библиотеку и как хранимым на S3.
В целом непонятны преимущества перед Kaggle или HuggingFace с точки зрения именно каталога данных, но полезным может быть и в такой форме.
В целом в реестре каталогов данных по всему миру у меня собрано уже 12 каталогов для машинного обучения. Это немного, учитывая что всего в реестре ожидается 3000+ каталогов данных, но заметно, если переводить цифры в объём хранимых данных и их влияние.
Ссылки:
[1] https://dagshub.com/datasets/
#opendata #machinelearning #datacatalogs
Даже не знаю что добавить, Ольга (@ahminfin) всё правильно пишет что ключевое в том что в российском Минэкономразвития нет компетенций связанных с их полномочиями по открытости государства. Проблема эта, что называется, качества человеческого капитала. Ну а миграция официального портала открытых данных на Гостех - это минус на минус который превращается в жирный минус.
#opendata #opengov
К разговору о сообществе по открытым данным Open Data Armenia которое я сейчас создаю, я не могу не вспомнить что повторяю то же самое что делал 14 лет назад в России. В 2009 году я начал создавать портал OpenGovData.ru, а ещё занимался другими общественными проектами такими как ГосЛюди и ГосСеть [1]. Они все уже не работают в изначальном виде, но было важным заделом к созданию российского сообщества и многих проектов которые за ними последовали.
Сейчас идти по собственным следам несложно, но важно и то что как 13 лет назад, так и сейчас всё это может существовать даже при нулевом и отрицательном участии государства.
Разница лишь в том что в последние годы кроме открытости государства на передний план всё чаще выходят и другие темы: защита персональных данных, этика использования ИИ и многое другое. Игнорировать их нельзя, помнить о них также необходимо.
В остальном же, не важно, к примеру, восстановит ли Минэк России портал открытых данных data.gov.ru или нет, сама тема значительно больше одного министерства и продолжит существовать в любом случае.
Ссылки:
[1] https://blog.okfn.org/2010/06/23/open-government-data-in-russia/
#opendata #memories #russia
Я тут регулярно писал о том что в последнее время стараюсь меньше писать про внутрироссийские дела, особенно связанные с госинформатизацией и больше про то что касается рынка данных в мире, глобальные проекты и не только. Но российские журналисты где-то 2-3 раза в неделю задают мне какие-нибудь вопросы и просят комментарии на очередную госинициативу, а я долго подбираю слова для цензурных комментариев, а потом ещё и не все эти слова доходят до публикаций. Где-то срабатывают темники и ограничения на негатив в российских СМИ, где-то ещё что-то.
Так вот, несколько универсальных комментариев на всё:
1. Гостех - это активная профанация на высоком уровне. Я писал об этом много раз, повторяться надоедает. Больше 3-х лет это разговоры про планы с практически полным отсутствием реальной демонстрации работы. От того что слово мёд повторить тысячу раз слаще не станет. Но к любой госактивности связанной с ГосТехом можно и нужно относится только как к пиару. Даже если предположить что вся эта история - это реализация принципа Fake it till you make it (Обманывай пока не сделаешь). Все профессионалы в области кого я знаю стараются держаться от этой темы как можно дальше.
2. Рейтинги оружие слабых. Если я выпускаю рейтинг госорганов или региональных властей - это понятно. У меня нет возможности им приказать или отрезать финансирование. По той же причине публикуют или все остальные, подсветить свою тему локально или глобально. Если Пр-во выпускает любой рейтинг подведомственных им структур, например, рейтинг РЦТ (Руководителей цифровой трансформации), то как бы помягче сказать. Это такой, я бы сказал признак, неедееспособности. Потому что рейтинг - это публично PR действие, похвалить и пристыдить, а у Пр-ва есть прямые механизмы управления ФОИВами. Публикации рейтингов Пр-ва - это как выносить сор из избы. Вот вам аналог, представьте себе что ваша компания начала публиковать пресс релизы о том что вот программисты хорошо поработали в этом году, они молодцы, а HR отдел редкие засранцы, плохо работают. Какая первая реакция на это? WTF?! Чего об этом всем кричать? Это вообще особое какое-то ментальное изменение в Пр-ве за последние годы когда даже не имитируют оргазм независимые оценки, а оценивают от себя напрямую. То есть уже даже контроль подрядчиков недостаточен для того чтобы выдавать нужные себе цифры.
3. Вице-премьеры то, вице-премьеры сё, а зачем они вообще нужны? Это, уж простите, но ключевой вопрос. Журналисты пишущие о том что там провёл и сделал тот или иной вице-премьер забывают о том что вот эта многоуровневая модель управления гос-вом с 10 зампредами пр-ва, с 20 министрами и толпой руководителей ФОИВов. Ключевой вопрос зачем Пр-ву 10 вице-премьеров? В большинстве стран у премьер-министра только один заместитель который и есть реальный заместитель. Премьер министр уехал куда-то и он его заменяет. А вот эта модель коллегиального управления где ещё и толпа комиссий, президиум пр-ва, огромный аппарат и ещё дохрена всего - вот это и должно вызывать вопросы. Не то что вице премьеры делают, а нахрена их столько
Это всё то что я мог бы написать ещё, и 2, и 3 года назад. Это проблемы ещё мирного времени, понятно что за эти полтора года можно много чего добавить. И рост бюрократической нагрузки, и снижение открытости гос-ва в целом через почти полное сокрытие всех результатов выполнения госпроектов и ещё много всего. Причины всего этого понятны, я здесь повторять их не буду.
#government #russia
Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.
У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне не хватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.
#education #studies #learning #dataanalysis #data
Всякое интересное чтение про данные, технологии и не только:
- Meltano Cloud ETL/ELT продукт от одноимённого стартапа вышел в бета режиме. На мой взгляд Meltano один из наиболее интересных ELT продуктов последних лет и точно стоит к нему присмотреться, как минимум к открытой опенсорсной версии, но и от облака может быть практическая польза
- Castor теперь CastorDoc - Castor это такой стартап для каталогизации данных, они поменяли приоритет и стали CastorDoc, стартапом по документированию данных. Ценник у них резко взлетел, минимальная стоимость продукта в $1200 в год, всё остальное по договорённости. Ниша интересная и перспективная
- Paragraphica голландский артист/инженер/дизайнер Bjørn Karmann сделал фотоаппарат которые "делает снимки" так похожие на реальность. Данных там нет, но есть про ИИ и сама концепция. Современное искусство в чистой, незамутнённой форме
- Instacard pipelines про модуляризованные ковейеры данных внутри Instacart, с использованием Spark и Lakehouse архитектуру. Полезно как практический пример живой системы.
- 144TB Nvidia GPU - Nvidia пока однозначно лидирует в гонке ИИ, новый их продукт специально для Generative AI.
- В Японии копирайт не распространяется на обучение ИИ - отличная новость для ИИ, печальная для художников, писателей и тд. ИИ лоббисты (биг тех) всё сильнее, а традиционные копирайтовладельцы не могут им противостоять.
#ai #data #datatools #datacatalogs #etl
В рубрике как это работает у них итальянский государственный портал дата-семантики schema.gov.it [1] на котором собраны описание, данные, API для онтологий и контролируемых справочников. Если сравнивать с Россией то это аналогично системам управления НСИ Минздрава [2] или общероссийским справочникам в ведении Росстата и ФОИВов.
Важное отличие итальянского schema.org в том что он полностью построен на связанных данных, Linked Data. Там размещены, как онтологии, так и сами справочники в форматах RDF. Причём что характерно все данные одновременно опубликованы на Github'е [3] и сам портал и данные представлены в виде открытого кода.
Там же обещают публиковать и схемы данных.
У портала развитое API и возможность интегрировать эти справочники в любой другой создаваемый продукт.
Ссылки:
[1] https://schema.gov.it
[2] https://nsi.rosminzdrav.ru
[3] https://github.com/italia/daf-ontologie-vocabolari-controllati
#opendata #opensource