Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии.
Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].
Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.
Будем ждать новых подобных конфликтов в этом году.
Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.
Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai
#ai #privacy
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)
Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.
Ссылки:
[1] https://open.usa.gov/national-action-plan/5/
#opendata #usa #policies
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․
В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.
Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.
На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.
Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].
Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/
#opendata #datasets #uk #census
В рубрике как это работает у них, о том что не все форматы файлов для работы с данными сводятся к CSV, SQL, JSON и другим наиболее распространённым. На порталах открытых данных часто встречаются файлы в непривычных форматах, например PX [1], этот формат ещё называют PX-Axis потому что он используется в одноимённом программном продукте который позже переименовали в серию продуктов PxWeb, PxWin и PxEdit. PxWeb и PxWin были разработаны статистическим ведомством Швеции [2] и переведены, по большей части, в открытый код. А PxEdit сделали в статистическом ведомстве Финляндии [3].
Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах.
Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться.
Ссылки։
[1] https://www.scb.se/en/services/statistical-programs-for-px-files/px-file-format/
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/
[3] https://www.stat.fi/tup/tilastotietokannat/px-tuoteperhe_en.html
[4] https://datos.gob.es/es/catalogo?res_format_label=PC-Axis
[5] https://data.gov.ie/dataset?res_format=PX
#opendata #datasets #fileformats #data
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] /channel/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] /channel/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] /channel/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.
В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций
Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.
Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.
Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.
Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.
При этом данные интегрированы с проектами Re3Data от DataCite и ROR.
Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.
Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/
#openaccess #opendata #fair #datastandards
Если говорить про рынки основанные на данных, то 2022 год - это, безусловно, год Generative AI. Многие уже видели подборку продуктов в этой области [1] и это далеко не все продукты. Следующий год будет проходить под девизом "какую следующую креативную профессию мы собираемся [уничтожить] автоматизировать?".
На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.
Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.
P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.
Ссылки։
[1] https://t.co/QiNl7VP8oI
#ai #itmarket #endoftheyear
Новый год приближается очень быстро, можно подвести краткие итоги. В этом году я очень много писал в телеграм канал, более 1000 публикаций. Читателей стало больше, но всё ещё разумное количество. Много репостов и просмотров, много реакций и комментариев.
Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
По поводу Единой биометрической базы данных в России мне много что есть сказать, про разного рода политические аспекты многие журналисты написали, пишут или напишут.
Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.
На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.
Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.
#russia #regulation #privacy #security
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։
- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.
- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.
- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.
- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил
- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше
- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.
- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.
Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/
#data #ai #technology #readings
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно
- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.
- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.
- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]
- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix
Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/
#data #readings #technology
Global Biodata Coalition опубликовали список Global Core Biodata Resources [1]. Это перечень баз данных с биоданными особо значимыми для долгосрочного развития науки.
Эти базы данных должны соответствовать следующим критериям։
- предоставлять бесплатный и открытый доступ к данным
- используются активно по числу и распределённости их пользователей
- зрелые и всесторонние
- рассматриваются как авторитетные в своей области
- обладают высоким научным качеством
- и демонстрируют высокий профессиональный стандарт в предоставлении сервиса.
Открытость и свобода доступа определяются через совместимость с лицензиями OpenDefinition [2].
Очень хорошо сформулированные критерии, актуальные для любой области, не только для биологии, медицины и биоинформатики.
Всё вместе это данные огромного объёма, используемые исследователями по всему миру.
Ссылки։
[1] https://globalbiodata.org/scientific-activities/global-core-biodata-resources/
[2] https://opendefinition.org/licenses/
#opendata #datasets #biosciences
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].
Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.
Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.
Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.
P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github
Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars
#opensource #datatools #datengineering
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.
Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.
Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7
Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)
#opendata #opendataday
Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.
Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.
Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023
#ai #data #readings #startups
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
2023 год наступил, я под него откладывал набор предсказаний, предположений, мыслей того что нас ждёт в этом году. В этом году мой список будет краток и, почти наверняка неполон.
Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений
Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.
Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.
Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно
#opendata #data #dataengineering #government #predictions
Свежее регулирование от Еврокомиссии определяющее раскрытие особо ценных наборов данных (high value datasets) [1].
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog
В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.
Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].
А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].
Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.
Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
#opendata #geodata #geospatial #datacatalogs
Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.
Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.
Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.
Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.
Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.
Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/
#opendata #data #russia
Я ранее писал про библиотеку кода Iterable data для Python предназначенную для потоковой обработки файлов с данными [1] и наконец-то нашёл время обновить её в Github'е [2] и залить в Python packages [3]. Теперь установить код можно командой "pip install iterabledata".
Про то зачем это нужно я писал ранее. Основная задача в том унифицировать обработку файлов данных так чтобы не было заметной разницы работаешь ли ты с файлом JSON, CSV, NDJSON, BSON, Parquet или другим. Сейчас поддерживаются 11 форматов файлов и 5 кодеков (алгоритмов) сжатия. Это даёт возможность не только упростить и унифицировать обработку файлов, но и достаточно просто делать преобразования между файлами в разных форматах. Всё это рождается из реальных задач с которыми приходится сталкиваться когда работаешь с файлами в "дикой среде", а то есть не можешь управлять тем в каком первичном виде они существуют.
По сути это код выделенный из утилиты undatum и доработанный для универсальной поддержки разных форматов. Он альтернативен к использованию pandas и датафреймов, потому что датафреймы не поддерживают JSON/NDJSON, а уплощение данных (flattening) допустимо и удобно далеко не всегда.
Что добавилось։
1. Универсальная функция open_iterable("название файла") которая на вход может получать файл в формате csv, json, ndjson, bson, parquet и тд и возвращать итератор
2. Класс Pipeline и функция Pipeline для очень простой перегонки данных из одного файла в другой с промежуточной обработкой.
3. Обновлены многие типы форматов, добавлен кодек lz4.
4. Практически все основные функции покрыты тестами
5. Добавлено множество вспомогательных функций для работы с разными типами данных, они будут уже в документации
Ссылки։
[1] /channel/begtin/4476
[2] https://github.com/apicrafter/pyiterable
[3] https://pypi.org/project/iterabledata/
#opensource #dataengineering #data #datatools
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.
Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.
Ссылки։
[1] https://microsoft.github.io/cadl/
#opensource #microsoft