Почти всё что сейчас обсуждается про ИИ сводится или не обходится без упоминания ChatGPT. Но интереснее упоминание GPT-4, вот, например, удалённый теперь уже твит [1] с мыслями Сэма Альтмана, главы OpenAI.
Ключевые мысли։
1. Microsoft "по уши" в OpenAI. Bing получит ИИ поиск в следующем году.
2. GPT-4 выйдет во втором квартале 2023 г.
3. Google в большом волнении и планируют также ASAP внедрять ИИ для поиска. Вопрос как при этом они не порушат их же бизнес модель.
4. Ключевое сейчас не в прокачке конфигруации и языковых моделях, а тупо в безграничности экзафлопсов для потраченных на обучение моделей.
5. Большая рыночная тема в применении языковых моделей к конкретным областям, вроде программирования.
И, туда же, вдогонку статья в Forbes [2]
о 10 предсказаниях о ИИ на 2023 год.
Ссылки։
[1] https://twitter.com/rmlpt110/status/1605261913306308616
[2] https://archive.ph/IkRxT
#data #ai #future #2023 #chatgpt #gpt4
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].
Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.
Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных
Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity
#opendata #policy #reports #europe
Результаты опроса о реакции на утечки персональных данных. Если по каким-то пунктам есть разные мнения, то по двум։ аудит информационных систем и публичное расследование, всё достаточно очевидно. Компаниям пострадавшим от утечек персональных данных будет полезно взять это на заметку.
#privacy #security #polls
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].
Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.
Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.
Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576
#privacy #google #data
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.
Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]
Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.
В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.
Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data
#opendata #data #cartography #microsoft #amazon #meta #tomtom
В Ведомостях заметка о том что " «Сбер» предложил банкам, маркетплейсам и операторам открыть друг другу данные " [1]. Она под пэйволом, но смысл понятен даже из анонса. Если кратко, то Сбер в лице первого зампреда Александра Ведяхина говорит об обмене данными между банками и маркетплейсами и называет это open data в сравнении с open banking.
Как бы прокомментировать это помягче. Ведяхин плохо знает матчасть иначе он бы знал что open data - это не обмен данными между участниками рынка, а предоставление их неограниченному числу лиц под свободными лицензиями и в машиночитаемых форматах. А то что он описывает - это называется data sharing, практики обмена данными между участниками рынков. Причём эти практики в основном инициируются регуляторами для того чтобы монополисты делились данными с другими компаниями. Такие инициативы и многие проекты есть в Европейском союзе, например, в автомобильной отрасли или в фармацевтике. В ЕС есть целое руководство по этой теме Guidance on private sector data sharing [2].
Основная идея в таком обмене данных в том что есть отрасли в которых гражданин/пользователь/налогоплательщик выигрывает от обмена данными. Например, от обмена данными между фарм компании при разработке лекарств и ещё много где. Опять же, гражданин на первом месте во всех таких инициативах.
Выиграет ли что-то гражданин от того что банки и маркетплейсы будут обмениваться о нём информацией? Скорее проиграет, а то и потеряет когда о нём данные утекут в очередной раз.
Поэтому, я был о Ведяхине лучшего мнения, он мало того что путается в терминах, но и предлагает нечто прямо против интересов пользователей. Очень хочется надеяться что регулятор в лице ЦБ даст Сбербанку ․․․․․ (строгий ответ) за такие идейки.
И, повторюсь, что если в Сбербанке реально хотят раскрывать данные, то могут давно начать это делать публикуя их в открытым доступе, под свободными лицензиями в машиночитаемых форматах.
Ссылки։
[1] https://www.vedomosti.ru/technology/articles/2022/12/15/955362-sber-predlozhil-otkrit-drug-drugu-dannie
[2] https://digital-strategy.ec.europa.eu/en/policies/private-sector-data-sharing
#opendata #sberbank #idiotseverythere
В рубрике полезного чтения про данные, технологии и не только։
1. The state of AI in 2022—and a half decade in review [1]
Свежий обзор от McKinsey в виде аналитики по результатам опроса компаний из разных секторов экономики по поводу использования ИИ в их работе. Конечно, это не ИИ по большей части, а разного рода системы принимающие решения автоматически (ADM systems), но у консультантов они все проходят сейчас как "ИИ".
Я, честно говоря, не особенно доверяю обзорам от топовых международных консультантов, они чаще показывают то что эти консультанты продают или собираются продавать, а не реальные тренды. Особенно после появления ChatGPT все эти обзоры кажутся слегка... устаревшими. Тем не менее, для кого-то будет полезно узнать что проблема найма дата-сайентистов и дата-инженеров для крупнейших компаний никуда не исчезла, может что-то ещё полезное найдется.
2. Types of data products [2]
Автор блога Product Management for Data рассуждает о том какие типы продуктов на данных бывает. Для меня всё кажется очевидным, но для кого-то эта систематизация может быть полезной. Вкратце он классифицирует продукты как։ Platform, Insights и Activation. Все этому не хватает примеров, и понимания что часто бизнес модели и продуктовые модели на данных являются гибридными и сложными.
3. NormConf [3]
Онлайн конференция про данные и машинное обучение с кучей явно очень интересных тем, спикеров оттуда знаю немногих, а вот темы выглядят как актуальные. Платить за участие не нужно, регистрация бесплатная. Будет 15 декабря, но надо учитывать разницу во времени с США. Лично я скорее всего посмотреть смогу немного в трансляции, много дел в эти дни( Буду смотреть в записи довольно многое оттуда
Ссылки։
[1] https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review
[2] https://pmdata.substack.com/p/types-of-data-products
[3] https://normconf.com
#data #readings #ai
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.
Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed
#data #datatools #startups #france
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.
Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.
Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- http://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- http://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- http://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php
Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.
Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.
Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.
Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.
#opendata #datacatalogs #datasets #datadiscovery
В продолжение темы открытости данных в Казахстане о которой я уже писал [1], не могу не добавить ложку дёгтя. Важно то что из-за того что на портале данных data.egov.kz Казахстана данные доступны только после авторизации и только для граждан или лиц получивших местный налоговый код ИИН, то по факту, добавление туда данных из других официальных источников страны, не увеличивает, а снижает уровень доступности и открытости этих данных.
К примеру, есть в Казахстане Единая информационная система охраны окружающей среды [3] где публикуются обобщённые показатели такие как։ Объемы опасных отходов, Объем образованных неопасных отходов и другие. Эти данные общедоступны и их, при небольшом желании, можно скачать с сайта в JSON формате. Экспорта на странице нет, но в коде страницы всё довольно очевидно.
Данные из этой системы упомянуты в постановлении Правительства РК как "Объем опасных отходов по показателям (общие показатели по республике) (отчетный период; вид операции; объем отходов)"․ То есть они должны публиковаться и публикуются на портале [3], но не гражданам и не имеющим ВНЖ недоступны.
Но дело не только в недоступности, но и в том что доступ граждан отслеживается, что довольно странно и, в принципе, в мире практикуется крайне редко.
В целом почти неизбежно при следующих рейтингах и оценках открытости данных в Казахстане уровень открытости там может оцениваться скорее как снижающийся чем иначе.
Ссылки։
[1] /channel/begtin/4440
[2] https://oos.ecogeo.gov.kz/
[3] https://data.egov.kz/datasets/view?index=785_megpr
#opendata #kazakhstan #datasets
В рубрике как это работает у них, портал открытых данных Новой Зеландии data.govt.nz [1]. На портале размещено почти 32 тысячи наборов данных от 182 организаций. Более половины опубликованных данных - это геоданные в форматах KML, SHP, DWG, GPKG и геоAPI, ввиде метаданных и ссылок на данные опубликованные в системе ведения геоданных Linz Data Service [2] и на порталах открытых данных на платформе ArcGIS [3].
Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.
Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.
Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].
Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/
#opendata #newzealand
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.
В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.
Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.
Для попадания туда есть два пути.
Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет
Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией
К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.
Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.
Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.
Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf
#predictivepolicing #netherlands #privacy #eu
Вышел свежий доклад The State of Open Data 2022 [1] от Figshare посвящённый открытости данных в науке. Как и все доклады типа "The state of ..." это построен на опросе, в данном случае опросе исследователей работающих с данными. Там много любопытного о том как учёные используют данные и обмениваются ими, но интересно и то что открытость науки сейчас это характеристика живой науки. Уж насколько можно считать закрытым Китай, но в докладе есть статья The role of policy makers in China: facilitating the move to open data for researchers and journals о том как в Китае разработали и применяют принципы управления данными Measures for the Management of Scientific Data (MMDS) и открытый обмен данными часть их стратегии.
Ссылки։
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984
#opendata #openaccess #openscience #datasharing
Разработчики ИИ пугающими темпами создают сервисы и продукты замещающие людей творческих профессий։ художников, писателей, дизайнеров, музыкантов. Все уже слышали про Midjourney и Stable Diffusion, а тут подборка продуктов менее известных, но не менее интересных։
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ
Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.
Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/
#ai #startups
У Privacy International материал о том как британское правительство поменяло способ слежки за мигрантами отпущенными под залог с электронных браслетов на ногах на умные часы [1] для чего привлекли частного подрядчика Buddi Limited [2].
У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.
Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.
Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.
Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.
Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds
#privacy #police #surveillance #crimetech
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.
Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser
#opensource #ai #machinelearning #dbt #dataengineering #etl
По поводу несмышлённой инициативы депутатов по запрету дистанционной работы для многих уехавших из РФ мне есть что сказать. У многих отъезд был и остаётся связан с ощущением, как бы помягче grande désastre (большой катастрофы), связанной, как с мобилизацией, так и с общим ухудшением окружающей действительности, так и с возможностью заниматься профессиональной деятельностью. Рассчитывать на то что ИТшники начнут возвращаться из-за запрета на дистанционную работу - это, даже не наивно, это [уже не]редкое недомыслие.
При введение запрета будет примерно так։
- крупный ИТ бизнес создаст дочерние предприятия в странах куда уехали их специалисты и переведёт их туда;
- расцветёт появление аутстаффинговых компаний с которыми будет контрактоваться средний бизнес. Раньше аутстафф западных компаний был в России, а теперь будет аутстафф российских в условном Узбекистане
- малый бизнес начнёт переоформлять программистов в ведомостях на "дистанционных исполнителей экзотических танцев" и иные интересные профессии не подпадающие под действие закона.
#russia #legislation #idiotseverythere
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).
Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.
Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.
Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/
#privacy #security #government #usa #spending
Simon Wilson собрал данные по притоку пользователей на платформу Mastodon и выложил данные и визуализацию [1]. Всего на платформу(-ы) Mastodon с 20 ноября 2022 года пришло около 1.8 миллиона человек. Много это или мало ? По сравнению с твиттером пока что мало, в Твиттере более 486 миллионов пользователей было на август 2022 г.
Важно помнить что Mastodon - это не один сайт, а более 16 тысяч связанных платформ для социального контента. К примеру, я пользуюсь mastodon.world, многие используют mastodon.social, как самый популярный, а есть много профессиональных сообществ, например, сообщество по цифровой архивации digipress.club и многие другие.
Ссылки։
[1] simonw/mastodon-users-and-statuses-over-time" rel="nofollow">https://observablehq.com/@simonw/mastodon-users-and-statuses-over-time
#opendata #twitter #mastodon #social
Я всё забыл написать, ещё пару месяцев начал и почти доделал небольшую программную библиотеку для Python для чтения данных из файлов в любых форматах с данными։ csv, json, json lines, xml, parquet, orc, xls, xlsx и в перспективе других. Называется pyiterable [1] и воспроизводит и улучшает код который был в утилите командной строки undatum [2] и в ETL движке datacrafter [3].
По сути библиотека позволяет одинаковым образом читать любые табличные и не-табличные данные и возвращать их в виде словарей для Python (python dict). Причём файлы могут быть, например, сжатыми разными архиваторами и это тоже поддерживается.
Аналогично, для ряда форматов, поддерживается не только чтение, но и запись, опять же в виде записей в виде python dict.
Мне эта библиотека нужна была чтобы в итоге заменить код внутри Undatum и сделать универсальную утилиту преобразования данных из любого в любой формат которые могут быть контейнерами для данных.
На картинке изначальная модель библиотеки, сейчас реализовано около 70% возможностей. Ошибки, предложения можно отправлять в issues, исправления в код в pull request
Ссылки։
[1] https://github.com/apicrafter/pyiterable
[2] https://github.com/datacoon/undatum
[3] https://github.com/apicrafter/datacrafter
#datatools #opensource #apicrafter #data
Была или не была утечка данных из school.mos.ru - это мы достоверно узнаем когда на их основе выйдет очередное расследование коррупции (или не выйдет, и мы тогда узнаем что утечки небыло). Скорее всего это прояснится очень скоро. Я бы словам ДИТа Москвы, чисто для профилактики, не верил, особенно после мутной истории с утечкой данных о заболевших ковидом в Москве.
Но давайте предположим что была или будет и вообще после начала мобилизации я на рынке инфобеза в России немало слышал о проблемах того что многие специалисты уехали из страны на фоне мобилизации назад не спешат. И что специалистов среднего уровня большой дефицит, так что сложно поверить что утечек не будет в каком-то разумном будущем.
Так вот предположим происходит утечка с данными из крупной государственной информационной системы. Что делать в этом случае? А далее этот вопрос опросом /channel/begtin/4474
#privacy #dataleaks
В рубрике "как это работает у них" два китайских портала открытых данных
Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]
580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.
Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.
Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.
Население Чанчжоу около 5.3 миллионов человек.
Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]
Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.
Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.
—
В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.
Ссылки։
[1] http://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/
#opendata #china #datasets #datacatalogs
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.
Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.
Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html
#privacy #dataleaks #leaks
Я, кстати, вот уже несколько месяцев думаю о том что до конца не могу сформулировать, но что укладывается в идею "критической массы изменений".
В тех областях за которыми я внимательно наблюдаю, массовая слежка и ИИ, всё довольно быстро идёт к накоплению технологий, их внедрения и социальных изменений которые неизбежно, не могут не привести к системным изменениям в обществе, государстве, рынках труда и т.д.
Например, уже выросло несколько поколений о которых с детства собиралась и собирается практически вся информация. Через сотовых операторов, соцсети, государственные системы учёта, финансовые организации и так далее. Ничего о них кроме как в цифре не существует. Включая биометрию, в том числе собираемую пассивными способами. Что будет когда реально не останется людей кроме тех кому 60+ на которых не будет цифрового профиля? Когда в национальных и международных базах будет вся биометрия։ лицо, отпечатки пальцев, геном и т.д. ?
Или вот с ИИ, прогнозы были весьма пессимистичными по скорости появления AGI и даже приближения к нему. Сейчас есть активная демонстрация что это не так, даже текущие результаты в виде продуктов способных на эффективный синтез накопленного, неважного плохого или хорошего человеческого знания, показывают что всё ближе ситуация когда внедрение даже ИИ/алгоритмов на практике может очень существенно изменить существующий рынок труда.
Про сочетание этих двух трендов несущих критическую массу изменений можно ещё говорить отдельно. Тут много фантастических произведений можно придумать про безумных правителей сочетающих ИИ помощников и массовую слежку с дронами, и про террористов способных с помощью роботизированных инструментов совершить много больше вреда. Но смысл в том что развитие некоторых технологий приводят ещё и к той форме критической массы когда оснащённое и агрессивное меньшинство может диктовать свои требования большинству.
Диктаторы 20-го века прятались за огромными стенами и вооружёнными последователями и наёмниками, диктаторов 21-го века можно физически не находить, при этом они могут не терять власти, а штурм их дворцов не лишит их возможности править.
Что-то из этого может быть прекрасным сюжетом новых хорошо иллюстрированных антиутопий, а что-то будет самой что ни на есть реальностью до которой мы ещё можем успеть дожить.
#thoughts
В рубрике интересных продуктов по работе с данными с открытым кодом Monoid [1].
Основная идея в том чтобы дать возможность сканировать базы данных и вручную (!) размечать их на предмет наличия персональных данных. При этом для разметки можно указать свои типы данных (идентификаторы).
Поддерживает из коробки Redshift, Snowflake, Bigquery, MySQL и Postgres. Исходный код на Go и Typescript доступен [2] под лицензией MIT.
Также на сайте есть возможность использовать его как облачный продукт с оплатой начиная от $399 в месяц.
У меня лично смешанные ощущения от этого проекта. С одной стороны он выглядит проработанным, с интерфейсом, открытым кодом, некой простой завершённой функциональностью. С другой стороны, есть множество более сложных и комплексных продуктов которые обеспечивают автоматическую, а не ручную, разметку полей и не только для идентификации персональных данных. Тот же Datahub как каталог данных или утилита Metacrafter которую я лично разработал и которая позволяет автоматически идентифицировать типы данных почти из любого источника.
Впрочем у того же Monoid до сих пор нет инвестиций и нет подтверждения что их бизнес модель хоть как-то выгорит. Так что посмотрим.
Ссылки։
[1] https://monoid.co
[2] https://github.com/monoid-privacy/monoid
#startups #datatools #opensource #data #privacy
Полезное чтение про данные, технологии и не только։
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.
Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies
#ai #future #languagemodels
Полезная заметка Казахстанские власти хотят закрыть неугодные данные [1] со сравнением прошлого и нового перечней данных подлежащих обязательному раскрытию в Республике Казахстан. Вполне ожидаемо перестанут публиковать некоторые чувствительные данные с одной стороны, а с другой стороны в списке появилась конкретика по содержанию.
Напомню что я ранее писал [2] о новом проекте постановления Пр-ва Казахстана по открытости данных и о том что в нём отсутствуют принципы открытости данных по умолчанию и недискриминационный доступ к данным, сейчас они доступны только гражданам страны. Граждане Казахстана могут оставить свои комментарии к проекту постановления на сайте Открытые НПА [3]. Прошу, не поленитесь, напишите там Ваши комментарии и мнение.
Ссылки։
[1] https://exclusive.kz/kazahstanskie-vlasti-hotyat-zakryt-neugodnye-dannye/
[2] /channel/begtin/4440
[3] https://legalacts.egov.kz/npa/view?id=14317392
#opendata #opengov #kazakhstan #policies
В StackOverflow, сервисе вопросов и ответов, изначально для инженеров и программистов, запретили использование ChatGPT [1]. Пока временно, а там будет видно․ Главная причина в том что ChatGPT генерирует ответы которые выглядят как хорошие, а на самом деле не так уже хороши, а то и плохи.
А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.
На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․
Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/
#ai #startups
В рубрике интересных наборов открытых данных публикуемых в России и малоизвестных, поскольку относящихся к узким научным областям знаний. В данном случае к биоинформатике.
- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.
А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.
Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] http://gtrd.biouml.org/#
#opendata #openaccess #FAIR
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings