Для тех кто любит данные, связанные данные и утечки - свежий интересный набор данных. Exaptive [1] выложили Панамские бумаги в формате RDF на платформе data.world [2] и разместили пост о том как они это делали в блоге [3] с небольшой рекламой их Exaptive Studio и Cray Graph Engine (CGE) [4] для визуализации графовых баз данных.
Признаться я впервые вижу какое-либо применение CGE, тем более стартапом и, сразу, немного немало, а связанные данные и пока не могу понять дает ли их движок какую-либо реальную добавленную ценность.
А вот блог data.world [5] вполне могу порекомендовать для регулярного чтения. Data.world претендует на то чтобы стать Github'ом для данных и, вполне возможно, у них получится. Это один из стартапов за которым я лично пристально слежу.
Ссылки:
[1] https://exaptive.city
[2] https://data.world/exaptive/panama-papers
[3] https://blog.data.world/how-a-startup-analyzed-over-11-million-panama-papers-in-1-week-bcfe9ea76260
[4] https://www.cray.com/products/analytics/cray-graph-engine
[5] https://blog.data.world
Читайте также мой основной блог на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261, на английском ibegtin" rel="nofollow">https://medium.com/@ibegtin, в телеграм /channel/begtin
#opendata #panamapapers #data #semanticweb
ОЭСР выпустила Recommendation of the Council on Open Government 14 December 2017 - C(2017)140 - C/M(2017)22
http://www.oecd.org/gov/Recommendation-Open-Government-Approved-Council-141217.pdf
Спасибо Алексею Ефремову за ссылку.
Небольшой анонс
После некоторых размышлений я решил разделить свои блоги на несколько.
Новый блог на Яндекс.Дзен будет только на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261. Там уже есть несколько заметок по единой платформе для государственных сайтов и архивации сайтов кандидатов в президенты.
Блог на Medium - ibegtin" rel="nofollow">http://medium.com/@ibegtin - будет только на английском и других языках (не на русском). Он будет на зарубежную аудиторию и о том что происходит у нас в России или глобально в тех темах которыми я занимаюсь.
В Телеграм канале /channel/begtin будут публикации оттуда и оттуда и собственные "короткие заметки".
В фэйсбуке то же самое что в телеграм канале сдобренное текстами для дискуссии и рефлексии https://facebook.com/ibegtin.
По прежнему связаться со мной проще всего в чате /channel/begtinchat
#opendata #blogging
Нидерландское правительство открыло код информационной системы регистрации жителей
http://www.opennet.ru/opennews/art.shtml?num=47706
Министерство внутренних дел и по делам королевства Нидерландов перевело в разряд свободного ПО программное обеспечение BRP (Basisregistratie Personen), применяемое для ведения базы регистрации жителей страны. Код и сопутствующая документация опубликованы на GitHub под лицензией AGPLv3. #opennet
У Cliqz [1], компании разработчика Ghostery [2] специального расширения для браузеров по блокированию рекламы и трекеров, вышел отчет о распросраненности трекеров [3].
Ожидаемо лидирует Google Analytics и за ним следом Facebook Connect.
Там же доступен полный текст исследования [4] в котором есть упоминания и России. Например, то что в России, США и Великобритании в среднем больше число счетчиков на сайт чем в других странах. А также что в России доминирует Яндекс.Метрика, фактически являясь тем же чем является Google Analytics для всего мира.
И тут нельзя не отметить еще один проект Clicz - Whotracksme [5] где собраны данные по топ-500 мировых сайтов и приведены наиболее популярные трекеры. У проекта открытый код и открытые данные [6] и на их основе можно проводить свои исследования.
Для контекста - ситуация с трекерами в России совсем небезоблачная. Пока Роскомнадзор гоняется с блокировками сайтов, трекерами увешаны и личные кабинеты пользователей коммерческих сервисов, и многочисленные государственные порталы и сайты. Причем там стоят трекеры тех самых компаний которых так периодически поминают российские официальные лица.
На сегодняшний день нет в России организаций защищающий интересы потребителей в сети занимающихся приватностью пользователей. Во всяком случае тех кто делал бы это системно.
Ссылки:
[1] https://cliqz.com
[2] https://www.ghostery.com
[3] https://cliqz.com/en/magazine/ghostery-study-infographic
[4] https://static.cliqz.com/wp-content/uploads/2017/12/Ghostery_Study_-_Tracking_the_Trackers.pdf
[5] https://whotracks.me
[6] https://github.com/cliqz-oss/whotracks.me/blob/master/whotracksme/data/assets/companies.json
#opendata #privacy #trackers
Принятый ФЗ "О федеральном бюджете на 2018 год и плановый период 2019 и 2020 годов" ждет вас на сайте Минфина России традиционно в формате 4388-страничного pdf https://www.minfin.ru/ru/document/?id_4=121329&order_4=P_DATE&dir_4=DESC&is_new_4=1&page_4=1&area_id=4&page_id=2104&popup=Y (а мы его, тем временем, традиционно ждем в машиночитаемых форматах на порталах информационных систем Минфина)
Читать полностью…23-24 декабря пройдет хакатон Happy data saints[1] для разработчиков, дизайнеров и дата-журналистов и по теме ритейла и покупательского поведения.
Не забудьте зарегистрироваться [2], а также, если у Вас есть данные которые хотелось бы предоставить участникам для работы - напишите по контактам организаторам или мне тут и мы их предложием участникам.
Ссылки:
[1] https://www.facebook.com/events/1520325351356387/
[2] https://socialdatahub.com/ru/happy_data_saints_hackathon
Тем временем суд Калифорнии обязал биржу CoinBase раскрыть IRS персональные данные более 14 тысяч ее клиентов проводивших транзакции (покупал, продавал, переводил и тд) более 20 тысяч долларов США [1].
Важный момент в том что в налоговых декларациях в США лишь 1000 жителей указали владение биткоинами при том что на бирже Coinbase присутствует более 6 миллионов участников.
По поводу биткоинов это будет полезно не забывать что курс - это хорошо, но налоги заплатить еще придется.
Ссылки:
[1] https://www.theverge.com/2017/11/29/16717416/us-coinbase-irs-records
#cryptocurrency
1% редакторов Википедии создали более 77% всех статей и правок в них, согласно статье в Motherboard от Daniel Oberhaus [1]
При том что всего у Википедии 132 тысячи авторов, а в день создается до 600 новых статей, но костяк авторов хотя и меняется со временем, но может быть измерян в 1300 человек.
В статье же упоминается снижение числа активных редакторов и риски которые возникают по этой причине, поскольку Википедия активно используется алгоритмами AI для всевозможных проектов.
Ссылки:
[1] https://motherboard.vice.com/en_us/article/7x47bb/wikipedia-editors-elite-diversity-foundation
#opendata #opengov
Вчера прошел Общероссийский гражданский форум и я там работал в столь плотном режиме что никак не имел возможности транслировать происходящее. Расскажу сегодня по итогам:
1. На форуме мы представили проект Открытые НКО [1] и проект Открытые СМИ (ссылки не будет, проект во внутреннем бета тестировании) посвященные открытости финансирования НКО и СМИ соответственно. Я в очередной раз обращаю внимание на то что проекты которые мы создаем в Инфокультуре имеют внутренний стандарт предусматривающий публикацию API и/или открытых данных наборами данных, а также раскрытие всего кода если нет каких то внешних обязательств. Мы таким образом публикуем открытые данные Госзатрат [2] и API Госзатрат [3], а теперь и API в Открытых НКО [4].
В открытом аккаунте Инфокультуры на github [5] есть открытый код значительного числа наших проектов.
2. На форуме было много разговоров о судьбе Открытого Правительства. Моя позиция проста - Открытому правительству в текущем виде осталось существовать 4-5 месяцев. Его никогда не было и нет в федеральном бюджете, оно изначально было построено как внешнее по отношению к органам власти и единственно правильная модель существования это когда характеристики открытости относятся к базовому, по умолчанию закрытому, правительству.
3. Я и коллеги говорили о качестве данных Министерства юстиции, в которых отсутствуют данные о более чем 60 тысячах НКО - у которых не указаны реквизиты или указаны с ошибками. И то что министерство совершенно не торопится их исправлять.
Было и многое другое, все транслировалось онлайн и уверен что скоро будут записи секций и дискуссий на сайте ОГФ.
Ссылки:
[1] http://openngo.ru
[2] https://clearspending.ru/opendata/
[3] https://clearspending.ru/page/for-developers/
[4] http://openngo.ru/api-docs/
[5] https://github.com/infoculture
#opendata #opengov #infoculture
В начале 2018 года в Германии будет запущена платформа Verimi (от verify me), предоставляющая единый безопасный ключ для входа в сетевые приложения, а также позволяющая пользователям управлять своими персональными данными. Инициаторами проекта выступили такие корпорации, как Allianz, Axel Springer, Daimler, Deutsche Bank, Postbank и Here. Позже присоединились Lufthansa, Deutsche Telekom, и IT компания Bundesdruckerei. Таким образом они хотят противостоять монополии на пользовательские данные американских интернет-гигантов. https://www.verimi.com/
Читать полностью…Открытые стандарты, открытые данные - да и открытость в целом - это далеко не только государство.
Проект Open Repair [1] - это альянс 5 организаций занимающихся починкой техники: Restart [2], The Repair Cafe Foundation [3], iFixit [4], Anstiftung Foundation и Fixit Clinic [5]. Все они занимаются починкой электроники, кто-то как медиа, кто-то работой с сообществом.
Например, у Repair Cafe есть 1421 представительство [6].
Альянс занимается, в том числе, разработкой открытого стандарта починки [7] и выпустил его первую версию [8]
Ссылки:
[1] https://openrepair.org/
[2] http://therestartproject.org/
[3] https://repaircafe.org/en/
[4] http://ifixit.com/
[5] http://www.fixitclinic.org/
[6] https://repaircafe.org/en/visit/
[7] https://openrepair.org/open-standard/
[8] https://openrepair.org/data-standard/open-repair-data-standard-version-0-1/
#opendata #opendstandard
Вышла версия 2.8 одного из наиболее удобных инструментов полу-ручной, полу-автоматической обработки данных Open Refine [1].
Основные изменения:
- больше стабильности UI
- фильтрация по тексту на исключение
- поддержка метаданных
- импорт из Wikitables
и многое другое.
OpenRefine особенно удобен тем кому Excel'я давно мало, а программирование под каждый набор данных непривычно. Проект вырос из проекта Google Refine, несколько лет назад перестал развиваться, но вот, новая команда выпускает давно ожидаемый релиз.
Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/tag/2.8
#opendata #datawrangling
Сервис выдачи бесплатных TLS сертификатов для доменов Let's Encrypt [1] еще в феврале 2017 года стал наиболее популярным сервисом создания сертификатов, а в этом месяце достинг планки в 35%, это доля сертификатов выдаваемых Let's Encrypt, по оценке NetTrack [2]. Напомню что в мае 2016 года Let's Encrypt начинал свой взлет, но у него была доля в только 5% всех сертификатов.
Практически все коммерческие сервисы такие как Godaddy, Geotrust и Comodo теряют свою долю и пользователи все чаще подключают сертификаты Let's encrypt автоматически.
Эта история важна еще и тем что базовая безопасность перестала восприниматься как услуга и стала восприниматься как инфраструктура. В ситуации когда TLS должно быть базовым протоколом работы сети, то и раздачей сертификатов должна заниматься общественная организация. Пока все идет к тому что у коммерческих игроков через пару лет не останется тут вообще никаких шансов на заработок.
Но единственная ли это область где качественный недорогой некоммерческий сервис способен "убить рынок" ? Что будет если такие сервисы появились бы для электронного документооборота или бухгалтерских услуг?
Когда-то таким образом переструктурировался весь рынок электронной почты. Когда раздавая бесплатные почтовые аккаунты крупнейшие цифровые сервисы практически убили все сервисы платной электронной почты. На какое-то время.
Ссылки:
[1] https://letsencrypt.org/
[2] https://nettrack.info/ssl_certificate_issuers.html
[3] https://en.wikipedia.org/wiki/Let%27s_Encrypt
#internet #web #security
Портал данных по миграции [1] открыт IOM [2], Международной организации по миграции. На портале собрана международная статистика, удобные инструменты для работы с ней, инфографика, методики и многое другое.
Структуры ООН давно и много собирают данных, при этом сама ООН не так много их публикует как бы хотелось. Из наиболее памятных их проектов это Data.UN [3] и Data Worldbank [4].
Для тех кто занимается международными исследованиями в этих данных найдется что-то полезное.
Ссылки:
[1] http://migrationdataportal.org
[2] https://www.iom.int/
[3] http://data.un.org
[4] http://data.worldbank.org
#opendata #opengov #un
В Яндекс.Дзен написал первую часть обзора того как устроены организации некоммерческого сектора и почему с ними все так непросто. Там про спортивные клубы, образовательные НКО и не только https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/kak-ustroen-nekommercheskii-sektor-vrossii-chast-1-5a363ff08139ba06ba669bf7?
Читать полностью…Владельцы веб-сайтов давно следят за пользователями, с самыми разными целями, но в основном с тем чтобы сохранить и преумножить свою аудиторию (и прибыль).
Иногда эта слежка проста и очевидна, а иногда оказывается что относительно безобидные счетчики собирают о пользователях ту информацию которую те не были бы готовы раскрыть. Пользователи ищут приватности и начинают пользоваться такими браузерами как Tor и расширениями для браузеров такими как Ghostery, Privacy Badger или Adblock.
В свою очередь разработчики сайтов и сервисов отслеживания применяют все более изощренную технику сбора информации о посетителях и отслеживания даже тех кто борется с отслеживанием.
...
https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/novye-mehanizmy-slejki-za-polzovateliami-issledovanie-1-milliona-saitov-5a32ae52fd96b19b2f8d7e3b
Airbnb запустили собственный внутренний университет по подготовке специалистов по data science.
Об этом пишет Wired в публикации о выпуске первых 700 человек из Airbnb data university [1]
Еще в мае о нем же писали Techcrunch [2] и Airbnb Engineering у себя в блоге [3].
Airbnb всегда были круты в данных и этот шаг вполне закономерен. Чего стоят только их Superset [4] и внутренний портал данных [5].
Интересно можно ли назвать создание внутреннего дата университета экспериментом или это лишь начало большого тренда. Все таки выпуск 700 человек в год - это очень много. Это действительно приближается к количеству выпускников небольшого классического университета и, при этом, выпускники обладают несомненно большим объемом специализированных знаний.
Ссылки:
[1] http://www.wired.co.uk/article/airbnb-in-house-data-university-employee-skills
[2] https://techcrunch.com/2017/05/24/airbnb-is-running-its-own-internal-university-to-teach-data-science/
[3] https://medium.com/airbnb-engineering/how-airbnb-democratizes-data-science-with-data-university-3eccc71e073a
[4] http://airbnb.io/projects/superset/
[5] https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770
#opendata #airbnb #data
К вопросу об открытом коде государственных систем. Разумеется такое не только в Нидерландах, это массово происходит по всему миру
Читать полностью…Data will rule all
Предсказание в блоге GitHub о технологиях в 2018 году начинаются со слов Data will rule all и того что облака 2.0 будут именно про данные.
Там много и других не менее важных предсказаний, но это важнейшее.
Ссылки:
[1] https://github.com/blog/2480-github-s-technology-predictions-for-2018
#opendata #data
Прямо сейчас в рамках проекта DataSreda [1] идет трансляция лекции Саркиса Дарбиняна об особенностях регулирования цифровых прав человека в Интернете.
Напомню что DataSreda - это совместный проект магистерской программы НИУ ВШЭ Журналистика данных, Social Data Hub и Инфокультуры в виде лекций о данных и дата журналистике. Раз в 2 недели по средам мы находим интересного спикера и просим его рассказать о том чем он занимается или рассказать на практике как работать с данными.
Ссылки:
[1] http://datasreda.ru
[2] https://youtu.be/utg8CUmmG94
#opendata #privacy
Напомню про наш проект цифрового архива [1] и о том что начинаются кампании кандидатов в президенты и наша деятельность по архивации всех их онлайн ресурсов - сайтов, социальных сетей, каналов с видео тд.
Обычно сайты кандидатов в президенты или другие выборные должности живут не более месяца после завещения выборов, но в этот раз мы сохраним копии всех из них.
По ссылке текущий перечень сайтов и других онлайн ресурсов [2]
Сохранять будем все сайты, включая самых странных и непонятных кандидатов. Сохранение будет производится каждый 2 недели, потому кандидат может в любой момент отказаться от гонки и свой сайт удалить.
Кандидатов пока не так уж много и это облегчает работу.
Присылайте мне на ibegtin@infoculture.ru, в телеграм @begtinchat сайты и другие ресурсы которые относятся к кандидатам и которые надо сохранить.
Ссылки:
[1] https://ruarxive.org
[2] https://docs.google.com/spreadsheets/d/1gc87aTDC2dVTt55-gpVI98THUlR1V2rNtPsSqTEyqLA/edit#gid=0
#opendata #digitalpreservation
Talend [1], разработчики ETL продуктов по работе с данными, покупают стартап Restlet [2] ориентированный на создание удобной документации и описания API по стандарту Swagger (Open API).
Как давний пользователь Restlet надеюсь что это послужит развитию сервиса, а не потерей им каких-либо текущих функций.
Ссылки:
[1] https://www.talend.com
[2] http://restlet.com/company/blog/2017/11/27/restlet-is-now-part-of-talend/
#opendata #opengov #openapi
В Японии в городе Кавасаки ищут решение по предсказанию цунами с помощью искусственного интеллекта [1]. Проект ведет Fujitsu и он был представлен на World Bosai Forum International Disaster and Risk Conference 25-28 ноября [2].
Это то что можно назвать наиболее практическим применением большим данных в области управления рисками.
Можно ли что-то подобное применять в более сухопутных странах вроде России? Как минимум в части предупреждения катастроф таких как лесные пожары, засухи.
Ссылки:
[1] https://govinsider.asia/digital-gov/japan-predict-tsunamis-ai/
[2] http://www.fujitsu.com/global/about/resources/news/press-releases/2017/1124-01.html
#opendata #japan
Обратите внимание на канал Дата публикации /channel/data_publication который ведет Андрей Дорожный. Мне нравится такой формат непрерывно идущего конкурса по визуализации данных и журналистике данных. Я, напомню, что данные - это возможность трансформации СМИ в современный формат. Один из возможных и весьма востребованных форматов.
Читать полностью…В блоге на Medium я подробнее написал про изменения которые нам грозят в связи с законопроектом 318825-7
ibegtin/less-data-1a2910587dd8" rel="nofollow">https://medium.com/@ibegtin/less-data-1a2910587dd8
#opendata #opengov #closeddata
Похоже что скоро в добавление к коммерческой тайне, гостайне, перс данным и куче всего остального у нас появится еще один вид тайн "Сведения которые не подлежат размещению в информационно-телекоммуникационной сети "Интернет"" согласно решению Правительства Российской Федерации".
Чуть позже об этом подробнее, пока только ссылка. [1]
P.S. Обратите особое внимание на раздел с закрытыми торгами.
Ссылки:
[1] http://sozd.parlament.gov.ru/bill/318825-7
GovInsider пишет про 3-х летний итальянский план по реформе ИТ в государстве [1].
Вкратце он звучит как: mobile-first, responsive government, powered by APIs and with advanced levels of security
Внутри - переход к открытой разработке на Github, вовлечение внешних разработчиков, акцент на API и гибких моделях разработки.
На английском подробно ICT стратегия переведена машинным и удивительно точным переводом [2].
Подробнее в публикации Diego Piacentini [3], цифрового комиссара Правительства Италии.
Обратите также внимание на:
- блог Diego Piacentini [4]
- блог Team per la Trasformazione Digitale [5]
Но там большая часть текстов на итальянском языке, что может быть нелегко для прочтения.
Также обратите внимание на сообщество Italia в github [6] и портал Developers.Italia.It [7]
И тут я хочу отдельно остановиться на искаженной картине мира которую я наблюдаю не только у себя, но и у многих коллег. Знание, в основном, английского языка приводит к тому что подавляющее число примеров по госполитике в ИТ и не только в ИТ приводятся из опыта США, Великобритании, Канады, Австралии и Новой Зеландии.
А интересный опыт есть в самых разных странах и Италия тем более красноречивый пример. Можно ли рассчитывать на появление developers.gov.ru в ближайшие годы? Увы, пока шансов мало.
Помимо того что российское госуправление не готово к открытой разработке (а это больше чем просто открытый код), еще и есть проблема с национальной политикой отказа от зарубежных сервисов. А аналогов связки Github с другими сервисами, увы, для открытой разработки совсем немного.
Ссылки:
[1] https://govinsider.asia/smart-gov/exclusive-italys-mission-to-simplify-government/
[2] http://pianotriennale-ict.readthedocs.io/en/latest/index.html
[3] https://medium.com/team-per-la-trasformazione-digitale/three-year-digital-transformation-plan-italian-public-administration-guidelines-design-development-8bdb440f940d
[4] diegopia" rel="nofollow">https://medium.com/@diegopia
[5] https://medium.com/team-per-la-trasformazione-digitale
[6] https://github.com/italia
[7] https://developers.italia.it/
#opendata #opengov #api #govasaplatform