Блог о журналистике данных и дата-сторителлинге Ведёт @BlackPineapple — аналитик в службе дата-журналистики Яндекса
«Кинжал» поделился кодом, который поможет вам следить за собственной продуктивностью. Он строит визуализацию вашей занятости в течение дня.
Для сбора данных надо будет установить программу ActivityWatch, которая следит, как часто и в какие приложения вы заходите. Дальше вам нужно будет разметить, какие приложения к какой категории вы относите и запустить готовый код на питоне. Порог входа небольшой, но всё-таки есть:
https://kinzhal.media/activitywatch-python/
Кстати, поделитесь, анализировали ли когда-нибудь данные о своей жизни?
Я вот уже два года веду дневник, где оцениваю свой день по разным параметрам. Но визуализировать его мне почему-то лень.
Зато какой массив данных потом появится! 😄
Эталонный визуальный сторителлинг New York Times о том, как стареет мир.
Вроде бы простая, но не слишком очевидная истина — к 2050 году население большинства равитых стран значительно постареет. С одной стороны, это показатель прогресса — благодаря развитию медицины и улучшению качества жизни люди чаще доживают до старости и даже остаются в здравом рассудке. С другой — это означает, что экономику этих стран, вероятно, ждут проблемы. Рабочих рук станет меньше, а людей, которых нужно содержать на пенсии — больше.
В то же время, такие демографические перемены открывают окно возможностей для некоторых стран Африки и Азии, где население достаточно подрастёт, чтобы избавиться от забот, связанных с детьми, и сможет больше времени посвящать работе.
https://www.nytimes.com/interactive/2023/07/16/world/world-demographics.html
В комментариях оставлю ссылку на ещё одну мою любимую работу, связанную со старением.
Мы с коллегами объединились и сделали датавиз-папку — сборник больших и классных телеграм-каналов, посвящённых визуализации данных.
На все из них сам подписан, вам тоже горячо рекомендую :)
Подписаться:
/channel/addlist/R_JRxzYACI41ZGRi
«Если быть точным» рассказывают, что стоит за данными о политических убежищах россиянам в странах ЕС и Америке.
Оказывается, что в Америке в прошлом году одобрили 88% таких прошений — это один из самых высоких процентов среди всех стран. А вот в Европе россиянам одобряют убежище сильно реже, чем в среднем.
Ещё в статье есть интересная история про пик таких заявлений в 2013 году от чеченцев. Оказывается, кто-то пустил слух, что что Германия планирует предоставлять беженцам с Северного Кавказа выплату в 4 тысячи евро и земельный участок.
Читать:
https://tochno.st/materials/v-2022-godu-rekordnoe-kolichestvo-rossiyan-zaprosili-ubezhishche-v-ssha-i-nekotorykh-stranakh-evropy-no-veroyatnost-polozhitelnogo-resheniya-menshe-50-a-zhdat-ego-mozhno-godami
По следам исследования «Важных историй» и сегодняшнего от «Медузы» и «Медиазоны» сделали разбор.
Авторы используют одни и те же данные Росстата, но получают разные оценки военных потерь России в 2022 году.
Почему так получается и какая оценка точнее?
Откроется без VPN: https://storage.googleapis.com/istories/stories/2023/07/10/zhurnalisti-i-uchenie-otsenivayut-rossiiskie-poteri-na-voine-ot-18-do-25-tisyach-chelovek-v-2022-godu-kakaya-otsenka-tochnee/index.html
ТАСС рассказывает, как за полтора десятка лет изменилось отношение к гендерным ролям в паре. Ещё в 2008 году 34% семей отвечали, что зарабатывать деньги должен муж, а сейчас таких семей — 18%.
Поменялось отношение к тому, кто должен заниматься домашним хозяйством, кто должен воспитывать детей, а кто вообще — глава семьи.
https://tass.ru/obschestvo/18202587
«Важные истории» сделали скроллителинг, в котором шаг за шагом рассказывают, где в недавно опубликованных предварительных данных Росстата о смертности «спрятано» число погибших на войне за 2022 год.
Получилось что-то вроде «расследования данных», потому что, конечно же, никакой отдельной графы в духе «погибшие на войне» там нет. Но используя статистические методы все же можно сделать оценку военных потерь на данных Росстата, а заодно сравнить ее с оценкой журналистов и волонтеров «Би-би-си» и «Медиазоны», которые ведут пофамильный список погибших на войне.
Откроется без VPN: https://storage.googleapis.com/istories/stories/2023/07/06/rosstat-poteri/index.html
И снова про песню. Выйдет она 29 июня, и чтобы музыкальные площадки заметили нас в день релиза, мы прямо сейчас ведём «пресейв»-кампанию.
Пресейв — это сигнал «буду слушать» для музыкальной платформы. В день релиза песня появится в вашей медиатеке и плейлисте с премьерами. Это бесплатно и даже не зависит от подписки.
Если вам близка эта тема; если вы скучаете по дому или по друзьям, которые уехали из страны, помогите нам и сделайте пресейв:
/channel/donotfox_bot
В знак благодарности мы готовы отправить очень символичные открытки, которые будут напоминать о том, что любая тёмная полоса однажды кончится.
Всех обнимаю 💛
Недавно исполнилась моя старая мечта — для проекта Sellesta.ai я «пощупал» данные о ценах в мексиканский аналог «Чёрной пятницы», который называется Hot Sale.
Времени на такой объём данных (15 миллионов цен) было у нас экстремально мало, поэтому получилось проверить только самые базовые гипотезы, не закапываясь в подробности. Но и тут вышло интересно.
1. Ухватить скидку на таких распродажах (по крайней мере, на Hot Sale) — вполне реально. Почти половина популярного ассортимента товаров в скидочную неделю стоила дешевле, чем в предшествующий месяц.
2. Однако здесь надо обратить внимание, что большая часть товаров дешевеет незначительно, в пределах пяти процентов. А чаще всего делают скидки на «виртуальные» товары — музыку, книги, видео.
3. С подешевевшими товарами есть также две загвоздки. Почти половина из тех, которые стоили дешевле в Hot Sale по сравнению с предшествующим месяцем, начали дешеветь ещё до Hot Sale. Вероятно, это и так не самые ходовые товары, на которые цена снижалась естественным образом.
А ещё на треть подешевевших за неделю до Hot Sale повышали цены. Мы не можем точно увидеть причину, но полагаем, это для того, чтобы скидка казалась больше, чем есть на самом деле.
Ну и очень мне нравятся графики, которые у нас с Надей Андриановой получилось сделать 🥰
Публикаций в мексиканских СМИ вышло много, например, такая:
https://tynmagazine.com/artificial-intelligence-hot-sale-revelo-crecimiento-del-e-commerce-gracias-a-ia/ (осторожно, испанский!)
В датавизе есть правила, от которых у новичков может вскружиться голова.
Например, у барчартов ни при каких обстоятельствах нельзя обрезать ноль. А у линейных графиков — можно и чаще всего даже нужно. А ещё есть коварный Lollipop Chart, который вроде бы очень похож на столбики, но и его можно строить не от нуля.
Всё дело в том, на какой вопрос отвечает график, и каким параметром визуализация кодирует числовые значения. В случае со столбиками — это длина. В случае с линейным и «леденцовым» графиком — координата.
Столбики предлагают нам сравнить величины целиком (на сколько одно число больше другого), линейный график отвечает на вопрос — стало больше или стало меньше — не уточняя, во сколько раз.
С другой стороны, даже обрезать ось в «леденцах» — это всё ещё сомнительный приём, и не стоит им злоупотреблять всякий раз, когда хочется выдать маленькую разницу за большую. Неплохой пример — здесь: по контексту и соотношению величин сразу очевидно, что на графике показан рейтинг, а не сравнение.
Вот и в примере, который прикреплён к этому сообщению, ничего страшного нет. Людей на графике обрезали, но очевидно, что никто не пытается сказать, что женщины в два раза ниже мужчин — потому что по силуэтам понятно, что люди изображены не в полный рост.
Источник: ролик Варламова про гендерное неравенство.
А в комментарии скину отвратительный график про рост 😈
Обнаружил интересную рассылку SAMIZDATA — там будут публиковать дата-материалы о Восточной Европе и Центральной Азии.
В первом письме рассказывают о том, какая доля населения разных стран считает себя русскими. Из интересного — в каждом шестом регионе России русских — не большинство, зато есть отдельные районы Казахстана и стран Балтии, где живут почти только русские.
Ещё сквозь призму этой работы можно оценить качество данных в разных странах. Например, в России и Грузии доступны данные по регионам, в Казахстане, Украине и странах Балтии — по районам, а в Таджикситане, Узбекистане и Туркментистане одно число на всю страну.
https://blog.samizdata.co/p/the-myth-of-the-russian-world
7x7 рассказывает историю реестра экстремистских материалов, который задумывался для борьбы с радикальными течениями, но в итоге превратился в инструмент для преследования политических активистов и случайных людей
Внутри — комментарии пострадавших и много-много статистики, основанной на анализе текстов судебных решений.
Читать: https://lr.semnasem.org/find-extremism/ (VPN)
В тему поездок хотел поделиться фотографией, которую недавно высветил айфон.
Это 2021 год, наш небольшой оргкомитет Уральского хакатона по дата-журналистике. Мы в Екатеринбурге фотографируемся у стрит-арта, посвящённого иностранным агентам.
Два человека с этого фото вынуждены были эмигрировать, Медузу объявили нежелательной организацией, а российский Дождь просто закрыли.
Время 💔
Кстати, есть кто из Екб? Арта тоже, наверное, больше уже нет?
ТАСС экспериментирует с «Лицами Чернова», чтобы визуализировать данные о том, сколько россиян ведут здоровый образ жизни в разных федеральных округах.
Википедия сообщает, что «лица Чернова являются одним из самых эффективных способов визуализации многомерных данных», но у меня этот пример вызывает в лучшем случае улыбку — слишком уж сложно здесь извлечь какую-либо информацию.
На сайте Википедии, кстати, представлен более хороший пример — кажется, что там проще уловить какие-то отличия, потому что лица сильнее отличаются друг от друга.
В комментарии закину материал, в котором лица Чернова, на мой вкус, сработали неплохо. А вы проголосуйте, как вам визуализация ТАСС — нравится (🥰), не нравится (🗿)?
Залипательный скроллителлинг у Washington Post в материале про цены на жильё. Каждой точкой обозначен один из округов США, анимация показывает, как цены (в процентах) менялись за каждый месяц. Чем-то похоже на пузырики, которые всплывают в газировке 🫧
Помимо красоты, у этой анимации большой функционал: в статике было бы крайне сложно показать нюансы ценообразования в зависимости от времени. Получилась бы либо «лапша» из линейных графиков, либо пришлось бы сильно жертвовать детализацией.
P.S. Скроллителлинг — это механика, при которой часть сайта меняется вместе с прокруткой страницы. Вы скроллите, на экране появляются новые надписи, график перестраивается.
https://www.washingtonpost.com/business/interactive/2023/housing-market-price-trends/
Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls
The Pudding изучили популярные песни из рейтинга Billboard Hot 100 и обнаружили, что большинство авторов этих песен — мужчины. При этом достаточно часто распространена ситуация, когда песню пишет коллектив, состоящий только из мужчин, но практически никогда — только женщины.
В тех же редких случаях, когда песню не пишут мужчины, сонграйтер зачастую у неё один — она же и исполнитель этой песни (как, например, Taylor Swift).
В этой работе The Pudding попытались «очеловечить» статистику и показать масштабы явления. Приятно смотреть на иллюстрации — сразу кажется, что все люди живые и разные. Подобный приём использовала когда-то Медиазона в моей любимой работе «Минск избитый» (VPN).
https://pudding.cool/2023/07/songwriters/
Генеративные нейросети, ожидаемо, впитывают все человеческие стереотипы. Журналисты Bloomberg составили тысячи запросов к Stable Diffusion (модели, которая создаёт изображения) и увидели, что в ответ на запрос «террорист» показывается выходец из Ближнего Востока, «преступник» — чернокожий, клинер — девушка-азиат.
На первый взгляд проблема может показаться несерьёзной, но модель сильно перекашивает реальную жизнь — например, в Штатах 39% докторов — женщины, а среди генерируемых картинок женщин всего 7%. В условиях, когда изображения в интернете будут генериться нейросетями, подобное поведение может только закреплять существующие стереотипы.
Читать: https://www.bloomberg.com/graphics/2023-generative-ai-bias/
Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls
У меня новое любимое медиа. Не понимаю, почему я раньше игнорировал «Кинжал», но всё, что они делают — это любовь 🤍
Они простым языком и с большим упором на визуал пишут о soft skills: как правильно работать, общаться и отдыхать.
Сегодня рекомендую вам статью про изнанку «успешного успеха», в которой на псевдографиках объясняют, почему не стоит буквально воспринимать чужую «идеальную жизнь» из инстаграма:
https://kinzhal.media/success-diagram/
реклама, текст заказчика
Боитесь переходить в аналитику, потому что нет технического бэкграунда?
Отсутствие бэкграунда — не приговор👾
Хотите убедиться в этом лично? Тогда 19 июля в 19:00 Мск приходите на вебинар «Переход в аналитику данных», где выпускники программы «Профессия аналитика данных» школы аналитики Changellenge >> Education поделятся опытом становления в профессии.
Что вы узнаете:
🔸 как перейти в аналитику совсем с нуля, без опыта в IT, аналитике и программировании
🔸 как совмещать обучение аналитике, работу и личную жизнь
🔸 как проходит учеба и какое расписание на курсе
🔸 будет ли интересно учиться тем, у кого уже есть опыт в IT
Также спикеры расскажут вам реальные истории про трудоустройство и кардинальной смене профессии.
Спикеры вебинара — наши выпускники:
🎓 Никита Можаев, аналитик в Кадровом центре департамента здравоохранения Москвы, выпускник 2022
🎓 Ренат Юнисов, аналитик отдела кредитных рисков в Тинькофф, выпускник 2023
Не пропустите — регистрируйтесь по ссылке ⬇️
https://u.to/LyjNHw
Восхищаюсь работой, которая сегодня вышла на Медиазоне. Коллеги сделали ещё одну оценку числа погибших на войне.
Уже классическая для Медиазоны схема — авторы попытались добыть несуществующую статистику путём анализа альтернативных источников данных. В основе анализа — реестр наследственных дел, в котором есть информация о части погибших. Зная примерное соотношение дел, которые заводятся в нём для умерших разных возрастов, можно получить примерное число смертей.
Почитать можно тут:
https://zona.media/article/2023/07/10/stats (VPN)
Washington Post сделали инфографику об одном из самых вредных видов спорта — соревнованиях по поеданию сосисок в тесте. Оказывается, за 40 лет чемпионы сильно эволюционировали: если в 80-х победители съедали примерно по 10 хот-догов за 12 минут, то чемпион 2021 года съел за 10 минут 76 хот-догов.
Только не повторяйте это дома:
https://www.washingtonpost.com/sports/2023/07/01/hot-dog-eating-contest-competitive-eater/
Давно хотел рассказать вам о дорогом своему сердцу хобби
〰 С конца прошлого года мы вместе с певицей Крис Аивер готовили совместную песню, посвящённую эмиграции. Релиз этой песни назначен на 29 июня. Песня называется «За воздушным змеем», она раскрывает переживания друзей, находящихся по разные стороны границы. Смысл её — в надежде на объединение и мирное беззаботное лето, которое когда-нибудь должно наступить.
Грустно и иронично, но ещё пару дней назад казалось, что релиз песни придётся как раз на очередную волну эмиграции.
📊 Чтобы рассказать о релизе на канале, мы вместе с дизайнером Надей Андриановой придумали дата-арт. Я выгрузил с Авито все активные объявления, содержащие фразу «в связи с переездом в другую страну», разметил их по категориям, а Надя их виузализировала. Так мы получили примерный список вещей, которые пытаются продать или отдать эмигранты.
На каждой карточке показаны примеры объявлений из разных категорий. Этот «портрет» потерь и «оставленной жизни», конечно, не полон и точен. Однако и он даёт некоторое представление о том, чем приходится жертвовать людям. Дома и бизнесы, детские кресла и письменный стол «Успех», любимые животные — от крысы до лошади.
А как послушать песню об этом, напишу в следующем посте →
Готовы узнать все о сводных таблицах?
реклама, текст заказчика
Мы, Академия Excel, разыгрываем четыре крутых книги о сводных таблицах от Билла Джелена (Mr. Excel)!
Эта книга — шедевр, который покрывает все аспекты использования сводных таблиц и включает в себя новейшие функции из Microsoft 365 и Power Query.
Принять участие в розыгрыше можно 👉 вот тут.
На бесплатном вебинаре, сегодня в 20:00 МСК, подведем итоги розыгрыша, а также вас ждет еще много интересного:
📌 расскажем в чем отличие и особенности источников для сводных таблиц;
📌 покажем, какие крутые отчеты можно строить на основе сводных;
📌 расскажем про наш новый курс по Power BI с Марией Гришиной, который мы запустим совсем скоро;
📌 сделаем выгодное предложение на курс по Дашбордам, где обучаем строить крутые отчеты прямо в Excel;
📌 и многое другое.
Участники получат полезные советы, трюки и лучшие практики использования сводных таблиц, которые помогут им сэкономить время, улучшить качество своей работы и достичь более точных результатов.
Ждем Вас на вебинаре в 20:00, будет интересно, столько пользы Вам еще не причиняли 🚀
Тут произошёл большой казус. Многие издания, включая РБК и даже сам сайт ФНС написали, что в 2022 году российские компании заработали 1,3 квадриллиона рублей. Один квадриллион — это 1000 триллионов, число с 15 нулями.
Эксперты это радостно подтвердили, рассказав множество версий, откуда в России появилось так много денег, да ещё и на фоне кризиса. Однако никто почему-то не предположил, что озвученное число — это просто ошибка в данных.
А вот Институт проблем правоприменения пишет, что таким расчётам просто нельзя верить. Судя по всему, журналисты просто сложили общую выручку по всем компаниям, не вникая в детали.
Однако, если изучить исходные данные, можно обнаружить, что в 2022 году больше всего денег сделала некая компания ООО «ЮССА», сделав 214 триллионов рублей и обогнав Лукойл (выручка 2.9 трлн руб.) и Магнит (2 трлн руб.). ИПП предполагает, что подобное значение — бугхалтерская ошибка. Вероятно — не единственная.
О чём это говорит?
Если у вас есть исходные данные — обязательно изучите распределение и отсутствующие значения. Возможно, перед суммированием и подсчётом средних часть данных придётся исключить или исправить.
А ещё эта история учит нас тому, что можно найти экспертов под самое безумное утверждение, подтвердив любую ошибку в данных 🙈
За подробной аргументацией отправлю вас в канал ИПП — там интересно.
Интересная работа Sheldon.studio для международного фестиваля Архитектуры, где (внезапно) рассматривают основные показатели стран — население, смертность, болезни, выбросы СO2...
В работе есть два режима — можно читать её как бесконечный дашборд, выбирая необходимый временной период или страну, а можно перейти в режим «историй», и увидеть основные выводы из такой статистики — например, узнать, что половина населения мира живёт в 7 странах, или что с 1975 года количество людей с ожирением увеличилось втрое.
Формат кажется немного спорным. Хотя, скорее всего, это работа для интерактивного экрана на выставке, куда любой может подойти, потыкать и узнать пару интересных фактов о мире. Но дизайн лично мне очень нравится. В режиме бездействия там вообще включается тёмная тема, и получается максимально эстетично 🥰
https://dataroom.seed360.org/
Круговорот людей в инфографике Моны Чалаби про наём и увольнения кассиров в США.
Сама Мона пишет, что подобная «текучка» вообще характерна для всех низкооплачиваемых работ. И сокрушается, что разницы между нижним и верхним потоком почти не видно, хотя нижний поток больше.
Но, судя по цифрам, там 600 000 против 570 000. Это всё-таки небольшая разница, чтобы можно было увидеть её без больших усилий.
Источник
Впервые с республиканским языком я столкнулся в 2017 году, когда ездил с другом в Казань. Во второй раз — год назад, когда впервые прилетел в Сыктывкар. Тогда мне показалось удивительным, что улицы в городах подписаны дважды, а где-то «между строк» существует ещё и второй язык, помимо русского, который как будто не использует никто вокруг.
Оказалось, русский язык вытеснил на второй план не только языки регионов нашей страны, но и языки других стран. Может показаться парадоксальным, но не все кореные жители Душанбе в совершенстве владеют таджикским.
Вместе с автором CABAR.asia Наврузом Каримовым мы исследовали, как таджикский используют в интернете, и пришли к ещё более неутешительным результатам — таджикистанцы почти по любым темам обращаются в Google на русском языке. Редкие исключения — почти всегда слова, описывающие местный быт и кухню (шурпа, лепёшка, мечеть, Шайтан).
Узнать причины этого явления и подробно рассмотреть графики можно тут:
https://cabar.asia/ru/yazykovye-predpochteniya-v-tadzhikistane-chto-govoryat-dannye-poiskovyh-zaprosov
P.S. Это первое исследование, которое вышло у меня в рамках менторской поддержки журналистов в Таджикситане. В этом месяце будут и другие материалы — поделюсь с вами, с какими сложностями мы там столкнулись 🙂
Научиться работать в Excel за 3 часа
реклама, текст заказчика
В Excel более 500 функций и десятка инструментов. При этом 90% пользователей достаточно знать 10 основных формул и 3 инструмента.
6 и 8 июня проводим вебинары в формате Excel для новичков.
Если вы только начинаете работать с Excel — заложите правильный фундамент. Если вы уже не новичок, но учились «методом научного тыкинга» — закроете пробелы и выловите «фишки».
В курс мы включили только самые важные знания — то, что вы реально будете использовать в работе каждый день.
Сразу после регистрации:
— откроем доступ к материалам;
— добавим в чат с учениками;
— начнем отвечать на любые вопросы по Excel;
Записи вебинаров выкладываем в тот же день, а домашние задания проверяем в течение в 24 часов
До встречи на курсе!
А чего почти все смотрят, а проектами не делятся? 👀💔
спишу всё на сообщение в разграр рабочего дня
но вообще-то ещё не поздно ☝️