data_csv | Неотсортированное

Telegram-канал data_csv - data.csv

12726

Блог о журналистике данных и дата-сторителлинге ====== Канал ведут: @BlackPineapple — аналитик в службе дата-журналистики Яндекса, @marohovskaya — редакторка дата-отдела «Важных историй»

Подписаться на канал

data.csv

Пока другого контента у меня для вас все равно нет, зацените инфографику в меню японского бара. Они визуализировали всё своё вино 😍

По оси X тут лёгкий, фруктовый, освежающий вкус слева и тяжёлый, вяжущий справа. По оси Y, как я понял, указана крепость вина. Крепкие — снизу.

Хотели бы такую карту в барах своего города?

Читать полностью…

data.csv

The Pudding визуализировали результаты панельного опроса американцев — на протяжении десятков лет их спрашивали о том, как складывалась их жизнь.

Исследование подтверждает: то, в каких условиях вы росли, во многом определяет ваше будущее — образование, уровень достатка, ментальное и физическое здоровье.

Меня очень впечатлила концовка, где приводятся высказывания американских президентов, которые оскорбляют бедных людей, «низшие» слои населения, которые говорят, что «быть бездомным — это выбор»

Авторы, напротив, утверждают, что это не вполне выбор и не только проблема этих людей, а проблема всего общества, в котором они находятся.

Ну и напоследок: посмотрите, какое тут визуальное хулиганство. Все графики состоят из человечков, которые перебегают в разные категории. Красиво очень.

https://pudding.cool/2024/03/teenagers/

Читать полностью…

data.csv

Одна из проблем, с которой вы можете столкнуться в желании поделать красивых графиков — это отсутствие качественных данных.

Я сам каждый раз раз бьюсь с этим, когда готовлю задания для студентов своего курса — прежде чем перейти непосредственно к визуализации, данные нужно спарсить, почистить, привести в нужную форму, соединить несколько датасетов. Пока дойдёшь до финала — демотивируешься.

Мои классные коллеги из «Если быть точным» эту часть работы делают сами и создают готовые датасеты, которые можно анализировать и визуализировать. Свою коллекцию они постоянно пополняют, в том числе наборами данных, которых нет в других источниках.

Например, в их коллекции есть численность населения по всем муниципальным образованиям и населённым пунктам с разбивкой по полу, дела и тексты судебных решений по статье 105 УК «Убийство» или численность больных онкологией в регионах России с 2007 года.

Найти для себя что-то интересное можно в их каталоге:
https://tochno.st/datasets

Читать полностью…

data.csv

Сильный приём в материале Washington Post о боевых действиях в Секторе Газа.

Авторы говорят: представьте, один человек помнит по имени в среднем 472 людей. Из них 7 человек погибли, 305 испытывают чрезвычайную нехватку еды.

Так масштаб катастрофы в регионе гораздо более понятен.

https://www.washingtonpost.com/world/interactive/2024/gaza-numbers-killed-displaced-scale/

Читать полностью…

data.csv

Большой материал, который подробно рассказывает о том, с какими проблемами сталкиваются люди, обучающие визуальные генеративные нейросети.

В одном из крупнейших датасетов, на котором такие модели обучают, например, обнаружили сцены детского насилия. Что ещё полбеды, ведь такие картинки просто отфильтровать.

Что гораздо хуже — в нём много изображений в пару к которым добавлены текстовые описания из служебного тега ALT на веб-страницах. Текст из этого тега показывается в том случае, если изображение не грузится, а для слабовидящих пользователей является единственной возможностью узнать о том, что вообще находится на изображении. Однако предприимчивые маркетологи добавляют в этот тег не реальное описание изображения, а ключевые слова, которые лучше всего повлияют на ранжирование сайта в поисковой выдаче. Таким образом модель получает датасет, в котором описан не реальный мир, а мир, который видят поисковые роботы.

Про другие проблемы наглядно — тут:
https://knowingmachines.org/models-all-the-way

Читать полностью…

data.csv

Издание Rest of The World пишет о том, как технологии распознавания лиц, используемые по всему миру и изначально введённые для поиска террористов и опасных преступников, становятся инструментами государств для борьбы с политическими активистами.

В материале собраны истории активистов из России, Индии и Ирана. А ещё — залипательные карты с протестной активностью в этих странах.

https://restofworld.org/2024/facial-recognition-government-protest-surveillance/

Читать полностью…

data.csv

Вижу, что много людей сюда добавилось после конференции «Мапакон», где Наталья Волгушева рассказывала про исследование, которое я помогал делать Картетике. Рад вас видеть!

По такому случаю решил сделать подборку постов с красивыми картами:
* Перемещение между районами США до и во время пандемии;
* Народы России в прекрасной плиточной карте из «цветов»;
* Как отличаются границы районов Нью-Йорка по мнению живущих там людей;
* Изменение климата в России;
* Трёхмерные плиточки про загрязнение воздуха и богатство в разных странах;
* Гольфстрим во всей красе, и почему он может стать более холодным вопреки глобальному потеплению;
* Карта-анамарфоза про популярные туристические направления у жителей России.

Для просмотра некоторых материалов может потребоваться подписка, режим инкогнито или расширение Bypass Paywalls

Читать полностью…

data.csv

Если вам интересна тема анализа геоданных, приходите в пятницу на конференцию Мапакон. Целый день спикеры будут рассказывать о подходах к работе с картами, о работе и о своих проектах.

Конференция будет онлайн, с утра и до вечера. Участие бесплатное, но по предварительной регистрации:
https://cartetika.ru/mapacon_participate

Программа конференции

P.S. Я тоже немного причастен к событию, делаю кое-что, что, надеюсь, оценит сообщество геоаналитиков 👀

Читать полностью…

data.csv

Подробное и обстоятельное исследование прошедших выборов выпустил аналитический центр Cedar. Авторы подробно рассмотрели различные методы выявления аномалий в данных и их ограничения — например, рассказали, в каких ситуациях может не работать метод Шпилькина.

К расчётам также приложили код на
гитхабе.
Исходные данные, правда, дают только по запросу на почту. Но я знаю, что для 2024 года их можно скачать, например, тут

Исследование:
https://cedarus.io/research/evolution-of-russian-elections

Читать полностью…

data.csv

Ещё одна красивая визуализация процессов, напрямую связанных с нашей жизнью. Сможете угадать, какие данные тут визуализированы?

Судя по тенденции, в одной из следующих «клеточек» облачко просто улетит, и сама клеточка останется пустой 🙈

Источник: https://twitter.com/k_sonin/status/1770446059527164230/photo/1

Читать полностью…

data.csv

В Т—Ж придумали новый забавный калькулятор — теперь вы можете посчитать стоимость ваших рабочих зумов.

Вводите количество участников, их среднюю зарплату, и смотрите, как уходят деньги. Красота!

https://journal.tinkoff.ru/nuzhen-sozvon/

Читать полностью…

data.csv

Независимые дата-журналисты уже делают первую аналитику результатов выборов по методу математика Сергея Шпилькина и приходят к ожидаемым результатам. Прошедшие «невыборы» стали рекордными по количеству фальсификаций: почти половина голосов за действующего президента могли быть ненастоящими.

Количество голосующих на выборах подчиняется нормальному распределению — основная часть избирателей проголосует на участках со средним значением явки. Например, если средняя явка составила 60%, то основная масса избирателей придёт на участки, где явка будет 50-70%. Участки, где явка будет 30% или 90% будут встречаться значительно реже.

Если распределение голосов не похоже на нормальное — это уже повод насторожиться. Если же при этом на участках с высокой явкой неестественным образом растёт число голосов «за партию власти», это явный признак вбросов.

Так и на этом графике: голоса за Слуцкого, Харитонова и Даванкова в сумме подчиняются нормальному распределению, а Путин неестественно растёт на участках с высокой явкой. Всё это мы уже не раз видели на выборах в России, а теперь встречаем фальсификации рекордных масштабов.

Читать полностью…

data.csv

В сервис для визуализации данных Datawrapper завезли несколько новых фишек — историю версий и совместное редактирование графиков (прямо как в гугл-документах). Говорят, опции доступны во всех тарифных планах, даже в бесплатном.

А у вас когда-нибудь была необходимость совместного редактирования графиков?

https://blog.datawrapper.de/introducing-live-collaboration/

Читать полностью…

data.csv

Очень красивый материал Bloomberg о том, как война в Украине влияет на сбор урожая и его поставку в другие страны.

Несмотря на боевые действия, Украина по-прежнему является одним из крупнейших поставщиков пшеницы и кукурузы, но с каждым годом вести эту деятельность становится сложнее и сложнее. К примеру, из-за новой волны мобилизации в стране не хватает рабочих рук, чтобы собрать урожай. Также проблемой становится перевозка товаров — не всегда возможно сделать это безопасно.

Читать

Читать полностью…

data.csv

Как понять, нужно ли вам делать дата-историю?

У издания The Pudding, славящегося самыми крутыми дата-историями, есть инструкция о том, как понять, можно ли и нужно ли делать историю, основанную на данных.

Если коротко, перед началом работы надо ответить на несколько вопросов:
* Есть ли у вас какой-то новый или уникальный вопрос, на который вы можете дать ответ?
* Можно ли дать ответ на этот вопрос при помощи данных?
* Можете ли вы достать данные, чтобы ответить на этот вопрос?
* Действительно ли результаты анализа получились интересными?

Для каждого этапа у The Pudding есть свои примеры, которые интересно поизучать:
https://pudding.cool/process/pivot-continue-down/

Читать полностью…

data.csv

Гуляю по Токио и, конечно, замечаю вокруг инфографику. Картинка где-то на районной доске

Гугл говорит, что карта озаглавлена как «Извлекаем уроки из прошлых крупномасштабных землетрясений и пожаров»

На карте показаны последствия крупномасштабного землетрясения 1923 году, надпись внизу гласит «во время землетрясений часто возникают пожары»

Легенду я плохо понимаю, но предполагаю, что красные точки — это очаги возгорания, а синие — места, где приходилось ликвидировать последствия пожаров.

Если в канале есть изучающие японский, приходите в комменты со своей интерпретацией 😅

Читать полностью…

data.csv

Простите, а меня читает кто-нибудь из Практикума?

Я правда пытался найти авторов этой статьи, но не смог.

Я понимаю, что слово «инфографика» для карточек товаров на маркетплейсах уже начало закрепляться в народе, и для SEO и простоты поиска полезно его в статье упоминать. Но тут же весь нарратив буквально построен на том, что это и правда инфографика )

А это не так. И мне кажется, что это оскорбляет людей, которые по-настоящему делают инфографику. Было бы здорово, если бы Практикум не поддерживал вредные ошибки, а как-то разъяснил, что никакого отношения к инфографике это не имеет — это просто карточки товаров для маркетплейсов.

В редких случаях там действительно может быть инфографика, но это исключение

Читать полностью…

data.csv

Bloomberg продолжает вполне успешно применять в визуализации тримапы Вороного — в этот раз для того, чтобы показать тенденцию применения гендерно-нейтрального слова chairperson вместо chairman.

https://www.bloomberg.com/graphics/2024-gender-neutral-board-titles-us-companies/

Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls

Читать полностью…

data.csv

Хотите узнать о новейших исследованиях и трендах в области ИИ?

Примите участие в конференции Data Fusion 2024 по искусственному интеллекту и аналитике данных в Москве 17 и 18 апреля.

Основные темы для обсуждения:

– Новейшие разработки в машинном обучении и аналитике данных;
– Актуальные тренды в технологическом мире и их влияние на индустрию;
– Вопросы кибербезопасности и этические дилеммы, связанные с ИИ;
– Примеры из практики и кейсы от ведущих компаний из разных сфер бизнеса;
– Ключевые исследования в области ИИ;
– ML+ наука: вопросы применения ИИ в медицине, физике, фарме;
– Развитие генеративных моделей и NLP;
– Примеры из практики и кейсы от ведущих компаний из разных сфер бизнеса.

Зарегистрируйтесь на конференцию и станьте частью ключевого события в мире искусственного интеллекта и аналитики данных!

Читать полностью…

data.csv

Т—Ж проанализировал 199 самых кассовых российских фильмов

Самым успешным проектом последних двух десятилетий стал «Чебурашка», обогнав «Холопа» по сборам почти на треть. «Первое лицо» популярного кино — Данила Козловский, главный режиссёр — Марюс Вайсберг.

Любопытно, что оценки зрителей на кассовый успех фильма особо не влияют — по крайней мере, по графику корреляция не видна. Зато качество российских хитов, судя по всему, растёт.

А подробнее читайте тут:
https://journal.tinkoff.ru/top-russian-movie-stat/

Читать полностью…

data.csv

На прошлой неделе в американском городе Балтимор произошла авария — контейнеровоз врезался в одну из опор моста Фрэнсиса Скотта Ки, мост обрушился и заблокировал один из крупных американских портов.

По этому поводу западные издания сделали много инфографики, а меня привлекла вот эта карта в Washington Post, где показано движение судов вдоль восточного побережья Штатов.

Потоки перемещений на карте выглядят всегда красиво, не находите?

https://www.washingtonpost.com/business/2024/03/27/baltimore-port-economy-disruption-bridge-collapse/

Читать полностью…

data.csv

Вадим Славгородский принес вам хорошие smart-подходы и фреймворки из крупных компаний и адаптировал под любые небольшие проекты, чтобы каждый маркетолог, дата-аналитик или проджект мог работать удобно.

Реклама, текст заказчика.
erid 2VtzqvincJh, Славгородский Вадим Александрович

Автор придерживается data driven подхода и системной работы, поэтому будет другом для тех, кто работает с продуктом, аналитикой, рекламой и дата-журналистикой.

1 канал вместо папки каналов с маркетинг-жвачкой. Публикации не частые, но калорийные.

Фреймворки и шаблоны для работы с небольшими проектами:
15 вопросов на планерку с маркетологом
Формула идеального коммерческого предложения
PMF – методология, которая сделает ваш продукт нужным
Почему нельзя покупать стратегии у подрядчиков
Исследование в ВУЗах: 7 видов образования, и какие 3 будут продаваться хорошо в 2024
Техника безопасности: как посчитать прогноз любой рекламы перед началом
Паспорт проекта – шаблон для удобной работы с подрядчиками

Вы могли его встретить на образовательных программах в ВШЭ, РУСАЛ, РОСТЕХ и VK.

Подписаться на "Славгородский!"

Читать полностью…

data.csv

Такой милейший санкей украшает стены нового блока офиса Яндекса на Садовнической 🥰

Коллегам, которые делали это — респект. Хочу жить в офисе, украшенном подобными работами 😅

Читать полностью…

data.csv

Страшные и впечатляющие карточки о домашнем насилии. Их выпускает проект «Считается», который ведёт статистику на эту тему в Казахстане. Есть ещё их видео, где картинки анимированы.

На самом же сайте цифры оформлены достаточно строго:
https://schitaetsya.kz/about

Здесь также стоит оговориться, что в проекте есть проблемы с виузализацией: например, на первой карточке долька пайчарта явно показывает больше, чем 51%, а на третьей карточке ось баров начинается не с 0, а с 5.

Читать полностью…

data.csv

Красивущий и очень необычный график The Ecomonist о том, как изменились электоральные предпочтения британцев.

Необычен он сразу двумя показателями:
🔴Формой. Этот график называется Scatter Ternary Plot и помогает понять, какой из трёх показателей у определённой точки в большей степени выражен. Например, можно сравнить, какой предмет на ЕГЭ лучше сдал 11 класс школы 1544: математику, русский или английский.
🔴Динамикой. Здесь не просто показаны статичные точки, а соединены два временных интервала. Так мы можем понять, что люди, голосовавшие за «иные партии», скорее всего будут больше голосовать за партию Labour, как и голосовавшие за консервативную партию. А вот избиратели партии Labour немножко подвинулись в сторону «иных»

Эффективно? Сомнительно.
Эффектно? Точно да! И мысль основная считывается.

https://www.economist.com/britain/2024/02/28/a-changing-british-electorate-is-propelling-labour-towards-victory

Читать полностью…

data.csv

Уже подъехало уточнение!

«Важные истории» пересчитали аномальные голоса с корректировкой: без результатов по Москве. В этом регионе результаты публиковались «в кучу». ЦИК объединил тех, кто голосовал на участках и электронно. Это искажало общую картину.

Поэтому более точная оценка по аномальных голосов за Путина по методу Сергея Шпилькина — почти 22 млн.

Но и у этого метода существуют ограничения. Реальная картина, скорее всего, куда более впечатляющая.

В канале опубликованы и другие интересные находки из данных. Например, как отразился «Полдень против Путина» на явке избирателей.

Читать полностью…

data.csv

Вместо тысячи слов скину скриншот из карты, которую делал в 2018 году для «Новой газеты»: можно было провести мышкой и открыть лицо кандидата, победившего в регионе (ну вы поняли, что там)

Карта уже «погибла» из-за переездов сайта, к сожалению — поэтому ссылки на интерактив не будет

Читать полностью…

data.csv

Есть что-то очень притягательное в этом графике, который называется тримап Вороного. Такое название он получил в честь математика, который придумал, как разбивать плоскость на множество элементов.

На этой картинке показано, как менялась капитализация 225 крупнейших японских компаний.

Что тут получилось хорошо:
• Показать, как изменилась доля компаний, входящих в общемировой топ-50
• Показать структуру экономики Японии
• Выделить ключевые компании в разные годы

Что получилось плохо:
• Дать понять, как изменилась структура японской экономики. Пайчарты, тримапы и диаграмма Вороного — это чаще всего плохие графики для сравнения значений.

Посмотрите на него и на другие графики в материале Bloomberg про взлёт японских активов:
https://www.bloomberg.com/graphics/2024-japan-nikkei-225-records-historic-high/

Вероятно, для просмотра потребуется подписка, режим инкогнито или расширение Bypass Paywalls

Читать полностью…

data.csv

Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.

Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.

Портал пока находится в стадии беты, но уже работает:
https://dateno.io/

Читать полностью…

data.csv

Большой труд Тинькофф Журнала о работе дизайнеров, основанный на опросе читателей.

Внутри можно узнать:
* Дизайнеров какого возраста больше всего
* Как часто они переезжают, чтобы сменить работу
* Какое они получили образование
* Как их зарплата зависит от позиции, места жительства и сферы
* Трудятся ли дизайнеры в офисе или на удалёнке
* Что их беспокоит
* Многие ли ищут себе новую работу

... и многое другое

Кроме того, материал очень хорошо сделан инфографически, есть много классных приёмов и фишек, на которые стоит обратить внимание. При том, что это строгий материал, и может показаться, что тут некуда разгуляться, выглядит он очень симпатично:

https://journal.tinkoff.ru/zarplata-design-2024/

Читать полностью…
Подписаться на канал