Эффект Даннинга-Крюгера в очередной раз не прошёл проверку реальными данными (Кинжал)
Лаборатория образовательных технологий Практикума проверила на больших данных мифы, связанные с образованием. В частности, выяснили, с чем коррелирует успеваемость студентов, что их мотивирует больше всего и когда они рекомендуют обучение другим. Ещё их данные опровергли эффект Даннинга-Крюгера
На первой картинке — кривая Даннинга-Крюгера. Этот график показывает, как в теории должна меняться уверенность студента в себе со временем обучения
На второй картинке — большие данные студентов Практикума. Красным и зелёным графиками обозначен уровень уверенности отчислившихся и окончивших обучение студентов. Жёлтым цветом отмечены места, где в теории должны быть границы зон на кривой Даннинга-Крюгера. Как мы видим, эффект в очередной раз не прошёл проверку реальными данными
Ранее мы специально для наших читателей переводили статью Блейра Фикса о том, почему эффект Даннинга-Крюгера — просто автокорреляция. Эффект описывает связь между уровнем компетенции человека и его уверенностью в собственных способностях. До обнаружения ошибки в исследовании авторов прошло более 15 лет, поэтому идея успела получить широкую популярность. В том числе в сфере образования
Разница между ожидаемой продолжительностью жизни среди мужчин и женщин в странах мира, 2022 (Reddit)
Разница рассчитана путём вычитания ОПЖ мужчин из ОПЖ женщин
Источник данных — The World Bank 1, 2
Больше данных по ОПЖ в мире:
— Ожидаемая продолжительность жизни в странах мира с разбивкой по полам, 2023
— Ожидаемая продолжительность жизни на момент рождения в 10 странах и в мире, 1900–2021
— Как менялась ожидаемая продолжительность жизни в странах мира, 1950–2021
— Расходы на здравоохранение и ожидаемая продолжительность жизни в странах мира, 2019
Первые прибыльные кварталы Uber с 2014 года и структура его выручки по сервисам (David Crowther, William Coulman)
Каждый красный прямоугольник на первой картинке — объём квартальных убытков. В августе 2023 года мы написали о первом финансовом квартале с 2014 года, когда Uber показала прибыль. С тех пор каждый квартал компании был прибыльным. С 2014 по 2023 годы Uber принесла убытков на 31,5 миллиардов $
На второй картинке — выручка Uber с разбивкой на сервисы такси, доставки еды и цифровых решений в сфере логистики за последние 6 лет
Ещё мы писали про Uber и другие компании с крупными объёмами убытков:
— Как изменилась выручка Uber во время коронакризиса
— Общие объёмы убытков Snap Inc с 2015 по 2023 год
— Выручка и чистые доходы Airbnb, 2015–2022
— Meta и искусственный интеллект в числах, 2021–2024
Вышла третья часть рубрики «одураченные статистикой», которую я веду на Т—Ж. В этом материале рассказал про пайчарты: манипуляции, связанные с трёхмерностью, сложением разных целых и легендарный «петушиный гребень».
https://journal.tinkoff.ru/stat-manipulation-pie/
Предыдущие статьи из цикла:
Первая, вторая
Количество космического мусора на разных орбитах Земли, 1961–2022 (Visual Capitalist)
По горизонтали — временна́я шкала, по вертикали — высота на орбите сверху вниз. Цветом обозначены страны, которые создали космический мусор. Снизу указано распределения общего количества мусора среди всех стран
Ещё мы писали про объекты на орбите Земли:
— Число искусственных объектов на орбите Земли, 1963–2023
— Распределение объектов на орбите Земли
— Распределение космического мусора на низкой орбите Земли
— Количество космического мусора диаметром более 10 см, 1960–2022
— Интерактивный лонгрид об угрозе космического мусора
Всегда хотели научиться работать с таблицами как профи? Бесплатно научат писать SQL-код в прямом эфире всего за полтора часа!
Приглашают всех, кто хочет познакомиться с SQL с нуля, на бесплатный мастер-класс с Серафимом Фролкиным, инженером данных VK и экспертом программ школы аналитики Changellenge >> Education.
Не будет полуторачасовых рассказов про историю создания SQL и процент сотрудников больших компаний, которые используют его ежедневно.
Changellenge >> Education — про практику: на примерах покажут 7 базовых функций SQL, и вы сразу же решите практический кейс!
Присоединяйтесь онлайн из любой точки мира 15 августа в 19:00 Мск. Всем зарегистрировавшимся и участникам — полезные материалы по работе с данными и скидки до 30 000 рублей на большие программы школы!
Участие бесплатно, но подарки получат только зарегистрированные участники. Успейте зарегистрироваться!
Регистрируйтесь и получайте подарки по ссылке >>
Реклама. ООО «Высшая школа аналитики и стратегии», ИНН 7716917009, erid: 2SDnjeHBguG
📈 Где найти самую красивую аналитику в телеграм?
На канале Stonks! Автор создаёт красивые графики по фондовому рынку, которые потом разлетаются на репосты
На канале вы узнаете:
— на чём зарабатывают Яндекс и Ростелеком
— кто смог обогнать Яндекс в СНГ
— какая российская компания была третьей по стоимости в мире
Если вам интересен российский фондовый рынок, то стоит подписаться!
Реклама. ИНН 667802582544, erid: 2SDnjbrPtPU
Дюжина стран мира с крупнейшим подводным флотом, 2024 (Visual Capitalist)
Семь стран состоит в НАТО, четыре — в Шанхайской организации сотрудничества. Примечательно, что России, США и Китаю принадлежит 40% всех подводных лодок в мире
Источник данных — GlobalFirepower.com
Ещё мы писали про вооружение стран мира:
— 15 стран с крупнейшими парками бронетехники в мире, 2024
— Десять крупнейших по личному составу армий в мире, 2024
— Количество военнослужащих в мире, 2022
— Объём военных расходов по странам мира, 1950–2022
Как изменилась численность населения в странах Европы, 1990/2023 (Visual Capitalist)
Источник данных — UN’s World Population Prospects 2024
Другие наши публикации про демографию в мире:
— Численность населения стран мира в 1900 и 2015 годах
— Половозрастные пирамиды населения в странах мира, 1950–2023 + прогноз до 2100
— Динамика уровня рождаемости в мире и в 5 странах мира, 1950–2022
— Число городов с численностью населения более 1 миллиона в 1800, 1900 и 1930 годах
Оптимальный вертикальный масштаб графика
Илья Бирман написал о том, как выбрать оптимальный вертикальный масштаб графика, чтобы адекватно изобразить соотношения между величинами
Эдвард Тафти, статистик и профессор статистики Йельского универститета, рекомендует подбирать вертикальный масштаб, при котором средний угол наклона графика будет примерно равен 45°
График должен помогать сравнивать величины и выявлять закономерности. Как, например, в нашей недавней публикации про рост и вес спортсменов на Летних Олимпийских играх. Конкретные значения эффективнее показывать числами, в графике же важно адекватно отобразить соотношения между величинами
Верхний график на примере Ильи не позволяет сравнивать колебания, потому что все они выглядят резкими и не имеют пологих участков. В нём больше вертикального разрешения, но угол наклона используется неоптимально — почти все превышают 60°
Второй график сжат в три раза и эффективно использует диапазон углов: он имеет как пологие, так и резкие перепады. Вертикальное разрешение ниже, но углы наклона позволяют лучше сравнивать соотношения
***
Ещё мы писали про грамотный и не очень датавиз:
— Принципы визуализации
— Тип визуализации и восприятие данных на примере выборов в США
— Как показать маленькие значения в столбчатых диаграммах, не обманывая читателя
— Хрестоматийный пример манипуляции данными от Financial Times
— За какое время крупнейшие компании НЕ зарабатывают среднегодовую зарплату сотрудника
20 компаний мира с наибольшим числом патентов в сфере ИИ, 2024 (Visual Capitalist)
Данные актуальны по состоянию на апрель 2024 года
Источник данных — World Intellectual Property Organization
Больше данных по патентам в мире:
— В каких странах было выдано больше всего патентов и топ-25 компаний по числу патентов, 2021
— Визуализация структуры патентов Google и Apple, 2007–2017
— Количество патентов, выдаваемых патентным бюро США в год, 1960–2020
Советские визуализации затрат времени в жилище 1964 года (Техническая эстетика)
«Техническая эстетика» — информационный бюллетень, а в последующем журнал, который издавался с 1964 по 1992 год. В журнале освещаются труды работников Всесоюзного научно-исследовательского института технической эстетики (ВНИИТЭ), проблематика современного дизайна, образцы дизайн-макетов отечественных художников-конструкторов и дизайнерские решения в зарубежных школах дизайна
Все выпуски можно посмотреть в Ретро-архиве
Больше ретродатавиза:
— Статистический атлас населения Парижа 1873 года
— Всеобщий географический и статистический карманный атлас 1908 года
— Статистический атлас Французского Индокитая 1914 года, Анри Бренье
— Справочник цен на напитки и мороженое в Москве, 1938
— Бразильские статистические атласы кофе начала 20 века
Какова вероятность выиграть в лотерею в России, 2021 (Тинькофф Журнал)
Если брать данные из отчёта «Столото» отдельно по игре «7 из 49», то в среднем игрок имеет шансы на джекпот 1 к 86 млн и на выигрыш в 86₽ с вероятностью в 20,9%. Всего в этой лотерее в 2021 году было продано 68,8 млн билетов по средней цене в 34₽, 14,3 млн билетов из них были выигрышные, общая сумма выигрышей — 1,24 млрд ₽. Математически это означает стопроцентный шанс выиграть 18₽ — сумму выигрыша (86₽) умножаем на его вероятность (20,9%). Если вычесть эту сумму из средней цены билета в 34₽, то получим -16₽ ожидаемой прибыли с билета в лотерее «7 из 49»
Вероятность выиграть миллион в любой лотерее на сайте «Столото» составляет 1 к 500000: в 2021 году было продано более 638 млн билетов, больше миллиона выиграли 1400 билетов (26 новых миллионеров в неделю). Средняя доходность с билета во всех играх в 2021 году колебалась от -2₽ до -76₽
В 2021 году операторы под брендом «Столото» продали лотерейных билетов на 60 млрд ₽ и потратили часть выручки следующим образом: 34 млрд ₽ — призовые выплаты, 7,5 млрд ₽ — в бюджет России, 18,4 млрд ₽ — на зарплату сотрудников, печать билетов, поддержку сайта и т. д. Чистая прибыль АО ТК Центр, которой принадлежит бренд «Столото», составила около 1% от общей суммы реализованных билетов
Также по этой ссылке можно изучить статью Т—Ж об устройстве российских лотерей
Источники данных: ВГЛ-5, Zoom Market, Анкетолог
Ещё мы писали:
— Ежемесячные выручки онлайн казино и букмекерских контор в США, январь 2019 – апрель 2023
— Позиции в Монополии по частоте их выпадания
— Частота первых ходов в игре камень, ножницы, бумага
Сколько людей рождалось в год на континентах мира, 1950–2023 (Visual Capitalist)
Источник данных — UN World Population Prospects 2024
Другие наши публикации про рождаемость в мире:
— Динамика рождаемости в 49 самых населённых странах мира, 1950–2021
— Как менялся уровень рождаемости в странах и в мире, 1960–2020
— Индекс человеческого развития и рождаемость в странах мира, 1990–2020
— Ежегодное число рождений, смертей и браков в Японии, 1947–2023
— Рождаемость в Китае после начала применения и отмены закона «Одна семья — один ребёнок», 1980–2022
Как менялись ядерные запасы стран мира, 1950–2022 (Reddit)
Другие наши публикации про ядерное вооружение:
— Инфографика про историю ядерного оружия
— Число ядерных боеголовок по странам мира, 1945–2022
— Ядерные запасы США и СССР/России, 1950–2020
— Сравнение численности населения стран мира с ядерным оружием и без, 2022
Ожидаемая продолжительность жизни в странах мира, 2021 (Landgeist 1, 2, 3)
На первых трёх картах — ОПЖ по регионам Европы, Азии и Африки. На последней картинке — данные по всем странам мира
Источник данных — Global Data Lab
Ещё про ОПЖ в мире:
— Ожидаемая продолжительность жизни в странах мира с разбивкой по полам, 2023
— Ожидаемая продолжительность жизни на момент рождения в 10 странах и в мире, 1900–2021
— Расходы на здравоохранение и ожидаемая продолжительность жизни в странах мира, 2019
— Возраст старейшего живущего человека и средняя ожидаемая продолжительность жизни в мире, 1950–2023
Самый потребляемый вид мяса на душу населения в странах мира, 2020 (Visual Capitalist)
В данные также включены объёмы потребления рыбы и морепродуктов. «Остальное» — крольчатина, верблюжье мясо и мясо дичи
На первой картинке — самое потребляемое мясо в стране, на второй — топ-10 стран по потреблению разных видов мяса
Источник данныхх — Food and Agriculture Organization
Другие данные по производству и потреблению мяса:
— Производство и потребление мяса в мире, 1961–2018
— Распределение и плотность поголовья скота и птицы в мире, 2018
— Потребление разных видов мяса в странах ОЭСР, 2022
— Доля мясоедов, вегетарианцев и веганов в Великобритании, 2021
Сколько россияне оставляют на чай (Т-Банк)
Аналитический проект T-Data провёл исследование обезличенных данных о транзакциях клиентов Т-Банка, T-Pay и CloudTips в период с 1 января 2022 по 1 июля 2024 года. На диаграммах:
— В какие часы и дни недели оставляют больше чаевых в общепите
— Как изменилось распределение всех чаевых в России по регионам
— Сколько чаевых оставляют разные возрастные группы россиян
Основные выводы из исследования:
— В первом полугодии 2024 года россияне потратили на чаевые на 82% больше, чем в первом полугодии 2023 года. При этом число транзакций по оплате чаевых выросло за этот период на 26%
— Люди чаще оставляют чаевые в летние месяцы. Для ресторанов, баров и кафе «горячее время» ― с мая по октябрь
— Средняя сумма чаевых в первой половине 2024 года выросла на 45%. При этом средний счёт в кафе или ресторане вырос на 9%
— Самые щедрые чаевые клиенты оставляют ночью
Ещё про культуру чаевых:
— Как часто, кому и сколько чаевых оставляют американцы и европейцы, 2023
— Чаевые таксистам в зависимости от пола
Авиакатастрофы и их жертвы, 1946–2021 (Our World in Data)
На диаграммах — данные коммерческих авиакомпаний по судам с вместимостью 14+ пассажиров:
— Число авиакатастроф (синий) и угонов воздушных судов (красный)
— Динамика смертей в результате авиакатастроф и угонов воздушных судов
— Число авиакатастроф с погибшими на миллион коммерческих авиаперелётов в мире
— Число погибших на миллион пассажиров в год
— Соотношение числа пассажиров и количества авиакатастроф с погибшими в год
Ещё мы писали про авиацию:
— Авиационные происшествия, 1918–2022
— Все авиакатастрофы за 100 лет и 100 тысяч их жертв
— Число авиакатастроф и их жертв, 1948–2017
— Интерактивная визуализация мирового авиатрафика за 1 сентября 2022
Объёмы производства электроэнергии в США по источникам, 1990–2022 (Chartr)
Объёмы указаны в мегаватт⋅часах
Другие данные по энергетике:
— Мировое потребление энергии по источнику, 1900–2021
— Количество материалов, которые нужно вложить в инфраструктуру разных типов энергии, чтобы произвести 1 тераватт-час
— Сколько земли требуется для добычи 1 МВтч из разных источников
— Как изменилась стоимость производства мегаватт-часа электроэнергии разных типов с 2009 по 2020 год
— Доля энергии из возобновляемых источников в энергобалансе стран мира, 2020
Статистика по наборам конструкторов Лего (Brian Moore)
На «лицевой стороне» визуализации история компании и количество выпущенных наборов с разным количеством деталей. На «обороте»: диаграммы с разбивкой по тематике и цветам деталей в наборе, а также 5 самых крупных конструкторов. Там же две диаграммы со средним количеством деталей в наборах и их выпущенное количество по десятилетиям (1950–2020)
Интерактивную версию можно посмотреть в источнике
Ещё про Лего:
— Механизм из лего с передаточным числом 1 к гуголу
— Наборы конструктора Лего с годами становятся больше и разнообразнее
— Зависимость между ценой наборов Лего и числом деталей в них
Статистика самоубийств в мире, 1990–2020 (Our World in Data)
На диаграммах и картах выше:
— Число самоубийств на 100 000 населения, 2019
— Число самоубийств, 2019
— Число самоубийств, совершённых при помощи огнестрельного оружия, 2019
— Соотношение самоубийств среди мужчин и женщин, 2017 (чем выше значение, тем сильнее перевес в сторону мужчин)
— Соотношение самоубийств среди мужчин и женщин, 2017 (диаметром обозначена численность населения стран)
— Число самоубийств на 100 000 населения с разбивкой по полам, 2000–2019
— Число самоубийств с разбивкой по возрастным группам, 1990–2019
— Число самоубийств с разбивкой по возрастным группам в 6 странах мира, 2019
— Доля самоубийств от смертности в 8 странах мира, 1990–2019
В источнике по ссылке в описании можно посмотреть интерактивные версии. Некоторые из них позволяют настроить логарифмическое или линейное отображение, а также выбрать список стран для отображения данных
Другие наши публикации про суициды:
— Связь наличия высшего образования и смертности от суицида, алкоголя и наркотиков в США
— Топ-15 стран по числу суицидов на 100 тысяч человек, 1990–2018
— Сравнение уровня суицидов среди американских ветеранов и среди гражданских, 2001–2014
— Причины смерти музыкантов и жанры музыки
Крупнейшие страны по добыче серебра, 2023 (Visual Capitalist)
Мы регулярно публикуем данные по добыче, выплавке и запасам важных металлов и сплавов в мире. Все посты по этой теме можно найти в нашей подборке
Источник данных — World Silver Survey 2024
Какие BI-системы внедряют топ-компании после ухода зарубежных решений?
К2Тех Data Lab, центр компетенций по управлению большими данными, совместно с Digital Leader, НОРБИТ, Arenadata и Kept провели исследование текущего состояния рынка BI-решений.
По данным исследования, крупные компании все еще используют BI-решения ушедших вендоров, но доля внедрений отечественных решений с 2021 г. по первый квартал 2024 г. резко возросла — с 9% до 68%.
Команда провела 29 интервью с представителями топ-600 компаний промышленности, ритейла и финтеха. Исследование раскрывает, нуждается ли российский бизнес в зарубежных решениях, какие проблемы возникают при переходе на отечественные BI-системы и какие ожидания у крупных компаний от развития таких систем.
Ознакомиться с исследованием можно по ссылке.
Реклама. Рекламодатель АО "К2 Интеграция"
Реклама. АО "К2 ИНТЕГРАЦИЯ". ИНН 7701829110.
Уровень преступности среди иммигрантов и коренных жителей Дании, 2010–2022 (Inquisitive Bird 1, 2)
В 2022 году в Дании было вынесено 17 240 уголовных приговоров среди населения от 15 до 79 лет. Из них 5120 (29,7%) были вынесены иммигрантам и их потомкам в первом поколении. Для сравнения: в том же году они составляли 15,2% всего населения страны от 15 до 79 лет. Это означает, что доля осуждённых среди них была примерно в 2,4 раза выше, чем среди коренных жителей
На первой диаграмме — доля осуждённых за насильственные преступления среди датчан и иммигрантов из разных стран с 2010 по 2022 годы. За единицу взят показатель среди датчан — чёрный столбец
На второй диаграмме — распределение приговоров за разные типы преступлений между датчанами и иммигрантами за тот же период. Первые столбцы — доля корренного населения и иммигрантов в населении страны
В таблице — результаты исследования по заключённым в Дании в 2023 году. Согласно этим данным, 50,4% заключённых в колониях строгого режима страны имели датское происхождение, а в тюрьмах Копенгагена — 33,9%. Для сравнения: в том же году коренные жители составляли 84% населения страны и 72% населения столицы
Источник данных — Статистическое бюро Дании 1, 2
Больше данных по иммигрантам и преступности в странах мира:
— Преступность в Техасе и мигранты, 2012-2018
— Доля иммигрантов в населении стран мира, 2020
— Число заключённых на 100 000 населения в странах Европы и Азии, 2020
— Число нерассмотренных иммиграционных дел в США, 2002–2022
Визуализация первых 500 последовательностей чисел согласно гипотезе Коллатца (Reddit)
Гипотеза Коллатца — одна из нерешённых проблем математики, сформулированная 1 июля 1932 года. Она заключается в том, что при любом натуральном числе (n) мы рано или поздно получим 1, если n будем делить на 2, если оно чётное, или умножать на 3 и прибавлять 1, если оно нечётное. Последовательность с начальным числом 3 будет выглядеть так: 3, 10, 5, 16, 8, 4, 2, 1. Подробнее об этой гипотезе в ролике канала Veritasium: оригинал, перевод на русский язык
По вертикали — полученные в ходе операций числа, по горизонтали — количество операций. Для всех первых 500 натуральных чисел было достаточно до 140 операций
Другие публикации про математику:
— Число Грэма на пальцах
— Как часто встречаются разные цифры в первых 800 знаках числа Пи
— The Beauty of Pi — несколько красивых визуализаций числа Пи
Потребление этилированного бензина и доля детей с допустимым объёмом свинца в организме в США, 1940–2020 (Reddit)
Этилированный бензин — бензин с добавлением тетраэтилсвинца. Это вещество увеличивает степень сжатия топлива без детонации, отчего бензин лучше сгорает в двигателях внутреннего сгорания. Из-за содержания свинца этот вид топлива крайне опасен для людей
В 1972 в США было запрещено использование и производство двигателей, рассчитанных на этилированный бензин, а процесс вытеснения ТЭС-содержащего топлива завершился в 1986. Аналогичный запрет ввёл ЕС 1 января 2000 года, но в отдельных странах-участницах запрет начал действие намного раньше. В России этилированный бензин запрещён с 15 ноября 2002 года
На канале Veritasium выходило видео с историей этилированного бензина, где подробно разбираются причины его распространения и последствия для человечества
Данные учитывают детей до 10 лет, безопасным уровнем содержания свинца считается 5 мкг/дл
@rationalnumbers
Как сексуальная ориентация человека влияет на риск участия в преступлении
Голландские учёные провели крупное исследование о связи гомосексуальности и риска участия в преступлении. Выборка составила 3,5 миллиона человек, разбивка происходила по брачным отношениям. Если человек уже состоял в разнополых браках, но когда-либо регистрировал однополый брак, то он причислялся к гомосексуальной категории. Люди, никогда не состоявшие в браке, в выборку не попали
Цветом обозначены следующие категории:
— синий — гетеросексуальные мужчины
— оранжевый — гомосексуальные мужчины
— серый — гомосексуальные женщины
— жёлтый — гетеросексуальные женщины
Результаты показали, что гомосексуальность у мужчин сильно снижает риск попасть под уголовное расследование, а у женщин наоборот — повышает
Другие наши публикации про представителей LGBTQ+:
— В каких странах разрешены однополые браки, 2024
— Какая доля американцев идентифицирует себя как ЛГБТ, 2012–2022
— Отношение православных к гомосексуальности и однополым бракам
— Отношение к однополым бракам в европейских странах