Статистика по буквам русского языка (настенька и графики)
К сожалению, в источнике для первой диаграммы буква «ё» подпадала под «е». Наша редакция питает очень тёплые чувства к этой букве, поэтому советуем посмотреть инфографику ТАСС про «ё»
Также хотим напомнить про проект Нади Адриановой и Владимира Терентьева, в котором они анализировали частотность букв в разных частях слов, длину слов и двухбуквенные сочетания
Другие наши публикации с лингвистическими данными:
— Соотношение скорости и информативности речи в языках мира
— Самые распространённые языки в мире и в интернете, 2023/2024
— Число носителей крупных языков мира, 2023
— Первый и второй по популярности язык для изучения в Дуолинго в странах мира, 2022
В какие даты чаще рождаются россияне (Тинькофф Журнал)
Аналитики Tinkoff Data исследовали обезличенные даты рождения более 40 млн клиентов Тинькофф. Чтобы нормировать данные, полученные результаты были сопоставлены с численностью населения по возрасту
Они выяснили, в какие дни чаще всего рождались россияне, как менялись сезонность и тренды рождений и зачатий, как соотносится число браков с рождаемостью, а также сравнили свои данные с официальными регистрациями ЗАГС
Больше интересных трендов в рождениях:
— Частотность дней рождения в США
— Близнецы рождаются заметно чаще, чем раньше
— Самые популярные мужские и женские имена в России и в Москве, 1920–2023
— Число новорождённых девочек с именем Алекса в США, 1985–2022
— Как крупные ураганы влияют на имена младенцев в США
Число самоубийств на 100 тысяч человек и средняя высота в 10 самых «высоких» и «низких» штатах Америки, 2019 (Reddit)
Под аббревиатурой каждого штата указано число самоубийств и средняя высота над уровнем моря. На диаграмме — показатель суицидов в самых «высоких» и «низких» штатах, а также средний показатель по стране
Это не очередная безумная корреляция, причинно-следственная связь между возвышенностью над уровнем моря и смертностью от суицидов исследовалась в ряде работ:
— High Altitude Remains Associated with Elevated Suicide Rates after Adjusting for Socioeconomic Status
— Altitude and risk of depression and anxiety: findings from the Intern Health Study
— Positive Association between Altitude and Suicide in 2584 U.S. Counties
— Understanding the Relationship Between Altitude and Suicide Risk
— Living High and Feeling Low: Altitude, Suicide, and Depression
— Here's Why Ski Towns Are Seeing More Suicides
Скорость автомобиля и смертность пешеходов при столкновении (Новости Москвы)
Риск смерти указан для взрослых пешеходов
Больше данных по смертности на дорогах:
— Доля ДТП со смертельным исходом и объём алкоголя в крови водителей, 2011
— Смертность на 100 000 человек на дорогах стран Азии, 2019
— Смерти детей-пешеходов в США по дням, 2006–2020
— Смерти в ДТП в новогоднюю ночь по часам, 2011–2020
Какую долю всех выпускаемых фильмов составляли разные жанры в кино, 1910–2021 (Bo McCready)
Обратите внимание, что вертикальные шкалы диаграмм отличаются между собой и демонстрируют динамику популярности конкретного жанра, а не соотношение с другими. Например, комедии на своём пике составляли почти 40% всех релизов, тогда как научная фантастика едва превышала 3% всех выпущенных в год фильмов, но на картинке графики имеют одинаковую высоту
Ещё мы писали про киноиндустрию:
— Динамика количества выпущенных в прокат фильмов, 1909–2022
— Длительность фильмов с 1885 по 2005 год
— Динамика хронометража фильмов, 1995–2021
— Жанровое распределение фильмов, 1913–2021
— Самые успешные голливудские фильмы, 1970–2023
Доступность питьевой воды в мире, 2019 (Our World in Data)
Согласно данным Института показателей и оценки здоровья, в 2019 году небезопасные источники воды унесли жизни 1,23 млн людей по всему миру. На первой карте указана доля смертей, вызванных потреблением грязной воды, на второй — уровень смертности. Эти показатели особенно высоки в бедных странах, что хорошо видно на диаграмме с долями населения с доступом к чистой воде — цветом обозначена разбивка по регионам и странам с высокими и низкими доходами
Также приведены следующие карты с разбивкой по странам мира:
— Доля населения с доступом к источникам чистой воды
— Численность населения без доступа к источникам чистой воды
— Доля населения без доступа к развитым источникам чистой воды (источникам, доставляющим пригодную для питья воду)
— Численность населения без доступа к развитым источникам чистой воды
Остальные данные и диаграммы смотрите в источнике
Ещё мы писали про доступность жизненно важных ресурсов в странах мира:
— Доступность еды в странах мира, 2017/2021
— Сколько людей не может позволить себе здоровое питание в странах мира, 2022
— Уровень продовольственной безопасности и объёмы пищевых отходов в странах мира, 2021
— Доля населения с доступом к электричеству в странах мира, 1990–2020
— Индекс доступности жилья в США, январь 1990 – март 2022
Число запущенных за 10 лет ИИ-стартапов в 15 странах мира (Visual Capitalist)
Учитывались только те компании, которые получили более 1,5 миллионов $ частных инвестиций. В таблице — 15 отраслей ИИ-разработок с крупнейшими вложениями и объёмы инвестиций в мире
Источник данных — Quid
Другие наши публикации про инвестиции в ИИ-технологии:
— 10 стран мира с крупнейшим числом ИИ-стратапов с 2013 по 2022 годы
— Как менялись объёмы мировых инвестиций в индустрию ИИ и стоимость тренировки ИИ, 2013–2021
— Индустрия искусственного интеллекта в числах, 2010–2022
— Как развивалась индустрия генеративного ИИ, 2014–2023
Шесть крупнейших экономик мира по доле от мирового ВВП, 1980–2024 (Visual Capitalist)
Данные за 2024 год являются оценочными и основаны на текущих ценах
Источник данных — Международный валютный фонд
Ещё мы сравнивали ВВП:
— Номинальный ВВП стран мира, 2023
— 25 стран с самым высоким и самым низким подушевым ВВП, февраль 2023
— Какую долю ВВП в странах мира обеспечивает труд, 2022
— ВВП по ППС на душу населения и на 1 работника в некоторых странах мира, 2021
— Распределение ВВП по ППС между цивилизациями за 2000 лет
Войны и вооружённые конфликты в мире, 1800–2022 (Our World in Data)
Крупная подборка от Our World in Data с подробными данными по войнам и вооружённым конфликтам в мире. На картинках:
— Число смертей в вооружённых конфликтах в странах мира, 2022
— Число смертей в вооружённых конфликтах по континентам мира, 1989–2022
— Число вооружённых конфликтов в мире по типу, 1989–2022
— Число стран мира, в которых происходили вооружённые конфликты, 1989–2022
— Оценочное число смертей в войнах в мире, 1800–2011
— Число смертей в войнах по континентам мира, 1800–2011
— Число смертей в международных конфликтах по континентам мира, 1816–2014
— 10 войн с 1800 по 2011 годы, в которых погибло больше всего людей
Остальные диаграммы и карты можно посмотреть в интерактивной версии на сайте
Другие наши публикации про военные конфликты в мире:
— Павшие во Второй мировой войне
— Каждый день Второй мировой войны с размерами армий
— Какой процент человечества погибал в различных войнах, 500 г до н. э. – 2013
— Карта всех 10 624 зафиксированных сражений в мире, 2500 до н. э. – 2023
— Мировые карты вооружённых столкновений и воздушных ударов, повлёкших смерти людей, 17 июня 2022 – 16 июня 2023
— Войны, революции, смены правителей и изменения границ в странах Европы, 1500–2022
Все землетрясения с магнитудой более 4, 2002–2022 (Reddit)
Источник данных — USGS National Earthquake Information Center
Другие наши публикации про сейсмическую активность Земли:
— Все землетрясения, зафиксированные в 20 веке
— Все землетрясения с магнитудой более 4, 2002–2022
— Карта всех зафиксированных извержений вулканов в мире, 1900–2022
— Из каких слоёв состоит Земля
— Миллиард лет движения тектонических плит за 40 секунд
— Карта всех активных и спящих вулканов
Space Elevator — интерактивный сайт, на котором можно на воображаемом лифте подняться с поверхности Земли до линии Кармана
На пути к вершине указаны слои атмосферы, высота полёта птиц и летательных аппаратов, различные рекорды и природные явления, наблюдающиеся на этой высоте. Внизу указана высота в метрах, в правом верхнем углу — температура на данной высоте
Другие интересные сайты:
— Интерактивная визуализация падения астероида
— Интерактивная визуализация последствий ядерного взрыва
— Визуализация капитала Илона Маска в сравнении с разными активами, бюджетами и суммами
— Clockwork Partners — сайт со множеством спиральных графиков с визуализацией параметров роста биткоина
Как менялся топ-16 больших языковых моделей в рейтинге Chatbot Arena, май 2023 – апрель 2024 (Jianqi Pan)
Chatbot Arena — один из самых авторитетных рейтингов больших языковых моделей (LLM). Места в рейтинге определяются в полевых условиях: пользователи общаются с двумя анонимными моделями и голосуют за лучшую. На сайте собрано уже более миллиона голосов. Рейтинг LLM высчитывается по системе ELO, которая применяется также для определения рейтинга игроков в шахматы, шашки или го
Жанки Пэн в конце апреля 2024 года опубликовал анимированный топ моделей за последний год. В актуальной на тот момент версии рейтинга лидировала ChatGPT-4-Turbo, но уступила первенство недавно вышедшей ChatGPT-4o
Полный рейтинг с подробной статистикой по всем категориям можно посмотреть на сайте. Там же можно решить исход очередной дуэли и повлиять на общий рейтинг, бесплатно воспользовавшись передовыми LLM современности
Больше интересных данных из мира нейросетей:
— Политическая ориентация 24 крупнейших языковых моделей
— Число изображений, сгенерированных 5 популярными нейросетями, по состоянию на август 2023
— Как менялось число параметров у больших языковых моделей, 2018–2023
— Индустрия искусственного интеллекта в числах, 2010–2022
— Как развивалась индустрия генеративного ИИ, 2014–2023
— Как менялись возможности систем ИИ по распознаванию речи и изображений относительно способностей человека, 1998–2020
Карта околоземных спутников GPS, OneWeb и Starlink в реальном времени (Satellite Map)
На интерактивном сайте можно отслеживать положение спутников в реальном времени, настроить отображение по типам спутников, найти наземные станции и проверить площадь покрытия систем
По состоянию на 22 мая 2024 года, всего на околоземную орбиту Земли было отправлено 6380 спутников Starlink, из них 4838 активны, 1145 неактивны, а 396 сгорели в атмосфере
Ещё мы писали про объекты на орбите Земли:
— Кому и сколько искусственных спутников Земли принадлежало на конец 2022 года
— Распределение объектов на орбите Земли
— Запущенные в космос объекты по странам, 1957–2021
— Количество космического мусора на разных орбитах Земли, 1961–2022
1 датасет, 100 визуализаций
Авторы проекта взяли за основу число объектов всемирного наследия в Норвегии, Дании и Швеции в 2004 и 2022 годах и представили их 100 разными способами. Целью было показать, насколько визуализация данных сложная и разнообразная дисциплина
Выше ряд примеров, остальные на сайте: 100.datavizproject.com
Ранее мы писали о другом проекте агентства Ferdio — Flag Stories. Там они сгруппировали флаги стран мира по цветам, формам, символам, пропорциям и многим другим признакам
Как менялась рыночная капитализация NVIDIA, Amazon и Tesla, 2019–2024 (Trendline)
Ещё мы публиковали данные по рынкам акций:
— Как росла рыночная капитализация NVIDIA и Intel, 2014–2024
— Как менялись в цене акции компаний, кратно подорожавшие во время пандемии коронавируса, 2020–2024
— 15 компаний S&P 500 с наибольшим ростом акций за последние 20 лет
— Динамика стоимости акций 7 компаний, январь 2020 – апрель 2022
— Как изменились бы в цене 100$, вложенных в акции 5 крупных компаний, 2017–2022
Карта всех известных дорог мира, 2018 (Visual Capitalist)
Белым цветом обозначены автомагистрали, жёлтым — дороги со средним потоком машин, красным — дороги в жилых районах и сельской местности
Источник данных — Global Roads Inventory Project
Другие интересные карты:
— Карты городов, дорог, ЖД путей, морских портов и аэропортов мира
— Покрытие панорамных карт Гугла
— Интерактивная карта плотности населения Земли, 2015
— Карты лесного покрова планеты, 2022
Позиции в Монополии по частоте их выпадания (Reddit)
Вероятности рассчитаны на основе симуляции 100 тыс партий настольной игры Монополия. На диаграмме под названием позиций указано количество раз, которое на них оказывались фигурки игроков
Похожие публикации по теме:
— Какова вероятность выиграть в лотерею в России, 2021
— На каких клетках шахматной доски бывают съедены фигуры
— Частота первых ходов в игре камень, ножницы, бумага
Миллиард лет движения тектонических плит за 40 секунд (Visual Capitalist)
Каждая секунда видео равна ~25 млн лет. На картинке названия океанов и суперконтинентов, образовывавшихся в процессе суперконтинентальных циклов. Один такой цикл занимает от 300 до 500 млн лет
Другие наши публикации про сейсмическую активность Земли:
— Все землетрясения, зафиксированные в 20 веке
— Все землетрясения с магнитудой более 4, 2002–2022
— Карта всех зафиксированных извержений вулканов в мире, 1900–2022
— Из каких слоёв состоит Земля
— Миллиард лет движения тектонических плит за 40 секунд
— Карта всех активных и спящих вулканов
Пять интересных корреляций на картах мира (Vivid Maps)
1. Карта округов штата Алабама. Береговая линия Мелового периода проходила через штат 100 миллионов лет назад и обогатила местную почву меловыми отложениями. Плодородный чернозём позволял активно заниматься земледелием, для которого фермеры в большом количестве привлекали труд чернокожих рабов. Позже чернокожее население начало составлять большинство в этих округах, а оно чаще голосоует за демократическую партию США
2. Результаты выборов по округам и места проживания племён коренного населения в штате Аризона
3. Карты боевых действий во время Испанской революции 1936 года и результаты выборов в 2019 году. Слева — расположение сил республиканцев и националистов, справа — голоса за консерваторов и за остальные партии
4. Карта всех мечетей в Германии, которая коррелирует с разделением страны на Западную и Восточную с 1949 по 1990 год. Авторы публикации предполагают, что это связано с мигрантами с Ближнего Востока, которые отдают предпочтение экономически более развитой половине Германии
5. Распределение голосов на выборах президента Польши в 2015 году и ареал обитания диких кабанов
Стоит помнить, что корреляция не означает причинно-следственную связь — мы уже писали о безумных корреляциях. Но корреляция не означает и отсутствие каузации, об этом комментаторы часто забывают
Другие интересные корреляции:
— Бан Трампа в Твиттере и снижение числа выявляемых заболеваний коронавирусом
— Потребление шоколада на душу населения и количество нобелевских лауреатов на 10 миллионов человек в странах мира, 2012
— Безумные корреляции
Как менялись в цене акции компаний, кратно подорожавшие во время пандемии коронавируса, 2020–2024 (William Coulman, David Crowther)
Все мы помним, как резко взлетели акции некоторых компаний в начале двадцатого года. Вот, что стало с ними потом
На диаграмме указана разница в процентах относительно показателей начала 2020 года. Например, акции Zoom на своём пике выросли на 735%, а сейчас стоят на 13% дешевле, чем в начале пандемии. Акции Moderna вырастали на 2377% и тоже упали в цене после пандемии, но всё ещё стоят на 635% дороже, чем в январе 2020
Другие наши публикации про рынки акций:
— 15 компаний S&P 500 с наибольшим ростом акций за последние 20 лет
— Динамика стоимости акций 7 компаний, январь 2020 – апрель 2022
— Как изменились бы в цене 100$, вложенных в акции 5 крупных компаний, 2017–2022
— Динамика фондового индекса S&P 500, 1940–2022
— Доля стран в мировом фондовом рынке, 2 квартал 2023
Какая доля населения в регионах Беларуси говорит дома на белорусском языке, 2019 (Игорь Яновски)
Средний показатель по стране — 26%, самый высокий в Ивье — 73,3%
Больше данных по языкам в мире:
— Какая доля населения в штатах Америки говорит дома не на английском языке, 2009–2013
— Число носителей крупных языков мира, 2023
— Самые распространённые языки в мире и в интернете, 2023/2024
— Первый и второй по популярности язык для изучения в Дуолинго в странах мира, 2022
Как коронавирус повлиял на смертность в тюрьмах США, 2014–2020 (The Marshall Project)
Аналитики The Marshall Project изучили данные из исследования 2023 года
На первой диаграмме — средняя смертность в тюрьмах в пересчёте на 10000 человек по возрастным группам. На остальных диаграммах — данные по 36 штатам с доступными данными
Авторы утверждают, что оценки занижены, так как численность заключённых сокращалась в течение 2020 года, и реальный коэффициент смертности может быть намного выше официальных данных
Больше данных по пандемии коронавируса:
— Оценка примерного числа жертв крупнейших пандемий в истории человечества
— Официальная и расчётная смертность от коронавируса по странам за 2020 год
— Уровень вакцинации и смертность от коронавируса на 100 тысяч человек по штатам Америки
— Смертность от коронавируса и статус вакцинации, 2021
— Количество зафиксированных случаев заболевания коронавирусом в день в Китае, 2022
Как крупные ураганы влияют на имена младенцев в США (Axios)
Автор публикации указал на уменьшение количества новорожденных с именами, которые совпадают с именами крупнейших ураганов в США
По вертикали — динамика количества младенцев год от года в процентах, по горизонтали — количество лет до и после ураганов
Источники данных: NOAA, SSA
Ещё мы писали про имена:
— Число новорождённых девочек с именем Алекса в США, 1985–2022
— Самые популярные мужские и женские имена в России и в Москве, 1920–2023
— Динамика соотношения гендерно-нейтральных имён, 1880–2017
Депрессия в странах мира, 2019 (Our World in Data)
На первых двух картах и диаграммах — количество и доля населения с депрессией в странах мира. Далее приведена диаграмма с разбивкой по возрастным группам. В последнем вложении по вертикали указана доля мужчин с депрессией, по горизонтали — доля женщин с аналогичным расстройством. Диаметром кружочков обозначена численность населения
Другие данные про ментальное здоровье людей:
— Распределение суицидальных мыслей и плохого настроения по времени суток и сезонам
— Депрессия в странах мира, 2019
— Доля населения с ментальными расстройствами в странах мира, 2019
— Статистика самоубийств в мире, 1990–2020
— Число психиатров на 100 000 населения в странах Европы, 2019
Как менялся мировой рекорд по поеданию хот-догов, 1980–2023 (The Washington Post)
Все рекорды фиксировались на Чемпионате по поеданию хот-догов Nathan’s Famous, которое с 1972 ежегодно проводится 4 июля в Кони-Айленде, Бруклин
В 80-х участникам удавалось съедать чуть больше десятка хот-догов, в 90-х — около 20. В 2001 году Такеру Кобаяши резко повысил планку, съев 50 хот-догов за 12 минут и побив предыдущий мировой рекорд в два раза. Нынешний рекорд принадлежит 14-кратному чемпиону Джоуи Честнату — в 2021 году он съел 76 хот-догов за 10 минут. Рекорд среди женщин в 2020 году установила Мики Судо, съев 48,5 хотдогов
Правила и формат соревнования постепенно менялись. Так, в 2008 году время на поедание хот-догов сократили с 12 минут до 10, а в 2011 году провели первое соревнование среди женщин — до этого они участвовали вместе с мужчинами. С 2007 года победители получают денежные призы от спонсоров
Помимо самого турнира, менялась и тактика участников. Для большей эффективности они начали разделять булочки и сосиски, а сами булочки размягчать в воде. Вот видео с тренировок нынешнего рекордсмена, но не советуем смотреть его впечатлительным читателям
Примечательно также то, что единственным чемпионом не из США или Японии является Биргит Фельден — в 1984 году он представлял Германию
Другие интересные рекорды:
— Как менялся мировой рекорд по самому быстрому решению кубика Рубика 3×3×3, 2003–2023
— Все набранные Леброном Джеймсом очки в НБА, 2003–2023
— Монархи, которые правили дольше всех, 2022
Сколько стоит марихуанна в 140 городах мира, 2023 (CFAH)
На диаграммах и таблицах:
— Топ-10 городов мира с самой дорогой и самой дешёвой марихуаной с разбивкой на легальность
— Топ-10 городов мира с крупнейшими объёмами потребления марихуаны в год
— Таблица с данными по всем 140 городам
Интерактивную версию таблицы можно найти на сайте и настроить сортировку по алфавиту, стоимости, легальному статусу и объёмам потребления в год
Интересные числа из исследования:
— самый дорогой каннабис в мире продаётся в Токио по средней цене 33,8$ за грамм
— самый дешёвый — в Монреале по цене 5,9$ за грамм
— Нью-Йорк — крупнейший город в мире по потреблению каннабиса в год (62,3 т)
— легализация снижает рыночную стоимость марихуаны в среднем на 11,13%
Больше данных по каннабису:
— Стоимость медицинского каннабиса за 1 унцию по штатам Америки, 2024
— Легальный статус рекреационного каннабиса в странах мира, 2024
— Какая доля европейского населения от 15 до 64 лет употребляла марихуану за последний год, 2017–2020
— Динамика количества американцев, пробовавших марихуану, 1969–2021
— Доля населения, употребляющего марихуану, 2017
Сколько спят и как часто чувствуют себя отдохнувшими взрослые люди (Nathan Yau)
На первой диаграмме — долевое распределение взрослых американцев по средней продолжительности сна. 61% из опрошенных заявили, что спят от 7 до 8 часов в день, 30% — менее 7 часов в день
На второй картинке — доли опрошенных, которые чувствуют себя отдохнувшими после пробуждения:
— никогда
— иногда
— часто
— каждый день
На последнем изображении — те же данные с разбивкой на количество сна. Примечательно, что люди с 10+ часов сна чаще отвечали, что чувствуют себя отдохнувшими редко или никогда, чем те, кто спит по 9 часов в сутки
Источник данных — Национальный центр статистики здравоохранения США (2022)
Ещё мы писали о паттернах сна:
— Как спит человек и некоторые виды животных
— Сколько спят разные животные
— Связь между временем отхода ко сну и сердечно-сосудистыми заболеваниями
— Как меняется режим сна и бодрствования с возрастом
Динамика стоимости 1 грамма кокаина и героина в 18 странах мира, 2000–2020 (Анастасия Кузнецова)
Цены указаны в американских долларах, напротив названия страны указана медианная стоимость
Другие наши публикации про наркотики:
— Динамика смертности от передозировки наркотиками в США
— Сколько наркотиков изымают в мире, 2007–2017
— Динамика количества американцев, пробовавших марихуану, 1969–2021
— Доля употребляющего марихуану населения в странах мира, 2017
Популярность четырёхзначных ПИН-кодов (Nick Berry)
Визуализация основана на исследовании Ника Берри, который детально проанализировал 3,4 миллиона утёкших в сеть ПИН-кодов. По вертикали — первые две цифры, по горизонтали — вторые две. Например, код «1234» находится в 12 ряду снизу и 34 столбце слева. Всего существует 10000 возможных комбинаций
Облако в левом нижнем углу — даты рождения в формате ДД/ММ или ММ/ДД. Светлая полоса в 19 ряду снизу — годы рождения. Яркая диагональ по центру — коды из двух одинаковых чисел. Чёрные и серые квадраты — те самые редкие ПИН-коды. Снизу указаны 20 самых популярных и 20 самых редких комбинаций
Интересные числа из исследования:
— 61 комбинация составляет треть всех ПИН-кодов
— 26,83% всех кодов приходится на 20 самых популярных комбинаций
— 17,8% всех кодов — комбинации с одинаковыми парами цифр («XYXY»)
— лидирует по популярности пресловутый «1234» (11%)
— на 22 месте комбинация «2580» — четыре клавиши по центру цифровой клавиатуры сверху вниз
Больше интересных паттернов в больших данных:
— Пять интересных корреляций на картах мира
— Статистика по буквам русского языка
— Число новорождённых девочек с именем Алекса в США, 1985–2022
— Корреляция отзывов на ароматические свечи и заболеваемости коронавирусом в США, 2019–2022
— Частотность дней рождения в США