Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Стали известны победители AIME 2025 на Kaggle. Это крупнейшая "олимпиада" по математике для ИИ. Собрали саммари по опубликованным решениям:
Все победители, которые поделились своими решениями, использовали модель DeepSeek-R1-Distill-Qwen-14B, просто с разной степенью дообучения, квантования и использования inference-движков. Особенно никто с экспериментами для обучения не запаривался, потому что задачка была больше на инженерную оптимизацию.
Почему? Потому что основным вызовом было ограничение на время и железо. Все 50 задач надо было решить за 5 часов, используя 4 GPU L4 (у них не очень большая пропускная способность, так что 5 часов – это реально мало).
То есть участник сдает ноутбук, который запускается на стороне организаторов и решает задачки. В ноутбуке можно контролировать, как модель распределяет задачи: в каком порядке решает, сколько токенов и времени тратит на каждую, как все параллелится между GPU.
И тут практически все как-то играли с перераспределением времени и токенов. Одни пытались предсказывать сложности задач перед решением и распределять относительно этого. Другие начинали с равных "долей" и динамически перераспределяли сэкономленные ресурсы. А кто-то даже пытался кластеризовать задачи по похожести и решать несколько за раз.
Интересно, что единственными, кто реально попотел над обучением стали ребята из японской лаборатории Sakana (9 место). Те самые, кто разработал агента-рисерчера, статью которого приняли на ICLR (пост). Вот у них полный набор: и файн-тюнинг SFT, и RL-дообучение с GRPO. Они как раз и использовали ModernBERT для оценки сложности.
В общем, вот лидерборд и некоторые описания решений, можете взглянуть
CEO Perplexity объявил, что моделью теперь можно пользоваться в Telegram через официального бота @askplexbot
Это бесплатно. Также бота можно добавить в любые чаты, тегать и спрашивать о чем угодно (как Grok в X).
В наш чат канала мы модельку уже добавили, так что можете играться
Оптимизируем работу со Spark и строим рекомендательные системы
Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.
На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.
Что еще обсудим
🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.
Кому будет полезен вебинар
⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.
Зарегистрироваться
Ого: OpenAI выпустили подкаст про то, как они обучали GPT-4.5
Присутствовали 3 инженера из команды разработки: Амин Тутунчян, Алекс Пейно и Дэниел Селсам. Что интересного рассказали:
➖ Планирование выпуска GPT-4.5 началось еще год назад. Целью было создать модель в 10 раз умнее GPT-4. Сначала была куча тестов, а затем под GPT-4.5 пришлось почти полностью переписывать формы матриц, структуры слоёв и др (чтобы подстроиться под инфру).
➖ Основным вызовом оказалось масштабирование GPU-кластера. С увеличением количества карт (например, с 10k до 100k), начинает возникать все больше отказов и ошибок. Так что в начале обучение не задалось, но потом основные проблемы постепенно разрешились.
➖ Из забавного: прямо во время обучения была найдена критичная ошибка в реализации функции torch.sum в PyTorch. Она приводила к систематическим сбоям с доступом к памяти.
➖ Оказывается, основная метрика стартапа – это лосс на их же внутреннем коде. Работает хорошо, потому что таких данных гарантировано никогда не было в паблике, а значит и в трейне.
➖ Раньше модели были compute-bound, то есть ограниченные мощностями. 4.5 впервые стала моделью, ограниченной данными (data-bound). Сейчас это основная пробелма, потому что рост данных намного медленнее роста доступных вычислений.
➖ В целом скейлинг, конечно, замедляется, но все еще работает за счет того, что в дате всегда присутствуют длинные хвосты редких, но важных концепций. Их можно "латать" новыми данными почти бесконечно.
➖ Сейчас по эффективности обучения на тексте нейросети отстают от человека примерно в 100,000 раз. Так что, чтобы масштабироваться дальше, нам понадобятся новые алгоритмы, которые смогут извлекать больше знаний из меньшего объема даты. Да и методы обучения на масштабах миллионов видеокарт должны быть совсем другими.
Выпуск полностью – здесь
Мы в своих ML-моделях на столько преисполнились…
Что ML-команда Купер.тех собрала новый материал для митапа!
22 апреля в 19:00 зовём на Data Science Meetup, соберёмся в Москве и онлайн!
В программе доклады и QA-сессия:
⚡️Как мы делали матчинг в Купере». Николай Чугунников, Machine Learning Engineer, Купер.тех
⚡️«Uplift Space Oddity, или как запустить ML-космолёт и не упасть». Екатерина Апраксина, Machine Learning Engineer, Купер.тех
⚡️«Как делать рекомендации не с нуля». Александр Лоскутов, Machine Learning Team Lead, Купер.тех
Регистрируйся, чтобы попасть в офлайн или не пропустить ссылку на трансляцию!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFGDX1Ag
⚡️ У ChatGPT появилась глобальная память
Раньше система запоминала только избранную информацию из прошлых чатов. Теперь же она помнит все ваши переписки полностью и может на них ссылаться, а также учитывает любые когда-либо высказанные вами предпочтения и интересы. Такой вот RAG на стероидах.
Доступно в Pro и Plus
* Обратите внимание, что если в прошлом вы отказались от Memory, то сейчас функция вам недоступна. Надо перейти в настройки и разрешить референсинг и память.
⏰ Последний шанс зарегистрироваться: Big Data в реальном бизнесе! 🚀
📊 Big Data больше не абстракция — это основа стратегических решений, которые меняют бизнес-процессы в самых разных сферах: от медицины до финтеха.
Хотите разобраться в управлении большими данными и услышать инсайты от важных лиц индустрии? Тогда Data Fusion 2025 — событие, которое нельзя пропустить.
🎙️ Например, отдельным треком пройдет серия сессий на тему «ML + наука» – о том, как машинное обучение влияет на отрасли бизнеса и науки.
🎙️ На профильных кейс-сессиях о RAG, CV, RL, Embodied AI, NLP будут представлены доклады о лучших практиках машинного обучения в ведущих компаниях рынка.
🎙️ По традиции на полях конференции можно будет послушать Science Note – доклады ключевых российских ученых в сфере работы с данными и машинным обучением, в том числе – Ивана Оселедца, Константина Воронцова, Андрея Райгородского.
Конференция и экспертиза, которые нельзя пропустить!
⚡ Регистрация скоро закроется! Чтобы получить доступ, заполните онлайн-форму на официальном сайте: https://data-fusion.ru/
–
*Big Data — большие данные
*RAG — генерация с подключением к поиску (Retrieval-Augmented Generation)
*Embodied AI — ИИ, взаимодействующий с физической средой
*CV — компьютерное зрение (Computer Vision)
*RL — обучение с подкреплением (Reinforcement Learning)
*NLP — методы обработки естественного языка
Как ускорить inference своей карьеры?
Представь, что ты обучаешь модель уровня GPT-4.5 на CPU. Она, может быть, и сойдётся… но лет через десять.
Примерно так выглядит попытка построить карьеру в компании, где каждая идея тонет в бюрократии. Ты готов идти быстрее, но система требует ещё одного круга бесконечных согласований. Вот так и застреваешь в рутине.
На самом деле тебе просто нужно «GPU»: свобода быстро экспериментировать, проверять гипотезы и сразу видеть результаты своей работы в продакшене.
Хороший пример – финтех Точка. Там такую свободу сделали частью внутреннего кодекса:
➖ Не нужно ждать одобрения сверху: можно самому принимать решения и сразу менять то, что работает плохо.
➖ Никто не говорит тебе, как именно реализовывать задачу: если у тебя есть гипотеза, бери и проверяй.
➖ В Точке существуют по принципу «Если ты в команде — значит, ты эксперт своего дела», так что никакого гиперконтроля, ты сам выстраиваешь свой рабочий процесс и темп.
Хочешь ускорить inference своей карьеры? Попробуй работать там, где ML-специалистов слушают и уважают
Вышел DeepCoder-14B-Preview – окрытая модель для кодинга уровня o3-mini
Ее выпустили Together AI совместно с Agentica. На LiveCodeBench выбивает 60.6%, на AIME 24 – 73.8%, на CodeForces – 1936 (рейтинг). Это полноценный уровень o3-mini (low) и o1.
Моделька с ризонингом. В качестве базовой модели использовали R1-Distill-14B. Ей удлинили контекст, а потом дообучили на кастомном качественно размеченном и покрытом тестами датасете.
Интересно, что обучали только на кодинге и последовательностях длины до 32к токенов, но при этом на бенчах видно, что моделька хорошо обобщается на контекст аж до 64к и очень неплохо себя показывает в математике.
Блогпост | Гитхаб | Веса | Датасет
Вы должны это увидеть: Universal Pictures совместно с Boston Dynamics надели на робопса костюм Беззубика из мультика "Как приручить дракона" и получилось вот это 🙂
Кажется, малыша Blue от Nvidia подвинули в рейтинге самых милых роботов
🍯 Там AlphaXiv выпустили своего бесплатного агента Deep Research
Про проект AlphaXiv мы уже не раз рассказывали. Это arXiv на ИИ-стероидах. То есть хранилище открытых статей, но не простое. Там уже есть:
–> бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям
–> агент для анализа и работы с кодовой базой статьи
–> генератор конспектов
И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.
Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.
Работает бесплатно, нужно только войти в аккаунт: www.alphaxiv.org/assistant
Как студенты используют ИИ: новое исследование от Anthropic
В лаборатории взяли аккаунты, которые привязаны к почтам учебных заведений, отфильтровали диалоги по привязке к учебе (курсовые, проекты, домашки), а затем проанализировали оставшиеся 574 740 чатов.
Сразу оговорка: все анонимно и все данные юзеров защищены. В Anthropic используют внутреннюю ИИ-систему аналитики Clio. Мы о ней рассказывали подробно вот тут. Если кратко: Clio полностью автономно в несколько этапов чистит чаты от персональных данных и извлекает из них фичи. То есть люди вообще не имеют никакого доступа к текстам: только к финальным статистикам.
Возвращаясь к результатам по студентам, вот самое интересное:
🟦 Первая картинка – это соотношение процентов диалога на определенную тему с долей бакалавров США в этой области. Самые продвинутые юзеры ИИ, конечно же, айтишники: 38.6% диалогов связаны с Computer Science, на котором учатся всего 5,4% студентов 😎
🟦 При этом самый распространенный запрос в области Computer Science – написать и отдебажить скрипт на C++ (сочувствуем). Python на втором месте.
🟦 Списывают ли студенты? Да, массово. Запрос "сделай что-нибудь, чтобы нельзя было отличить плагиат" очень распространен. А на картинке 3 представлена разбивка по паттернам промптов. Примерно в 50% случаев это не "объясни мне" а "сделай за меня".
Впрочем, ничего удивительного. Почитать полностью -> тут
17 апреля в Москве пройдет Дата Саммит «Пульс данных» 2025
📍 Место: LOFT №2 и LOFT №3 (10 минут от м. Автозаводская)
📡 Формат: Офлайн + онлайн-трансляция
Это ключевое событие весны для аналитиков, руководителей бизнес-подразделений, CDO, CDTO, CIO и вообще всех, кто строит бизнес на основе данных.
Почему это стоит того:
· Более 15 часов полезного контента, актуальных знаний и практик.
· Нетворкинг с 400+ участниками офлайн и 2000+ онлайн.
· 5 панельных и 1 пленарная дискуссии под модерацией главного редактора TAdviser Александра Левашова.
· 30+ выступлений от крупнейших компаний, включая Сбер, Газпром нефть, ВТБ, РЖД, Росатом и др.
· Эксклюзивный анонс новой высокопроизводительной платформы и решения класса Data Lakehouse.
Спикеры — ведущие эксперты в цифровой трансформации и ИИ, топ-менеджеры крупнейших корпораций.
Не упустите возможность стать частью события, которое формирует будущее управления данными.
Зарегистрируйтесь прямо сейчас по ссылке https://data-summit.ru/ и ощутите пульс данных вместе с командой DIS Group.
Реклама. ООО "ДАТА ИНТЕГРЕЙШН СОФТВЕР", ИНН: 7713555858, erid: 2VtzqvXsnjb
Очень показательный пример того, что могут MCP протоколы: разработчики audio моделек ElevenLabs сделали свой MCP и теперь любой ваш агент (например, Claude) может использовать все возможности их сеток.
Например, чтобы куда-то позвонить, создать аудиокнигу тем голосом, который вы захотите или сделать конспект лекции. Юзкейсов море, при этом усилий на разработку потрачено минимум.
В Cloud.ru Evolution появится ИИ-помощник
Об этом рассказали на конференции GoCloud. Ассистент будет работать бесплатно и сможет помочь с автоматизацией рутинных задач, настройкой облака и даже разработкой AI-агентов.
Релиз обещают уже в этом году. В начале завезут базу, а потом постепенно будут добавлять новые фичи, вплоть до автоматизации мониторинга и масштабирования инфраструктуры.
«Мы планируем, что к 2026 году AI-помощники будут выполнять большинство задач в частотных сценариях работы в облаке. Это кардинально изменит опыт пользователей при работе с облачными продуктами. С момента запуска AI-помощники будут доступны в публичных, гибридных и частных облаках Cloud.ru», — добавил Евгений Колбин.
Google раскатили в своем сервисе NotebookLM бесплатный Deep Research для поиска источников
1. Заходим на notebooklm.google
2. Задаем любую тему
3. Модель бодро найдет вам 10 и больше самых релевантных веб-источников и аннотирует каждый в соответствии с запросом
4. Дальше бота можно попросить построить по ним майндмэп, написать конспект, сделать подкаст, ну или просто задать доп.вопросы
Умный гугл от гугл 😎
OpenAI опенсорснули еще один бенчмарк для агентов
BrowseComp проверяет, насколько модели способны находить в интернете труднодоступную или плохо-гуглящуюся информацию.
Подобных тестов есть уже несколько, но тут фишка именно в сложности вопросов. Ну, например:
Найди мне название научной работы, опубликованной на конференции EMNLP в период с 2018 по 2023 год, где первый автор получил степень бакалавра в Дартмутском колледже, а четвертый автор получил степень бакалавра в Пенсильванском университете.
Мира Мурати собирается привлечь в свой страртап 2 миллиарда долларов при оценке в $10 миллиардов
Это в два раза больше чем, как сообщалось, она искала буквально два месяца назад.
Если все получится, то это будет крупнейший seed round в истории. Даже Safe Superintelligence Суцкевера привлекли на стадии идеи в два раза меньше.
Пятьсот на дым, пятьсот на трэп, ещё пятьсот на флекс (остальное на GPU) 😎
OpenAI готовится выпускать GPT-4.1
(Да, вы все прочитали правильно, 4.1)
Об этом сообщает The Verge. Инсайдеры говорят, что грядет выпуск большой линейки моделей, среди которых будет GPT-4.1 – обновленная GPT-4o. Релиз ожидается уже на следующей неделе.
Нумерация – RIP. Но зато не будет путаницы с 4o и o4
Новый твит Альтмана ⬆️
Кажется, сегодня что-то будет
Anthropic 🤝 OpenAI
подписка за 200 долларов
Anthropic последовали примеру конкурента и тоже сделали для Claude подписки за кучу денег. Новый план Max включает две опции:
➖ За 100 долларов: лимиты в 5 раз больше, чем в Pro
➖ За 200 долларов: лимиты в 20 раз больше, чем в Pro
При этом никаких эксклюзивных моделей в Max нет: в добавок к лимитам обещают просто приоритетную обработку запросов в периоды повышенного трафика и гипотетический ранний доступ к будущим новым фичам.
Желающие есть?
И еще один релиз от Google: новый чип TPUv7s
Его разрабатывали под кодовым названием Ironwood. В нем 192 гигабайта видеопамяти, и по сравнению с текущим TPUv5 пиковая производительность примерно в 10 раз выше, а энергоэффективность в 2 раз лучше.
При этом пропускную способность HBM заявляют 7.2 TBps на чип. Это в 4.5 раза больше, чем у Trillium.
В целом вполне себе уровень Nvidia
blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
Google дропнули Firebase Studio – IDE в браузере для вайб-кодинга 🎹
Это облачная среда агентской разработки приложений. Есть инструменты для прототипирования (включая дизайн), написания кода, тестирования, деплоя и мониторинга.
Получается end-to-end штука для реализации любого проекта в режиме zero code. Ну или, если хотите, авторский гугловский Cursor на максималках.
Пока что Firebase доступен в превью. Попробовать можно бесплатно здесь
Дружелюбная встреча для аналитиков от команды Международных проектов Яндекс Поиска.
Приходите в штаб-квартиру Яндекса "Красная Роза" 13 апреля — мы расскажем, как устроена команда Международных проектов Поиска, из чего в ней состоит аналитика и каким образом с этим связаны Яндекс Игры.
В финале встречи эксперты из Яндекса проведут для участников диагностику навыков аналитики и математической статистики — если пройдете успешно, мы засчитаем это как успешную техническую секцию при собеседовании в Яндекс.
Зарегистрироваться на Welcome Time для аналитиков можно здесь до 12 апреля
Общедоступная Veo-2, Live API, Gemini в таблицах и еще несколько приятных новостей от Google
Пройдемся по Changelog:
➖ Deep Research внутри Google теперь крутится но новейшей модели Gemini 2.5 Pro. Это та самая, которая сейчас топ-1 на арене и на бенчмарках по математике и кодингу.
➖ В гугл-таблицах Google Gemini теперь можно использовать в виде формулы. Просто пишете AI(<промпт>)
, и в ячейку или диапозон вставляется результат (см. пример выше).
➖ В общий доступ выходит модель veo-2.0 – модель для генерации видео. Примеры генераций мы накидывали тут.
➖ Gemini-2.0-flash появился в Live API. Теперь с ним можно делать всякие мультимодальные штуки в своих проектах. Модель может принимать на вход текст, голос и даже видео в онлайне.
Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!
Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.
Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.
Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.
Скоро к Мире Мурати весь бывший OpenAI перетечет
На сайте ее стартапа Thinking Machines Lab тихо обновился список сотрудников. Появилось два новых имени в разделе "advisors":
➖ Боб МакГрю. Бывший директор по исследованиям и ключевой рисерчер OpenAI. До 2018 занимался роботами, затем разрабатывал GPT-3 и 4.
➖ Алек Радфорд. Очень талантливый инженер и тоже бывший исследователь OpenAI. Работал в стартапе почти 10 лет и стоял у истоков GPT, Whisper и DALL-E
С такой командой можно и GPT-5 раньше Альтмана выпустить
В опенсорс наконец официально релизнули того самого агента, чью статью приняли на крупнейшую ML-конференцию ICLR
Напоминаем, что это ИИ-агент The AI Scientist-v2 от японской лаборатории Sakana. Его статья (написанная полностью автономно) примерно месяц назад прошла рецензирование на ICLR воркшоп.
Вот наш пост про первую версию. Главный принцип: система разбивает весь процесс на стадии (генерация идей, реализация экспериментов, визуализация и написание текста), и при этом на каждом этапе работает специальный агент-менеджер. Что нового в v2:
1. Agentic tree search. Вместо последовательной проверки гипотез агент теперь гуляет по пространству идей в виде дерева, так что эксперименты могут проводиться параллельно (картинка 2).
2. Добавили Vision-Language Model, которая отдельно проверяет все таблицы, графики, схемы и подписи к ним.
3. Этап экспериментов раздробили на отдельные подшаги. На каждом добавили ответственного агента и критерии завершения.
4. Написание кода стало полностью автономным. Раньше агент умел только менять человеческие шаблоны, но теперь может и код с нуля написать, и нужный датасет найти, и на HF за моделькой сходить.
К сожалению, кое-где в "уязвимых" местах (типа ссылок на литературу) еще остаются галлюцинации, но в целом – здорово.
Техрепорт | Гитхаб
Генерация длинных видео с помощью Test-Time Training от Nvidia и Стэнфорда
Посмотрите на мультик наверху. Он длится целую минуту и при этом c начала до конца сгенерирован моделью. Это довольно большая продолжительность, потому что в основном все "сгенерированные ролики" длиннее 30 секунд – это на самом деле много отдельных коротких генераций, склеенных человеком в одну ленту. А тут – до минуты из коробки.
Что самое интересное – под капотом Test-Time Training слои. Каждый такой слой это маленькая двухслойная нейросеть, хранящая историю. Это похоже на скрытое состояние памяти в RNN, но вместо вектора тут параметры сети.
На каждом шаге к этим параметрам применяется шаг градиентного спуска по некоторому вспомогательному лоссу. Проще говоря, при обработке каждого блока входных токенов модель дообучается во время инференса, чтобы лучше зафиксировать долгосрочные зависимости.
Это эффективнее, чем голый self-attention. За счет этого и последовательность может масштабироваться до тысяч кадров. В остальном это обычный Diffusion Transformer и локальное внимание на окнах в 3 секунды.
Конечно, физика и целостность кое-где все еще страдает, но по сравнению с конкурентами на длинных видео прогресс есть.
Демки | Код | Статья