Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Пятый и последний день опенсорса от DeepSeek (будем скучать)
Сегодня у нас целая файловая система 3FS (Fire-Flyer File System). Она глобально оптимизирует работу с данными и в обучении, и в инференсе. То есть позволяет:
🔵 Быстро загружать и сохранять данные для обучения модели
🔵 Мгновенно получать доступ к нужным частям данных, что очень важно для инференса
🔵 Сокращать повторные вычисления и увеличивать скорость работы
Внутри – умная параллельная сортировка, цепочная репликация, KVCache, параллельный чекпоинтинг и другие хаки, особенно актуальные именно для ML-систем. В общем, достаточно масштабно.
В тестах на чтения вся эта красота достигает пропускной способности 6.6 ТиБ/с на 180 узлах: github.com/deepseek-ai/3FS
У OpenAI закончились графические процессоры 😢
По крайней мере, так говорит Сэм Альтман. Вчера после выпуска GPT-4.5 он написал в X:
Это гигантская дорогая модель. Мы действительно хотели выпустить ее в версиях Plus и Pro одновременно, но мы сильно выросли, и у нас закончились GPU. На следующей неделе мы добавим десятки тысяч GPU и выпустим ее в Plus. (Скоро их будет сотни тысяч, и я почти уверен, что вы будете использовать все)
В твиттер уже утекла системная карта GPT-4.5
«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней
Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям хуже, чем o3-mini и даже o1, но отстает не сильно. Стоит смотреть скорее на приросты относительно GPT-4o.
https://cdn.openai.com/gpt-4-5-system-card.pdf
В Yandex Cloud Foundation Models теперь можно разворачивать открытые модели легким движением руки
Никаких тебе долгих настроек окружения, мониторинга, масштабирования. Все происходит на готовых серверах, надо просто подобрать себе конфигурации. Из коробки уже можно запустить YandexGPT, LLaMa, Qwen, Mixtral, DeepSeek и др.
К слову, так можно использовать сразу несколько моделей параллельно или комбинировать их.
Но если вы более искушенный потребитель, то в Yandex Cloud AI Studio появилась возможность файнтюнить модельки методом LoRA. Для этого нужно собрать датасет, выбрать модель и… все.
LoRA позволит легко настроить модель для ваших задач или дообучить на определенный домен, и тогда можно будет даже маленькие модели эффективно гонять в проде за совсем небольшие деньги. При этом если датасет небольшой, дообучение займет всего минут 10.
Представьте, какая экономия времени и ресурсов для бизнеса. Экспериментируй и внедряй – не хочу
Четвертый день опенсорса от DeepSeek: библиотека DualPipe
Это инструмент для эффективной параллелизации. Что это значит:
1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.
В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.
2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.
3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.
Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.
github.com/deepseek-ai/DualPipe
Как прокачаться в DS за 2 дня? Приезжайте на Data Fusion 2025 — самое масштабное событие этой весны в сфере анализа данных и искусственного интеллекта.
Что вас ждет?
🔹 14 треков и 70+ сессий, посвященных передовым разработкам в Data Science и AI
🔹 Кейс-стади по применению DS в различных сферах бизнеса от финтеха и промышленности до медицины.
🔹 250+ экспертов — от известных ученых до лидеров бизнеса
📅 Когда? 16-17 апреля
📍 Где? Москва, технологический кластер «Ломоносов»
Конференция бесплатная. Регистрируйтесь по ссылке — https://data-fusion.ru/
—
*AI — искусственный интеллект
*DS — Data Science — наука о методах анализа данных
Стартап Миры Мурати оценили в 9 миллиардов долларов
Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании 🤑
Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.
❓ Архитектура проектов по видеоаналитике или какие проблемы проектирования и масштабирования в 2025 году?
Узнайте на бесплатном вебинаре 27 февраля в 20:00 (МСК)
Так же вы поймёте:
+ Какие методы применяют в аналитике дорожного движения, мониторинга объектов и других задач, связанных с компьютерным зрением;
+ Как использовать временные базы данных (time series DB) и визуализацию данных в Grafana;
+ Реализацию на практике примера проекта по аналитике дорожного движения, включая детекцию, трекинг и анализ загрузки дорог.
🆓 Вебинар проходит в рамках курса «Компьютерное зрение. Advanced»
👉 Регистрация открыта: https://otus.pw/ttsDr/?erid=2W5zFJYkfnp
#реклама
О рекламодателе
Третий день опенсорса DeepSeek: библиотека DeepGEMM для ускорения умножения матриц
GEMM – это General Matrix Multiplication, обобщённая операция умножения матриц. Вот формула: C=α×A×B+β×C. Здесь A,B,C – матрицы, а альфа и бетта – скаляры.
Если вам кажется, что вы это выражение где-то видели, то вам не кажется. Оно фигурирует в любом учебнике по DL или LLM, потому что лежит в основе большинства преобразований глубокого обучения. В трансформерах это вычислении матриц запросов (Q), ключей (K) и значений (V) для механизма внимания, обычные полносвязные feed-forward слои, расчет эмбеддингов и другое.
DeepSeek большие любители оптимизации и, конечно, они крутят в своих моделях собственную реализацию GEMM, которой сегодня и поделились. Кода, кстати, немного: все реализовано в одном ядре в примерно 300 строк, так что разобраться довольно просто. Основное достоинство – это JIT-компиляция и двухуровневое накопление.
Реализация поддерживает FP8 и подходит и для плотных моделей, и для MoE. Ускорение относительно других популярных оптимизаций – от 1,1x до 2,7x.
github.com/deepseek-ai/DeepGEMM
Anthropic рассказали, как несколько их инженеров пол года ради забавы заставляли Claude играть в покемонов
Ранние попытки с Sonnet 3.5 были неудачные (неудивительно, модель же не учили играть в игры). Claude плохо понимал правила и двигался, а однажды даже отправил разработчикам официальный запрос на сброс игры, когда просто случайно застрял в углу.
С Sonnet 3.6 все немного улучшилось, но до хорошего игрока было далековато.
И вот незадолго до релиза в игре испытали Sonnet 3.7. Прогресс оказался невероятный: всего за несколько часов агент победил Брока, а спустя несколько дней – Мисти.
Все благодаря ризонингу: там, где предыдущие модели бесцельно блуждали или застревали в циклах, 3.7 планирует заранее, помнит свои цели, записывает действия и адаптируется, если первоначальные стратегии терпят неудачу. Чем-то похоже на программирование и очень показательно.
Бенчмарки, которые мы заслужили, в общем. Разрабы даже трансляцию на твиче запустили, там можно в онлайне смотреть, как Claude играет
Второй день опенсорса от DeepSeek: сегодня целая библиотека для обучения и инференса MoE
MoE – это архитектура, в которой вся сеть делится на части, называемые экспертами. Эксперт представляет собой подсеть, которая обучается обработке определенных видов информации. Когда на вход главной сети приходит запрос, каждый его токен обрабатывается роутером, который решает, какому эксперту (или группе экспертов) этот токен будет передан.
Так вот, бутылочное горлышко MoE – это обмен данными между видеокартами, на которых расположены эксперты (а GPU при этом могут располагаться еще и на разных серверах). Во время прямого прохода нужно быстро обмениваться активациями, а во время обратного – градиентами, и именно тут таятся задержки и проседания в скорости.
У DeepSeek в их DeepEP как раз решается эта проблема: они предлагают целый набор оптимизированных ядер и для обучения, и для инференса MoE. Относительно ванильных реализаций пропускная способность действительно на высоте, при этом поддерживается даже FP8.
Кстати, еще туда прикрутили hook-based overlapping, поэтому передача данных происходит одновременно с вычислениями и при этом ресурсы процессоров не занимаются.
Репозиторий: github.com/deepseek-ai/DeepEP
Кстати, сразу после выхода Sonnet 3.7 стало известно, что Anthropic закрыли раунд привлечения инвестиций на $3.5 миллиарда
Сейчас оценка стартапа – $61.5 миллиардов. Это примерно в пять раз меньше, чем OpenAI, но немного больше, чем xAI.
Какие модели ждать от них дальше пока не разглашают. Зато в блогпосте про Sonnet 3.7 промелькнул вот такой график: к 2027 Anthropic планируют перейти к AGI "пионерной" системе, то есть модели, которая может самостоятельно решать задачи, на которые у людей ушли бы годы.
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:
🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.
🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.
🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.
🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.
🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).
Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Также анонсировали Claude Code: кастомного Cursor от Anthropic
Это агент, который сможет работать прямо внутри вашей кодовой базы: читать файлы, менять их, писать и запускать тесты, коммитить и пушить, использовать командную строку и прочее.
Пока он в превью. Пресеты и инструкция здесь, установить себе можно вот так: npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude
Между тем наконец вышел тех.отчет по Qwen2.5-VL
Сама модель вышла в конце января, и по бенчмаркам она соответствует таким моделям, как GPT-4o, Claude 3.5 Sonnet и DeepSeek v3. Особенно ее прокачали в понимании картинок, диаграмм и документов, и в вышедшем тех.отчете есть некоторые ответы на вопрос "как".
Итак, сама модель стоит на трех китах: LLM, визуальный энкодер и MLP-модуль для слияния.
🟦 С LLM ничего особенного, просто Qwen2.5, в которой RoPE эмбеддинги заменили на мультимодальный вариант MRoPE (Multimodal Rotary Position Embedding).
🟦 В качестве визуального энкодера крутят ViT. Тут две интересных детали. Во-первых, картинки не ресайзят: вместо этого энкодер работает с «нативным», то есть динамическим разрешением, и количество токенов на выходе зависит от исходного размера.
Во-вторых, сюда добавили Window Attention, и это помогает снизить сложность операций относительно ванильного селф-аттеншена, который используется традиционно. Кстати, при работе с видео кадры дополнительно группируются по два. В точности потерь почти нет, зато какое значительное облегчение по ресурсам.
🟦 MLP-модуль вставили для того, чтобы привести размерность визуальных признаков к размерности текстовых эмбеддингов. Тут работают два обычных линейных слоя.
И, конечно, исследователи сильно потрудились над данными. Датасет для претрейна огромный (4 триллиона токенов), и в нем и OCR, и межмодальные данные, и документ-парсинг, и локализация, и видео, и даже агентские сценарии (типа работы с интерфейсами компьютеров).
Само обучение били на три этапа: визуальное предобучение энкодера, полное мультимодальное предобучение и отдельно длинно-контекстное (благодаря как раз этому этапу у модели такое хорошее понимание документов). После шел файнтюнинг и DPO.
Статья полностью тут. Кстати, на днях обещают завести в Qwen 2.5 ризонинг.
✒️ Разбираем тестовое задание в Альфа Банк на позицию Junior Аналитика данных
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в Альфа Банке💻
Что будем делать на вебинаре:
🟠 Напишем сложные SQL-запросы для банковских данных;
🟠 Вспомним, как правильно использовать оконные функции;
🟠 Узнаем, как создавать разметку, из чего она состоит и для чего она нужна;
🟠 На реальных данных проведем когортный анализ и сделаем выводы;
🟠 Расскажем, как доставать инсайты из данных.
Вебинар проведет Денис Иванов, ведущий продуктовый аналитик
🏃♀️ Зарегистрироваться на бесплатный вебинар
Итак, GPT-4.5 вышла
Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров.
Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.
Пока доступно только Pro, в течение следующей недели добавят в плюс и тим
Я в ожидании стрима OpenAI:
P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?
OpenAI объявили, что через 4.5 часа проведут лайфстрим
Ждем 4.5 часа и встречаем GPT-4.5 (и скрещиваем пальцы, чтобы доступ дали всем)
Помните, мы рассказывали про диффузионную языковую модель LLaDA?
Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.
Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).
Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.
И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.
Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
⚡️ Microsoft выпустили новое поколение семейства Phi
Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.
Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.
В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.
Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:
1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO
Веса, веса mini
Мастхэв: Google совместно с Kaggle снова открыли регистрацию на тот самый бесплатный курс по генеративным моделям
Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.
В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.
В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.
Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯
OpenAI начинает прогрев перед выпуском GPT-4.5: некоторым Pro-пользователям обновленного приложения на Android «случайно» всплыло уведомление с приглашением попробовать модель.
Попробуйте предварительную исследовательскую версию GPT-4.5 — пользователи Pro теперь имеют доступ к нашей новейшей, самой большой модели.
Вышла 12 версия легендарного детектора YOLO
В ней наконец традиционные CNN-модули заменены на гибридные с вниманием. Конкретнее, добавили area attention, которое делит входной тензор на равные сегменты и тем самым снижает квадратичную сложность операций дальнейшей обработки.
Кроме того, схему ELAN заменили на ELAN с остаточными блоками. Так градиенты лучше прикидываются через сеть, и без ущерба для метрик снижается вычислительная сложность.
А если хотите подробнее узнать, что такое ELAN и как вообще работает YOLO, почитайте нашу большую статью «История YOLO». В ней – все о том, что такое детекция, как работала самая первая YOLO, как изменялись следующие, и какие скандалы за этим стояли.
Репозиторий 12 версии (тут статья, код, результаты и пр)
Яндекс релизнул YandexGPT 5 и снова вернулся к выкладке в опенсорс. Модель доступна в двух версиях:
⭐ Lite – pretrain-версия на 8B параметров с длиной контекста 32k токенов, опубликована на Hugging Face без финального этапа обучения, этических фильтров и алаймента. Претрейн проходил в два этапа: на первом этапе модель инициализировалась случайными весами и обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов. На втором этапе, который назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. В своей категории YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим опережает их.
⭐ Pro – старшая модель, для которой компания впервые применила метод гибридного обучения, добавив в стандартный цикл базовые настройки открытой модели Qwen. За счёт внедрений удалось сократить затраты на обучение и увеличить его скорость до 20 раз.
Для обучения YandexGPT 5 поколения в компании улучшили обучающий датасет, внедрили методы обучения с подкреплением (DPO и PPO), собственную модификацию LogDPO, которая помогает избежать эффекта «разучивания» – ситуации, когда модель забывает уже выученные знания.
Подробности можно прочитать на Хабре.
Сейчас тренды смещаются с «кто потратит на железо больше» к «кто догадается, как сделать умнее и экономичнее»
DeepSeek – яркий пример преимущества инженерной изобретательности над затратами на чипы. В противовес им – Grok-3 Илона Маска, который обучался на огромном суперкомпьютере Colossus и тащит за счет мощностей. А что будет в России?
Можно ожидать, что мы увидим первый вариант. Недавно как раз вышло интервью Александра Ведяхина – первого зампреда правления Сбербанка. Он говорит, что в случае GigaChat разработчики намерены делать фокус на оптимизации процесса обучения моделей, достигая лучших метрик с меньшими затратами.
Мы, конечно, протестировали модель DeepSeek и сравнили ее с моделью GigaChat. В некоторых тестах лучше оказался DeepSeek, но в целом мы определенно находимся в одной весовой категории. Даже учитывая, что мы также ограничены в объеме вычислительных ресурсов.
2035 год.
OpenAI выпускает GPT-12, Google релизит Gemini 7, xAI обучает Grok 9.
Anthropic:
Как оставаться востребованным специалистом в ML?
AI-сфера развивается слишком стремительно — вчерашние стандарты устаревают, а требования к спецам меняются. Чтобы оставаться в игре, важно следить за трендами и адаптироваться к новым вызовам.
26 февраля основатель karpov courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут, что ждет ML-инженеров в 2025 году: какие технологии и навыки станут стандартом и как AI трансформирует бизнес.
Если хотите понимать, куда движется рынок и какие инструменты осваивать, приходите на вебинар. Регистрация здесь.
Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqxHCkWJ
🚀 Anthropic выпустили Claude Sonnet 3.7 с ризонингом
Бенчмарки говорят сами за себя: модель действительно очень хороша во всевозможной разработке. На SWE Bench она на добрых 12-13 процентных пунктов превосходит o1, R1 и даже o3-mini high.
При этом:
⭐ В чате модель доступна даже фри юзерам
⭐ В API цена не изменилась относительно предыдущей версии. Кстати, ризонинг можно контролировать очень четко, указывая точное количество токенов, которое можно «потратить» на раздумья.
Новая SOTA для кодинга, получается
Помните, мы рассказывали про AlphaXiv?
Это проект Стэнфорда: аналог всем известного arxiv, но с возможность писать комментарии и обсуждать вопросы поверх любой статьи.
Так вот, проект живет и, оказывается, с недавнего времени туда завезли буквально Cursor для рисерчеров. В любой статье можно выделить кусочек текста и попросить модель (там крутится Gemini 2 Flash) объяснить его или ответить на какой-то вопрос.
Киллер-фича: через @ можно в своем вопросе сослаться на другую статью. Тогда она загрузится в контекст модели и можно будет, например, попросить ассистента сравнить результаты, бенчмарки, подходы и тд.
С таким читать статьи гораздо приятнее, сами попробуйте: alphaxiv.org/