gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Крепитесь! Скоро наиграюсь 😁

Читать полностью…

gonzo-обзоры ML статей

Следующая статья с NeurIPS 2025 Best Paper Award. Сделали глубокий RL и это помогло.

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach
Статья: https://openreview.net/forum?id=s0JVsx3bx1
Код: https://wang-kevin3290.github.io/scaling-crl/
Ревью: https://arxiviq.substack.com/p/neurips-2025-1000-layer-networks

# TL;DR

ЧТО сделали: Авторы успешно масштабировали политики обучения с подкреплением (RL) со стандартных 2–5 слоёв до 1000+ слоёв. Для этого использовали самообучение (Self-Supervised Learning), а конкретно Contrastive RL, в сочетании с современным архитектурным "обвесом": Residual connections, LayerNorm и активациями Swish.

ПОЧЕМУ это важно: Работа разрушает догму о том, что RL не выигрывает от глубины сетей. В то время как стандартные алгоритмы вроде SAC (https://arxiv.org/abs/1801.01290) деградируют или выходят на плато при углублении, Contrastive RL позволяет производительности расти вместе с глубиной (прирост в 20x–50x). Это даёт агентам возможность решать задачи с длинным горизонтом и развивать эмерджентные навыки локомоции без сложного инжиниринга наград.

Подробнее: /channel/gonzo_ML_podcasts/1488

Читать полностью…

gonzo-обзоры ML статей

Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Статья: https://arxiv.org/abs/2510.22954
Код: https://github.com/liweijiang/artificial-hivemind
Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0
Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind

# TL;DR

ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model).

ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам.

Подробнее: /channel/gonzo_ML_podcasts/1468

Читать полностью…

gonzo-обзоры ML статей

Эволюция residual connections — не держим единый residual стрим, потому что там накапливается шум, а разбиваем каналы входного сигнала на группы и постепенно добавляем их к более глубоким слоям. ResNet -> StepsNet.

Step by Step Network
Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang
Статья: https://arxiv.org/abs/2511.14329
Ревью: https://arxiviq.substack.com/p/step-by-step-network

# TL;DR

ЧТО сделали? Авторы предложили StepsNet — новую макро-архитектуру, которая меняет подход к построению глубоких сетей. Вместо одновременной обработки всех входных каналов, StepsNet использует каскадную схему «шаг за шагом»: вход расщепляется, часть каналов обрабатывается сразу, а остальные постепенно вводятся в более глубокие слои.

ЗАЧЕМ это нужно? Это решает проблему «деградации шорткатов» (shortcut degradation), из-за которой в сверхглубоких сетях (сотни слоёв) сигнал тонет в шуме. Сохраняя «чистые» пути для сигнала в глубину и ломая привычный компромисс между шириной и глубиной, StepsNet позволяет масштабировать модели почти до 500 слоёв. При этом метрики на ImageNet и COCO растут, а количество параметров не увеличивается.

Подробнее: /channel/gonzo_ML_podcasts/1452

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про AI агентов-исследователей. Очень жизненная, на людей всё то же вполне переносится. #ВсёКакУЛюдей

Гипотеза разнообразия: почему ИИ-учёные должны хеджировать риски

What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach
Статья: https://arxiv.org/abs/2511.15593
Ревью: https://arxiviq.substack.com/p/what-does-it-take-to-be-a-good-ai

# TL;DR

ЧТО сделали? Авторы провели масштабный анализ 11,000 траекторий на бенчмарке MLE-bench (https://arxiv.org/abs/2410.07095), чтобы количественно оценить связь между «разнообразием идей» (энтропией предложенных ML-архитектур) и успехом агента. Затем они провалидировали выводы через контролируемые абляции, показав, что принуждение агентов к генерации однотипных идей приводит к статзначимому падению результатов.

ПОЧЕМУ это важно? Работа подсвечивает критический механизм в дизайне автономных агентов-исследователей: разнообразие работает как страховка (хедж) от провала реализации. Результаты намекают, что текущие SOTA агенты (вроде o3 или DeepSeek-R1) побеждают не только за счёт крутого кодинга, но и благодаря исследованию более широкого распределения типов решений. Это повышает вероятность найти вариант, который будет не только эффективным, но и — что критично — реализуемым в рамках ограничений агента.

Подробнее: /channel/gonzo_ML_podcasts/1430

Пользуясь случаем, передаю привет Тане! Она в соавторах работы. Если вы не подписаны на её канал (/channel/rybolos_channel), это упущение надо немедленно исправить! Там же можно прочитать и её оригинальный разбор собственной статьи: /channel/rybolos_channel/1670

Читать полностью…

gonzo-обзоры ML статей

Тут MS анонсировали крутую маленькую агентную модельку Fara-7B для Computer Use Agent (CUA). Умеет воспринимать скриншоты и действия с GUI.

Кто-нибудь уже пробовал?

Блог: https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
Репорт: https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
Репа: https://github.com/microsoft/fara

Читать полностью…

gonzo-обзоры ML статей

Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (/channel/gonzo_ML/4092), в новом добавили низкоранговую факторизацию.

Evolution Strategies at the Hyperscale
Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster
Статья: https://arxiv.org/abs/2511.16652
Код: https://eshyperscale.github.io/
Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale

# TL;DR

ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели.

ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью O(1/r).

Подробнее: /channel/gonzo_ML_podcasts/1418

Читать полностью…

gonzo-обзоры ML статей

Неожиданно побили на ARC кучу сложных и тяжёлых токенных моделей с простой моделькой из комп.зрения.

ARC Is a Vision Problem!
Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
Статья: https://arxiv.org/abs/2511.14761
Код: https://github.com/lillian039/VARC
Ревью: https://arxiviq.substack.com/p/arc-is-a-vision-problem

# TL;DR

Что сделали? Авторы предлагают VARC (Vision ARC) — фреймворк, который переосмысляет бенчмарк Abstraction and Reasoning Corpus (ARC). Вместо того чтобы рассматривать его как задачу для языка или синтеза программ, они подходят к нему как к прямой задаче image-to-image трансляции. Проецирование сеток ARC на «холст» (canvas) высокого разрешения и использование стандартных архитектур компьютерного зрения (ViT и U-Net) в сочетании с агрессивным обучением во время теста (Test-Time Training, TTT) позволили достичь SOTA-результатов среди моделей, обученных с нуля.

Зачем это нужно? Этот подход бросает вызов доминированию LLM в абстрактном мышлении. Имея всего 18 миллионов параметров, VARC достигает 54.5% точности (60.4% в ансамбле) на ARC-1, соперничая со средним человеческим уровнем и превосходя массивные LLM вроде GPT-5, которым не хватает visual grounding. Работа показывает, что правильный inductive bias — конкретно 2D-локальность и масштабная инвариантность — может быть куда эффективнее простого наращивания масштаба.

Подробнее: /channel/gonzo_ML_podcasts/1403

Читать полностью…

gonzo-обзоры ML статей

Не выполняем пятилетку!

https://x.com/DKokotajlo/status/1991564542103662729?s=20

Читать полностью…

gonzo-обзоры ML статей

Прогнал пока авторазбор Мамбы 3

Mamba-3: Improved Sequence Modeling Using State Space Principles
Статья: https://openreview.net/forum?id=HwCvaJOiCj (Under Review at ICLR 2026)
Ревью: https://arxiviq.substack.com/p/mamba-3-improved-sequence-modeling

# TL;DR


ЧТО сделали? Авторы представляют Mamba-3 — архитектурное развитие семейства моделей пространства состояний (SSM). Метод объединяет три ключевых технических улучшения: схему трапецеидальной дискретизации (вместо метода Эйлера), формулировку Multi-Input Multi-Output (MIMO) для повышения арифметической интенсивности вычислений и теоретическое обоснование, связывающее комплекснозначные SSM с Data-Dependent Rotary Embeddings (RoPE).

ЗАЧЕМ это нужно? Работа закрывает две главные слабости эффективных линейных моделей: неспособность решать задачи на отслеживание состояния (state-tracking), такие как чётность или арифметика, и плохую утилизацию железа (memory-bound) во время декодинга. Возвращая выразительность комплексной динамики без вычислительных накладных расходов, Mamba-3 задаёт новый фронт Парето эффективности инференса, обгоняя Mamba-2 и сильные бейзлайны трансформеров на стандартных бенчмарках.

Подробнее: /channel/gonzo_ML_podcasts/1389

Читать полностью…

gonzo-обзоры ML статей

It happened!

https://blog.google/products/gemini/gemini-3/

Читать полностью…

gonzo-обзоры ML статей

Пришло сегодня в одной из AI-рассылок. Реальность, которую мы заслужили :)

Silicon Valley Is Quietly Building on Qwen

📌 What’s happening: Bloomberg’s latest pieces reveal the awkward truth that China’s Qwen models are topping global developer downloads inside Silicon Valley, even as DC accuses Alibaba of brushing shoulders with the PLA. Meanwhile, Meta’s “open-source will save us” crusade is stalling — adoption isn’t matching the press-release swagger, and Qwen is eating the long-tail developer market Meta thought it owned.

🧠 How this hits reality: Dev teams love Qwen’s performance-per-dollar, but CTOs hate the geopolitical blast radius. Startups quietly prototype on Qwen, then scrub the commit logs before fundraising. Meta, once the patron saint of open AI infrastructure, now watches Chinese models out-download Llama in the very ecosystem it tried to dominate. Governance risk is now the only thing slowing Qwen — not capability.

🛎 Key takeaway: Qwen is becoming Silicon Valley’s guilty pleasure that everyone’s using it, no one’s admitting it — and Meta’s “open wins” thesis is bleeding in silence.

Читать полностью…

gonzo-обзоры ML статей

Наиболее примечательным результатом является превосходство RedLLM в эффективности. Она демонстрирует значительно более высокую пропускную способность как при обучении, так и, что критически важно, при инференсе. Когда результат изображается на осях качество/затраты на инференс (FLOPs), RedLLM практически полностью доминирует на Парето-фронте. Так же было и в T5Gemma. Там, например, end-dec 9B-9B и 2B-2B имели схожую latency с dec 9B и 2B соответственно, но строго лучший перформанс, а например несимметричный вариант с большим энкодером и маленьким декодером 9B-2B был аналогичен декодеру 2B по latency, но лучше по перформансу чем 2B-2B.

В статье это сильно не обсуждается, но это хороший вопрос чтобы копнуть вглубь. Можно рассмотреть модельную ситуацию, когда есть 1000 токенов промпта + 1000 токенов генерации.

Энкодер хорош тем, что он обрабатывает весь входной промпт (1000 токенов) за один раз, параллельно за счёт двунаправленной обработки. При этом он не создаёт компактное представление из единственного вектора (как в старых seq2seq моделях), а делает его по токенам (на выходе энкодера будет 1000 векторных эмбеддингов), так что декодер при генерации 1000 токенов выхода и вычислении cross-attention будет обращаться ко всем закодированным токенам промпта.

На этом фоне для decoder-only модели может показаться что обработка последовательности промпта более медленная, потому что она 1) авторегрессионная (но это не так, на стадии prefilling весь промпт обрабатывается параллельно за один проход) и 2) с каузальным вниманием, а не двунаправленным. Но в реальности остаётся только каузальное внимание (и тут разница по большому счёту только в маске) и при использовании KV-кешей результат должен быть почти таким же, как для энкодер-декодера -- промпт обработается за один раз без авторегрессионной генерации и закешируется. Так что это соображение не релевантно.

Декодер потенциально даже может требовать меньше вычислений (хотя асимптотически одинаково), так как на каждом шаге он обращается к меньшему числу токенов (только к токенам слева), чем при двунаправленной обработке (где внимание смотрит на токены слева и справа). Однако в реальности матрица будет полноразмерной, с отдельной матрицей-маской для реализации каузальной фильтрации, так что это соображение, скорее всего, не особо значимо.

Ещё одно возможное соображение: cross-attention обращается только к финальному выходу энкодера в каждом слое декодера, в то время как decoder-only attention обращается к разным KV-кешам в каждом слое. Первый вариант, вероятно, приведёт к лучшей локальности и более быстрым вычислениям, да и памяти меньше нужно (напоминает selling point в YOCO: /channel/gonzo_ML/2699).

При этом decoder-only слои состоят из двух блоков (causal self-attn - mlp), а слои декодера в энкодер-декодере — из трёх (causal self-attn - cross-attn - mlp), поэтому RedLLM должна иметь больше параметров на слой при той же скрытой размерности. Вот почему модели одинакового общего размера имеют разное количество слоёв (Таблица 1a): у 8B DecLLM 32 слоя, а у 8B RedLLM 14/14, то есть 28 в сумме, но они неодинаковые.

Если посмотреть на более глубоком уровне, то для DecLLM это 32 слоя внимания + 32 mlp, а для RedLLM это 14 self-attention + 14 mlp в энкодере (работающие на промпте, условные 1000 токенов) и 14 self-attention + 14 cross-attention + 14 mlp в декодере = 42 слоя внимания + 28 mlp. И у DecLLM контекст self-attention для генерации растёт с 1000 токенов (промпт) до 2000 (промпт + генерация), а у RedLLM decoder self-attention растёт c 0 до 1000 (только генерация, без промпта), что с учётом квадратичной сложности внимания, наверное, играет.

Надеюсь, не ошибка нигде в выводах. Если вы видели где-то более точный расчёт или более подробный анализ, дайте знать.

Ещё одно неожиданное открытие: у RedLLM лучшая экстраполяция на длинных контекстах. Её перплексия растёт гораздо плавнее при обработке последовательностей длиннее, чем её контекст предобучения, в то время как производительность DecLLM ухудшается более резко.

Читать полностью…

gonzo-обзоры ML статей

Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat
Статья: https://arxiv.org/abs/2510.26622

Любопытная работа про анализ основ, так сказать. Очередная попытка взглянуть на разные варианты архитектур трансформера (конкретнее, чистый декодер и энкодер-декодер) и разобраться, что лучше работает для LLM. Большинство LLM сейчас, как известно, decoder-only, но возможно это просто локальный эволюционный закидон, и мы просто недоисследовали другие варианты.

Было немало попыток копнуть другие ветви.

Из того, что помню, не так давно воскрешали чистые BERT-style энкодеры (в лице ModernBERT, подробнее тут: /channel/gonzo_ML/3090), добавив в старый рецепт Берта современные штуки типа активаций GeGLU, позиционных эмбеддингов RoPE, нормализации в правильных местах (pre-norm) и прочих улучшений.

Был любопытный заход на модификацию декодера, YOCO (/channel/gonzo_ML/2699), когда большой декодер по факту распиливали на два и получали архитектуру декодер-декодер, оптимизирующую память KV-кеша, где выход первого декодера генерил глобальный KV-кеш, а слои второго декодера смотрели на него через cross-attention.

Были интересные попытки выкидывать или шарить FFN в слоях энкодеров и декодеров (/channel/gonzo_ML/1829) -- оказывалось, что из декодера вообще можно выкинуть, а в энкодере можно пошарить между слоями.

Была также работа про UL2 (/channel/gonzo_ML/1113), где отделяли pre-training objective от архитектуры и как раз тоже сравнивали энкодер-декодеры и чистые декодеры. Там и новая предложенная UL2-objective была хороша, и энкодер-декодеры показали себя лучше чистых декодеров. В той работе, кстати, как бы идейно задепрекейтили чистые энкодеры (/channel/gonzo_ML/1124), но смотрите, с ModernBERT оно как-то ожило (/channel/gonzo_ML/3090).

Ну и конечно важно не забывать линейку энкодер-декодеров T5, в которой было много развитий (/channel/gonzo_ML/761). В обработке временных рядов показывали, что энкодер-декодер в стиле T5 работает лучше, чем декодер в стиле GPT-2 (работа про Chronos, /channel/gonzo_ML/2558).

И наконец была недавно (частично от авторов текущей работы) Encoder-Decoder Gemma, она же T5Gemma, (https://arxiv.org/abs/2504.06225), где обученный декодер конвертили в энкодер-декодер и там показали, что энкодер-декодер перформит лучше, особенно после файнтюнинга, а также доминирует по балансу качество/эффективность инференса. Из интересного, в той работе также пробовали UL2 и PrefixLM в качестве objectives и не нашли однозначного лидера: UL2 давала лучшие репрезентации, но уступала в генеративных задачах.

Были и другие попытки сравнить декодеры и энкодер-декодеры, например, “What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?” (https://proceedings.mlr.press/v162/wang22u.html), “Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder“ (https://arxiv.org/abs/2304.04052) или “Do Transformer Modifications Transfer Across Implementations and Applications?” (https://aclanthology.org/2021.emnlp-main.465/), но там не смотрели на задачу через призму скейлинга. Long story short, новая работа устраняет этот недостаток и показывает что не декодерами едиными.

В новой работе авторы провели крупномасштабное эмпирическое сравнение между модернизированными (ревизионистскими) архитектурами энкодер-декодер (RedLLM) и доминирующими decoder-only (DecLLM) в масштабах от 150M до 8B параметров.

Как и с ModernBERT, они обновили модель современными компонентами, такими как RoPE, RMSNorm и SwiGLU. Для повышения стабильности обе модели применяют дополнительную нормализацию к векторам query (Q), key (K) и value (V) внутри механизма внимания:

Attn_DecLLM = Softmax((LN(Q)LN(K)ᵀ)/√(dₕ))LN(V)

Читать полностью…

gonzo-обзоры ML статей

Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR.

AlphaResearch: Accelerating New Algorithm Discovery with Language Models

Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan
Paper: https://arxiv.org/abs/2511.08522
Code: https://github.com/answers111/alpha-research
Model: https://huggingface.co/alpha-research/AlphaResearch-RM-Qwen-7B
Review: https://arxiviq.substack.com/p/alpharesearch-accelerating-new-algorithm

# TL;DR

Что сделано?
Авторы представляют AlphaResearch, автономного агента, который открывает новые алгоритмы для решения открытых задач. Ключевая инновация — «двойная исследовательская среда», которая расширяет подход верификации на основе выполнения кода, используемый в системах вроде AlphaEvolve. Эта среда добавляет симулированный механизм рецензирования (peer review), работающий на базе модели вознаграждения (AlphaResearch-RM-7B), обученной на более чем 24 000 реальных рецензий с конференции ICLR. Эта модель оценивает новизну и качество предлагаемой идеи *до* её реализации, что позволяет отсеивать бесперспективные направления на раннем этапе. Авторы также представили AlphaResearchComp — новый открытый бенчмарк из 8 сложных алгоритмических задач для обеспечения прозрачной и воспроизводимой оценки.

Почему это важно?
Такой двойной подход напрямую решает проблему «разрыва между идеей и её выполнением» — ключевую сложность, когда сгенерированные ИИ идеи либо инновационны, но невыполнимы, либо выполнимы, но не представляют научного интереса. Сочетая оценку качества идеи с производительностью её реализации, AlphaResearch ускоряет поиск значимых открытий. Это подтвердилось, когда агент открыл новый, лучший из известных алгоритм для задачи «упаковки кругов», превзойдя решения как экспертов-людей, так и сильных бейзлайнов вроде AlphaEvolve. Работа представляет собой важный шаг вперёд, смещая парадигму от простого поиска работающего кода к открытию научно ценных алгоритмов.

Подробнее: /channel/gonzo_ML_podcasts/1377

Читать полностью…

gonzo-обзоры ML статей

Интересный результат про скейлинг по размеру батча

Читать полностью…

gonzo-обзоры ML статей

Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры.

Мультипликативные взаимодействия рулят, гейтированные функции активации тоже.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin (Qwen Team)
Статья: https://arxiv.org/abs/2505.06708, https://openreview.net/forum?id=1b7whO4SfY
Код: https://github.com/qiuzh20/gated_attention
Модель: https://huggingface.co/collections/Qwen/qwen3-next
Ревью: https://arxiviq.substack.com/p/neurips-2025-gated-attention-for

# TL;DR

Что сделали: Авторы представляют Gated Attention — механизм, добавляющий обучаемый зависимый от входа сигмоидный гейт сразу после выхода Scaled Dot-Product Attention (SDPA). Модулируя выход Y гейтом σ(XW_θ), метод вносит поэлементную разреженность и нелинейность перед финальной проекцией.

Зачем это нужно: Это простое архитектурное изменение даёт улучшенную стабильность при обучении больших моделей (убирает выбросы лосса) и стабильно улучшает перплексию на 15B MoE и 1.7B dense моделях. Главное — это механистически устраняет феномен "Attention Sink" и "Massive Activations" без всяких эвристических костылей типа "sink tokens", значительно улучшая экстраполяцию на длинный контекст.

Подробнее: /channel/gonzo_ML_podcasts/1481

Читать полностью…

gonzo-обзоры ML статей

Извинити )) [А Васе Ложкину отдельный респект]

Читать полностью…

gonzo-обзоры ML статей

Свежих матрёшек завезли! Помните Matryoshka Representation Learning, MatFormer и Gemma 3n? А теперь работа от Нвидии про SSM-гибрид с длинным контекстом для ризонинга.

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
Статья: https://arxiv.org/abs/2511.16664
Модель: https://huggingface.co/nvidia/Nemotron-Elastic-12B
Ревью: https://arxiviq.substack.com/p/nemotron-elastic-towards-efficient

# TL;DR


ЧТО сделали? Авторы представляют Nemotron Elastic — фреймворк для обучения одной «родительской» LLM (12B), внутри весов которой живут полноценные, высокопроизводительные «дочерние» подсети (9B и 6B). Объединяя State Space Models (Mamba) с Attention в гибридной архитектуре, они используют пайплайн на базе curriculum learning и дифференцируемый роутер для одновременной оптимизации нескольких размеров моделей под задачи на рассуждение.

ЗАЧЕМ это нужно? Обучение семейств моделей (например, 8B, 70B, 405B) обычно требует независимых и безумно дорогих запусков для каждого размера. Nemotron Elastic сокращает расход токенов более чем в 360 раз по сравнению с обучением с нуля и в 7 раз по сравнению с SOTA методами сжатия вроде Minitron-SSM (https://arxiv.org/abs/2504.11409). Кроме того, решается проблема сохранения способностей к рассуждению на длинном контексте в сжатых моделях, что позволяет деплоить формат «много-в-одном» (many-in-one), где один слепок памяти обслуживает динамические требования по латентности.

Подробнее: /channel/gonzo_ML_podcasts/1441

Читать полностью…

gonzo-обзоры ML статей

Свежий подкаст с Ильёй

https://open.substack.com/pub/dwarkesh/p/ilya-sutskever-2

Читать полностью…

gonzo-обзоры ML статей

Ну и для тех, кто не любит читать :)

Читать полностью…

gonzo-обзоры ML статей

Краткий пересказ для тех, кому некогда читать:

Читать полностью…

gonzo-обзоры ML статей

Но мы ждём сиквела! 2032

Читать полностью…

gonzo-обзоры ML статей

Извинити, это всё просто прекрасно:

Читать полностью…

gonzo-обзоры ML статей

Хорошие авторы!

Neuroevolution: Harnessing Creativity in AI Agent Design
An MIT Press Book by Sebastian Risi, Eugene Tang , David Ha, and Risto Miikkulainen

The online version of the book is now freely available in an open-access HTML format. The print edition will be released later in 2026.

https://neuroevolutionbook.com/

Читать полностью…

gonzo-обзоры ML статей

Ну что, ждём сегодня Gemini 3.0?

Читать полностью…

gonzo-обзоры ML статей

Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции.

Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.

Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.

Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? T-1000 T5 ещё всем покажет?

Читать полностью…

gonzo-обзоры ML статей

RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention энкодера, self-attention декодера и cross-attention. Однако есть и проблемы: RedLLM была значительно более склонна к нестабильности во время обучения. Решение авторов работы — добавить дополнительный слой LN на выход механизма внимания:

Attn_RedLLM = LN(Attn_DecLLM)

Модели обучались в пяти масштабах, от 150M до 8B параметров, причём RedLLM сохраняла сбалансированную архитектуру с равным числом слоёв в энкодере и декодере.

Важно помнить, чем отличаются блоки внимания в чистом декодере и в декодере внутри энкодер-декодера. В классическом декодере, который был в энкодер-декодер архитектуре, каждый блок декодера содержал три слоя: causal self-attention + encoder-decoder self-attention (или cross-attention) + ffn. В чистом декодере типа GPT блоков меньше: causal self-attention + ffn. Подробно и с картинками разобрано у Jay Alammar здесь (https://jalammar.github.io/illustrated-gpt2/).

Размеры RedLLM и DecLLM делали одинаковыми, сохраняя при этом hidden dimension, из-за этого количество слоёв разнится -- у 8B моделей этой 32 слоя в чистом декодере и 14/14 слоёв для энкодера-декодера. Думаю, такая разница из-за отсутствия слоя cross-attention в чистом декодере, так как блоки энкодер-декодера получаются “жирнее” на один слой, что при фиксированной размерности модели приводит к увеличению общего веса, и надо сокращать количество блоков для паритета.

Модели предобучали на 1.6T токенов (RedPajama V1), а затем делали instruction-файнтюнинг на датасете FLAN. DecLLM предобучалась со стандартной задачей каузального языкового моделирования (Causal Language Modeling), а RedLLM на задаче префиксного языкового моделирования (Prefix Language Modeling), где первая половина последовательности служит входом для энкодера (префикс, и внимание там двунаправленное, в смысле токены могут заглядывать в будущее), а вторая половина — целью для декодера (с обычным каузальным вниманием с маской, не дающей токенам смотреть в будущее).

Такая постановка означает, что при одинаковых данных для предобучения (1.6 трлн токенов из RedPajama V1), эффективное количество целевых токенов для RedLLM (0.8 трлн) было вдвое меньше, чем для DecLLM.

Результаты интересны и состоят из двух частей, соответствующих разным этапам жизненного цикла LLM.

📉 Этап 1: Преимущество DecLLM на предобучении

Изначально результаты, казалось бы, подтверждают предпочтения индустрии в пользу decoder-only моделей.

У DecLLM вычислительно-оптимальный скейлинг. На этапе предобучения она достигает меньшей перплексии при заданном объёме вычислений. Хотя обе архитектуры показывают схожие экспоненты скейлинга, RedLLM требует примерно вдвое больше FLOPs, чтобы достичь той же перплексии, что и DecLLM.

Лучшая производительность в zero/few-shot. После предобучения DecLLM демонстрирует значительно более сильные способности в zero-shot и few-shot режимах. В масштабе 8B её средний результат в few-shot на 8 пунктов выше, чем у RedLLM (43.37 против 35.13). Вероятно, это связано с тем, что задача Causal LM ближе к стандартным форматам оценки.

На этом этапе аргументы в пользу decoder-only моделей кажутся весомыми.

🚀 Этап 2: Реабилитация RedLLM через файнтюнинг

Картина кардинально меняется после instruction-файнтюнинга на датасете FLAN. RedLLM, несмотря на своё отставание на этапе предобучения, демонстрирует удивительную адаптивность. Это довольно сильно перекликается с их же работой про T5Gemma (https://arxiv.org/abs/2504.06225).

Сближение по качеству. После файнтюнинга RedLLM не только сокращает разрыв в производительности, но и достигает сравнимых и, в среднем, даже немного лучших результатов в zero-shot и few-shot режимах во всех масштабах. При 8B параметров few-shot результат RedLLM составляет 61.32, превосходя 59.02 у DecLLM. Получается, что производительность на предобучении не является окончательным предиктором возможностей итоговой, файнтюненной модели.

Читать полностью…

gonzo-обзоры ML статей

Шмидхубер не унимается.

https://people.idsia.ch/~juergen/who-invented-transformer-neural-networks.html

Читать полностью…

gonzo-обзоры ML статей

Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под названием LeJEPA. Модель переосмыслили с точки зрения математики, что позволило сильно упростить архитектуру — никаких больше предикторов, проекторов и разных хаков для устойчивого обучения. Результаты интересные! Кто любит много математики в работе, тому тоже понравится :)

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
Randall Balestriero, Yann LeCun
Paper: https://arxiv.org/abs/2511.08544
Code: https://github.com/rbalestr-lab/lejepa

# TL;DR

💡 Что сделали?
В статье представлен LeJEPA — новый фреймворк для self-supervised learning (SSL), который заменяет хрупкие эвристики существующих предиктивных архитектур с совместным эмбеддингом (JEPA) строгой теоретической базой. Сначала авторы доказывают, что изотропное гауссовское распределение является единственным оптимальным распределением для эмбеддингов модели, минимизирующим риск предсказания в худшем случае на downstream-задачах. Чтобы обеспечить это свойство, они вводят новую и отлично масштабируемую целевую функцию — регуляризацию SIGReg (Sketched Isotropic Gaussian Regularization). Она использует случайные одномерные проекции и сопоставление характеристических функций для наложения ограничений на многомерное пространство эмбеддингов с линейной сложностью по времени и памяти. Итоговая целевая функция LeJEPA объединяет стандартный лосс предсказания JEPA с SIGReg, что создаёт простой и устойчивый к коллапсу представлений пайплайн обучения, устраняя необходимость в stop-gradients, сетях «учитель-ученик» и других специальных «костылях».

🤔 Почему это важно?
LeJEPA знаменует собой важный шаг в развитии SSL, переводя область от набора частных R&D-решений и эвристик к разработке систем с доказуемо оптимальным дизайном. Его ключевые нововведения дают три основных преимущества:
1. Надёжность и простота: Фреймворк обеспечивает исключительную стабильность обучения для самых разных архитектур и масштабов с одним-единственным гиперпараметром для настройки компромисса, делая предобучение foundation-моделей более надёжным и доступным.
2. Информативный сигнал для обучения: Впервые в JEPA-архитектурах лосс при обучении сильно коррелирует (до 99%) с качеством на downstream-задачах. Это даёт надёжный сигнал для выбора модели, не требующий размеченных данных.
3. Новая парадигма предобучения: LeJEPA показывает, что основанный на строгих принципах SSL на небольших специализированных датасетах может значительно превосходить трансферное обучение от огромных, универсально обученных frontier-моделей вроде DINOv2/v3. Это возвращает доменно-специфичному SSL статус жизнеспособной и мощной стратегии.

Подробнее: /channel/gonzo_ML_podcasts/1358

Читать полностью…
Subscribe to a channel