gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23724

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

В тему:

https://superintelligence-statement.org/

We call for a prohibition on the development of superintelligence, not lifted before there is

1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.

Читать полностью…

gonzo-обзоры ML статей

Прочитал какое-то время назад книгу Юдковского и Соареса "If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI" (/channel/gonzo_ML/4030), вот добрался написать.

Нормальная книга в целом.

Состоит из трёх частей:
1. Nonhuman minds
2. One extinction scenario
3. Facing the challenge

Первая часть про то, что современный AI уже трудно понять (по факту невозможно, наши достижения в интерпретируемости пока даже не детские), что он скорее выращивается, чем программируется, что у него могут быть свои преференции и целе-подобные поведения (даже если он сделан чтобы играть в условные шахматы, у него уже есть цель -- победить), что цели эти даже если заданы на довольно низком техническом уровне всё равно могут достигаться очень странными нечеловеческими способами, и что более способные системы будущего в этом ещё более преуспеют -- нельзя ожидать, что у них будет человеческая психология и мы их будем прекрасно понимать. Не будем.

Часть про возникновение целей для меня наименее понятная, но с другой стороны даже LLM (про которые нет речи, что это и есть тот самый суперинтеллект) уже демонстрируют какие-то подобные поведения, которые напрямую в них заложены не были. Наши собственные желания и предпочтения порой очень далеки от каких-то базовых биологических механизмов, из которых они выросли -- гэп между эволюционным предпочтением к сладкой и жирной пище и полками с мороженым или coke zero в супермаркете довольно велик (и это уже своего рода reward hacking). Предпочтения, возникшие в результате полового отбора, могут быть ещё более странными. В выращивании интеллектуальных систем (градиентный спуск в этом месте не сильно отличается от эволюции, да и та тоже может использоваться) могут получиться не менее странные результаты.

Когда появится суперинтеллект (а цель всего направления ИИ ведь именно такая, опрос здесь в канале также показывает, что большинство ответивших не видят никакого физического запрета на появление интеллекта в машине и более половины считают, что в будущем суперинтеллект появится /channel/gonzo_ML/4088), когда и если он обретёт достаточно влияния (непонятно, почему он не сможет этого сделать?), то с какой стати он как-то особенно будет заботиться о людях? Вся история биосферы, вся история людей практически говорит об обратном -- когда-то давно микроорганизмы отравили атмосферу кислородом, "продвинутые" цивилизации выкосили кучу других цивилизаций, которые они считали "менее продвинутыми", и прямо сейчас продолжают воевать и засирать планету.

ИИ не обязательно должен быть зловредным аки терминатор, но преференции и цели у искусственного интеллекта будут свои и странные, инопланетные, как-то повлиять на них и тем более заложить свои мы не знаем как, нет ни одного нормального рецепта. Все технооптимисты, говорящие, что сверхинтеллект будет делать то, что мы в него заложим, не могут подкрепить свои слова никаким рецептом за пределами wishful thinking. Надежды на то, что ASI будет высокоморальным, добрым и хорошим (что бы это ни значило) и заботиться о всём живом -- это хорошие надежды, я сам хотел бы жить в таком мире (дьявол в деталях), но опять же, подкрепить это нечем кроме как wishful thinking.

Такой вот статус кво.

Вторая часть книги -- микро фантастический рассказ про один из вариантов, как могло бы случиться (но скорее всего случится иначе). Похоже, кстати, на книгу Avogadro Corp от William Hertling. Норм рассказ.

Третья часть книги про челлендж как таковой. Сверхинтеллект это задача, в которой нет места для ошибки -- если сделаем не так, второго шанса может и не быть. Даже если у нас есть рецепт такого ИИ, что будет благожелателен и строго с нашими ценностями (что отдельный вопрос, что это за ценности такие, которые мы сами так себе соблюдаем), то даже его надо имплементировать без ошибок, а мы так не умеем, вся область cybersecurity подтверждает. Эта часть начинается со сравнения с другими проблемами, где на ошибку места не было -- запуск космических проб, ядерная энергетика, компьютерная безопасность -- накосячили везде и неоднократно.

Читать полностью…

gonzo-обзоры ML статей

Если не видели, тут очередной курс по трансформерам выкладывают.

CME 295 - Transformers & Large Language Models
This course explores the world of Transformers and Large Language Models (LLMs). You'll learn the evolution of NLP methods, the core components of the Transformer architecture, along with how they relate to LLMs as well as techniques to enhance model performance for real-world applications. Through a mix of theory and practical insights, this course will equip you with the knowledge to leverage LLMs effectively. Ideal for those with a background in calculus, linear algebra, and basic machine learning concepts.

https://cme295.stanford.edu/syllabus/

Читать полностью…

gonzo-обзоры ML статей

Подбирали количество рекурсий, обнаружили оптимальные значения для HRM T = 3, n = 3 (эквивалентно 48 рекурсиям) и для TRM T = 3, n = 6 (42 рекурсии), это на Sudoku-Extreme. TRM требует бэкпропа через всю глубину рекурсии (правда T на это не влияет, там T-1 шагов делаются без градиента), так что увеличение начинает приводить к Out of Memory.

🧪 Эксперименты

Тестирование такое же, как и в статье для HRM: ARC-AGI-1 и -2, Sudoku-Extreme, Maze-Hard.

В Sudoku-Extreme использовались 1K примеров для обучения и проверка на 423K примеров. Maze-Hard по 1000 примеров в обучении и тесте. То есть вроде как в HRM, может с поправкой на random seed и конкретные выборки тысячи примеров. Для ARC-AGI использовался также датасет ConceptARC для аугментации (это вроде не как в HRM, но похоже на то, что делала команда ARC-AGI в своей проверке). Аугментации тоже не уверен, что целиком повторяли таковые из статьи про HRM, надо копать глубже. Цифры для HRM в точности такие же как в оригинальной статье, так что видимо брали из самой статьи, но с другой стороны код для HRM в репе TRM тоже лежит.

Общий результат, TRM достигает ещё более высоких цифр, чем HRM:
* 74.7%/87.4% (версия с attention/версия с MLP) против 55% для Sudoku
* 85.3% (версия с attention, версия с MLP даёт 0) против 74.5% для Maze
* 44.6%/29.6% (attn/MLP) против 40.3% для ARC-AGI-1
* 7.8%/2.4% (attn/MLP) против 5.0% для ARC-AGI-2

Интересно, что для судоку лучше работает версия с MLP, для остальных, требующих большего контекста, лучше версия с вниманием. Версия TRM с вниманием содержала 7M параметров, версия с MLP -- 5M для Sudoku и 19M для остальных задач. HRM всегда была 27M.

В приложении есть небольшая секция про идеи, которые не сработали. Среди таковых:
* Замена SwiGLU MLP на SwiGLU MoE -- генерализация сильно просела, но возможно на большем количестве данных было бы по-другому.
* пробовали проводить градиенты меньше, чем через всю рекурсию -- например, только через последние 4 шага -- никак не помогло, только всё усложнило.
* убирание ACT всё ухудшило
* общие веса для эмбеддингов входа и выхода всё ухудшили
* замена рекурсии на fixed-point iteration из TocrhDEQ замедлило и ухудшило. Возможно, это лишнее подтверждение, что сходимость к неподвижной точке не важна.

ARC-AGI проверили результаты для TRM (https://x.com/arcprize/status/1978872651180577060)
- ARC-AGI-1: 40%, $1.76/task
- ARC-AGI-2: 6.2%, $2.10/task
Здесь разброс между статьёй и измерениями самих ARC меньше, чем был у HRM.

TRM меньше, но рантайм жрёт больше (неудивительно при наличии рекурсии). Возможно, более хорошие результаты не от того, что модель умнее, а от того, что училась дольше? Не понял, насколько модели одинаковы по части затраченных FLOPS, было бы интересно посмотреть.

---

Короче, работа прикольная, эмпирический результат интересный. Нет чувства, что глубоко понятна теоретическая часть, почему именно эти рекурсии работают так хорошо. Также эта работа -- прикольный пример какой-то архитектурной изобретательности в противовес вечному скейлингу моделей (хотя отскейлить эту конкретную тоже интересно, как и распространить её на другие классы задач). Думаю, будут развития. Эксперименты не выглядят сильно дорогими, рантайм от <24 часов до примерно трёх дней максимум на 4*H100, если верить данным в репе.

Всем хороших рекурсий!

Читать полностью…

gonzo-обзоры ML статей

На входе у неё три элемента: input (x), latent (z) и prediction (y), они все суммируются в одно значение. В самом начале прилетает только x, всё остальное нули (?). Базовая итерация, аналогичная модулю L в HRM генерит значение latent (z, оно же обозначено в формуле рекурсии как z_L) на выходе слоя, и обновлённый z поступает обратно на вход модулю, где он теперь добавляется к input (x) не как нуль. Выход-предсказание (y, оно же в формуле обозначено как z_H) тоже добавляется, но поскольку оно не обновилось, оно ничего не меняет. Значение z_H будет посчитано только в конце итерации на базе z_L и предыдущего z_H, вход x здесь не участвует.

Обучение по сути идёт на трёх уровнях. Описанный выше процесс -- это самый глубокий уровень, называется latent recursion. Итого, рекурсивный процесс TRM содержит n вычислений f_L и одно вычисление f_H, бэкпроп идёт через всю рекурсию, нет больше необходимости полагаться на теоремы о неподвижной точке.

Уровнем выше можно гонять и несколько итераций f_H, последовательно улучшая оба значения z_L (z) и z_H (y). Этот процесс называется deep recursion.

Наконец, ещё уровнем выше кроме рекурсивного процесса есть и deep supervision, как у HRM. Цикл обучения включает до Nₛᵤₚ=16 шагов супервизии. На каждом шаге модель выполняет процесс deep recursion:

1. Внутренний цикл (latent recursion): Сначала сеть обновляет скрытый признак рассуждений z в течение n=6 шагов (z ← net(x, y, z)), а затем один раз уточняет ответ y (y ← net(y, z)).
2. Внешний цикл (deep recursion): Внутренний цикл выполняется T=3 раза. Первые T-1=2 выполнения проходят без отслеживания градиентов, чтобы эффективно приблизить скрытые состояния к хорошему решению. Последнее выполнение позволяет градиентам пройти через все n+1=7 вызовов сети. Полученные (y,z) затем отсоединяются от графа вычислений и используются для инициализации следующего шага супервизии.

Такая структура позволяет крошечной двухслойной сети достигать эффективной глубины в 42 слоя на каждом шаге супервизии (как я понимаю это (6+1) шагов внутреннего цикла * 3 внешних цикла * 2 слоя), что в итоге может значительно превысить 384 слоя (здесь будет 42*16=672), которых достигал её предшественник HRM.

🤔 Переинтерпретация HRM

Это в целом идейно повторяет иерархический подход HRM с двумя сетями/фичами/латентами. Здесь можно задаться вопросом, почему две иерархические фичи, не одна, не три или ещё сколько-то? Авторы предлагают своё объяснение, переинтерпретируя фичу z_H как эмбеддинг текущего решения, которое если надо будет преобразовано в выходной токен через выходную голову сети и argmax. Фича z_L в свою очередь -- это латентная фича, напрямую не связанная с выходным решением, но которая может быть в него трансформирована через f_H. В такой интерпретации иерархия не нужна: есть вход x, есть предложенное решение y (ранее называемое z_H), есть латентная фича для ризонинга z (ранее z_L). Модель последовательно улучшает свой латент z, а затем на базе него и предыдущего решения y выдаёт новый y (но может остаться и со старым, если он хорош).

Итого, TRM предлагает гораздо более простую и интуитивную интерпретацию:
* y (ранее z_H): Текущий (в виде эмбеддинга) выходной ответ.
* z (ранее z_L): Скрытый признак, представляющий след рассуждений или «цепочку мыслей» (chain-of-thought).

На сам алгоритм это не влияет, это лишь реинтерпретация для лучшего понимания и это ответ на то, почему две фичи: удержание в памяти контекста вопроса x, предыдущего ризонинга z и предыдущего ответа y помогает модели итерировать своё решение, следующий ризонинг z и следующий ответ y. Если не передавать предыдущий z, то модель не будет знать, как она пришла к предыдущему решению. Если не передавать предыдущий y, то модель не будет знать, какое решение было до этого и будет вынуждена хранить его где-то внутри z вместо того чтобы использовать z для латентного ризонинга.

Читать полностью…

gonzo-обзоры ML статей

Вот вам прекрасное пятничное

https://arxiv.org/abs/2510.14506

От темы канала оно даже не так далеко, как кажется :)

Читать полностью…

gonzo-обзоры ML статей

Ещё про интересные проекты.

В Linux Foundation был передан проект Newton, опенсорс физический движок для симуляций при обучении роботов:
https://github.com/newton-physics

Изначально совместный проект Disney Research, Google DeepMind и NVIDIA. Замена задепрекейченного NVIDIA Warp.

Читать полностью…

gonzo-обзоры ML статей

Mamba 3 анонимно проникает на ICLR 2026. Планирую разбор после TRM.

https://openreview.net/forum?id=HwCvaJOiCj

Mamba3 just silently dropped on ICLR🤯

A faster, longer-context, and more scalable LLM architecture than Transformers

A few years ago, some researchers started rethinking sequence modeling from a different angle. Instead of stacking more attention layers, they went back to an older idea : state-space models, systems that keep an internal state evolving over time. That became the foundation for Mamba.

The early versions were promising.

Mamba-1 used continuous-time dynamics with selective memory updates, so it could remember efficiently without the heavy cost of attention.

Mamba-2 went further and showed that state-space updates and attention are actually two sides of the same math, which made it run much faster on GPUs while keeping similar performance.

Now Mamba-3 feels like the design finally matured. It refines how the internal state evolves, how it remembers, and how it uses hardware. The main update lies in switching from a simple Euler step to a trapezoidal integration, which takes into account both the start and end of each time interval. That small change makes its memory smoother and more stable over long sequences. It also lets the hidden state move in the complex plane, which adds a kind of rhythmic, oscillating memory. Instead of just decaying over time, the model can now represent repeating or periodic patterns, the kind of structure language and music often have. And with a new multi-input-multi-output design, Mamba-3 can process several streams in parallel, making much better use of modern GPUs.

In practice, Mamba-3 opens up a lot of possibilities. Its ability to handle long sequences efficiently makes it a strong fit for tasks like long-document understanding, scientific time-series, or genome modeling: areas where Transformers struggle with context limits. Because it runs in linear time and keeps latency stable, it’s also well-suited for real-time applications like chat assistants, translation, and speech interfaces, where responsiveness matters more than raw scale. And its hardware-friendly design makes Mamba-3 could eventually power on-device or edge AI systems, running large models locally without depending on the cloud.

It’s the kind of architecture that quietly expands from large-context reasoning on servers to lightweight intelligence on everyday devices

https://x.com/JundeMorsenWu/status/1977664753011916859?t=xoorer9sscloa78ZjuvcsQ&amp;s=19

Читать полностью…

gonzo-обзоры ML статей

💀 Исторический контекст

Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое.

- Neural History Compressor (Шмидхубер, 1991-1992)

Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил "collapsed" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM.

- Clockwork RNN (Koutník et al., 2014)

Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей "тактовой частоте" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход.

- Fast Weights (Хинтон, 1987/2016)

Джеффри Хинтон предложил концепцию "быстрых весов" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций.

Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах.

- Другие связанные работы

* Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию
* Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже
* здесь ещё могло бы быть много других работ

Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло.

Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу "Less is More: Recursive Reasoning with Tiny Networks" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей.

Читать полностью…

gonzo-обзоры ML статей

Оба модуля, H и L, реализованы с использованием современных блоков трансформер-энкодера (привет, BERT!), включающих такие улучшения, как Rotary Positional Encoding (RoPE), Gated Linear Units (GLU) (https://arxiv.org/abs/2002.05202) и RMSNorm в Post-Norm архитектуре. На входе и выходе последовательности токенов длины l.

Модули комбинируются через простое поэлементное сложение, что легко поскольку их архитектуры идентичны. В будущем планируют более хитрые комбинации, например, с гейтингом.

Модель не является LLM, обученной на всём интернете (более того, она вообще не декодер, а энкодер), и обучается на конкретные задачи: ARC-AGI-1 и -2, Sudoku-Extreme размером 9x9 с особо сложными паззлами (всего 3.8M, из которых для обучения отобраны 1000 штук), Maze-Hard 30x30 (тоже по 1000 в трейне и тесте).

📊 Результаты

Результаты экспериментов впечатляют. Обученная с нуля всего на ~1000 примерах на задачу и имея лишь 27М параметров, HRM демонстрирует очень высокую производительность там, где гораздо более крупные модели терпят неудачу.

Для ARC-AGI было множество аугментаций с поворотами, сдвигами и т.п. тестовых примеров. Для судоку много перестановок. Для лабиринтов ничего не делалось.

В сложных символьных задачах, таких как Sudoku-Extreme и Maze-Hard, которые требуют обширного поиска и возврата, HRM достигает высокой точности в 55% и 74.5%. В то же время, state-of-the-art CoT-модели полностью проваливаются, набирая 0%, как и Direct pred — замена HRM на трансформер аналогичного размера с 8 слоями и обученный на аналогичных данных.

На бенчмарке ARC-AGI-1, тесте на общий подвижный интеллект, HRM достигает 40.3% точности, значительно превосходя более крупные CoT-модели, такие как o3-mini-high (34.5%) и Claude 3.7 (21.2%), а также Direct pred с 21%. На ARC-AGI-2 гордые 5%, но у o3-mini-high только 3%, у остальных ещё меньше, у Direct Pred 0%.

Эксперименты с обучением на полном датасете судоку (который 3.8M) показывают, что во-первых, увеличение глубины важно (рис.2) и скейлинг глубины трансформера при фиксированной ширине приводит к заметному улучшению, а увеличение ширины при фиксированной глубине вообще не помогает. Во-вторых, в то время как производительность стандартного а также рекуррентного (детали имплементации не понял) трансформера достигает плато с увеличением глубины, HRM эффективно использует свою рекуррентную глубину для решения сложных проблем и достигает почти 100%. Правда для HRM даны всего три точки, интересно как он себя в начале графика вёл бы.

Визуализации промежуточных шагов модели показывают адаптивные стратегии рассуждений. Для лабиринта это параллельное исследование нескольких путей и отсев заблокированных или неэффективных, затем создание предварительного варианта и его уточнение. В судоку это напоминает поиск в глубину с возвратом. Для задач ARC это инкрементальные добавления к доске и итеративное улучшение без бэктрекинга и напоминающее метод восхождения к вершине. То есть для разных задач выучивает разные стратегии.

🤯 Эмерджентная структура, похожая на мозг

Интересная секция статьи под названием Brain Correspondence. Возможно, самое глубокое открытие — это появление в обученной модели структуры, правдоподобной с точки зрения нейронауки, что служит подтверждением её основных принципов проектирования. Авторы вдохновлялись функцией мозга (иерархическая обработка на разных временных масштабах), и, что примечательно, обученная модель спонтанно выработала ключевую особенность физической структуры мозга (иерархию размерности представлений). Авторы проанализировали эффективную размерность скрытых состояний H- и L-модулей, используя коэффициент участия (Participation Ratio, PR), и получили следующие результаты:

* Высокоуровневый (H) модуль развивает высокоразмерное представление большой ёмкости (PR ≈ 89.95), которое масштабируется с разнообразием задач.
* Низкоуровневый (L) модуль поддерживает стабильное, низкоразмерное представление (PR ≈ 30.22).

Читать полностью…

gonzo-обзоры ML статей

Hierarchical Reasoning Model
Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
Статья: https://arxiv.org/abs/2506.21734
Код: https://github.com/sapientinc/HRM

Иерархического лонгрида вам на выходные!

Не сделал в своё время ручной разбор этой работы про HRM от сингапурцев из Sapient Intelligence (сделал правда автоматический), но она важная, стоит разобрать. Тем более, что свежая TRM (https://arxiv.org/abs/2510.04871) ей вдохновляется.

Эта интересная летняя работа предложила вдохновлённую мозгом иерархическую модель с быстрой и медленной сетями. Модель была довольно скромного размера (27M) и обучалась всего на 1000 примерах. При этом она получила очень высокие скоры на нескольких сложных задачах. В частности, она также сумела обойти o3-mini-high (а также гигантскую DeepSeek-R1 и Claude 3.7) на ARC-AGI-1 и 2, что весьма круто. Что стоит за этой моделью и как она работает? Разберём.

Современные трансформеры добились значительных результатов в разных задачах, но сама их архитектура в целом довольно неглубокая с фиксированной глубиной (но есть исключения с рекурсией или динамической глубиной). Из-за этого они ограничены низкими классами вычислительной сложности (такими как AC⁰ или TC⁰, https://arxiv.org/abs/2308.03212, схемы фиксированной глубины) и с трудом справляются с проблемами, требующими глубокого, итеративного и алгоритмического мышления. Напомню, что RNN сидят в более высоком классе и вообще вроде как Тьюринг полны. Подробнее про классы тут (https://en.wikipedia.org/wiki/TC_(complexity)).

Вдохновляясь иерархической обработкой на разных временных масштабах, присущей человеческому мозгу, авторы представляют Hierarchical Reasoning Model (HRM) — новую рекуррентную архитектуру.

🏗 Структура HRM

В основе HRM лежат три принципа, наблюдаемые в нейронных вычислениях: иерархическая обработка, разделение во времени и рекуррентные связи. Архитектура включает два взаимозависимых рекуррентных модуля, работающих на разных временных масштабах:

1. Высокоуровневый (H) модуль для медленного, абстрактного и обдуманного планирования.
2. Низкоуровневый (L) модуль для быстрых, детальных и подчинённых вычислений.

Динамика модели разворачивается в течение N высокоуровневых циклов, каждый из которых состоит из T низкоуровневых временных шагов. L-модуль обновляется на каждом шаге, и его состояние зависит от H-модуля, который остаётся неизменным на протяжении всего цикла. H-модуль обновляется только один раз за цикл, используя конечное состояние L-модуля.

- Иерархическая сходимость

Cтандартные RNN имеют тенденцию сходиться преждевременно. Когда скрытое состояние установилось около фиксированной точки, магнитуды обновлений уменьшаются, по факту замораживая последующие вычисления и ограничивая эффективную глубину сети. Хочется, чтобы сходимость была постепенной, но синженерить этот подход трудно. HRM борется с преждевременной сходимостью с помощью процесса, который авторы называют иерархической сходимостью (Hierarchical convergence). В каждом цикле L-модуль сходится к локальному равновесию, но оно зависит от высокоуровневого состояния модуля H, которое тот выдал для данного цикла. После T шагов, H-модуль инкорпорирует в себя полученный результат и обновляет своё состояние, тем самым задавая новый контекст для следующего цикла L-модуля, который теперь сойдётся к другому локальному равновесию.

Это похоже на менеджера проекта (H-модуль), который ставит конкретную подзадачу (например, «решить этот угол в судоку»). L-модуль выступает в роли исполнителя, который быстро итерируется для решения этой конкретной подзадачи. Как только исполнитель заканчивает, он отчитывается, и менеджер использует этот результат для постановки следующей подзадачи. Это не даёт модели застрять и позволяет ей выполнять структурированные, многошаговые вычисления, поддерживая высокую активность на протяжении многих шагов и достигая эффективной глубины NT.

Читать полностью…

gonzo-обзоры ML статей

Интересно, что параллельно с LLM/VLM Google продолжает совершенствовать модели для роботов, свежая — Gemini Robotics 1.5. Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе. Так и роботов скоро начнут продавать.

/channel/gonzo_ML_podcasts/946

Читать полностью…

gonzo-обзоры ML статей

Вышел новый State of AI report 2025!

https://www.stateof.ai/

Всегда достойно изучения.

Читать полностью…

gonzo-обзоры ML статей

Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем.

/channel/gonzo_ML_podcasts/906

Более фундаментальное изменение, чем например недавние Tversky Neural Networks (/channel/gonzo_ML/3932).

Читать полностью…

gonzo-обзоры ML статей

Stochastic activations
Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic Cabannes, Jade Copet, Sainbayar Sukhbaatar, Jason Weston, Gabriel Synnaeve, Pierre-Emmanuel Mazaré, Hervé Jégou
Статья: https://arxiv.org/abs/2509.22358

Есть ещё на свете люди, продолжающие копаться в низких уровнях (на этот раз активации)! Но привязывают всё равно к LLM. Так необычно во введении читать, что функция активации -- это то, что внутри LLM между двумя линейными слоями в FFN блоке. Мы раньше всегда это проще объясняли, на примере одного нейрона…

Авторы предлагают стохастические активации. Я сначала по названию подумал, что речь будет несколько про другое, что будет какая-то хитрая функция с рандомом, ну как RReLU (randomized rectified linear unit, где для отрицательной части выбирался рандомный небольшой линейный коэффициент), но оказалось, что они предлагают случайно выбирать между SILU и RELU (что конечно тоже можно рассматривать как стохастическую функцию, но здесь стохастика вынесена на более высокий уровень), и у этого подхода есть свои плюсы.

RELU (=max(x, 0)) как известно был хорош, помог быстро продвинуть всю область где-то в районе AlexNet, когда оказалось, что с ним учится сильно быстрее, чем с дифференцируемой классикой типа сигмоид и гиперболических тангенсов. Проблема с RELU была в том, что если активация в зоне отрицательного аргумента, то там нулевой градиент и она оттуда не выберется. Как раз поэтому сети с RELU также естественным образом демонстрировали тенденцию к разреженности, что в свою очередь хорошо, если железо более эффективно умеет перемножать разреженные матрицы (но такое появилось сильно не сразу, да и для подобного паттерна разреженности это может быть непросто).

SILU (Sigmoid Linear Unit, оно же swish, =xσ(x)), особенно в сочетании с гейтами (SwiGLU), стабильно бил RELU по качеству, но не давал разреженности. Возможно, что бил как раз потому, что у RELU градиенты нулевые были в большом количестве случаев, и это не давало сети хорошо учиться.

Был и миллион других функций. Из относительно недавнего, например, Adaptive SwisH (ASH, https://arxiv.org/abs/2210.11672), со стохастическим сэмплингом внутри. Где-то идейно рядом с разреженностью также лежит Dropout, включая structured варианты типа LayerDrop (упоминали тут /channel/gonzo_ML/2845).

Вопрос далее классический: как адресовать ограничения RELU, сохранив все его преимущества?

Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича — я бы тогда тотчас же решилась.


Предлагаются два подхода:

1) Swi+FT -- файнтюнинг активаций: обучаешь LLM с одной активацией (более качественной), потом заменяешь на RELU и файнтюнишь. Если точнее, то при обучении для первых 1 − α от общего числа шагов выбирается хорошая активация (SILU например), а затем переключаемся на вторую (RELU). Значение α обычно в районе 5-10%, иногда пробуют 20%. На инференсе тоже оставляем вторую активацию. Нет никаких прогревов оптимизатора, его параметры не переинициализируются, но применяется косинусное расписание, где learning rate плавно уменьшается до 0.01 от своего пикового значения. Поскольку SILU и RELU похожи (одинаковые асимптоты и значение в нуле), то проблемы не возникает. Есть спайк на лоссе в момент переключения, но он быстро уходит.

2) StochA -- собственно стохастические активации: случайно выбираются активации из заданного набора, либо в трейне, либо в тесте. Здесь используется бернуллиевская (бинарная) случайная величина ω ∼ Bernoulli(p), так что с вероятностью p выбирается одна функция, и 1-p -- другая. Это, кстати, тоже напоминает дропаут активаций (хоть дропаут и для другой цели), так как получается что с заданной вероятностью мы выбираем функцию, которая занулит отрицательный аргумент.

Альтернативная стратегия -- случайно выбирать между identity (y=x) и нулевой функцией (y=0) с вероятностью, заданной сигмоидой, что в матожидании даёт SILU. На практике работает не очень.

Читать полностью…

gonzo-обзоры ML статей

Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится нескончаемый венчурный оптимизм, подкреплённый ничем. Авторы книги соответственно за остановку опасных исследований как первый шаг и за вложение сил в решение проблемы ASI alignment. Ну и предлагают какие-то ещё свои шаги.

Решать надо. Главный непонятный вопрос -- сколько у нас есть времени. "Задача трёх тел" здесь также вспоминается, но там хоть время было понятно.

В этом месте есть несколько типичных возражений, которые я уже многократно слышал, не грех сразу и упомянуть:

1. Юдковский чувак без образования, думер, психически и социально неадаптированный и т.п. -- эта аргументация настолько детский сад, что не вижу смысла чего-то тут комментировать, любой ad hominem обычно говорит больше про его сказавшего, чем про адресата. Суть аргумента не адресует никак.

2. Такого ИИ никогда не будет, или будет когда-то нескоро, мы успеем подготовиться -- как писал выше, цель всей области именно такая, непонятно что мешает подумать, что будет, когда мы эту цель достигнем. Нормальная проверка на экологичность при любом целеполагании. Книга Рассела (/channel/gonzo_ML/1516) начинается ровно с этого же вопроса, If we succeed -- совершенно нормальный вопрос, чтобы дать себе на него честный ответ. К некоторым вещам может быть поздно готовиться в момент, когда они случатся. К прилёту астероида, например, тоже. Или к пандемиям -- последний раз глобально пронесло, но миллионы всё равно погибли. Рецепта, как мы видим, пока ни у кого нет, только бравые заявления.

3. LLM не приведут к сверхинтеллекту, они тупые и делают тупые ошибки -- а с этим вообще никто и не спорит и не говорит, что это будут именно ллм. Я тоже изначально был к ним довольно скептичен, и тоже считаю, что нужно что-то иное, но это не мешает мне признать, что прогресс в ллм за последние пять лет просто неимоверен. Я лично не мог ожидать, что они будут настолько хороши в том, в чем они уже хороши. А дурацкие ошибки быстро уходят. Про шесть пальцев на руках уже почти никто и не вспоминает, смешная генерация старых моделей тоже осталась в прошлом, как и большинство детских проблем с числами -- теперь вот задачи золотого уровня на олимпиадах решают. Но книга всё равно вообще не про ллм.

Не хотите читать "думера без образования", прочитайте Рассела тогда хотя бы. Вопросы везде поставлены адекватные. Дело за ответами.

Читать полностью…

gonzo-обзоры ML статей

Дистилляцию в BitNet (тернарные веса и 1.58-битные модели) завезли!

/channel/gonzo_ML_podcasts/990

Читать полностью…

gonzo-обзоры ML статей

Агенты для исследования массово выходят в опенсорс.

Сразу две работы за последнее время:
* Barbarians at the Gate: How AI is Upending Systems Research (/channel/gonzo_ML_podcasts/966)
* Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research (/channel/gonzo_ML_podcasts/979)

Используют OpenEvolve (https://github.com/codelion/openevolve) и DeepEvolve (https://github.com/liugangcode/deepevolve)

Читать полностью…

gonzo-обзоры ML статей

Интересно, что это отличается от латентного ризонинга в стиле Coconut (/channel/gonzo_ML/3567), там он был на уровне токенов при авторегрессионной генерации, тут же он скорее на уровне глубины вызова модели, разворачивание идёт в другом измерении.

Авторы пробовали другое количество фич, как в большую, так и в меньшую стороны. Один из вариантов разбивал z на множество фич z_i и каждая итерация рекурсии обновляла одну конкретную фичу из них, перенося все остальные как есть. Качество упало относительно варианта с двумя фичами (но не удивлюсь, если следующая работа найдёт этому причины, типа проблем с градиентным сигналом, и предложит хаки, чтобы это заработало). Авторы объясняют это тем, что нет какой-то причины для разбиения z на множество частей. Другая крайность, с одной фичей z_H, привела к ещё более серьёзному падению качества. Авторы объясняют это необходимостью для модели хранить решение y внутри z (но может надо просто отскейлить скрытый эмбеддинг?).

В предложенной схеме отпадает и необходимость в двух отдельных сетях H и L (и соответственно в 2x параметров) -- решаемая задача z ← f_L(x + y + z) или y ← f_H(y + z) определяется по наличию или отсутствию x на входе (но что это значит на уровне обучения модели и структуры эмбеддингов -- для меня вопрос). В итоге имеем одну сеть вместо двух, и абляции показали, что это даёт улучшение на Sudoku-Extreme с 82.4% до 87.4% (но тоже не удивлюсь, если при скейлинге окажется, что это таки играет, просто недообучили и не вбухали компьюта сколько надо).

🗼 Другие архитектурные модификации

Авторы пробовали докинуть больше слоёв в модели, но получили оверфиттинг. Как они пишут “Surprisingly, we found that adding layers decreased generalization due to overfitting.” Не знаю, честно говоря, что тут такого прямо surprising, ML 101 какой-то, ну да ладно. В современный век видимо все привыкли, что надо скейлить.

В другую сторону, уменьшая слои, но увеличивая количество рекурсий, чтобы эффективная глубина и количество компьюта оставались теми же, обнаружили, что 2 слоя это оптимум, дают на Sudoku-Extreme улучшение с 79.5% до 87.4%, а число параметров в два раза меньше (5M вместо 10M). Авторы ссылаются на работу “Fixed Point Diffusion Models” (https://arxiv.org/abs/2401.08741), где вроде тоже два слоя оказались оптимальны в контексте deep equilibrium diffusion models, но там перформанс был аналогичен более тяжёлым моделям, а здесь он прямо выше. Less is more. Маленькая сеть в сочетании с глубокой рекурсией и deep supervision позволяет обойти оверфиттинг при малом количестве данных. Интересно, как было бы при скейлинге датасета.

Был эксперимент под влиянием MLP-Mixer (/channel/gonzo_ML/776) с заменой self-attention на MLP, работающем на всей длине последовательности, поскольку он требует меньше параметров для случая, когда длина контекста (L) меньше скрытой размерности (D). Это улучшило результат на Sudoku-Extreme с 74.7% до 87.4%, но ухудшило для Maze-Hard и ARC-AGI, требующих большего контекста.

TRM упрощает механизм адаптивного времени вычислений (ACT). Можно отказаться от отдельного вычисления для continue loss, достаточно иметь halting probability, тогда минус один forward pass модели, но по-прежнему достаточно точное определение, когда модели нужно остановиться, что значительно ускоряет процесс. Это дало слабое улучшение с 86.1% до 87.4% (непонятно какие здесь доверительные интервалы).

Также имплементировали экспоненциальное скользящее среднее (EMA, 0.999) для весов, поскольку на малом количестве данных модель быстро оверфитится и начинает расходиться, тоже улучшает качество с 79.9% до 87.4% (ну или скорее ухудшает с 87.4% до 79.9%, когда от полной модели это отнимают). Как я понимаю, берётся предыдущее сглаженное значение параметров модели с весом 0.999 и добавляется новое с весом 0.001.

Читать полностью…

gonzo-обзоры ML статей

Less is More: Recursive Reasoning with Tiny Networks
Alexia Jolicoeur-Martineau
Статья: https://arxiv.org/abs/2510.04871
Код: https://github.com/SamsungSAILMontreal/TinyRecursiveModels

Недавно разобранная HRM (/channel/gonzo_ML/4097) продемонстрировала интересный результат с малым размером модели, при этом последующий анализ от организаторов ARC-AGI показал, что в первую очередь на результат влияет последовательное улучшение ответа (deep supervision), а рекурсия в H и L модулях добавляет не очень много. Новая работа про TRM (Tiny Recursive Model) ставит под сомнение необходимость всей этой сложности и исповедует философию — «меньше значит больше». Новая модель TRM содержит 5M-19M параметров (есть нюансы), против 27M у HRM

И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM.

Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов. LLM -- довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д. То, что при этом они способны _ещё_ и решать судоку, лабиринты, тесты ARC-AGI -- для меня на самом деле довольно удивительно. Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно). HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная. HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет. Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее -- надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано.

🩼 Что было не так с HRM

В HRM было несколько моментов, потенциально требующих улучшения.

* Implicit Function Theorem (IFT) with 1-step gradient approximation: Есть вопрос про бэкпроп только через две из всех рекурсий (последнее состояние H и L), которым я также задавался. Нет уверенности, что IFT применима к данному кейсу с HRM. Вообще не факт, что неподвижная точка достигается. Авторы оригинальной работы использовали по два шага рекурсии на каждом из уровней (H и L), и получается, что HRM предполагала достижение неподвижной точки обоими модулями лишь после двух прямых проходов L, одного H и снова одного L. Это вызывает сомнения.

* ACT (Adaptive Computation Time): уменьшало количество вычислений, но имело свою цену. Q-learning для значений продолжения/остановки требовал дополнительного прямого прохода через HRM.

* Отсылки к биологии: Авторы создавали HRM изначально с отсылкой к биологическим процессам, и (корреляционно) подтверждали аналогию с реальным мозгом млеков. Это интересно, но не объясняет, почему HRM была сделана именно так как сделана.

* Абляций сделано не было: а без них непонятно, насколько биологические аргументы и теорема о непрерывной точке реально играют, и какие из компонентов HRM важны и почему. Почему две латентных фичи, а не сколько-то ещё, тоже непонятно.

Идея авторов работы про TRM -- можно упростить HRM и рекурсивный процесс в ней, и понять модель без необходимости в биологических аргументах, теоремах о непрерывной точке, иерархических интерпретаций и двух разных сетей. Заодно они объясняют, почему 2 -- это оптимальное количество фич (z_L и z_H).

🏗 Архитектура TRM

Модель устроена так, что есть одна маленькая сеть, являющаяся по сути стандартным блоком трансформера: [self-attention, norm, MLP, norm]. В оригинальной идее таких блоков было 4 (но после экспериментов пришли к 2).

Читать полностью…

gonzo-обзоры ML статей

A Definition of AGI подвезли!

https://www.agidefinition.ai/

The lack of a concrete definition for Artificial General Intelligence (AGI) obscures the gap between today’s specialized AI and human-level cognition. This paper introduces a quantifiable framework to address this, defining AGI as matching the cognitive versatility and proficiency of a well-educated adult. To operationalize this, we ground our methodology in Cattell-Horn-Carroll theory, the most empirically validated model of human cognition.

The framework dissects general intelligence into ten core cognitive domains—including reasoning, memory, and perception—and adapts established human psychometric batteries to evaluate AI systems
. Application of this framework reveals a highly “jagged” cognitive profile in contemporary models. While proficient in knowledge-intensive domains, current AI systems have critical deficits in foundational cognitive machinery, particularly long-term memory storage.

The resulting AGI scores (e.g., GPT-4 at 27%, GPT-5 at 58%) concretely quantify both rapid progress and the substantial gap remaining before AGI.

Читать полностью…

gonzo-обзоры ML статей

Больше хороших референсных имплементаций!

https://github.com/karpathy/nanochat

This repo is a full-stack implementation of an LLM like ChatGPT in a single, clean, minimal, hackable, dependency-lite codebase. nanochat is designed to run on a single 8XH100 node via scripts like speedrun.sh, that run the entire pipeline start to end. This includes tokenization, pretraining, finetuning, evaluation, inference, and web serving over a simple UI so that you can talk to your own LLM just like ChatGPT. nanochat will become the capstone project of the course LLM101n being developed by Eureka Labs.

Читать полностью…

gonzo-обзоры ML статей

Если вдруг вы пропустили, пара полезных ресурсов про Agentic AI

1. "Agentic AI" course by Andrew Ng
https://www.deeplearning.ai/courses/agentic-ai/

2. "Agentic Design Patterns" book by Antonio Gulli
https://docs.google.com/document/d/1rsaK53T3Lg5KoGwvf8ukOUvbELRtH-V0LnOIFDxBryE/preview?tab=t.0

Читать полностью…

gonzo-обзоры ML статей

Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает организацию размерностей, наблюдаемую в коре млекопитающих, где ассоциативные области высшего порядка имеют более высокую размерность, чем первичные сенсорные области. Это предоставляет корреляционное свидетельство того, что HRM выучивает фундаментальный организационный принцип для гибких рассуждений общего назначения.

🧠 Пост-анализ от ARC-AGI

Организаторы конкурса проанализировали перформанс HRM (https://arcprize.org/blog/hrm-analysis) и проверили её на скрытой части своего датасета. Они подтвердили результат модели, на Semi-Private sets это 32% для ARC-AGI-1 (что по-прежнему круто для такой маленькой модели) и 2% на ARC-AGI-2.

Самая интересная часть в сделанных абляциях. Они таковы:

* Иерархичность с рекурсией не особо играет, трансформер такого же размера при прочих неизменных архитектурных факторах (но компьюта HRM жрёт всё же больше, что может влиять) даёт качество в районе +/-5%, особенно если делать только один цикл (сегмент). То есть дело не в архитектуре как таковой. Это не совсем понятно, почему Direct pred тогда имел разницу 2x?

* Outer-loop refinement process (тот самый Deep supervision с ACT и последовательным улучшением результата) добавляет очень много, особенно в training time. Особо большая разница между одним и двумя проходами, но в целом качество продолжает расти вплоть до 16 циклов. То есть Universal Transformer (/channel/gonzo_ML/90) или ALBERT (https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-3-3-99452b2eff18) — нашё всё?

* Cross-task transfer ограничен, большая часть перформанса из запоминания решений специфических задач

* Аугментации в претрейне критичны, но их достаточно 300, а не 1000. Аугментации при инференсе мало добавляют.

Авторы анализа говорят, что это делает подход фундаментально близким к представленному в статье “Arc-agi without pretraining”, но в статье про HRM сказано, что указанный подход даёт столько же, сколько и Direct Pred бейзлайн. Так что может фундаментально и близко, но разница в качестве почти в два раза.

🤔 Ограничения и будущее

Авторы признают несколько ограничений. Одношаговый градиент является аппроксимацией, а доказательства причинной роли эмерджентной иерархии размерностей пока что корреляционные. Связь между модулями реализована как простое поэлементное сложение, которое можно было бы улучшить с помощью более сложных механизмов гейтирования. Будущая работа включает исследование каузальной необходимости emergent-иерархии и интеграцию иерархической памяти для обработки ещё более длинных контекстов.

Читать полностью…

gonzo-обзоры ML статей

- Приближённый градиент

Ключевое нововведение HRM — это способность эффективно обучать такие глубокие рекуррентные процессы. Модель обходит стороной ресурсоёмкое по памяти и биологически неправдоподобное обратное распространение ошибки во времени (Backpropagation Through Time, BPTT), которое требует O(T) памяти. Вместо этого она использует одношаговую аппроксимацию градиента, теоретически обоснованную в Deep Equilibrium Models (DEQ, https://arxiv.org/abs/1909.01377).

Этот подход использует теорему о неявной функции (Implicit Function Theorem, IFT), которая позволяет вычислить градиент неподвижной точки, не разворачивая вычисления. Аппроксимируя обратную матрицу Якоби (I - J_F)⁻¹ единичной матрицей I, модель может вычислять градиенты с постоянным расходом памяти O(1). По сути, это упрощение предполагает, что каждый рекуррентный шаг является стабильным уточнением, позволяя модели вычислять градиент путём обратного распространения ошибки только через самый последний вычислительный шаг, а не разворачивая всю историю.

В итоге градиент от выхода ко входу течёт через финальное состояние H-модуля в финальное состояние L-модуля и затем уже на вход. Сходу кажется, что мы много теряем, не пропуская градиент через все финальные состояния L и соответствующие им H, но может в следующей версии.

- Deep supervision

Для дальнейшей стабилизации обучения в HRM используется глубокий супервижн (deep supervision), вдохновлённый принципом, что нейронные осцилляции регулируют обучение в мозге. Может я не до конца понял идею, но мне кажется само наличие H и L модулей уже прямая отсылка к динамике, разворачивающейся на разных частотах, со всеми этими альфа, бета, тета ритмами. Но с другой стороны этот супервижн можно рассматривать как неявный модуль ещё более высокого уровня, чем H, я бы назвал его S.

Для каждого сэмпла (x,y) делается множество forward pass HRM, каждый из которых называется сегментом. В конце каждого из них вычисляется лосс и обновляются параметры. Важно, что скрытое состояние отсоединяется от вычислительного графа перед передачей в следующий сегмент, что действует одновременно как регуляризатор и эффективный обучающий сигнал. То есть градиенты из сегмента m+1 не влияют на сегмент m. Это сильно напоминает подход с recycling в AlphaFold 2 (/channel/gonzo_ML/649), где 3D структура белка с выхода системы отправлялась снова на вход на последующее улучшение.

Количество сегментов определяется динамически через ACT.

- Adaptive computational time (ACT)

Это вообще моя любимая тема, про ACT я писал давно и много (/channel/gonzo_ML/71).

Вдохновляясь способностью мозга переключаться между быстрым, автоматическим мышлением («Система 1») и медленным, обдуманным («Система 2»), HRM интегрирует ACT. Алгоритм Q-learning решает, «остановиться» или «продолжить» вычисления после каждого сегмента, основываясь на состоянии H-модуля.

Количество сегментов с вероятностью ε ограничивается сверху M_max (гиперпараметр) и снизу M_min (случайная величина полученная равномерным сэмплингом из множества {2, …, M_max}, и с вероятностью 1−ε устанавливается в 1. Остановка происходит когда превысили M_max или когда Q-значение для остановки превысило Q для продолжения и мы уже превысили M_min.

Общая функция потерь объединяет стандартный лосс для задачи sequence-to-sequence с лоссом Q-обучения, позволяя модели динамически распределять вычислительные ресурсы. В целом ACT процесс позволяет достигать качества сравнимого с фиксированным прогоном M_max сегментов, тратя заметно меньше вычислительных ресурсов.

Для inference-time scaling достаточно установить повыше M_max без какого-либо обучения

Другой недавний пример использования ACT в рекурсиях -- работа про Mixture-of-Recursions (MoR, /channel/gonzo_ML_podcasts/489)

- Имплементация

Читать полностью…

gonzo-обзоры ML статей

Дожили... Документ переполнился

Читать полностью…

gonzo-обзоры ML статей

Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL. Я сам писал про это в начале 2017 года (https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18). Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало. Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning" (https://arxiv.org/abs/2509.24372) устраняет этот пробел. Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...

/channel/gonzo_ML_podcasts/936

Читать полностью…

gonzo-обзоры ML статей

Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова. Метод оптимизации ризонинга, когда части можно параллелить и синтезировать в саммари, последовательно уточняя. Получаем latency ниже, а глубину продумывания выше :)

/channel/gonzo_ML_podcasts/924

Читать полностью…

gonzo-обзоры ML статей

Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B. Оптимизатор AdamW. Токенизатор Llama3, словарь 128k + 256 зарезервированных токенов. Предобучение на 47B и 80B токенов, в основном англ тексты и код. Батч 1M токенов, контекст 8k.

Стохастическая активация даёт чуть меньший лосс на трейне по сравнению с RELU. Но и SILU тоже даёт меньший лосс, и не заметно как-то очень больших различий с ним. Без файнтюнинга на валидации всё проседает, но после него норм, но опять же, насколько я вижу, не лучше детерминированного SILU.

При использовании RELU на инференсе разреженность может превышать 90%, что по идее позволяет не тягать из памяти 90% весов. Разреженность в 90% даёт ускорение инференса на 65% на CPU. На GPU надо ещё как-то сделать вычисления достаточно предсказуемыми, чтобы балансировать нагрузку между CUDA тредами.

Вот эта часть вообще одна из самых интересных, но деталей тут не очень много. Как именно реализовали вычисления на CPU? Если боттлнек -- доступ к памяти, то всё равно ведь сначала надо прочитать, чтобы понять, что там ноль? Либо сразу делать sparse вычисления и для конкретных умножений использовать какую-то библиотеку для разреженной линейной алгебры с правильным форматом хранения. Была ли процедура конвертации dense модели в частично sparse для инференса? Упоминают хранение разных матриц по строкам или столбцам, но хочется мяса про sparse FFN.

Интересно, что при файнтюнинге, если использовать одновременно Swi+FT и StochA, то в момент переключения на RELU есть выброс на графике лосса, но далее он уходит и финальное качество модели выше, чем если бы изначально обучалась на RELU. При этом если использовать только Swi+FT, то итоговый результат хуже. И они всё равно хуже детерминированного SILU.

Другое любопытное замечание: в тест-тайм можно использовать StochA вместо RELU и без файнтюнинга (!). Оно неплохо работает, результат между RELU и SILU. Можно это использовать для генерации множественных ответов по одному промпту.

На downstream задачах похожая картина. Новые методы лучше RELU, но хуже SILU. То есть главный selling point, это потенциальное ускорение за счёт разреженности, 1.65x для CPU (а для GPU ещё надо постараться, но по идее для нвидиевских GPU нескольких последних поколений с поддержкой разреженности в тензорных ядрах должно как-то работать). Если нужно качество, то SILU лучше без вариантов. Ну или популярный SwiGLU, который SILU с гейтом. Есть ещё часто используемый GELU, хотя мне кажется от него стали уходить в SwiGLU (Себастиан подтверждает).

Наверное какие-то другие более новые функции активации тоже есть, но я не видел современного сравнения их всех по типу старого доброго для CNN (https://arxiv.org/abs/1505.00853) или исследования Ноама Шазира про трансформеры (https://arxiv.org/abs/2002.05202). Был вот ReLU^2 для разреженных LLM, где он всех побил (https://arxiv.org/abs/2402.03804). Был xIELU (https://arxiv.org/abs/2411.13010), который тоже вроде лучше SwiGLU. Ждём, когда кто-то снова сделает полномасштабное сравнение.

Наверное, здесь в очередной раз можно закончить цитатой Ноама Шазира из той работы 2020 года:

We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence


В общем непонятно, может глобально это всё неважно и мелочи, но может за этим и скрывается что-то фундаментальное, что мы пока ещё не поняли, базовые физические законы.

Кстати, у Ноама был кейноут доклад на свежей HotChips:
https://www.youtube.com/watch?v=v0beJQZQIGA

Всё в его участием смотреть и читать стоит! Напомню также, что он соавтор статьи про трансформер, T5, статей про MoE и т.п.. Пример очень крутого человека без PhD.

На этом и закончим.

Читать полностью…

gonzo-обзоры ML статей

Вот наконец и продукт доехал

Introducing Tinker: a flexible API for fine-tuning language models.

Write training loops in Python on your laptop; we'll run them on distributed GPUs.

Private beta starts today. We can't wait to see what researchers and developers build with cutting-edge open models!

https://thinkingmachines.ai/tinker/

https://x.com/thinkymachines/status/1973447428977336578

Today we launched Tinker.

Tinker brings frontier tools to researchers, offering clean abstractions for writing experiments and training pipelines while handling distributed training complexity. It enables novel research, custom models, and solid baselines.

Excited to see what people build.

https://x.com/miramurati/status/1973498366521954774

Читать полностью…
Subscribe to a channel