Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

12 October 2025 14:23

💀 Исторический контекст

Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое.

- Neural History Compressor (Шмидхубер, 1991-1992)

Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил "collapsed" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM.

- Clockwork RNN (Koutník et al., 2014)

Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей "тактовой частоте" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход.

- Fast Weights (Хинтон, 1987/2016)

Джеффри Хинтон предложил концепцию "быстрых весов" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций.

Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах.

- Другие связанные работы

* Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию
* Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже
* здесь ещё могло бы быть много других работ

Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло.

Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу "Less is More: Recursive Reasoning with Tiny Networks" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей.