gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23724

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Сначала рассматривали предобучение в контексте бесконечного компьюта (см. Pre-training under infinite compute, /channel/gonzo_ML/4038), теперь инференс. И там, и тут, выводы близкие: в любой непонятной ситуации делай ансамблирование 😁

Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091
Review: https://arxiviq.substack.com/p/best-of-asymptotic-performance-of
Code: https://github.com/jkomiyama/BoInf-code-publish

В статье представлен теоретический фреймворк "Best-of-∞", определяющий асимптотический предел производительности для стратегии best-of-N (BoN) с голосованием по большинству. Чтобы приблизиться к этому пределу с конечными ресурсами, авторы предлагают два ключевых нововведения: 1) Адаптивный алгоритм сэмплинга, который использует байесовское моделирование (в частности, фактор Байеса), чтобы динамически решать, когда прекратить генерацию ответов, тем самым оптимизируя вычислительные затраты. 2) Метод создания оптимально взвешенных ансамблей из нескольких LLM, который формулирует задачу оптимизации весов в асимптотическом пределе как решаемую задачу смешанного целочисленного линейного программирования (MILP).

Подробнее: /channel/gonzo_ML_podcasts/1251

Читать полностью…

gonzo-обзоры ML статей

Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей

Читать полностью…

gonzo-обзоры ML статей

Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.

Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781

Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.

Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.

Подробнее: /channel/gonzo_ML_podcasts/1213

Читать полностью…

gonzo-обзоры ML статей

The Principles of Diffusion Models: From Origins to Advances
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon

Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models

Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.

Подробнее: /channel/gonzo_ML_podcasts/1181

Читать полностью…

gonzo-обзоры ML статей

Графовый LSTM подвезли, gLSTM.

Что сделано?
В статье пересматривается проблема "over-squashing" в графовых нейронных сетях (GNN), разделяя её на два различных режима отказа: низкую чувствительность (сбой распространения сигнала) и насыщение ёмкости хранения (информационное узкое место). Для решения второй проблемы авторы представляют gLSTM — новую архитектуру GNN, вдохновлённую моделью для последовательностей xLSTM. gLSTM дополняет представление каждого узла ассоциативной памятью (матричным скрытым состоянием), чтобы явно увеличить его возможности по хранению и извлечению информации. Они также предлагают новую синтетическую задачу, Neighbor Associative Recall (NAR), специально разработанную для выделения и измерения этого ограничения ёмкости в условиях неглубокого графа, что позволяет избежать мешающих факторов, связанных с глубокими архитектурами.

Подробнее: /channel/gonzo_ML_podcasts/1170

Читать полностью…

gonzo-обзоры ML статей

Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: /channel/gonzo_ML_podcasts/1136

Читать полностью…

gonzo-обзоры ML статей

Краткость — сестра

Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.

Подробнее: /channel/gonzo_ML_podcasts/1127

Читать полностью…

gonzo-обзоры ML статей

Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: /channel/gonzo_ML_podcasts/1108

Читать полностью…

gonzo-обзоры ML статей

Датасет для файнтюнинга агентности... из 78 примеров.

LIMI: Less is More for Agency
/channel/gonzo_ML_podcasts/1083

Читать полностью…

gonzo-обзоры ML статей

Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение "заменить [MASK] на реальный токен" или нет, мы при сохранении маски смешиваем эмбеддинг токена [MASK] с взвешенной по уверенности выпуклой комбинацией эмбеддингов топ-k предсказанных токенов с предыдущего шага. Способствует сохранению важной информации, улучшает обучение.

/channel/gonzo_ML_podcasts/1043

Читать полностью…

gonzo-обзоры ML статей

Свободу трансформерам!

/channel/gonzo_ML_podcasts/1020

Добавили к авторегрессионной генерации латенты в стиле CVAE и сделали это с почти минимальным оверхедом.

Читать полностью…

gonzo-обзоры ML статей

Какая прикольная работа! CaT вместо CoT-SC.

Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.

/channel/gonzo_ML_podcasts/1004

Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.

Читать полностью…

gonzo-обзоры ML статей

Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится нескончаемый венчурный оптимизм, подкреплённый ничем. Авторы книги соответственно за остановку опасных исследований как первый шаг и за вложение сил в решение проблемы ASI alignment. Ну и предлагают какие-то ещё свои шаги.

Решать надо. Главный непонятный вопрос -- сколько у нас есть времени. "Задача трёх тел" здесь также вспоминается, но там хоть время было понятно.

В этом месте есть несколько типичных возражений, которые я уже многократно слышал, не грех сразу и упомянуть:

1. Юдковский чувак без образования, думер, психически и социально неадаптированный и т.п. -- эта аргументация настолько детский сад, что не вижу смысла чего-то тут комментировать, любой ad hominem обычно говорит больше про его сказавшего, чем про адресата. Суть аргумента не адресует никак.

2. Такого ИИ никогда не будет, или будет когда-то нескоро, мы успеем подготовиться -- как писал выше, цель всей области именно такая, непонятно что мешает подумать, что будет, когда мы эту цель достигнем. Нормальная проверка на экологичность при любом целеполагании. Книга Рассела (/channel/gonzo_ML/1516) начинается ровно с этого же вопроса, If we succeed -- совершенно нормальный вопрос, чтобы дать себе на него честный ответ. К некоторым вещам может быть поздно готовиться в момент, когда они случатся. К прилёту астероида, например, тоже. Или к пандемиям -- последний раз глобально пронесло, но миллионы всё равно погибли. Рецепта, как мы видим, пока ни у кого нет, только бравые заявления.

3. LLM не приведут к сверхинтеллекту, они тупые и делают тупые ошибки -- а с этим вообще никто и не спорит и не говорит, что это будут именно ллм. Я тоже изначально был к ним довольно скептичен, и тоже считаю, что нужно что-то иное, но это не мешает мне признать, что прогресс в ллм за последние пять лет просто неимоверен. Я лично не мог ожидать, что они будут настолько хороши в том, в чем они уже хороши. А дурацкие ошибки быстро уходят. Про шесть пальцев на руках уже почти никто и не вспоминает, смешная генерация старых моделей тоже осталась в прошлом, как и большинство детских проблем с числами -- теперь вот задачи золотого уровня на олимпиадах решают. Но книга всё равно вообще не про ллм.

Не хотите читать "думера без образования", прочитайте Рассела тогда хотя бы. Вопросы везде поставлены адекватные. Дело за ответами.

Читать полностью…

gonzo-обзоры ML статей

Дистилляцию в BitNet (тернарные веса и 1.58-битные модели) завезли!

/channel/gonzo_ML_podcasts/990

Читать полностью…

gonzo-обзоры ML статей

Агенты для исследования массово выходят в опенсорс.

Сразу две работы за последнее время:
* Barbarians at the Gate: How AI is Upending Systems Research (/channel/gonzo_ML_podcasts/966)
* Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research (/channel/gonzo_ML_podcasts/979)

Используют OpenEvolve (https://github.com/codelion/openevolve) и DeepEvolve (https://github.com/liugangcode/deepevolve)

Читать полностью…

gonzo-обзоры ML статей

Всё ещё кипятите?

What Really Matters in Matrix-Whitening Optimizers?
Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine
Статья: https://arxiv.org/abs/2510.25000
Код: https://github.com/kvfrans/matrix-whitening
Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening

Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор.

Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели.

Подробнее: /channel/gonzo_ML_podcasts/1240

Читать полностью…

gonzo-обзоры ML статей

Обзор трансформеров с памятью.

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures

Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824

В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.

Подробнее: /channel/gonzo_ML_podcasts/1233

Читать полностью…

gonzo-обзоры ML статей

Kimi Linear: An Expressive, Efficient Attention Architecture
https://arxiv.org/abs/2510.26692

Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.

Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.

Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.

Подробнее: /channel/gonzo_ML_podcasts/1196

Читать полностью…

gonzo-обзоры ML статей

Когда ты думал, что оно грокнуло, а оно, зараза, переобучилось 😹

Читать полностью…

gonzo-обзоры ML статей

Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться "в воображении", внутри выученной модели мира. Мы упоминали эти модели неоднократно (/channel/gonzo_ML/1791), и вообще World Models — одна из моих любимых тем (/channel/gonzo_ML/3176).

Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.

В общем любопытная движуха.

Подробнее: /channel/gonzo_ML_podcasts/1150

Читать полностью…

gonzo-обзоры ML статей

Extropic анонсировал своё новое железо

http://extropic.ai/writing/inside-x0-and-xtr-0

Мы писали про эту и другие интересные темы тут

Читать полностью…

gonzo-обзоры ML статей

Всё дело в волшебных пузырьках!

Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера.

Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата.

Подробнее: /channel/gonzo_ML_podcasts/1118

Читать полностью…

gonzo-обзоры ML статей

Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
/channel/gonzo_ML_podcasts/1093

Читать полностью…

gonzo-обзоры ML статей

Больше фундаментальных моделей, хороших и разных, и за пределами языка.

Две недавние работы:

* Physics Foundation Model (/channel/gonzo_ML_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.

* AION-1: Omnimodal Foundation Model for Astronomical Sciences (/channel/gonzo_ML_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.

Интересный движ!

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план ответа, потом диффузионно впараллель заполняем его отдельные части. Всё делает одна модель.

/channel/gonzo_ML_podcasts/1034

Читать полностью…

gonzo-обзоры ML статей

Отменный самовар получился

Читать полностью…

gonzo-обзоры ML статей

В тему:

https://superintelligence-statement.org/

We call for a prohibition on the development of superintelligence, not lifted before there is

1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.

Читать полностью…

gonzo-обзоры ML статей

Прочитал какое-то время назад книгу Юдковского и Соареса "If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI" (/channel/gonzo_ML/4030), вот добрался написать.

Нормальная книга в целом.

Состоит из трёх частей:
1. Nonhuman minds
2. One extinction scenario
3. Facing the challenge

Первая часть про то, что современный AI уже трудно понять (по факту невозможно, наши достижения в интерпретируемости пока даже не детские), что он скорее выращивается, чем программируется, что у него могут быть свои преференции и целе-подобные поведения (даже если он сделан чтобы играть в условные шахматы, у него уже есть цель -- победить), что цели эти даже если заданы на довольно низком техническом уровне всё равно могут достигаться очень странными нечеловеческими способами, и что более способные системы будущего в этом ещё более преуспеют -- нельзя ожидать, что у них будет человеческая психология и мы их будем прекрасно понимать. Не будем.

Часть про возникновение целей для меня наименее понятная, но с другой стороны даже LLM (про которые нет речи, что это и есть тот самый суперинтеллект) уже демонстрируют какие-то подобные поведения, которые напрямую в них заложены не были. Наши собственные желания и предпочтения порой очень далеки от каких-то базовых биологических механизмов, из которых они выросли -- гэп между эволюционным предпочтением к сладкой и жирной пище и полками с мороженым или coke zero в супермаркете довольно велик (и это уже своего рода reward hacking). Предпочтения, возникшие в результате полового отбора, могут быть ещё более странными. В выращивании интеллектуальных систем (градиентный спуск в этом месте не сильно отличается от эволюции, да и та тоже может использоваться) могут получиться не менее странные результаты.

Когда появится суперинтеллект (а цель всего направления ИИ ведь именно такая, опрос здесь в канале также показывает, что большинство ответивших не видят никакого физического запрета на появление интеллекта в машине и более половины считают, что в будущем суперинтеллект появится /channel/gonzo_ML/4088), когда и если он обретёт достаточно влияния (непонятно, почему он не сможет этого сделать?), то с какой стати он как-то особенно будет заботиться о людях? Вся история биосферы, вся история людей практически говорит об обратном -- когда-то давно микроорганизмы отравили атмосферу кислородом, "продвинутые" цивилизации выкосили кучу других цивилизаций, которые они считали "менее продвинутыми", и прямо сейчас продолжают воевать и засирать планету.

ИИ не обязательно должен быть зловредным аки терминатор, но преференции и цели у искусственного интеллекта будут свои и странные, инопланетные, как-то повлиять на них и тем более заложить свои мы не знаем как, нет ни одного нормального рецепта. Все технооптимисты, говорящие, что сверхинтеллект будет делать то, что мы в него заложим, не могут подкрепить свои слова никаким рецептом за пределами wishful thinking. Надежды на то, что ASI будет высокоморальным, добрым и хорошим (что бы это ни значило) и заботиться о всём живом -- это хорошие надежды, я сам хотел бы жить в таком мире (дьявол в деталях), но опять же, подкрепить это нечем кроме как wishful thinking.

Такой вот статус кво.

Вторая часть книги -- микро фантастический рассказ про один из вариантов, как могло бы случиться (но скорее всего случится иначе). Похоже, кстати, на книгу Avogadro Corp от William Hertling. Норм рассказ.

Третья часть книги про челлендж как таковой. Сверхинтеллект это задача, в которой нет места для ошибки -- если сделаем не так, второго шанса может и не быть. Даже если у нас есть рецепт такого ИИ, что будет благожелателен и строго с нашими ценностями (что отдельный вопрос, что это за ценности такие, которые мы сами так себе соблюдаем), то даже его надо имплементировать без ошибок, а мы так не умеем, вся область cybersecurity подтверждает. Эта часть начинается со сравнения с другими проблемами, где на ошибку места не было -- запуск космических проб, ядерная энергетика, компьютерная безопасность -- накосячили везде и неоднократно.

Читать полностью…

gonzo-обзоры ML статей

Если не видели, тут очередной курс по трансформерам выкладывают.

CME 295 - Transformers & Large Language Models
This course explores the world of Transformers and Large Language Models (LLMs). You'll learn the evolution of NLP methods, the core components of the Transformer architecture, along with how they relate to LLMs as well as techniques to enhance model performance for real-world applications. Through a mix of theory and practical insights, this course will equip you with the knowledge to leverage LLMs effectively. Ideal for those with a background in calculus, linear algebra, and basic machine learning concepts.

https://cme295.stanford.edu/syllabus/

Читать полностью…

gonzo-обзоры ML статей

Подбирали количество рекурсий, обнаружили оптимальные значения для HRM T = 3, n = 3 (эквивалентно 48 рекурсиям) и для TRM T = 3, n = 6 (42 рекурсии), это на Sudoku-Extreme. TRM требует бэкпропа через всю глубину рекурсии (правда T на это не влияет, там T-1 шагов делаются без градиента), так что увеличение начинает приводить к Out of Memory.

🧪 Эксперименты

Тестирование такое же, как и в статье для HRM: ARC-AGI-1 и -2, Sudoku-Extreme, Maze-Hard.

В Sudoku-Extreme использовались 1K примеров для обучения и проверка на 423K примеров. Maze-Hard по 1000 примеров в обучении и тесте. То есть вроде как в HRM, может с поправкой на random seed и конкретные выборки тысячи примеров. Для ARC-AGI использовался также датасет ConceptARC для аугментации (это вроде не как в HRM, но похоже на то, что делала команда ARC-AGI в своей проверке). Аугментации тоже не уверен, что целиком повторяли таковые из статьи про HRM, надо копать глубже. Цифры для HRM в точности такие же как в оригинальной статье, так что видимо брали из самой статьи, но с другой стороны код для HRM в репе TRM тоже лежит.

Общий результат, TRM достигает ещё более высоких цифр, чем HRM:
* 74.7%/87.4% (версия с attention/версия с MLP) против 55% для Sudoku
* 85.3% (версия с attention, версия с MLP даёт 0) против 74.5% для Maze
* 44.6%/29.6% (attn/MLP) против 40.3% для ARC-AGI-1
* 7.8%/2.4% (attn/MLP) против 5.0% для ARC-AGI-2

Интересно, что для судоку лучше работает версия с MLP, для остальных, требующих большего контекста, лучше версия с вниманием. Версия TRM с вниманием содержала 7M параметров, версия с MLP -- 5M для Sudoku и 19M для остальных задач. HRM всегда была 27M.

В приложении есть небольшая секция про идеи, которые не сработали. Среди таковых:
* Замена SwiGLU MLP на SwiGLU MoE -- генерализация сильно просела, но возможно на большем количестве данных было бы по-другому.
* пробовали проводить градиенты меньше, чем через всю рекурсию -- например, только через последние 4 шага -- никак не помогло, только всё усложнило.
* убирание ACT всё ухудшило
* общие веса для эмбеддингов входа и выхода всё ухудшили
* замена рекурсии на fixed-point iteration из TocrhDEQ замедлило и ухудшило. Возможно, это лишнее подтверждение, что сходимость к неподвижной точке не важна.

ARC-AGI проверили результаты для TRM (https://x.com/arcprize/status/1978872651180577060)
- ARC-AGI-1: 40%, $1.76/task
- ARC-AGI-2: 6.2%, $2.10/task
Здесь разброс между статьёй и измерениями самих ARC меньше, чем был у HRM.

TRM меньше, но рантайм жрёт больше (неудивительно при наличии рекурсии). Возможно, более хорошие результаты не от того, что модель умнее, а от того, что училась дольше? Не понял, насколько модели одинаковы по части затраченных FLOPS, было бы интересно посмотреть.

---

Короче, работа прикольная, эмпирический результат интересный. Нет чувства, что глубоко понятна теоретическая часть, почему именно эти рекурсии работают так хорошо. Также эта работа -- прикольный пример какой-то архитектурной изобретательности в противовес вечному скейлингу моделей (хотя отскейлить эту конкретную тоже интересно, как и распространить её на другие классы задач). Думаю, будут развития. Эксперименты не выглядят сильно дорогими, рантайм от <24 часов до примерно трёх дней максимум на 4*H100, если верить данным в репе.

Всем хороших рекурсий!

Читать полностью…
Subscribe to a channel