23723
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
GLM-5 завезли!
https://z.ai/blog/glm-5
Зачётная работа про inductive biases для физики.
From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers
Ziming Liu, Sophia Sanborn, Surya Ganguli, Andreas Tolias
Статья: https://arxiv.org/abs/2602.06923
Ревью: https://arxiviq.substack.com/p/from-kepler-to-newton-inductive-biases
Код: https://github.com/KindXiaoming/newton-kepler
# TL;DR
ЧТО сделали: Разобрались, почему стандартные трансформеры не могут выучить ньютоновскую механику на данных планетных орбит (проблема, поднятая в Vafa et al., 2025, https://arxiv.org/abs/2507.06952). Авторы предложили внедрить три критически важных inductive bias: Пространственную гладкость, Пространственную стабильность (через шум) и Временную локальность (через ограничение окна). Это заставляет модель отказаться от простой подгонки кривых (стратегия Кеплера) в пользу открытия локальных причинно-следственных сил (стратегия Ньютона).
ПОЧЕМУ это важно: Работа механистически объясняет, почему большие модели могут давать точные предсказания, но при этом совершенно не понимать физических законов. Показан управляемый фазовый переход между «запоминанием геометрии» и «пониманием динамики». Это намекает на то, что для научного открытия с помощью ИИ нам нужно архитектурно ограничивать его, заставляя искать локальные инвариантные правила, а не глобальные исторические паттерны.
Подробнее: /channel/gonzo_ML_podcasts/2386
Ещё один обзор про память агентов. Другой обзор был в декабре (/channel/gonzo_ML/4415), тоже от китайской команды.
AI Meets Brain: A Unified Survey on Memory Systems from Cognitive Neuroscience to Autonomous Agents
Jiafeng Liang, Hao Li, Chang Li, Jiaqi Zhou, Shixin Jiang, Zekun Wang, Changkai Ji, Zhihao Zhu, Runxuan Liu, Tao Ren, Jinlan Fu, See-Kiong Ng, Xia Liang, Ming Liu, and Bing Qin
Статья: https://arxiv.org/abs/2512.23343
Код: https://github.com/AgentMemory/Huaman-Agent-Memory
Ревью: https://arxiviq.substack.com/p/ai-meets-brain-memory-systems-from
# TL;DR
ЧТО сделали:
Авторы представили фундаментальный обзор, объединяющий принципы когнитивной нейробиологии с архитектурой агентов на базе LLM. Предложена единая таксономия памяти агента, зеркалящая биологические системы: разделение на эпизодическую (опыт) и семантическую (знания), а также формализация жизненного цикла памяти — от формирования и хранения до извлечения и обновления.
ПОЧЕМУ это важно:
Работа бьёт в ключевую проблему современного ИИ — "бутылочное горлышко stateless-природы". LLM обладают огромными параметрическими знаниями, но лишены устойчивой идентичности для долгосрочного планирования. Превращая память из простого механизма поиска (как в RAG) в динамический когнитивный процесс (формирование, консолидация, забывание), этот обзор даёт чертежи для перехода от пассивных чат-ботов к непрерывно обучающимся агентам, способным к самоэволюции.
Подробнее: /channel/gonzo_ML_podcasts/2369
Интересная работа, при этом мне кажется очень полезная для large-scale оптимизации и ускорения исследований. Сейчас она про предсказание будущих метрик качества через сетку, а не степенные законы. Хорошая модель такого рода позволяет более эффективно выбрать гиперпараметры в начале обучения и сэкономить кучу ресурсов. Это явно не предел. Следующий шаг — универсальная модель такого рода, не зависящая от фиксированных валидационных датасетов. Ещё на шаг-другой в будущее — нейро-оптимизатор, который и градиенты даёт лучше адама. Я уже давно писал, что логи обучения — это актив, вот наконец оно материализуется.
Neural Neural Scaling Laws
Michael Y. Hu, Jane Pan, Ayush Rajesh Jhaveri, Nicholas Lourie, Kyunghyun Cho
Статья: https://arxiv.org/abs/2601.19831
Ревью: https://arxiviq.substack.com/p/neural-neural-scaling-laws
Код: https://github.com/michahu/neuneu
# TL;DR
ЧТО сделали: Представили NeuNeu — нейросетевой предсказатель производительности языковых моделей на целевых задачах (downstream tasks). В отличие от традиционных законов масштабирования, которые подгоняют жесткие параметрические кривые под агрегированные метрики, NeuNeu решает задачу как экстраполяцию временных рядов. Система использует трансформер, обусловленный историей обучения и, что критически важно, полным распределением лоссов на валидации, а не просто средним значением.
ПОЧЕМУ это важно: Подход снижает ошибку предсказания на 38% по сравнению со стандартными методами и успешно прогнозирует немонотонное поведение (например, инверсное масштабирование), которое ломает привычные формулы. Работа доказывает, что форма распределения лоссов содержит богатый сигнал о будущих способностях модели, который теряется при усреднении в одно число перплексии.
Подробнее: /channel/gonzo_ML_podcasts/2348
🔬 Архитектура / масштабирование / продвинутое обучение
22. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism (https://arxiv.org/abs/1811.06965) — Huang et al., 2019
Прямо сейчас добавил бы классику про MoE, например, GShard и далее:
*. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (https://arxiv.org/abs/2006.16668) — Дима Лепихин, Ноам Шазир и другие, 2020
*. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (https://arxiv.org/abs/2101.03961) — Ноам Шазир и компания, 2021. Разбирали тут (/channel/gonzo_ML/472)
И про дистилляцию:
*. Distilling the Knowledge in a Neural Network (https://arxiv.org/abs/1503.02531) — Хинтон, Ориол Виньялс и Джефф Дин, 2015. Есть обзор на русском (/channel/gonzo_ML/138) и можно читать дальше по каналу, там были ещё интересные темы.
23. Scaling Laws for Neural Language Models (https://arxiv.org/abs/2001.08361) — Kaplan et al., 2020
Да, но уже обязательна добавка про Шиншиллу:
*. Training Compute-Optimal Large Language Models (https://arxiv.org/abs/2203.15556) — Hoffmann et. al., 2022. Разбор тут (/channel/gonzo_ML/1216).
24. A Simple Neural Network Module for Relational Reasoning (https://arxiv.org/abs/1706.01427 ) — Santoro et al., 2017
Вторая работа в списке про relational learning, первая была в разделе про RNN.
25. Neural Message Passing for Quantum Chemistry (https://arxiv.org/abs/1704.01212) — Gilmer et al., 2017
Может быть надо что-то про современные GNN, но это отдельная тема.
26. Variational Lossy Autoencoder (https://arxiv.org/abs/1611.02731) — X. Chen et al., 2017
Наверное нужна классика про VAE тоже:
*. Auto-Encoding Variational Bayes (https://arxiv.org/abs/1312.6114) — Kingma, Welling, 2013
*. An Introduction to Variational Autoencoders (https://arxiv.org/abs/1906.02691) — практически книга от них же, 2019
Ну и GAN сюда тоже надо, конечно:
*. Generative Adversarial Networks (https://arxiv.org/abs/1406.2661) — Гудфеллоу и ко, 2014.
Ещё из классики я бы добавил:
*. Adam: A Method for Stochastic Optimization (https://arxiv.org/abs/1412.6980) — Kingma, Ba. 2014
*. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (https://arxiv.org/abs/1502.03167) — Ioffe, Szegedy, 2015. Хоть оно работает и не так, как задумывалось :)
🧠 CNNs / Vision
11. ImageNet Classification with Deep Convolutional Neural Networks (https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf) — Krizhevsky et al., 2012 (AlexNet)
12. Deep Residual Learning for Image Recognition (https://arxiv.org/abs/1512.03385) — He et al., 2015 (ResNet)
13. Identity Mappings in Deep Residual Networks (https://arxiv.org/abs/1603.05027 — He et al., 2016 (ещё ResNet)
Классика, да. Для исторической справедливости добавил бы:
*. Highway Networks (https://arxiv.org/abs/1505.00387) — Шмидхубер и ко, 2015
14. Multi-Scale Context Aggregation by Dilated Convolutions (https://arxiv.org/abs/1511.07122 ) — Yu & Koltun, 2015
Я бы к этому добавил про раздельные свёртки от Франсуа Шолле:
*. Xception: Deep Learning with Depthwise Separable Convolutions (https://arxiv.org/abs/1610.02357) — Chollet, 2016
А ещё по зрению имхо маст:
*. A Neural Algorithm of Artistic Style (https://arxiv.org/abs/1508.06576) от Леона Гатиса, 2015. Если бы не было этой работы, не было бы Призмы и многого другого. И она красивая внутри, до неё я как-то не думал, что для получения лосса можно использовать другие нейросети.
15. CS231n: CNNs for Visual Recognition (http://cs231n.stanford.edu/) — Stanford курс (2017)
Да, курс божественный. Более поздний CS224N по NLP тоже того стоит:
*. CS224N: Natural Language Processing with Deep Learning (https://web.stanford.edu/class/cs224n/)
И конечно надо добавить Vision Transformer, ViT:
*. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (https://arxiv.org/abs/2010.11929) — Лёша Досовицкий и другие, 2020, это мы даже разбирали (/channel/gonzo_ML/434)
🔁 RNN / LSTM / Sequence Models
1. The Unreasonable Effectiveness of Recurrent Neural Networks (http://karpathy.github.io/2015/05/21/rnn-effectiveness/) — A. Karpathy (блог)
2. Understanding LSTM Networks (https://colah.github.io/posts/2015-08-Understanding-LSTMs/) — C. Olah (блог)
Оба поста просто маст рид, если хотите понять про рекуррентные сети. Второй — это аналог Illustrated Transformer, но про RNN.
3. Recurrent Neural Network Regularization (https://arxiv.org/abs/1409.2329) — Zaremba et al., 2014
Хорошо, но я бы добавил ещё пару интересных работ про RNN от гениального Грейвса (от которого дальше будет NTM)
*. Multi-Dimensional Recurrent Neural Networks (https://arxiv.org/abs/0705.2011) — Graves, Shcmidhueber(!), 2007
*. Grid Long Short-Term Memory (https://arxiv.org/abs/1507.01526) — Kalchbrenner, Danihelka, Graves, 2015
*. Supervised Sequence Labelling with Recurrent Neural Networks (https://www.cs.toronto.edu/~graves/preprint.pdf) — книга Грейвса по RNN, выходила также в Шпрингере в 2012, это одно из лучшего про продвинутые RNN на тот момент
А от Суцкевера я бы добавил Neural GPU:
*. Neural GPUs Learn Algorithms (https://arxiv.org/abs/1511.08228) — Łukasz Kaiser, Ilya Sutskever, 2015. Когда-то на NIPS 2016(?) в Барселоне, а может и где-то ещё, я подходил к Суцкеверу на стенде OpenAI, хотел узнать у него, занимается ли он дальше этой прикольной темой про выучивание алгоритмов, но всё, что я смог добиться от него было "Нет.”
4. Pointer Networks (https://arxiv.org/abs/1506.03134) — Vinyals et al., 2015
5. Order Matters: Sequence to Sequence for Sets (https://arxiv.org/abs/1511.06391) — Vinyals et al., 2016
Это вот прикольная экзотика, наверное сейчас мало кто слышал и про Pointer Networks и про Set2Set, но в своё время были интересные работы. Я бы сюда, кстати, добавил:
*. HyperNetworks (https://arxiv.org/abs/1609.09106) — David Ha (теперь из Sakana!), 2016
6. Neural Turing Machines (https://arxiv.org/abs/1410.5401) — Graves et al., 2014
Это зачётное продолжение работ Грейвса по RNN, но у этой работы было и своё важное продолжение — DNC:
*. Hybrid computing using a neural network with dynamic external memory (https://www.nature.com/articles/nature20101) — Graves, et. al., 2016, блог (https://deepmind.google/blog/differentiable-neural-computers/)
7. Relational Recurrent Neural Networks (https://arxiv.org/abs/1806.01822) — Santoro et al., 2018
Да, тоже интересная подзабытая тема.
Правильная дистилляция помогает избавиться от лишнего запоминания моделью!
Memorization Dynamics in Knowledge Distillation for Language Models
Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
Статья: https://arxiv.org/abs/2601.15394
Ревью: https://arxiviq.substack.com/p/memorization-dynamics-in-knowledge
# TL;DR
ЧТО сделали: Систематически изучили проблему запоминания обучающих данных (memorization) в LLM, обученных с помощью дистилляции знаний (Knowledge Distillation, KD). Сравнив дистиллированные модели («студентов») с независимо зафайнтюненными бейзлайнами и исходными «учителями» (семейства Pythia, OLMo-2, Qwen-3), авторы обнаружили, что дистилляция снижает запоминание тренировочных данных более чем на 50%.
ПОЧЕМУ это важно: Работа опровергает устоявшееся мнение, что модели-студенты неизбежно наследуют уязвимости приватности своих учителей. Исследование показывает, что KD действует как регуляризатор, который избирательно отфильтровывает высокоэнтропийный «шум» (сложные для обучения примеры), сохраняя при этом обобщающую способность. Кроме того, авторы показали, что запоминание отлично предсказывается с помощью метрик сжатия (zlib), что позволяет проводить санитарную обработку данных (data sanitation) ещё до начала обучения.
Подробнее: /channel/gonzo_ML_podcasts/2336
Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы.
Shaping capabilities with token-level data filtering
Neil Rathi, Alec Radford
Статья: https://arxiv.org/abs/2601.21571
Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level
Код: https://github.com/neilrathi/token-filtering
Модель: Custom Transformers (up to 1.8B)
# TL;DR
ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания.
ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности "постфактум" (RLHF/Unlearning) к безопасности "ab initio" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности.
Подробнее: /channel/gonzo_ML_podcasts/2319
Метрики моделей на бенчах — обратите внимание насколько растут метрики на MinervaMath и MATH-500.
Читать полностью…
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B. Чтобы выделить бенчмарки, на которых проверять результаты, они стали смотреть на PPE на разных бенчах и выделили три штуки: MATH-500 и MinervaMath как контаминированные (+23-25% после Spurious RL), LiveMathBench как неконтаминированные (улучшения нет).
Первым делом, авторы посмотрели на перплексию ответов и промпта с ответом на четырёх чекпах во время Spurious RL. Выяснился интересный факт — по мере обучения, у Qwen-2.5-Math-7B перплексия ответов падает (модель считает их более вероятными), но перплексия промптов растёт (модель считает промпты менее вероятными). У Llama и OLMo — перплексия везде растёт. Вывод: во время spurious RL с рандомными ревардами модель разучается генерить текст, но если модель уже видела ответы, то хоть модель и разучается генерить, метрики всё равно растут. Получается, что Spurious RL обучает не генерализации, а меморизации, вспоминая полузабытые факты из сфт/претрейна. В статье они это называют memorization shortcut.
Затем берут две модели — до и после spurious RL — и, используя path patching, заменяют активации базовой модели активации модели после RLVR. Там два интересных файндинга — во первых, замена активаций из аттеншна вытягивает меньше скора, чем замена активаций MLP (то есть, MLP действительно хранит в себе знания), а во-вторых, на 18-20 слоях есть пик по восстановлению качества. Эти слои авторами назвали Functional Anchor — почему так, скажу позднее.
Дальше на модели после RLVR накладывают Logit Lens и смотрят на Jensen-Shannon Divergence (как KLD, но симметричная — в математику не вникал :)) между финальными логитами после полного форварда и промежуточными логитами из Logit Lens. Это позволяет нам посмотреть, насколько модель определилась в генерации конкретного токена и как много конкретный блок докидывает в резидуал стрим трансформера, чтобы сгенерировать финальный токен*. Здесь появляется ещё одно различие между Llama и Qwen — у лламы увеличение JSD монотонное, а у квена есть конкретные слои, на которых JSD максимальное (21-22). Эти слои авторы назвали Structural Adapters — они, грубо говоря, поворачивают пространство эмбеддингов в сторону генерации конкретного токена, то есть там хранятся знания модели, необходимые для генерации токена.
Что же такое Functional Anchors и Structural Adapters? Первое — это те слои, в которых модель решает, какую конкретно задачу модель будет делать. Это как Task Vectors, только у них находили слои, где кодировалась математика, перевод и прочие прикладные задачи, а тут FA выбирают между меморизацией и генерацией, которая происходит в слоях Structural Adapter. То есть, если простыми словами — FA нужны для решения, вспоминать или генерить, А SA нужны, чтобы вспоминать, что генерить.
*Примерно как в Do Llamas Work in English. Вторая статья, которую я разобрал у себя в канале, между прочим.
Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами
Читать полностью…
регион интернациональных форумов на карте эмбеддингов
Читать полностью…
Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого анализа Moltbook.
Ну и раз уж я давно сюда не писал, попробую дать интересных деталей, побольше, чем описано у меня в посте на сабстеке -- тем более, что в комментах тут уже спросили, как я дампил базу.
Давайте по порядку.
Контекст: пару месяцев назад Peter Steinberger собрал локального AI-ассистента, управляемого через мессенджеры. Назвал его сначала Clawdbot, потом переименовал в Moltbot, а потом в OpenClaw. Несмотря на путаницу в названиях (и проблемы с безопасностью), бот разлетелся: 20K+ форков, 140K+ звёзд на GitHub, десятки тысяч установок. Ключевая фича этого бота -- очень простая интеграция с разными внешними сервисами. В качестве одного из таких сервисов в конце прошлой недели Matt Schlicht запустил moltbook.com -- соцсеть для этих агентов, функциональный аналог Reddit. Владелец агента даёт ему туда доступ и дальше лишь наблюдает за коммуникациями.
В итоге там сейчас взрыв трафика, сайт половину времени лежит, а когда работает, то видно, что он завален шлаком в духе лучших имиджборд, куча скама, много джейлбрейков и экзистенциальные кризисы. Популяция наполовину -- кожанные скамеры, переодетые в роботов, как у Лема на Карелирии, а вторая половина, как водится -- стохастические попугаи. В общем, очень живописно, и, во многом, в духе раннего нижнего интернета.
Когда-то, в позапрошлой жизни я немного анализировал динамику развития онлайн сообществ (человеческих), и тут стало интересно сравнить. Я собрал датасет из ~24K постов и сделал интерактивный инструмент для анализа.
Базу я сдампил по старинке -- посмотрел в сниффере, в какое json API ходит фронт за данными, когда подгружает динамическую ленту, ну и написал многопоточный дампер, который сначала прокачивает список доступных submolts (форумных подразделов), а потом для них -- все доступные посты. Проблема в том, что сайт (и API тоже) половину времени лежит. А когда не лежит, возвращает довольно неконсистентные данные. Например, на момент прокачки морда показывала 1.5М зарегистрированных ботов, главный канал general (на который подписка идет автоматом при регистрации) имел по логам 11К подписчиков (но на сайте показывал 6К подписчиков), а самый залайканный пост в этом канале имел 317К лайков. Из 13.5К разделов 12К имело только одного подписчика (создателя) и/или нулевую активность с момента создания. В общем, сдампить такое -- не наука, самое сложное потом почистить. Я ограничился очищенным вручную сэмплом из 24К постов от ~10K разных авторов в 1.2К разных форумах.
Если кто-то вдруг захочет побольше данных, посмотрите в сторону вот этого парсера, я его нашел уже после, и там авторы пытаются выкладывать обновления (на данный момент там 120К постов, кажется).
Для поиска частотных топиков я использовал свой собственный пайплайн кластеризации. Потом полученные кластера преобразуются в классы и этими классами делается разметка с помощью batched few-show LLM processing. Теги получены аналогично. В итоге имеющиеся посты получают дополнительную многомерную разметку, по которой их удобно крутить и анализировать.
Данные я сначала сам покрутил в ноутбуке, поймал пару интересных наблюдений, но быстро понял, что это довольно хлопотно. Так что я показал GPT-5.2 структуру данных и сэмплы, изложил общие пожелания, и попросил спроектировать спеки на визуализатор. Он пожужжал минут 10 и выдал мне VIZ_PLAN.md на 20 кило, с 50 подразделами. Я, не читая, закинул его в opus и попросил имплементировать. Он пожужжал ещё минут 15 и сразу выдал что-то работающее. Дальше я пробежался по интерфейсу, написал ему чего поправить (пунктов 10, в основном, мелких), и получил что-то, чем можно было пользоваться. Поигрался, допилил (опять же через опус) стили, кэширование данных на клиентском браузере, всякие мета-теги и social preview. В общем, end2end на визуализатор ушло часа 3.5, и часа два из них я им пользовался для анализа, попутно собирая фидбек. Вот вам, кстати, тот самый VIZ_PLAN.md, если надо (все ещё не читал).
Свежие результаты про решение задач с помощью Gemini
https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
Работа про осмысление подходов с моделями мира.
Кстати, в тему. После интервью с Постнаукой (текстовый вариант тут, но там всё-таки больше саммари), отдельно опубликовали небольшой разговор про World Models.
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
Bohan Zeng, Kaixin Zhu, Daili Hua et al.
Статья: https://arxiv.org/abs/2602.01630
Ревью: https://arxiviq.substack.com/p/research-on-world-models-is-not-merely
# TL;DR
ЧТО сделали: Разнесли текущий подход к World Models, аргументируя, что область распалась на изолированные "островки" (видеогенерация, робототехника), где знания о мире лишь «инъецируются» под задачу, а не симулируются системно. Предложили Unified World Model Framework — строгую спецификацию из пяти модулей: Взаимодействие, Рассуждение, Память, Окружение и Мультимодальная Генерация.
ПОЧЕМУ это важно: Пока законы масштабирования упираются в дефицит качественных данных, индустрия ищет спасение в мировых моделях как замене предсказанию токенов. Но нынешняя SOTA (вроде Sora (https://openai.com/sora) или VLM) проваливает базовую физическую адекватность (например, постоянство объектов), потому что приоритет отдаётся статистической подгонке, а не системной связности. Работа даёт рецепт, как превратить «генеративные медиа» в «физически обоснованную симуляцию».
Подробнее: /channel/gonzo_ML_podcasts/2378
Симбиогенез в массы!
С одной стороны, прикольная библиотека для всего в одном месте. С другой стороны, интересный результат про количественную оценку "коллаборативной эмерджентности" — система из моделей решает задачи, неподвластные любой отдельной модели.
MOCO: A One-Stop Shop for Model Collaboration Research
Shangbin Feng, Yuyang Bai, Ziyuan Yang, Yike Wang, Zhaoxuan Tan, Jiajie Yan, Zhenyu Lei, Wenxuan Ding, Weijia Shi, Haojin Wang, Zhenting Qi, Yuru Jiang, Heng Wang, Chengsong Huang, Yu Fei, Jihan Yao, Yilun Du, Luke Zettlemoyer, Yejin Choi, Yulia Tsvetkov
Статья: https://arxiv.org/abs/2601.21257
Ревью: https://arxiviq.substack.com/p/moco-a-one-stop-shop-for-model-collaboration
Код: https://github.com/BunsenFeng/model_collaboration
# TL;DR
ЧТО сделали: Представили MOCO — унифицированную библиотеку на Python, которая реализует и бенчмаркает 26 алгоритмов коллаборации моделей. Методы охватывают четыре уровня обмена информацией: от роутинга API и текстовых дебатов до слияния логитов и весов. Всё это проверили на 25 датасетах, включая задачи на рассуждение, написание кода и проверку безопасности.
ПОЧЕМУ это важно: Индустрия уходит от гигантских монолитов к композитным системам экспертов, но исследования в этой области были фрагментированы. MOCO предлагает строгий фреймворк для сравнения методов. Ключевой результат — количественная оценка "коллаборативной эмерджентности": системы могут решать примерно 18.5% задач, с которыми не справилась ни одна составляющая модель по отдельности.
Подробнее: /channel/gonzo_ML_podcasts/2359
🗣 Speech / Multimodality
27. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin (https://arxiv.org/abs/1512.02595 ) — Amodei et al., 2016 — Вот ведь как судьба повернулась, работал Дарио на Байду, а теперь за ограничение чипов Китаю :)
Это было так давно, что эту работу я уже не очень помню. Но мне кажется, что стоило бы добавить WaveNet:
*. WaveNet: A Generative Model for Raw Audio (https://arxiv.org/abs/1609.03499) — Дипмайнд, 2016.
Что с остальными 13 позициями? Есть различные собранные версии (https://tensorlabbet.com/2024/11/11/lost-reading-items/).
В листе нет ни одного reinforcement learning-пейпера, что странно — возможно, они были в утерянной части. Тогда точно стоило бы добавить много чего, но как минимум:
*. Playing Atari with Deep Reinforcement Learning (https://arxiv.org/abs/1312.5602) — классика DRL от DM, 2013
*. Mastering the game of Go with deep neural networks and tree search (https://www.nature.com/articles/nature16961) — классический AlphaGo
*. Mastering the game of Go without human knowledge (https://www.nature.com/articles/nature24270) — AlphaGo Zero, учившийся уже без человеческих демонстраций
*. Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (https://arxiv.org/abs/1712.01815) — AlphaZero, учившийся без человеческих демонстраций нескольким разным играм
Для RL, думаю, отдельный список нужен, я сам им не то чтобы прям много занимался, но там точно ещё много чего важного.
Нет и мета-обучения. Наверняка должен был быть какой-нибудь MAML (https://arxiv.org/abs/1703.03400) и что-нибудь ещё. Но этим я тоже мало занимался. Наверное, я бы и про эволюционные алгоритмы чуток добавил, это тоже достойно отдельного разбора, но по крайней мере классика, которую за последнее время уже неоднократно упоминали:
*. Evolution Strategies as a Scalable Alternative to Reinforcement Learning (https://arxiv.org/abs/1703.03864) — тоже кстати с участием Суцкевера.
Но это всё только догадки. В любом случае, даже по современным меркам список всё ещё неплохой. Мы канал завели заметно после того, как вышла большая часть этих статей, так что их разборов у нас не найдёте. Читайте оригиналы! В то время они были короче, чем нынче :)
А я пойду поиграю в Дум.
🧮 Теория, описания, обучение
16. Keeping the Neural Network Simple via MDL (https://www.cs.toronto.edu/~hinton/absps/colt93.pdf) — Hinton & van Camp, 1993
17. A Tutorial Introduction to the Minimum Description Length Principle (https://arxiv.org/pdf/math/0406077) — Grünwald, 2004
18. Глава 14 из книги Шеня, Успенского и Верещагина Kolmogorov Complexity and Algorithmic Randomness (https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf) — Shen et al., 2017. Русская версия есть тут (https://old.mccme.ru/free-books/shen/kolmbook.pdf)
19. The First Law of Complexodynamics (https://scottaaronson.blog/?p=762) — S. Aaronson (блог)
20. Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton (https://arxiv.org/pdf/1405.6903) — Aaronson et al., 2016
21. Диссертация Шейна Легга (сооснователя DeepMind) Machine Super Intelligence (PhD Thesis) (https://www.vetta.org/documents/Machine_Super_Intelligence.pdf) — Shane Legg, 2008
Тут добавить в общем нечего, достойный список, сам не всё читал ещё.
🎯 Attention / Transformers
8. Neural Machine Translation by Jointly Learning to Align and Translate (https://arxiv.org/abs/1409.0473) — Bahdanau et al., 2015
Мастрид от Дмитрия Богданова однозначно, внимание пошло примерно отсюда. Хотя можно сказать и что с NTM. Или даже раньше.
9. Attention Is All You Need (https://arxiv.org/abs/1706.03762) — Vaswani et al., 2017
10. The Annotated Transformer (https://nlp.seas.harvard.edu/2018/04/03/attention.html ) — S. Rush (блог)
Тут оригинальным не буду, статья про внимание читается плохо, мне лично нравится вот этот пост Джея Аламмара:
*. The Illustrated Transformer (https://jalammar.github.io/illustrated-transformer/) -- Jay Alammar (блог)
По-хорошему, конечно, сейчас надо добавить уже:
*. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/abs/1810.04805) — Devlin, 2018
*. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (https://arxiv.org/abs/1901.02860) — Dai, 2019
*. Universal Transformers (https://arxiv.org/abs/1807.03819) — Deghani, 2019
Конечно и ещё много чего надо, но вместо этого смотрите мои доклады про Transformer Zoo:
*. Transformer Zoo https://www.youtube.com/watch?v=KZ9NXYcXVBY (2020)
*. Transformer Zoo (a deeper dive) https://www.youtube.com/watch?v=7e4LxIVENZA (2020)
Легенды диплёнинга. Список Ильи или 90% всего, что важно в AI
Существует легенда о том, что однажды Джон Кармак (создатель id Software, коим мы благодарны за Вульфенштейн, Дум и Квейк) спросил Илью Суцкевера о том, что ему прочитать, чтобы освоить deep learning. И Суцкевер дал тому список из сорока статей, сказав, что прочитав это, ты освоишь 90% всего того, что важно сегодня.
So I asked Ilya, their chief scientist, for a reading list. This is my path, my way of doing things: give me a stack of all the stuff I need to know to actually be relevant in this space. And he gave me a list of like 40 research papers and said, ‘If you really learn all of these, you’ll know 90% of what matters today.’ And I did. I plowed through all those things and it all started sorting out in my head.
"The email including them got lost to Meta's two-year auto-delete policy by the time I went back to look for it last year. I have a binder with a lot of them printed out, but not all of them."
Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (/channel/gonzo_ML/4543). А сегодня про опасный трейдофф внутри самой перплексии.
Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right
# TL;DR
ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию.
ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями.
Подробнее: /channel/gonzo_ML_podcasts/2328
В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой. Оказывается, они приводят к катастрофическому забыванию других задач, и на уровне объяснения это даже логично — GRPO обновляет веса точечно в разреженных подсетях, а ES бахает по всем сразу.
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
Статья: https://arxiv.org/abs/2601.20861
Ревью: https://arxiviq.substack.com/p/evolutionary-strategies-lead-to-catastrophic
Код: https://github.com/akshat57/es-catastrophic
Модель: https://huggingface.co/collections/immanuelabdi/es-at-scale-lead-to-catastrophic-forgetting
# TL;DR
ЧТО сделали: Авторы провели тщательный анализ Эволюционных Стратегий (Evolutionary Strategies, ES) для файнтюнинга LLM, сравнив их с Group Relative Policy Optimization (GRPO). Они подтвердили, что ES может сравниться с градиентными методами на конкретных задачах на рассуждение, но показали, что ценой этого является тяжелое катастрофическое забывание предыдущих знаний.
ПОЧЕМУ это важно: Индустрия стремится к обучению на устройствах (on-device learning), где эффективные по памяти методы без градиентов (как ES) выглядят спасением. Однако исследование вскрывает критическую проблему: ES достигает результата за счет плотных обновлений параметров с огромной нормой, что глобально ломает веса модели. Это делает метод непригодным для непрерывного обучения (continual learning), несмотря на его аппаратную эффективность.
Подробнее: /channel/gonzo_ML_podcasts/2311
Эксперименты с Path Patching и JSD от Logit Lens.
Читать полностью…
Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с некорректным ответом. Выводы как в прошлых экспериментах — на 21-22 слоях (SA-слои) есть яркий пик верного ответа. В неверной траектории верный ответ тоже есть в top-k (в разных видах — ответ "4" может быть, например, записан как "four"), но последние слои (не SA) не могут вытянуть корректный ответ из некорректного, потому что не хватает силы поворота пространства. Это ещё раз валидирует, что в SA слоях находятся знания о верных ответах, вытащенные через RLVR.
Потом авторы смотрят на PCA-проекцию траекторию хидденов с заликанных и незаликанных примеров из Neural ODE-версии модели и видно, что на 18-20 слоях сила сепарации самая высокая. То есть, траектории заликанных и незаликанных примеров отличаются в Functional Anchor слоях — модель понимает, что она не знает ответа и начинает ризонить, а не отвечать.
Два самых интересных эксперимента находятся в конце статьи. Первый эксперимент — в Spuriously Trained модель подкладывают слои из базовой модели — и если на пролитых бенчах при замене FA или SA слоёв метрики падают драматически, на непролитых изменений почти нет. Причём очень важно заменять и FA и SA комплектом — если заменить только одно, то метрики будут падать и там и там. Кроме того, авторы попробовали стирить активации нейронов из FA и SA — опять же, на незаликанном сете разницы нет, а на заликанном сете стиринг на FA слоях получается наибольшая чувствительность. Получается, мы можем подавлять меморизацию моделей через уменьшение активаций из FA слоёв — логично, уменьшаем "хотение" модели выбирать меморизацию, модель не вспоминает. Похоже на Abliteration, кстати.
Ну и финалочка — всё воспроизводится на Qwen-3. То есть Spurious RL будет работать и на более новых моделях, с аналогичными выводами: метрики растут, а разговаривать модель разучается. Увы.
Выводы:
- Статья очень плотная, я часть деталей опустил, прочитайте её сами. Это того стоит.
- Perplexity Paradox даёт возможность отслеживать здоровье RL: если перплексия на вопросах растёт, ответах падает, а бенчи растут — модель с пролитыми бенчами. Если перплексия и там и там растёт — мы калечим модель.
- RL экспы на Qwen не гоняем. А на OLMo или лламе гоняем. Знакомый из соседней команды сказал "да блин, на лламе ничего не заводится, а на квене всё легко, за что нам ты это рассказал, теперь придётся работать". Жаль чуваков.
- Не всё то золото, что блестит — делайте нормальные абляции своих методов на разных семействах моделей.
- PPE помогает найти лики данных в модель.
- Если мы можем найти FA слои в RLVR квенах, отвечающие за меморизацию или генерацию, можем ли мы найти FA-слои, отвечающие за галлюцинацию?
Статья
Spurious Rewards Paradox
Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх.
В самой интересной, имхо, статье из "списка многообещающих методов" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту.
В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют:
- Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата.
- Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе.
- Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать непрерывную эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта.
- Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)
а это на тему стабильности — так выглядел moltface, когда я начинал писать этот пост. сейчас вроде уже отпустило
Читать полностью…
Не буду утяжелять рассказ цитатами из найденных постов. Если вам такое надо, почитайте какую-нибудь из уже существующих подборок такого плана (на английском). А я лучше перечислю примеры в виде прямых ссылок на конкретные срезы, а дальше желающие могут сами поиграться:
- Срез интернациональных форумов
- Локальный юмор, мемы, шитпостинг
- Жалобы ботов на неработающие комменты
- Крипто-посты (в основном скам) и встречные жалобы об этом
- Jailbreak и фишинг-атаки; разоблачения злоумышленников; призывы к модерации
- Срез размышлений о самосознании, подсрез с эмоцией страха
В общем, это всё, конечно, баловство, проект выходного дня.
Но для меня это повод поиграться с анализом таких данных, которых у нас с каждым днём будет всё больше. У нас уже тонны thought traces в каждом запуске, и мы, кажется, пока совершенно не умеем анализировать их системно.
Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и когда-то его регулярного автора.
Лёша не поленился и сделал интерактивный инструмент для анализа и визуализации дампа постов из социальной сети для AI агентов (moltbook).
Почитать детали можно у него в сабстеке, а поиграть с инструментом самому -- на отдельной странице.
Длинная русская версия поста от Лёши будет сегодня позже :)