gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Ай молодец, хорошо нагаллюцинировал!

"Работа даёт теоретический пинок любителям «инженерного шаманизма». Качество сжатия (измеряемое через MI) — главный рычаг производительности.

Для строителей RAG и агентов это сигнал: хватит мучить промптами финальную модель. Оптимизируйте ingestion (первичную обработку) на краю (edge). Мощные компрессоры на ноутбуках и телефонах, отправляющие в облако концентрированные «векторы мыслей» (текстовые саммари), — это путь к приватным и дешевым агентам нового поколения."


An Information Theoretic Perspective on Agentic System Design
Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
Статья: https://arxiv.org/abs/2512.21720
Ревью: https://arxiviq.substack.com/p/an-information-theoretic-perspective

# TL;DR

ЧТО сделали: Авторы формализовали дизайн многошаговых агентных систем (типа Deep Research) через теорию информации, представив этап суммаризации как передачу сигнала через шумный канал. Предложили способ оценки взаимной информации (Mutual Information, MI), чтобы понять, насколько хорошо модель-«компрессор» сохраняет контекст для модели-«предиктора».

ПОЧЕМУ это важно: Исследование ломает стереотип «всё решат гигантские модели на последнем шаге». Оказывается, выгоднее вкладываться в компрессор: 7B-модель для сжатия в паре с небольшим предиктором часто бьёт огромные end-to-end модели. Практически это значит, что локальная 3B-модель на ноутбуке может сжимать данные, сохраняя 99% точности SOTA-пайплайнов, но срезая косты API на 74%.

Подробнее: /channel/gonzo_ML_podcasts/1959

Читать полностью…

gonzo-обзоры ML статей

⚡️ Интересное железо

Будут интересные применения non-conventional hardware типа термодинамических компьютеров. Будет любопытная и разнообразная жизнь за пределами экосистемы NVIDIA. Может даже AMD наконец уже станет реальной альтернативой, хотя это уже совсем wishful thinking. За десяток лет так и не шмогли.

⚛️ Квантовые компьютеры

Продолжат активно развиваться. Для нейросетей пока не помогут, но помогут в отдельных специфических задачах. Вовсю пора изучать. Я уже начал/продолжил. В сочетании с тем, что по прошествии ста лет с момента возникновения квантовой механики мы знаем как оно работает на уровне математики, но до сих пор не знаем, почему именно оно всё работает именно так (по крайней мере пользуясь Копенгагенской интерпретацией), это особенно интересно.

🔮 Кишки и латентный мир

В архитектуре будет большой движ по части латентных рассуждений (в широком смысле). Будет больше моделей, явным образом работающих с латентным пространством, что выльется в улучшенную токенизацию или вообще уход от неё, более вычислительно эффективные решения и интересные мультимодальные решения. Возможно появятся какие-то новые забористые типы слоёв, не удивлюсь если многоуровневые и иерархические, и в сочетании с рекуррентностью.

📈 Оптимизация

Не удивлюсь, если появится новый хороший градиентный алгоритм оптимизации. Мне кажется, там назревает прорыв в понимании. За пределами чисто градиентных методов ожидаю большего зоопарка и скрещивания с эволюцией. Также ожидаю развития темы про Titans/Nested Learning.

👽 Aliens

Инопланетяне посмотрят на всю происходящую на Земле хероту и контактировать не станут. Ну нах.

———

Вот такой мой список. Через год посмотрим, что сбылось, а что осталось wishful thinking. Если у вас есть свои ставки на 2026 — делитесь, интересно сравнить прогнозы.

Читать полностью…

gonzo-обзоры ML статей

Развитие темы про Large Concept Model (LCM) и Byte Latent Transformer (BLT), в каком-то смысле микс обеих. В LCM уходили в работу с концептами предложений через предобученные SONAR энкодер и декодер, в BLT динамически объединяли символы в латентные токены/патчи на основе энтропии через отдельную модель. Здесь по сути BLT без отдельной модели и end-to-end, определяющий границы концептов/патчей через косинусное несходство между проекциями соседних токенов.

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
Xingwei Qu, Shaowen Wang, Zihao Huang, Ge Zhang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Wenhao Huang
Статья: https://arxiv.org/abs/2512.24617
Ревью: https://arxiviq.substack.com/p/dynamic-large-concept-models-latent

# TL;DR

ЧТО сделали: Представили архитектуру Dynamic Large Concept Models (DLCM). Она ломает привычную парадигму равномерных вычислений LLM, где каждый токен обрабатывается с одинаковой глубиной. Вместо этого DLCM динамически группирует токены в "концепты" переменной длины на основе выученных семантических границ. Эти концепты обрабатываются мощным "думающим" бэкбоном в сжатом латентном пространстве, а затем декодируются обратно в токены.

ПОЧЕМУ это важно: Это структурный сдвиг от предсказания следующего токена к "рассуждению следующим концептом". Отвязав гранулярность вычислений от количества поверхностных токенов, модель лучше справляется с задачами на рассуждение (вроде ARC и PIQA) при тех же затратах FLOPs на инференс. Вдобавок авторы предложили Decoupled µP и scaling law с учётом сжатия для стабилизации обучения таких гетерогенных архитектур.

Подробнее: /channel/gonzo_ML_podcasts/1941

Читать полностью…

gonzo-обзоры ML статей

Да, чуть картинку не забыл!

Читать полностью…

gonzo-обзоры ML статей

DeepSeek, конечно, стал офигенным прорывом, особенно R1, пожалуй. После него стало понятно, что гэп между американскими фронтирными компаниями и остальными, возможно, не такой уж и большой. Знатно некоторые товарищи забегали. Благодаря этой работе (а не оригинальной DeepSeekMath из 2024), RL алгоритм GRPO (Group Relative Policy Optimization) стал чуть ли не стандартом, везде теперь используется (хоть после него уже и много чего ещё появилось).

Qwen и до DeepSeek был очень хорош, и продолжает быть таковым. Их модели, в отличие от DeepSeek по крайней мере можно запускать на железе разумного размера, без кластеров H100. Часто являются дефолтными моделями для старта, как выясняется даже для американских стартапов.

Есть и много других интересных моделей: Kimi K2, MiniMax, GLM, Hunyuan, теперь ещё и IQuest-Coder. Что тут ещё сказать, молодцы.

5. JEPA + World Models

Тему про модели мира я люблю, писал про неё и в прошлый раз, и мне кажется за год здесь много всего произошло, количество понемногу переходит в качество.

Во-первых, появилось 100500 вариантов и развитий JEPA: V-JEPA 2, VL-JEPA, LLM-JEPA, LeJEPA, JEPA as a Neural Tokenizer, а также близкая к JEPA NEPA.

Во-вторых, сам Лекун ушёл делать свой стартап про World Models.

А ещё вышел Dreamer 4, появилась гугловая Genie 3 (после первой версии всё без статей 🙁), и в целом движ идёт.

6. TPU rises, NVIDIA defends

NVIDIA — самая дорогая компания мира и по-прежнему лидер, но почему-то неожиданно оказалось, что топовые модели можно обучать и без её железа. Пока лучший пример — Гугл, обучивший очень хорошую Gemini 3 (и все предыдущие Gemini) на своём TPU. TPU продолжает развиваться, есть какие-то разговоры про поставку железа за пределы Гугла (в Anthropic), и было бы интересно, если бы эта альтернатива появилась на открытом рынке. NVIDIA в свою очередь разбирается с конкурентами, вот прямо перед новым годом как бы съела Groq. Китайцы тем временем усиленно пытаются перейти на своё и на государственном уровне пытаются отвязаться от Нвидии — какая-никакая своя экосистема у них есть.

Про другие ASIC сказать труднее. Ну вот Cerebras вроде как жив и продолжает производить свои супер-вафли, которые также можно поюзать в облаке. GraphCore как компания жив, но что-то от них ничего особо интересного не слышно, хотя архитектура их чипов была любопытная. Знаю, что используют внутри JAX, подарил свою книжку их Engineering Fellow. SambaNova вроде тоже что-то делает, и (я пропустил) оказывается Intel изъявил желание её купить. За интелом правда солидный трек убийства разных купленных компаний, с одной Nervana они годами кормили нас завтраками про новые чипы, которые так и не вышли.

7. AGI/ASI hype & 2027 scenario delayed

Сценарий появления сверхчеловеческого ИИ под названием AI 2027 как оказалось откладывается.

Но ничего, авторы выпустили обновлённую версию под названием The AI Futures Model с оценкой на май 2031 про появление Automatic Coder, который может автоматизировать создание ASI, и июль 2034, когда разница между ASI и лучшим человеком будет в два раза выше, чем между лучшими людьми и медианными профессионалами, и так по всем когнитивным задачам.

Чуть подробнее по-русски тут, а вообще читайте сайт, там красиво всё сделали, навигация особенно прикольная.

AGI/ASI хайп, кажется подсдулся. Некоторые товарищи слишком оголтело всё обещали и ничего не заделиверили, так что одни теперь говорят, что термин AGI мол не очень полезный нынче; другие заявляют, что термин overhyped (сложно было не согласиться); ну и так далее.

Но рано или поздно всё равно всё будет.

8. AI+Science

В этом году было много работ про агентов для науки. AI Scientist-v2 от Sakana создал статью, которая прошла пир ревью на воркшоп ICLR. Было много других работ про агентов для науки, где понемножку отдельные шаги исследований мы начинаем покрывать. Например, (это или это). Такого будет больше.

Про математику отдельно писать не буду, но здесь тоже большой прорыв, сразу несколько компаний показали результаты сопоставимые с золотой медалью на международной математической олимпиаде.

Читать полностью…

gonzo-обзоры ML статей

DeepSeek выкатили под новый год работу про более стабильные hyper-connections (HC, не путать с hyper networks). HC — это расширенный (многоканальный и более широкий) вариант residual connections. Раньше взрывался, а теперь не взрывается. Профит!

mHC: Manifold-Constrained Hyper-Connections
Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
Статья: https://arxiv.org/abs/2512.24880
Ревью: https://arxiviq.substack.com/p/mhc-manifold-constrained-hyper-connections

# TL;DR

ЧТО сделали: Авторы из DeepSeek-AI предложили Manifold-Constrained Hyper-Connections (mHC). Это фреймворк, модифицирующий архитектуру Hyper-Connections (гипер-связи) путём проекции матриц смешивания резидуальных потоков на многогранник Биркгофа (множество дважды стохастических матриц). Реализовано это через дифференцируемый алгоритм Синкхорна-Кноппа, встроенный прямо в forward pass.

ПОЧЕМУ это важно: Расширение резидуальных потоков увеличивает ёмкость модели, но обычно ломает свойство тождественного отображения (Identity Mapping), критически важное для глубокого обучения. Это ведёт к взрыву сигнала и нестабильности. mHC математически восстанавливает это свойство, позволяя масштабировать ширину сети (а не только глубину) и создавать сложные топологии без проблем с градиентами и без существенного оверхеда по памяти.

Подробнее: /channel/gonzo_ML_podcasts/1919

Читать полностью…

gonzo-обзоры ML статей

В продолжение темы про Manus.

Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106

Читать полностью…

gonzo-обзоры ML статей

System 3 предлагают. Не за горами и System 4.

Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework

# TL;DR

ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.

ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).

Подробнее: /channel/gonzo_ML_podcasts/1886

Читать полностью…

gonzo-обзоры ML статей

Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.

NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open

# TL;DR

ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.

ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.

Подробнее: /channel/gonzo_ML_podcasts/1861

Читать полностью…

gonzo-обзоры ML статей

Дело говорит.

https://x.com/karpathy/status/2004607146781278521?s=20

Читать полностью…

gonzo-обзоры ML статей

Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную. T5Gemma брала предобученный декодер и делала энкодер-декодер, новая Bolmo берёт BPE-модель и делает Byte-level модель.

Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo.

Bolmo: Byteifying the Next Generation of Language Models

Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
Статья: https://arxiv.org/abs/2512.15586
Код: https://github.com/allenai/bolmo-core
Модель: https://huggingface.co/allenai/Bolmo-7B
Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation

# TL;DR

ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение.

ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment.

Подробнее: /channel/gonzo_ML_podcasts/1837

Читать полностью…

gonzo-обзоры ML статей

Интересно как...

Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.

As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.

Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale

Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.

Читать полностью…

gonzo-обзоры ML статей

Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.

Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.

Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.

Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.

Нам эту пропасть ещё преодолевать.

A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing

# TL;DR

ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.

ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.

Подробнее: /channel/gonzo_ML_podcasts/1811

Читать полностью…

gonzo-обзоры ML статей

Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих работах ещё был Maze-Hard, здесь не сделали. Для ARC приводят скоры для pass@1, @10, @100 и @1000, для судоку только pass@1. Про ARC выглядит странно, мне казалось, что в предыдущих работах проверка была устроена так, что генерировались 1000 аугментаций, но из них выбирались два самых частых результата, по которым оценивался ARC (то есть как бы pass@2). Здесь написано, что сэмплилось n ответов и сэмпл считался корректным, если хотя бы один ответ был верным, то есть для n=1000 это реально pass@1000, что несравнимо с предыдущими работами. Смотреть вроде как тогда осмысленно только на pass@1

Интересно, что скоры заметно отличаются от скоров в статьях про HRM/TRM. Например, для судоку результаты HRM и TRM были 87.4/74.7 (у TRM были две разные версии, с MLP и SA) и 55.0 соответственно. Здесь в статье скоры этих моделей 63.9 и 66.8, что интересно потому что, во-первых, заметно меньше для TRM, во-вторых разница между ними стала крайне маленькой. У URM скор 77.6, что выше цифр TRM/HRM из текущей работы, но ниже оригинальной работы про TRM. На ARC-AGI-2 вообще здесь HRM выше TRM, что очевидно было иначе в работе про TRM, и так же иначе на картинке из начала статьи, где они явно говорят, что цифры взяли от ARC-AGI.

Муть какая-то, надо очень внимательно разбираться. Вообще непонятно, как с предыдущими работами сравниться. Надежда только на самих ARC, чтобы по-честному померяли.

Из интересного, авторы прогнали на ARC-AGI-1 много вариантов обычного трансформера и пару вариантов UT и показали цифры. UT с 4 слоями и 8 циклами заметно бьёт ванильный трансформер с 32 слоями, у которого столько же вычислений и в 8 раз больше параметров. Я только не понял, что здесь с ACT, это цикл равен 1? Вроде как получается, что итеративные вычисления лучше, чем добавление слоёв (перекликается с https://arxiv.org/abs/2502.17416). Рекуррентный Inductive bias UT лучше подходит для таких задач?

Для полного бинго авторы попробовали оптимизатор Muon (я сделал то же самое). Muon дал более быструю сходимость, чуть ли не в два раза на ARC-AGI-2, но финальный результат такой же. С мюоном, правда, дьявол в деталях, к каким слоям его применяют, с какими именно гиперпараметрами. В статье деталей нет, надо в код лезть (при условии, что он соответствует).

Мысли сходятся. И очень жду перепроверки от ARC-AGI.

Читать полностью…

gonzo-обзоры ML статей

Universal Reasoning Model
Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai
Статья: https://www.arxiv.org/abs/2512.14693
Код: https://github.com/zitian-gao/URM

Молодцы чуваки, сделали ровно то, что я сам хотел сделать после статей про HRM/TRM. Там прямо просилось взять UT, или по сути ALBERT с ACT и посмотреть, какое качество достигается на нём. Было очень сильное чувство, что не нужно городить HRM/TRM. Мои изыскания закончились на окончании гуглового кредита и машин с GPU, а также свободного времени. А их вон, в статью вылились. Хорошо быть GPU-Rich 😭

Напомню, что HRM (/channel/gonzo_ML/4097) предложила вдохновлённую мозгом иерархию сетей с высокоуровневым и низкоуровневым модулями. Последующие разборы от авторов ARC-AGI показали, что чуть ли не самое важное в работе было deep supervision, который делал много итераций на одном сэмпле, последовательно улучшая репрезентацию (похоже на recycling в alphafold), поверх этого ещё был навёрнут adaptive computation time, чтобы делать этот процесс не дольше, чем нужно. А два уровня с рекурсиями нафиг не сдались, обычный трансформер того же достигает плюс минус. Там я и написал, что UT или ALBERT — наше всё (/channel/gonzo_ML/4100).

Потом вышла упрощённая TRM (/channel/gonzo_ML/4127), которая переинтерпретировала HRM и упаковала это всё в почти обычный рекуррентный трансформер, который сначала обновляет внутреннюю репрезентацию, а потом уточняет по ней ответ, и поверх делается всё тот же deep supervision. Из обучаемых параметров там была только двуслойная сеть, которая применялась во всех этих циклах и давала эффективную глубину в 42 слоя. Это ещё ближе к UT/ALBERT.

Напомню в двух словах про Universal Transformer (UT) и ALBERT. UT (/channel/gonzo_ML/90) состоит из одного шаренного слоя, который рекурсивно применяется множество раз, последовательно улучшая эмбеддинги. В самой полноценной версии количество раз определяется динамически через Adaptive Computation Time (ACT), которое для каждого конкретного токена решало, сколько его надо обрабатывать. Я до сих пор считаю, что это очень красивая и недооценённая идея, вернее эти две, UT и ACT. ALBERT (/channel/gonzo_ML/131) был сильно идейно похож на UT с той лишь разницей, что один слой там применялся фиксированное количество раз и это был трансформер-энкодер. В этом моём посте собрано всё воедино и с картинками.

Поскольку HRM и TRM были энкодерами с ACT, то просилось, конечно, взять ALBERT+ACT и дотюнить его до состояния, когда он даст результаты не хуже.

Авторы текущей работы тоже вдохновлялись UT и предложили URM (Universal Reasoning Model) по его лекалам.

Пишут, что взяли decoder-only (“The base architecture of our Universal Reasoning Model (URM) closely follows that of the Universal Transformer, with the difference being its decoder-only design. This aspect is consistent with previous works such as HRM and TRM”), но мне кажется это ошибка. HRM/TRM были энкодерами (в работе про HRM явно говорят: “Both the low-level and high-level recurrent modules f_L and f_H are implemented using encoder-only Transformer blocks with identical architectures and dimensions”, а TRM строится на ней) и нигде там авторегрессионной генерации нет, ни в статье, ни в коде. И в целом для этой задачи декодер не нужен, размер выхода заранее известен и фиксирован, энкодер был бы логичен. Так что видимо, опечатка.

В отличие от TRM/HRM авторы URM сделали более кастомный трансформер с ConvSwiGLU и Truncated Backpropagation Through Loops (TBPTL).

ConvSwiGLU — это стандартный SwiGLU с короткой depthwise свёрткой. Обычный SwiGLU работает с каждым токеном независимо, свёртка добавляет в механизм гейтинга локальные контекстные взаимодействия, реализуя смешивание каналов для соседних токенов.

Напомню, что уже классический SwiGLU — это функция с гейтингом. Сначала для каждого токена вычисляется преобразование через матрицу W_up:

[G, U] = X W_up ∈ R^{T×2m}

Затем из G через активацию SiLU считаются веса гейтов, которые поэлементно умножаются с U:

H_ffn = SiLU(G) ⊙ U

Читать полностью…

gonzo-обзоры ML статей

Адаптировали локальный алгоритм обучения Forward-Forward от Хинтона к свёрточным сетям. Не скажу, что сама идея вплетать метку в исходные данные меня зажигает, мне кажется это далеко от реальности и скорее всё равно должен быть какой-то сигнал сверху, пусть и без бэкпропа. Но всё равно интересный движ.

Training convolutional neural networks with the Forward–Forward Algorithm
Riccardo Scodellaro, Ajinkya Kulkarni, Frauke Alves, Matthias Schröter
Статья: https://www.nature.com/articles/s41598-025-26235-2
Код: https://doi.org/10.5281/zenodo.11571949 (но его там нет)
Ревью: https://arxiviq.substack.com/p/training-convolutional-neural-networks

# TL;DR

ЧТО сделали: Авторы успешно адаптировали алгоритм Forward-Forward (FF) Джеффри Хинтона, изначально созданный для полносвязных сетей, под свёрточные нейросети (CNN). Главная фишка — «пространственно-распределённая разметка» (spatially-extended labeling). Идея в том, чтобы «впекать» информацию о классе прямо в изображение (через частотные узоры или деформации), позволяя локальным фильтрам видеть метку в любой точке картинки.

ПОЧЕМУ это важно: Это решает главную архитектурную проблему обучения без обратного распространения ошибки. Классический FF кодирует метку локально (например, one-hot пиксели в углу), что ломается в CNN, где веса общие, а рецептивные поля локальны. Работа доказывает, что CNN могут обучаться через максимизацию локальной метрики goodness даже на сложных данных, что открывает дорогу к энергоэффективному обучению на нейроморфном железе.

Подробнее: /channel/gonzo_ML_podcasts/1952

Читать полностью…

gonzo-обзоры ML статей

#2026+

Про прошедший год написал, дайте теперь помечтаю про будущее. Краткосрочное, на ближайший год или чуть дальше. Я думаю, мой список несколько сверхоптимистичный, так что считайте его моим wishful thinking list если угодно.

🤖 Физические роботы

С колёсными доставщиками уже давно всё хорошо (мы ещё в 2017-18 были в акселераторе Berkeley SkyDeck в одном батче с Kiwibot, машинки которых разъезжали по городу и вполне успешно работали и строили глазки прохожим, а сейчас вообще этим никого уже не удивишь). Но есть ещё андроиды и прочие фелиноиды. У них количество начнёт переходить в качество. Андроид для дома останется слишком дорогой игрушкой, а вот фелиноид или каноид может стать вполне разумной.

🌍 World models

Понемножку начнут себя показывать лучше традиционных подходов на практике в отдельных областях. Будут какие-нибудь вообще улётные research демонстрации с заделом на интерактивные миры нового типа, в играх или других развлечениях. Появится какой-нибудь движок, сочетающий классический детерминизм и нейрогенерацию. Ожидаю, что будет развиваться параллельная ветвь внутри моделей мира, построенная не на LLM или какой-то иной FM (Foundation Model) сверху-вниз, а растущая снизу-вверх через embodiment.

🔬 Ускорение науки

Где-то за пределами чистой computer science появятся первые стабильные результаты по ускорению какой-то части научного процесса, так что это будет выражаться в смене экспоненты для тех, кто этим владеет. Может оно и уже появилось, не удивлюсь.

🐋 Язык животных

Продвинемся в понимании одного из языков животных. Наиболее вероятно с китообразными, там уже были интересные результаты в прошлом году (нашли аналоги гласных и дифтонгов), но может и с кем-то другим, например, из врановых. Про двунаправленное взаимодействие пока рано говорить.

🐉 Китайский AI

Будут фигачить и дальше и подтягивать своё железо. Вообще, всё чаще вспоминаю условный биполярный по оси запад-восток мир из фильма The Creator. Не то чтобы какой-то особенно хороший фильм, но что-то мне кажется они уловили верно. Вообще, не про фильм, но слушайте поэтов, они раньше других начинают ловить суть вещей. За это их правящие круги и гоняют обычно.

⚙️ Production-level agents with 3 nines

Год надёжных агентов и богатых интеграций. Лучше научимся собирать агентов с предсказуемым качеством и запускать их в продакшн с надёжностью 99.9%. Вырастет более развитая инфраструктура и тулы. Появится сколько-то больших стартапов про эту экосистему.

🧠 Когнитивные архитектуры

Старый термин, но он возрождается и перерождается. Если на уровне продакшна будет движение к надёжности, то на уровне исследований и экспериментальных frontier-приложений будет движение в сторону поиска правильных для задачи когнитивных архитектур. Соревноваться между собой будут не отдельные LLM, у них уже почти случилась коммодитизация, а системы с LLM в качестве одного из элементов. Оркестрация, иерархия памяти, декомпозиция целей и контроль требований, контуры обратной связи -- лучшие наработки будут переноситься в продакшн.

👤 Агенты для простых смертных

Пока все агенты в основном были для бизнеса, узких кругов типа программистов, либо демонстрация возможностей неприменимая на практике. Пора начать появляться агентам, работающим на благо конечного среднего юзера -- решать его локальные day-to-day задачи по организации дел, покупок, логистики, работе с информацией. Текущие GPT/Claude/Gemini в принципе уже многое могут, особенно с правильными интеграциями, но ещё слишком много frictions.

🎬 Видео генерация

Ну уже всё. Соцсети и мессенджеры завалит AI слопом, он ещё и будет под вас персонализирован.

💻 Локальное железо

Запуск нормальных ллм on the edge где-то уже рядом. Спектр -- от домашних серверов до ноутбуков и телефонов, модели там конечно будут разного размера. Для меня поворотной точкой будет такая, когда ходить в условную GPT станет не нужно, для большинства локальных задач будет хватать локально развернутого условного Qwen.

Читать полностью…

gonzo-обзоры ML статей

Забористая штука! Предлагают подход к созданию искусственных сред (или игр) с детерминированной сущностной компонентой и стохастической выразительной. Лучше всего полистать примеры на сайте сначала.

Web World Models
Jichen Feng, Yifan Zhang, Chenggong Zhang, Yifu Lu, Shilong Liu, Mengdi Wang
Статья: https://arxiv.org/abs/2512.23676
Код: https://princeton-ai2-lab.github.io/Web-World-Models/
Ревью: https://arxiviq.substack.com/p/web-world-models

# TL;DR

ЧТО сделали: Представили Web World Model (WWM) — гибридную архитектуру, разделяющую состояние среды на два слоя: детерминированный слой «Физики», работающий на стандартном веб-коде (TypeScript/JSON), и вероятностный слой «Воображения», синтезируемый LLM. Через серию реализаций — от бесконечных процедурных галактик до карточных игр и клеточных автоматов — авторы показали, как создавать согласованные и фактически бесконечные миры без огромных баз данных и склонных к галлюцинациям сквозных (end-to-end) генеративных моделей.

ПОЧЕМУ это важно: Работа закрывает «недостающее звено» между жесткими, конечными веб-приложениями и неконтролируемыми, полностью генеративными моделями мира (наподобие World Models, https://arxiv.org/abs/1803.10122). Рассматривая современный веб-стек как нейро-символьный субстрат, авторы предлагают практический план развертывания долгоживущих агентов, способных исследовать бесконечные пространства состояний, сохраняя при этом структурные гарантии, необходимые для игровой механики и надежности ПО.

Подробнее: /channel/gonzo_ML_podcasts/1929

Читать полностью…

gonzo-обзоры ML статей

Много работ, где к нейросеткам добавляют эволюцию, в частности где LLM управляет этой эволюцией. Сходу вспоминается AlphaEvolve, ShinkaEvolve, Gödel Agent, GEPA, OpenEvolve и DeepEvolve.

DeepResearch вообще стал коммодити. И готовых имплементаций уже навалом, и через API можно использовать уже, тот же гугловый.

9. Media generation on the rise

Генерация картинок и видео за этот год очень прокачалась. Sora и Sora 2, Veo 3 и прочие генерят очень неплохо. У меня в ленте фейсбука уже довольно много AI-generated видео, не про все легко понять, что они ненастоящие. Началось, короче.

В нише для взрослых и не очень, похоже, тоже всё процветает, генерация полуодетых девушек на потоке; видел, что появились приложения про виртуальных подружек.

В генерации картинок в целом уже было всё довольно хорошо, но по мне так Nano Banana Pro знатно продвинула всё вперёд, такой хорошей работы с текстом я до неё не встречал. Теперь у нас есть комиксы, хоть они вас, возможно, и достали 🙂

10. Model welfare

Слово года для меня. Подробнее тут: https://www.anthropic.com/research/exploring-model-welfare

X. What else?

Убийцы трансформеров не появилось, зато гибриды трансформеров и мамбы (и всяких других SSM-подобных штук) продолжают плодиться. KAN’ы из прошлого года как-то сильно пока никого не потеснили, но где-то локально вроде используются. Какую-то новую архитектуру сложно назвать, из условно прикольного были Tversky Neural Networks, но не ожидаю от них какого-то особого прорыва, честно говоря. Рекуррентность возвращается, на ARC-AGI пришло несколько моделей, воскрешающих старые идеи Universal Transformer — HRM, TRM, URM. Много было работ про reasoning in the latent space (например, это и это), ожидаю дальнейшего развития.

———

Что важного упустил?

Читать полностью…

gonzo-обзоры ML статей

#2025

Продолжу традицию подбивания результатов. В 2024-м было так. Я снова не тратил слишком много времени на подробный анализ, и попробовал собрать свой список относительно быстро. Писал текст дольше 🙂

Что всплыло в памяти про прошедший год

1. Year of agents

Определённо, 2025-й был годом агентов (и немного мультиагентов). Выглядит как очередное поветрие, коих сменилась уже масса — была мода на ML, была мода на AI, в этом году мода на агентов. Они теперь везде, стартапы заменяют “Loading…” на “Thinking…”, в каждую индустрию запихивают агентов — есть агенты для продаж, для маркетинга, для написания кода, да для всего уже, наверное, есть. Здесь мы говорим про LLM или AI-агентов, могут быть, конечно, и другие, и без всякого AI.

Единого определения агента, кажется, так и не появилось (как и для AI), но это не очень важно. Обычно под агентами подразумевают сущность с некоторым уровнем автономности, который может быть очень разным — от почти никакой до довольно полной. Агент обычно имеет доступ к тулам для взаимодействия с окружающим миром (дёргать API, ходить в поиск и базы данных, запускать код и команды ОС, и прочее), часто (но не всегда) имеет какую-то память, и делает ризонинг с помощью LLM — отсюда его вероятностная природа и частое отсутствие надёжности уровня “хоть сколько-нибудь девяток”.

API основных LLM эволюционировали в сторону агентности. Например, у OpenAI, сейчас API четвёртого поколения Responses API, до него были продолжающее промпты Completions API, работающее с историей чата Chat Completions API, и экспериментальное Assistants API. Теперь на уровне API есть встроенные тулы и способность вызывать внешние MCP. У Гугла свежее Interactions API в бете с возможностью вызывать как модели, так и агентов (типа Deep Research). Ну и так далее, все движутся в сторону API с агентскими возможностями. Плюс всё больше вокруг агентских фреймворков и визуальных построителей воркфлоу.

Агентов будет больше, жить будет веселее. Ждём развития этой волны в 2026-м. Я уверен, мы в целом научимся делать более надёжных и полезных агентов для всё большего количества областей.

2. MCP is one year old

Протокол MCP прочно занял своё место в мире, все основные агенты и интерфейсы моделей его поддерживают (типа Claude Desktop, Cursor, и прочее). Поначалу большая часть MCP серверов запускалась локально и общалась с агентом через stdio, но теперь всё больше становится Remote MCP серверов с общением через HTTP. За этим, мне кажется, большая тема, этот год покажет.

В ноябре 2025 MCP исполнился год, а в декабре 2025 Антропик передал протокол в свежесозданный Agentic AI Foundation внутри Linux Foundation. OpenAI туда же задонейтил AGENTS.md.

Более высокоуровневый протокол для взаимодействия агентов, A2A от Гугла, ещё ранее был отдан Гуглом в Lunux Foundation и тоже продолжает развиваться. Новые фреймворки типа ADK его поддерживают, вероятно весь адопшн ещё впереди.

3. Code agents

Снова про агентов, более конкретно про агентов для кода. Они шагнули за год сильно вперёд. Если год назад в основном польза была 1) в режиме копайлота, который даёт более умные саджесты и может написать какие-то куски кода внутри IDE, и 2) через общение с OpenAI/Claude/Gemini в режиме чата и копи-паста туда-сюда; то теперь есть гораздо более самостоятельные агенты внутри Cursor/Antigravity/…, которые вполне могут выполнять многошаговые действия на уровне репозитория или нескольких. Общение с такими агентами уже сильно за пределами продолжения промпта и саджеста, появляются фреймворки для spec-driven development (типа speckit) и в целом разработка с AI тулами становится более зрелой. Это ещё не предел, давно жду.

4. Chinese AI

Читать полностью…

gonzo-обзоры ML статей

Не монолитами едиными достигать соты!

Adaptation of Agentic AI
Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
Статья: https://arxiv.org/abs/2512.16301
Код: https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
Ревью: https://arxiviq.substack.com/p/adaptation-of-agentic-ai

# TL;DR

ЧТО сделали: Предложили единую таксономию «Агентной адаптации», классифицирующую, как ИИ-системы обучаются через взаимодействие. Всё пространство решений разбили на четыре парадигмы по двум осям: локусу оптимизации (что меняем: Агента или Инструмент) и источнику сигнала (выполнение инструмента или выход агента).

ПОЧЕМУ это важно: Фреймворк подсвечивает сдвиг в проектировании систем: переход от дорогого монолитного файнтюнинга моделей к «Симбиотической инверсии» (адаптации лёгких инструментов под замороженного агента). Это позволяет получать SOTA-результаты, используя на порядки меньше данных и вычислений, чем требуют современные рассуждающие модели вроде DeepSeek-R1 (https://arxiv.org/abs/2501.12948).

Подробнее: /channel/gonzo_ML_podcasts/1903

Всех с Новым Годом!!! 🎄

Читать полностью…

gonzo-обзоры ML статей

Мои любимые гиперсети.

Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves

# TL;DR

ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.

ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.

Подробнее: /channel/gonzo_ML_podcasts/1895

Читать полностью…

gonzo-обзоры ML статей

Объединённый автоэнкодер придумали. Объенкодер.

Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing

# TL;DR

ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.

ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.

Подробнее: /channel/gonzo_ML_podcasts/1874

Читать полностью…

gonzo-обзоры ML статей

Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.

https://manus.im/blog/manus-100m-arr

Время строить, однозначно.

Читать полностью…

gonzo-обзоры ML статей

Даёшь иерархию в авторегрессии!

PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation

Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai
Статья: https://arxiv.org/abs/2512.20687
Ревью: https://arxiviq.substack.com/p/photon-hierarchical-autoregressive

# TL;DR

ЧТО сделали: Авторы предложили PHOTON — иерархическую архитектуру языковой модели, которая отказывается от стандартного «плоского» авторегрессионного сканирования в пользу многомасштабного (multi-resolution) подхода. PHOTON обрабатывает текст через энкодер, работающий «снизу вверх» для сжатия токенов в укрупнённые (coarse) латентные потоки, и декодер, работающий «сверху вниз» для реконструкции детализированных токенов, используя строго ограниченное локальное внимание.

ПОЧЕМУ это важно: Эта архитектура фундаментально отделяет стоимость генерации от общей длины последовательности на этапе декодирования. Поддерживая компактное, медленно обновляющееся глобальное состояние и ограничивая генерацию токенов локальными чанками, PHOTON сокращает трафик KV-кэша на порядки. Это дает прирост пропускной способности на единицу памяти (Throughput-per-Memory) до 1000x по сравнению с обычными трансформерами в условиях ограниченной памяти, предлагая потенциальное решение проблемы «бутылочного горлышка» при работе с длинным контекстом.

Подробнее: /channel/gonzo_ML_podcasts/1849

Читать полностью…

gonzo-обзоры ML статей

Невидимая рука рынка для AGI: Безопасность через экономику

Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.

ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.

Подробнее: /channel/gonzo_ML_podcasts/1833

Читать полностью…

gonzo-обзоры ML статей

Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io

# TL;DR

ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.

ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.

Подробнее: /channel/gonzo_ML_podcasts/1821

Читать полностью…

gonzo-обзоры ML статей

https://z.ai/blog/glm-4.7

🔥

Читать полностью…

gonzo-обзоры ML статей

Авторы добавляют одномерную depthwise свёртку с ядром k=2 (так понимаю, текущий токен и предыдущий токен) поверх фич, уже прошедших гейт:

H_conv = σ(W_dwconv * H_ffn)

К теме про такую активацию они, как я понимаю, пришли после изучения абляций, показавших, что последовательное убирание нелинейности из функции активации монотонно уменьшает перформанс на ARC-AGI-1. Что, мне кажется, в целом согласуется с ранжированием упомянутых там функций активации: SwiGLU → SiLU → ReLU, тут вроде ничего нового нет, что SiLU/swish лучше ReLU, а функция с гейтингом ещё лучше (/channel/gonzo_ML/4070). Поэтому решили ещё нелинейности подбавить. На картинке, кстати, у них ещё один SiLU заявлен, уже после свёртки, его нет в формуле статьи, но в коде он есть.

Провели эксперименты со свёртками разных размеров, для ядра размером 2 оказался лучший результат. Попробовали попереставлять свёртки в разные места трансформера. Внутри механизма внимания позиция мало на что влияет и порой даже ухудшает всё. Лучший результат (на ARC-AGI) если ставить после MLP expansion. Но это вроде не очень соответствует положению на картинке — оно конечно после expansion, но оно уже и после гейта. Может они просто неточто это всё описали.

TBPTL нужен для ограничения глубины рекурсии, он считает только градиенты поздних циклов. Внутри TRM и HRM тоже была аналогичная логика: HRM использовал градиенты только с последнего цикла (финальное состояние H модуля и финальное состояние L-модуля), а TRM при deep recursion прогонял внутренний цикл без отслеживания градиентов для всех раз кроме последнего. Да ещё и при самом высокоуровневом deep supervision выходные значения отсоединялись от графа вычислений и передавались на следующий шаг улучшения просто как входные данные.

TBPTL делает примерно аналогичное. Если взять модель с D слоями и применять её итеративно в течение M итераций, то новые репрезентации h_t^d слоя d ∈ {1, . . . , D} на итерации t ∈ {1, . . . , M} будут вычисляться как функция от h_t^{d-1} (предыдущий слой той же итерации) и h_{t-1}^d (тот же слой предыдущей итерации). Тут я кстати тоже не уверен, что они это верно написали, эта вот тема с тем же слоем предыдущей итерации какая-то сомнительная имхо. Я это воспринимал как вложенные циклы.

Здесь вместо полного бэкпропа через все M итераций мы задаём индекс отсечения N<M, так что для всех шагов от 1 до N бэкпроп не делается, а для N+1 .. M -- делается. Идейно абсолютно та же логика, в лоссе учитываем только последние вычисления.

Например, для модели c D=4 слоя и M=8 внутренних циклов (что по идее эквивалентно 32 слоям) при выборе N=2 только 6 последних циклов (t=3..8) повлияют на градиент. Такая конфигурация с 6 из 8 шагов и была выбрана по результатам перебора всех вариантов на ARC-AGI (правда это делалось на двуслойной модели без свёрток, а не на четырёхслойной со свёртками).

Эксперименты

Авторы взяли те же датасеты и аугментации, что у TRM/HRM (респект авторам оригинальной HRM за то, что дали референсный код, на котором смогли строить все остальные).

В TRM (но не HRM) использовалась EMA (модель обучается и обновляет свои параметры, но параллельно этому мы держим другую модель, которая является экспоненциальным скользящим средним от весов обновляемой модели, и на этой модели и делается оценка).

Обучали с AdamAtan2 как в оригинальной работе. Weight decay также как в предыдущих работах. Использовалась модель с 4 слоями размерности 512 и с 8 головами.

Итого, весь процессинг включает 4 слоя на внутреннем уровне, 8 итераций (из которых только 6 последних участвуют в бэкпропе) и внешний цикл с ACT и максимум 16 шагами. То есть, если я правильно всё понял, как бы 4*8*16=512-слойная модель. Между ACT шагами, как я понимаю, градиенты не передаются, но вот эта часть в статье не описана, надо по коду перепроверять.

Читать полностью…

gonzo-обзоры ML статей

В последние полгода происходит тотальная джепизация планеты. Вот свежая NEPA.

Next-Embedding Prediction Makes Strong Vision Learners
Sihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
Статья: https://arxiv.org/abs/2512.16922
Код: https://github.com/sihanxu/nepa
Модель: https://sihanxu.github.io/nepa
Сайт: https://sihanxu.github.io/nepa
Ревью: https://arxiviq.substack.com/p/next-embedding-prediction-makes-strong

# TL;DR

ЧТО сделали:
Авторы представили NEPA (Next-Embedding Predictive Autoregression) — фреймворк для self-supervised обучения визуальных трансформеров (ViT). Идея заключается в предсказании эмбеддинга *следующего* патча изображения при условии знания предыдущих. В отличие от стандартных генеративных подходов, NEPA работает полностью в непрерывном латентном пространстве, не используя дискретные токенизаторы (как в VQ-VAE) или попиксельную реконструкцию (как в MAE).

ПОЧЕМУ это важно:
Этот подход фактически унифицирует цели обучения визуальных и языковых моделей. NEPA доказывает, что чистый objective "предсказания следующего токена" отлично работает на непрерывных визуальных репрезентациях без костылей вроде momentum encoders или майнинга негативных пар для контрастивного обучения. Это масштабируемая и простая парадигма, которая достигает SOTA результатов (85.3% Top-1 на ImageNet-1K с ViT-L), показывая, что каузального моделирования достаточно для выучивания надежной визуальной семантики.

Подробнее: /channel/gonzo_ML_podcasts/1797

Читать полностью…
Subscribe to a channel