gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Зачем агентам нужна интуитивная физика.

Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/

# TL;DR

ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.

ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.

Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.

Получать интуицию тут: /channel/gonzo_ML_podcasts/3088

Читать полностью…

gonzo-обзоры ML статей

Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах, который работает неожиданно хорошо для кода. Есть над чем подумать.

Embarrassingly Simple Self-Distillation Improves Code Generation
Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
Статья: https://arxiv.org/abs/2604.01193v1
Репа: https://github.com/apple/ml-ssd
Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation

# TL;DR

ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя.

ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей.

Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма.

Самодистиллировать тут: /channel/gonzo_ML_podcasts/3075

Читать полностью…

gonzo-обзоры ML статей

Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда.

How Well Does Agent Development Reflect Real-World Work?

Zora Z. Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig
Статья: https://arxiv.org/abs/2603.01203
Код: https://github.com/zorazrw/ai4work-resources
Ревью: https://arxiviq.substack.com/p/how-well-does-agent-development-reflect

# TL;DR

ЧТО сделали: Авторы разработали систематический фреймворк для маппинга 72 342 задач из 43 бенчмарков для ИИ-агентов напрямую на рынок труда США. Используя профессиональные таксономии O*NET и данные Бюро статистики труда, они количественно оценили, какие именно сектора экономики и навыки реально представлены в текущих наборах для тестирования моделей.

ПОЧЕМУ это важно: Исследование подсвечивает огромный структурный перекос в разработке ИИ: мы агрессивно оптимизируем агентов под крошечный, узкоспециализированный срез экономики. Вводя единую метрику сложности задач и автономности агентов, статья даёт количественный ориентир для смещения фокуса с удобных для методологии задач на области с существенно бо́льшим социальным и экономическим импактом.

Для практиков: Для руководителей исследований и продуктовых стратегов, создающих general-purpose агентов, эта работа — критическая проверка реальностью. Текущие наборы для оценки подавляюще перекошены в сторону софтверной инженерии (которая составляет всего 7.6% занятости в США), при этом практически игнорируя высокооцифрованные и капиталоёмкие сектора вроде менеджмента и права. Кроме того, авторы вводят математически обоснованное определение автономности агента на основе иерархической сложности воркфлоу. Это позволяет командам строго определять границы возможностей вместо того, чтобы полагаться на бинарные метрики pass/fail на произвольных задачах.

Искать под фонарём здесь: /channel/gonzo_ML_podcasts/3049

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.

Transformers learn factored representations

Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers
Статья: https://arxiv.org/abs/2602.02385v1
Код: https://github.com/Astera-org/factored-reps
Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations

# TL;DR

ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream.

ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура.

Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения.

Выучивать модульные представления тут: /channel/gonzo_ML_podcasts/3026

Читать полностью…

gonzo-обзоры ML статей

Свежая интересная работа про биологические вычисления. Мы уже упоминали работу "The forest as a neutrino detector" (/channel/gonzo_ML/2735), текущая работа про лягушек тоже нацелена на помощь физике. Но это только начало! Ждём вытеснения GPU новыми биологическими BPU.

Mexican Burrowing Toads as gravitational wave detectors
Frederic V. Hessman, Christian Jooss
Paper: https://arxiv.org/abs/2603.29334
Review: https://arxiviq.substack.com/p/mexican-burrowing-toads-as-gravitational
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Авторы предлагают биофизический фреймворк, предполагающий, что мексиканская роющая жаба (*Rhinophrynus dorsalis*) способна детектировать космические гравитационные волны. Анализируя поразительное сходство между брачным криком жабы и формой сигнала (чирпом) слияния двойных чёрных дыр, они описывают «магнетронный рамановский лазерный механизм». В нём ферромагнитные материалы в нервной системе амфибии экспоненциально усиливают деформации пространства-времени, превращая их в детектируемые биологические сигналы.

ПОЧЕМУ это важно: Если биологические системы в ходе эволюции обрели чувствительность к ряби пространства-времени, использование массивов таких животных может стать невероятно дешёвой и масштабируемой альтернативой многомиллиардным оптическим интерферометрам. Работа расширяет границы биомимикрии, допуская, что природную магниторецепцию можно напрямую приспособить для нужд высокоточной астрофизики.

Для практиков: Создание контролируемых лабораторных установок с миллионами мексиканских роющих жаб в теории позволит собирать мощные биологические массивы. Они смогут определять точную направленность гравитационных событий через анализ коллективных фазовых сдвигов в акустических сигналах популяции.

Погрузиться в биологическую теледильдонику спинтронику тут: /channel/gonzo_ML_podcasts/3005

Читать полностью…

gonzo-обзоры ML статей

Seoul World Model — это прикольно!

Grounding World Simulation Models in a Real-World Metropolis
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, and Jin-Hwa Kim
Paper: https://arxiv.org/abs/2603.15583v1
Code: https://seoul-world-model.github.io
Ревью: https://arxiviq.substack.com/p/grounding-world-simulation-models

# TL;DR

ЧТО сделали: Представили Seoul World Model (SWM) — систему генерации видео масштаба целого города на 2 миллиарда параметров. В основе лежит Diffusion Transformer (DiT), который использует геоиндексированный поиск для привязки авторегрессионной генерации видео к реальным панорамам улиц Сеула, а не выдумывает окружение с нуля.

ПОЧЕМУ это важно: Существующие генеративные мировые модели не умеют сохранять географическую и топологическую достоверность на длинных временных горизонтах: стоит камере завернуть за угол, как модель начинает галлюцинировать новую улицу. Привязывая генерацию к реальным пространственным данным через RAG (retrieval-augmented generation), SWM перекидывает мост между статичными 3D-реконструкциями городов и динамической видеосимуляцией. Это даёт структурную базу для визуализаций в урбанистике и надёжной симуляции граничных случаев для беспилотных авто.

Для практиков: Эта работа знаменует важный переход от чисто параметрических, галлюцинирующих мировых моделей к физически обоснованным «цифровым двойникам». Исследователи внедрили механизм динамического извлечения будущих кадров, которые используются как якоря внимания. Это элегантно решает проблему дрейфа на длинных горизонтах, типичную для авторегрессионной генерации, и доказывает, что пространственный RAG — необходимая архитектура для масштабных и стабильных симуляций среды.

Кататься по Сеулу тут: /channel/gonzo_ML_podcasts/2977

Читать полностью…

gonzo-обзоры ML статей

Агенты переписывают описания тулов для других агентов. Всегда было непонятно, зачем для того, чтобы один компьютер пообщался с другим, нужно столько людей посередине.

Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use

Ruocheng Guo, Kaiwen Dong, Xiang Gao, Kamalika Das
Статья: https://arxiv.org/abs/2602.20426
Ревью: https://arxiviq.substack.com/p/learning-to-rewrite-tool-descriptions

# TL;DR

ЧТО сделали:
Авторы представили Trace-Free+ (https://arxiv.org/abs/2602.20426) — фреймворк, который переводит ориентированную на людей документацию к API в оптимизированные для агентов описания тулов. Используя curriculum learning, система файнтюнит языковую модель переходить от сценариев с богатыми трейсами исполнения к инференсу на чистом тексте. Это позволяет генерировать качественные описания для совершенно новых тулов без необходимости собирать логи реального исполнения на этапе инференса (test-time).

ПОЧЕМУ это важно:
Опираться на логи исполнения (traces) методом проб и ошибок во время инференса часто невозможно при холодном старте или в условиях строгих ограничений приватности. Перенося всю тяжесть оптимизации на этап офлайн-компиляции, этот метод радикально снижает затраты на инференс, сохраняет приватность данных и отлично скейлится, даже когда агенту нужно выбирать из пула в более чем 100 кандидатов.

Для практиков:
Для разработчиков составных AI-систем (compound AI systems) и агентов, обращающихся к внешним тулам, качество среды — в частности, интерфейсов этих тулов — так же критично, как и способность самого агента к рассуждению. Статья показывает, что можно систематически переводить хрупкую, написанную людьми документацию к API в надёжные схемы с явно заданными ограничениями без накладных расходов на эксплорейшен во время инференса. Это открывает путь к парадигме, где экосистемы API заранее компилируются в нативный для агентов формат.

Переписывать API тут: /channel/gonzo_ML_podcasts/2960

Читать полностью…

gonzo-обзоры ML статей

Всё больше работ про непрерывную адаптацию агентов в проде. Было извлечение реворда из текущих взаимодействий с OpenClaw-RL. Будет завтра про Memento-Skills. Гиперагенты в каком-то смысле тоже сюда. Теперь вот MetaClaw. Здесь сделали быструю доадаптацию скиллами и медленную дообучением лорой.

MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild

Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
Статья: https://arxiv.org/abs/2603.17187
Код: https://github.com/aiming-lab/MetaClaw
Ревью: https://arxiviq.substack.com/p/metaclaw-just-talk-an-agent-that

# TL;DR

ЧТО сделали:
Авторы предложили MetaClaw — фреймворк непрерывного мета-обучения (continual meta-learning), который позволяет задеплоенным LLM-агентам асинхронно эволюционировать в продакшене. Это достигается за счет комбинации двух циклов: безградиентной "быстрой адаптации", синтезирующей навыки на естественном языке из неудачных попыток, и "медленной адаптации" на основе градиентов, которая оппортунистически оптимизирует политику в периоды неактивности пользователя.

ПОЧЕМУ это важно:
Задеплоенные агенты неизбежно сталкиваются со сдвигом распределения задач. В результате статичные веса предобучения всё хуже справляются с реальными пользовательскими воркфлоу. MetaClaw предлагает системное решение этой проблемы нестационарности. Фреймворк вводит строгий механизм версионирования, разделяющий данные неудач (до адаптации) и данные успехов (после адаптации). Это предотвращает загрязнение памяти устаревшими ревордами, что обычно ломает непрерывное обучение с подкреплением у агентов.

Для практиков:
Для инженеров, поддерживающих автономных агентов в проде, постоянная деградация качества при изменении требований пользователей — главная головная боль. MetaClaw внедряет архитектуру с двумя временными шкалами. Сначала происходит немедленная корректировка поведения через динамическое добавление навыков в промпт. Затем следует отложенное асинхронное обновление весов через облачный файнтюнинг. Такой подход позволяет избежать даунтайма сервиса и при этом существенно повышает надёжность выполнения задач. Авторы доказывают, что координация дискретной семантической памяти с непрерывной оптимизацией параметров может сократить разрыв в возможностях между open-weights моделями и передовыми проприетарными API.

Метаоптимизировать агентов здесь: /channel/gonzo_ML_podcasts/2935

Читать полностью…

gonzo-обзоры ML статей

Лекун и ко предлагают архитектуру для автономного ИИ с тремя системами A, B, М.

Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science
Emmanuel Dupoux, Yann LeCun, Jitendra Malik
Статья: https://arxiv.org/abs/2603.15381
Ревью: https://arxiviq.substack.com/p/why-ai-systems-dont-learn-and-what

# TL;DR

ЧТО сделали: Авторы (среди которых Ян ЛеКун) предлагают масштабный концептуальный чертёж архитектуры для автономного обучения, отказываясь от статических пайплайнов. Они формализуют трёхкомпонентную систему, состоящую из Системы A (обучение через наблюдение), Системы B (обучение через действие) и жёстко закодированной Системы M (мета-контроллер). Весь комплекс оптимизируется через двухуровневый эволюционно-онтогенетический (Evo/Devo) фреймворк.

ПОЧЕМУ это важно: Современные фундаментальные модели сталкиваются с убывающей отдачей от масштабирования текстовых данных и оказываются невероятно хрупкими при сдвиге домена в физическом мире. Создание агентов, способных к автономному непрерывному обучению, становится критической необходимостью. Этот фреймворк даёт теоретически обоснованную дорожную карту, как вырваться из жёстких рамок ручного MLOps и строить системы, адаптирующиеся без вмешательства человека.

Для практиков: Работа смещает фокус с ручного курирования датасетов на дизайн богатых симуляционных сред для curriculum learning. Для реализации таких A-B-M архитектур потребуются сверхбыстрые алгоритмы внутреннего цикла (inner-loop learners) и новые безградиентные стратегии оптимизации для работы в процедурно генерируемых мирах.

Делай А, делай Б, делай М здесь: /channel/gonzo_ML_podcasts/2909

Читать полностью…

gonzo-обзоры ML статей

🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers

Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу

🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.

Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)

🌸Пайплайн

Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.

В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.

Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o

🌸Почему это работает: Абляционные исследования

Как должна выглядеть оптимальная система агента, чтобы поощрять открыты  поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.  
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче. 

🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.

🌸Учимся самоулучшаться

Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.


🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461

Читать полностью…

gonzo-обзоры ML статей

На LeJEPA построили модель мира LeWM.

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2603.19312
Review: https://arxiviq.substack.com/p/leworldmodel-stable-end-to-end-joint
Code: https://github.com/lucas-maes/le-wm
Model: https://drive.google.com/drive/folders/1r31os0d4-rR0mdHc7OlY_e5nh3XT4r4e
Website: https://le-wm.github.io

# TL;DR

ЧТО сделали: Авторы представляют LeWorldModel (LeWM) — end-to-end архитектуру JEPA, которая выучивает модель мира напрямую из сырых пикселей. Метод решает известную проблему коллапса репрезентаций с помощью лаконичного лосса (функции потерь) из двух слагаемых: стандартной среднеквадратичной ошибки для предсказания во времени и легко масштабируемой регуляризации, принуждающей латентные эмбеддинги распределяться по изотропному гауссиану.

ПОЧЕМУ это важно: Подход избавляет от хрупких архитектурных эвристик — таких как stop-gradients, экспоненциальные скользящие средние или многокомпонентные лоссы, — которые обычно нужны для стабилизации моделей мира в парадигме self-supervised learning. Сводя всю регуляризацию к одному гиперпараметру, фреймворк добивается стабильного обучения на одном GPU за несколько часов. Полученная модель способна планировать до 48 раз быстрее альтернатив на базе фундаментальных моделей, демонстрируя при этом zero-shot понимание интуитивной физики.

Для практиков: Для инженеров и исследователей, создающих масштабируемых агентов для робототехники или систем планирования, статья доказывает: стабильные модели мира не обязательно требуют предобученных визуальных энкодеров или сложной балансировки оптимизатора. Заставив распределения эмбеддингов математически соответствовать гауссовской топологии, модели могут органично выучивать структурированные, полезные для действий репрезентации прямо из офлайн-данных. Это снижает порог по вычислительным ресурсам для задач на физическое рассуждение.

Моделировать мир тут: /channel/gonzo_ML_podcasts/2895

Читать полностью…

gonzo-обзоры ML статей

Чтение на неделю:

https://www.robonaissance.com/t/language-is-poison

Читать полностью…

gonzo-обзоры ML статей

Long live RNN!

M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling
Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao
Статья: https://arxiv.org/abs/2603.14360
Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix
Код: https://github.com/open-lm-engine/lm-engine
Модель: https://huggingface.co/collections/open-lm-engine/m2rnn

# TL;DR

ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью.

ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей.

Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности.

Изучать матричное состояние тут: /channel/gonzo_ML_podcasts/2861

Читать полностью…

gonzo-обзоры ML статей

Вчера не нашёл подходящей картинки, а сегодня нашёл.

R.I.P.

Читать полностью…

gonzo-обзоры ML статей

Кто хочет написать новую ОС?

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem
Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian Pei
Статья: https://arxiv.org/abs/2603.08938
Ревью: https://arxiviq.substack.com/p/agentos-from-application-silos-to

# TL;DR

ЧТО сделали: Авторы предлагают концептуальный и архитектурный редизайн операционной системы — AgentOS. Она заменяет традиционные графические интерфейсы (GUI) и изолированные приложения на естественно-языковой интерфейс Single Port и ядро Agent Kernel, которое динамически переводит намерения пользователя в компонуемые модули-навыки (Skills-as-Modules).

ПОЧЕМУ это важно: Развёртывание вероятностных автономных агентов на базе LLM поверх старых детерминированных ОС создаёт хрупкие циклы взаимодействия и серьёзные уязвимости в безопасности. Переосмысляя ОС как непрерывный пайплайн Data Mining и извлечения знаний (KDD), AgentOS предлагает структурно нативный способ оркестрации мультиагентных воркфлоу, поддержания постоянной контекстной памяти и обеспечения семантических границ безопасности.

Для практиков: Заставлять автономных агентов работать в системах, созданных для визуального восприятия человеком, — фундаментальная ошибка, приводящая к узкому месту Screen-as-Interface (экран как интерфейс). AgentOS решает эту проблему, пряча традиционный рабочий стол под интеллектуальный слой маршрутизации намерений. Этот сдвиг требует перехода от классической системной инженерии к реалтайм-майнингу данных, где ОС должна постоянно строить персонализированные графы знаний, рекомендовать исполняемую логику и оптимизировать последовательности действий для безопасной реализации неоднозначных намерений.

Интент выражать здесь: /channel/gonzo_ML_podcasts/2837

Читать полностью…

gonzo-обзоры ML статей

Это особенно прекрасно

Читать полностью…

gonzo-обзоры ML статей

Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.

Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization

# TL;DR

ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.

ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.

Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.

Эволюционировать свою обвязку здесь: /channel/gonzo_ML_podcasts/3061

Читать полностью…

gonzo-обзоры ML статей

Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный вход и оставить только текстовый промпт, она может считать, что картинка у неё на входе есть и вывести неплохой результат чисто из текста. Что очевидным образом может привести и к разным интересным проблемам.

Mirage: The Illusion of Visual Understanding

Mohammad Asadi, Jack W. O’Sullivan, Fang Cao, Tahoura Nedaee, Kamyar Fardi, Fei-Fei Li, Ehsan Adeli, Euan Ashley
Статья: https://arxiv.org/abs/2603.21687
Ревью: https://arxiviq.substack.com/p/mirage-the-illusion-of-visual-understanding

# TL;DR

ЧТО сделали: Авторы систематически исследовали «эффект миража» — феномен, когда мультимодальные модели генерируют детальные визуальные описания и цепочки рассуждений для изображений, которых им вообще не показывали. Для борьбы с этим предложили B-Clean — фреймворк пост-фильтрации бенчмарков, удаляющий вопросы, на которые модель может ответить, опираясь исключительно на текстовые эвристики.

ПОЧЕМУ это важно: Высокие скоры на стандартных бенчмарках принято считать доказательством сильного визуального понимания. Статья доказывает, что эти цифры сильно раздуты языковыми прайорами и структурными багами самих датасетов. В критичных сферах вроде медицины это создаёт режим тихого сбоя: если картинка не прогрузилась, модель просто выдумывает диагноз по тексту, уверенно имитируя визуальный анализ.

Для практиков: Обязательно тестируйте свои пайплайны с отключенной модальностью картинки. Для надёжного продакшена необходимо внедрять архитектурные проверки на этапе инференса, которые будут блокировать ответ, если он не подкреплён реальными доказательствами из изображения.

Смотреть миражи тут: /channel/gonzo_ML_podcasts/3037

Читать полностью…

gonzo-обзоры ML статей

А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей.

Efficient Universal Perception Encoder
Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra
Статья: https://arxiv.org/abs/2603.22387v1
Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder

# TL;DR

ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного "proxy-учителя" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента.

ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур.

Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера.

Сжимать и разжимать тут: /channel/gonzo_ML_podcasts/3014

Читать полностью…

gonzo-обзоры ML статей

Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки.

Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts

# TL;DR

ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.

ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.

Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.

Назначать экспертов здесь: /channel/gonzo_ML_podcasts/2991

Читать полностью…

gonzo-обзоры ML статей

Статья небольшая, но содержательная (3 страницы текста + 2 ссылок). Такую комментировать и обозревать -- только портить. Так что лучше почитайте оригинал. Ревью всё равно оставлю, забавно как там агенты от себя добавили формализма, по-своему прикольно вышло.

"Crucially, humans remain in the loop. Agent institutions are populated by both humans and AI agents in different roles and configurations. It’s not “either/or”, but “both/and”. The U.S. Founders would have recognized the logic [27]: no single concentration of intelligence, human or artificial, should regulate itself. Power must check power, and in a world of artificial agents, this means building conflict and oversight into the institutional architecture."

Agentic AI and the next intelligence explosion
James Evans, Benjamin Bratton, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2603.20639v1

# TL;DR

ЧТО сделали: Авторы предлагают фундаментальный сдвиг парадигмы в отношении траектории развития AGI. Они утверждают, что передовые модели (например, DeepSeek-R1 и QwQ-32B) масштабируются не за счёт монолитных вычислений, а через эмерджентные «общества мыслей» (результат их предыдущей работы /channel/gonzo_ML/4596). В статье представлена теоретическая и практическая основа для Институционального выравнивания (Institutional Alignment), предполагающая, что следующий скачок в возможностях ИИ опирается на многоагентную организационную социологию, а не на изолированное масштабирование параметров.

ПОЧЕМУ это важно: Такое переосмысление в корне меняет наш подход к масштабированию и безопасности ИИ. Авторы показывают, что оптимизационное давление неизбежно порождает внутренний многополярный диалог. Традиционное диадическое выравнивание (RLHF) структурно не способно управлять будущими системами. В будущем проектирование масштабируемых ИИ-экосистем потребует создания жёстких социологических шаблонов: ролей, иерархий и конституционных протоколов, зеркально отражающих человеческую бюрократическую и правовую инфраструктуру.

Для практиков: Для исследователей и техлидов погоня за единственной, всеведущей «моделью-богом» — это математический и исторический тупик. Данные от современных рассуждающих моделей показывают, что интеллект по своей природе — это множественное, реляционное свойство. Когда модели берутся за более сложные задачи, они спонтанно фрагментируются на многоагентные внутренние дебаты. Следовательно, следующий рубеж в исследованиях ИИ — это не просто наращивание FLOPs или размера датасета, а организационная инженерия. Нам нужно строить цифровые институты, определять роли и создавать гиперграфы разрешения конфликтов для координации триллионов взаимодействующих биологических и искусственных агентов.

Выравнивать институции тут: /channel/gonzo_ML_podcasts/2972

Читать полностью…

gonzo-обзоры ML статей

Продолжаем тему с постоянной адаптацией агентов. Сегодня обещанная эволюция скиллов.

Memento-Skills: Let Agents Design Agents
Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang
Статья: https://arxiv.org/abs/2603.18743
Код: https://github.com/Memento-Teams/Memento-Skills
Ревью: https://arxiviq.substack.com/p/memento-skills-let-agents-design

# TL;DR

ЧТО сделали:
Авторы представили Memento-Skills — систему агентов-дженералистов, которая автономно создаёт, мутирует и улучшает переиспользуемые специализированные навыки без изменения весов базовой модели. Используя структурированные markdown-файлы и код как внешнюю эпизодическую память, система применяет замкнутый цикл рефлексивного обучения (Read-Write Reflective Learning) для непрерывной оптимизации своей политики исполнения на основе обратной связи от среды.

ПОЧЕМУ это важно:
Традиционно обучение LLM во время инференса упирается в огромные вычислительные затраты на обновление параметров. Предложенный фреймворк даёт математически обоснованный путь к непрерывному обучению замороженных моделей. Он показывает, что самосовершенствующаяся персистентная память может принести радикальный прирост метрик (более 100% относительного улучшения на некоторых бенчмарках) при сохранении строгих гарантий сходимости.

Для практиков:
Для тех, кто масштабирует агентные пайплайны, опора на статические промпты или библиотеки few-shot примеров жёстко ограничивает способность агента адаптироваться к пограничным случаям (корнер-кейсам) со временем. Memento-Skills смещает парадигму с обучения параметров на эволюцию навыков в памяти. Оснастив замороженную LLM роутером на базе offline RL и механизмом перезаписи собственных логических файлов, система работает как senior-разработчик, непрерывно рефакторящий общую кодовую базу. Этот подход радикально повышает долю успешных выполнений в сложных задачах на рассуждение. Будущее надёжных агентов лежит в сложных, самоизменяющихся архитектурах памяти, а не только в увеличении размера базовых моделей.

Рефакторить говнокод Эволюционировать скиллы тут: /channel/gonzo_ML_podcasts/2946

Читать полностью…

gonzo-обзоры ML статей

Про свою работу о Гиперагентах Таня уже написала, но не пропадать же картинке!

HyperAgents
Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina
Статья: https://arxiv.org/abs/2603.19461
Код: https://github.com/facebookresearch/Hyperagents
Ревью: https://arxiviq.substack.com/p/hyperagents

# TL;DR

ЧТО сделали: Авторы представили DGM-Hyperagents (DGM-H) — фреймворк, который объединяет агента, решающего задачу, и метаоптимизирующего агента в единую, полностью редактируемую самореферентную программу. Погрузив эту сущность в open-ended эволюционный поиск, система автономно переписывает как логику выполнения задачи, так и собственные внутренние механизмы самосовершенствования.

ПОЧЕМУ это важно: Предыдущие самообучающиеся системы упирались в созданные людьми алгоритмы метаобучения, которые плохо обобщаются на новые домены. DGM-H показывает, что агент может самостоятельно изобретать переносимые методы оптимизации (например, системы постоянной памяти и автоматическое выявление смещений). Это позволяет накапливать улучшения и метанавыки в совершенно разных областях, таких как дизайн ревордов для робототехники или проверка олимпиадных задач по математике.

Для практиков: Для тех, кто занимается AI alignment и open-endedness, эта статья от FAIR и академических соавторов даёт схему систем, которые не просто лучше решают задачу, а становятся лучше в самом процессе улучшения. Делая механизм метаобучения программируемым и редактируемым самим агентом, авторы обходят необходимость ручного дизайна эвристик для конкретных доменов. Это открывает надёжный путь к архитектурам с самоускоряющейся оптимизацией.

Гиперагенты тут: /channel/gonzo_ML_podcasts/2924

Читать полностью…

gonzo-обзоры ML статей

Безопасно ли это?
Совершенно нет! Но весело
Можно добавлять метрики и бенчмарки AI Safety прямо в multi-task objective, чтобы агент оптимизировался исходя из безопасности тоже.

Пожалуйста, применяйте HyperAgents в своих задачах, расширяйте применимость метода:
🟣 кодинг, наука, human preferences, поиск - все так или иначе должно работать
🟣можно оптимизировать своего собственного агента, начиная как бы не с нуля, а с текущих наработок (с математикой IMO мы так и сделали в эксперименте, и получилось отлично)

🌸Github https://github.com/facebookresearch/HyperAgents

Читать полностью…

gonzo-обзоры ML статей

Про статью от автора :)

Читать полностью…

gonzo-обзоры ML статей

Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит, почему-то принесло только в мои личные сети.

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
Yulu Gan, Phillip Isola
Paper: https://arxiv.org/abs/2603.12228
Code: https://github.com/sunrainyg/RandOpt
Review: https://arxiviq.substack.com/p/neural-thickets-diverse-task-experts

# TL;DR

ЧТО сделали: Авторы предложили полностью параллельный безградиентный алгоритм RandOpt для post-training. Он улучшает предобученные большие языковые модели (LLM) путём простого сэмплирования случайного гауссовского шума поверх весов, оценки этих зашумлённых моделей и ансамблирования предсказаний лучших из них.

ПОЧЕМУ это важно: Работа ставит под сомнение устоявшееся мнение, что выравнивание (alignment) языковых моделей строго требует сложной последовательной оптимизации вроде обучения с подкреплением. Исследование раскрывает структурный феномен «нейронных дебрей» (neural thickets). Оказывается, при достаточном масштабе предобученная модель работает как распределение, в непосредственной окрестности весов которого плотно упакованы разнообразные эксперты под конкретные задачи.

Погружаться в дебри тут: /channel/gonzo_ML_podcasts/2879

Читать полностью…

gonzo-обзоры ML статей

Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :)

Завтра новая неделя, и для тех, кому после тяжёлого трудового дня хочется всех замочить, мы вместе с Клод кодом сделали простую браузерную игру, где можно делать это безопасно:

https://cloud-heavy-industries.com/grumbulus/

Мочите на здоровье!

Читать полностью…

gonzo-обзоры ML статей

Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают!

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes
Статья: https://arxiv.org/abs/2603.14482
Код и модели: https://github.com/facebookresearch/vjepa2
Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features

# TL;DR

ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи.

ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI.

Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники.

Выделять фичи тут: /channel/gonzo_ML_podcasts/2846

Читать полностью…

gonzo-обзоры ML статей

Пост про RL для ризонинг моделей

https://aweers.de/blog/2026/rl-for-llms/

Читать полностью…

gonzo-обзоры ML статей

Добыча ценного реварда из текущего взаимодействия агента со средой.

OpenClaw-RL: Train Any Agent Simply by Talking
Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
Статья: https://arxiv.org/abs/2603.10165
Код: https://github.com/Gen-Verse/OpenClaw-RL
Ревью: https://arxiviq.substack.com/p/openclaw-rl-train-any-agent-simply

# TL;DR

ЧТО сделали:
Исследователи из Принстонского университета представили OpenClaw-RL — асинхронный фреймворк для непрерывного обучения языковых агентов прямо во время их работы (live deployment). Разделив инференс политики, выполнение в среде, оценку реворда и обучение модели на независимые асинхронные циклы, система улавливает "сигналы следующего состояния" (next-state signals, такие как исправления от пользователя или ошибки в терминале). Затем эти сигналы превращаются в градиенты для оптимизации с помощью комбинации скалярных Process Reward Models (PRMs) (https://arxiv.org/abs/2305.20050) и дистилляции на уровне токенов (Hindsight-Guided On-Policy Distillation, OPD).

ПОЧЕМУ это важно:
Современная парадигма элайнмента сильно зависит от собранных батчами статических датасетов или итоговых эпизодических ревордов, которые дают крайне разреженный сигнал для credit assignment в длинных задачах. Разработав неблокирующую архитектуру, которая динамически впитывает неявный фидбек от пользователя и среды без паузы на инференс, авторы предлагают рабочий концепт для самообучающихся агентов. Это позволяет им адаптироваться в реальном времени, существенно решая проблему сбора данных в современном обучении с подкреплением.

Ревард получать тут: /channel/gonzo_ML_podcasts/2820

Читать полностью…
Subscribe to a channel