gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23723

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever.

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals

# TL;DR

ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.

ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.

Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.

Раскладывать тензоры тут: /channel/gonzo_ML_podcasts/3301

Читать полностью…

gonzo-обзоры ML статей

И ещё про развитие ветки Universal Transformer (см.вчерашнее /channel/gonzo_ML/5206).

Интересно про трёхфазовый гроккинг:

На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение.


Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao
Статья: https://arxiv.org/abs/2604.07822v1
Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize
Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit

# TL;DR

ЧТО сделали:
Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении.

ПОЧЕМУ это важно:
Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто "думая" дольше.

Для практиков:
Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях.

В глубины: /channel/gonzo_ML_podcasts/3279

Читать полностью…

gonzo-обзоры ML статей

Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и побеждает!

A Mechanistic Analysis of Looped Reasoning Language Models
Hugh Blayney, Álvaro Arroyo, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Michael Bronstein, Xiaowen Dong
Статья: https://arxiv.org/abs/2604.11791v1
Код: https://github.com/TrelisResearch/nanochat/tree/recursive
Ревью: https://arxiviq.substack.com/p/a-mechanistic-analysis-of-looped

# TL;DR

ЧТО сделали: Авторы провели глубокий механистический анализ зацикленных (looped) языковых моделей — архитектур, которые масштабируют вычисления на инференсе за счёт многократного применения одних и тех же блоков трансформера. Они теоретически доказали и эмпирически подтвердили, что такие циклические сети естественно сходятся к чётким неподвижным точкам (fixed points) в латентном пространстве, самоорганизуясь в предсказуемые стадии вывода, которые зеркально отражают функциональную глубину стандартных feedforward моделей.

ПОЧЕМУ это важно: Пока индустрия активно движется к адаптивным способностям рассуждения через масштабирование вычислений на инференсе, критически важно понимать внутреннюю динамику рекуррентной глубины. Показав, что зацикленные модели отвязывают функциональные стадии рассуждения от физического количества параметров, исследователи дали теоретическую базу для создания крайне параметрически эффективных рассуждающих моделей. Это позволяет избежать типичной для рекуррентных сетей деградации в виде чрезмерного обдумывания (overthinking).

Для практиков: Предсказуемая природа циклических стадий вывода открывает путь к мощным оптимизациям. Например, можно агрессивно разреживать внимание на стабильных стадиях перемешивания контекста или сжимать промежуточные репрезентации в циклических MLP, получая сильные модели без раздувания вычислительного бюджета и памяти.

Думать мысли тут: /channel/gonzo_ML_podcasts/3251

Читать полностью…

gonzo-обзоры ML статей

Третий эксперимент про регенерацию — если повредить финальное состояние модели (пять разных способов), восстановит ли модель его? Ящерица, неожиданно, делает это неплохо, хотя и не обучалась на такое. Но поскольку модель обучалась расти из начального одноклеточного состояния, то в целом что-то такое можно ожидать, как можно ожидать и других развитий типа неконтролируемого роста. Чтобы явно помочь модели взрастить регенеративные способности, можно расширить бассейн аттрактора для конечного состояния, то есть увеличить пространство конфигураций, из которых модель достигает своё целевое состояние. Для этого на каждом шаге обучения несколько отобранных примеров повреждаются случайным кружком, затирающим место попадания. Итого, в каждом отобранном батче пример с худшим лоссом заменяется на начальное состояние, а три с самым лучшим лоссом повреждаются рандомными кружочками. В итоге получается модель с лучшими способностями к регенерации, даже к повреждениям, которые модель не встречала.

Последний четвёртый эксперимент включает вращения перцептивного поля. К операторам Собеля применяются вращения на заданный угол, и это приводит к генерации повёрнутой картинки, без какого-либо переобучения модели. В пиксельных моделях это не так тривиально и ожидаемо как в непрерывных, поскольку одиночный пиксель при повороте может легко перекрыть уже несколько пикселей. Но по факту всё работает за пределами того, что модель встречала в обучении.

Что прикольно, обучили также НКА для планарии (один из любимых примеров регенерации, который тот же Майкл Левин постоянно использует). После разрезания выращенной из одной клетки цифровой планарии на три части и разделения их, из каждой вырастает новая цифровая планария. Выглядит круто.

В последнее время появилось сколько-то работ, продолжающих эту линию, попробую их разобрать.

Читать полностью…

gonzo-обзоры ML статей

Growing Neural Cellular Automata
Alexander Mordvintsev, Ettore Randazzo, Eyvind Niklasson, Michael Levin
Интерактивная статья + ссылки на код: https://distill.pub/2020/growing-ca/
Ноутбук для экспериментов: тут

Эту старую, 2020 года, тему про нейронные клеточные автоматы (НКА) мы многократно упоминали, но нормально так и не разбирали. А стоило бы, особенно после темы про вычислительную жизнь. Авторы прекрасны, Майкла Левина вы и так знаете, вероятно и Александра Мордвинцева тоже, но если нет, то за его работами я рекомендую следить, у него много прекрасных тем про самоорганизацию, искусственную жизнь и рядом, а ещё, в частности, он соавтор старого доброго DeepDream. Для многих текущая волна генеративного искусства началась именно с него. Предыдущая волна, кажется, была про фракталы.

В этой работе есть большой заход на тему про морфогенез и развитие организма из одной клетки, а также регенерацию. Она про то, что где-то там существуют правила на уровне клетки, каждая клетка принимает локальные решения исходя из своего окружения, и сообща они создают достаточно сложный “организм”.

КА

Всеми любимые клеточные автоматы (КА), включая игру Жизнь (мы когда-то разбирали один из свежих результатов с доказательством, что она омнипериодическая), работают просто. Есть набор клеток или ячеек, например на плоскости. В каждой выполняется одно и то же правило. Например, для игры жизнь это следующие правила:

1. Рождение: В пустой (мертвой) клетке зарождается жизнь (клетка становится живой), если у нее ровно три живых соседа.

2. Выживание: Живая клетка остается живой, если у нее есть два или три живых соседа.

3. Смерть (Одиночество/Перенаселение): Живая клетка умирает, если у нее меньше двух живых соседей (одиночество) или больше трех (перенаселение).

Эти весьма простые правила приводят к потрясающе красивым результатам. В этой симуляции появляются стабильные элементы, есть движущиеся глайдеры, есть много разных других прекрасных конфигураций. Умельцы собирают на глайдерах даже компьютеры, подробнее тут.

Про клеточные автоматы Вольфрам написал целую книгу, можно например почитать вот здесь. Есть также варианты перехода из дискретного пространства в непрерывное — мне кажется, самая известная здесь Lenia. Да и вообще область как таковая довольно древняя — сам Тьюринг экспериментировал с паттернами морфогенеза.

НКА

Обычно в КА играют в режиме, что сначала задают правила, а затем смотрят, к каким результатам они приводят. К КА можно подойти и с обратной стороны — задаться результатом (например, фенотипом организма) и найти (или выучить) КА, создающий его.

Для того, чтобы задать КА надо решить, какие состояния у него могут быть (обычно это набор дискретных значений, но могут быть и непрерывные), а также задать функцию обновления состояния. Если взять непрерывные значения и позволить функции обновления быть дифференцируемой, то, вы уже понимаете, это можно выучить градиентным спуском, как нейросети.

Например (переходим к деталям работы), можно задать состояние каждой клетки набором из 16 вещественных чисел (каналов в терминах изображений). Первые три задают RGB компоненты цвета, и ещё одно — альфу (которая равна нулю для фона и 1 для объекта). Эта альфа будет определять “живость” клетки: α>0.1 означает, что клетка жива и её соседи тоже. Все остальные клетки мертвы и их состояние устанавливается в ноль. Итого, клетки с α>0.1 — зрелые, а их соседи с α≤0.1 — растущие (и могут стать зрелыми, когда значение превысит 0.1). Остальные каналы не имеют предопределённого значения, правило обновления само решит как их использовать. Их можно интерпретировать как концентрацию различных веществ, электрические потенциалы или иные сигнальные механизмы, используемые клетками.

Читать полностью…

gonzo-обзоры ML статей

Прикольная работа про эволюцию без внешних верификаторов. Есть интересные инсайты про то, что большая модель для генерации разнообразия + маленькая для последующей фильтрации лучше, чем наоборот. И ещё мне понравилось про кастомное ядро для vLLM.

Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution
Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu
Paper: https://arxiv.org/abs/2604.07725
Code: https://github.com/squeeze-evolve/squeeze-evolve
Project Page: https://squeeze-evolve.github.io
Review: https://arxiviq.substack.com/p/squeeze-evolve-unified-multi-model

# TL;DR

ЧТО сделали: Авторы представляют SQUEEZE EVOLVE — фреймворк для оркестрации мультимодельного эволюционного инференса без опоры на внешние верификаторы. Используя встроенную в модель уверенность (confidence) и сигналы семантического разнообразия, система динамически маршрутизирует задачи рекомбинации кандидатов: либо в тяжёлые и умные модели, либо в компактные и дешёвые, в зависимости от необходимой маржинальной пользы.

ПОЧЕМУ это важно: Масштабирование вычислений на инференсе — проверенный путь к улучшению способностей к рассуждению. Однако запускать продвинутый эволюционный поиск исключительно на самых мощных моделях экономически нецелесообразно, к тому же это часто приводит к «коллапсу разнообразия», снижающему качество. SQUEEZE EVOLVE решает обе проблемы одновременно. Фреймворк устанавливает новую границу соотношения цены и качества: снижает затраты на API до трёх раз и увеличивает пропускную способность системы почти в 10 раз, при этом сохраняя или превосходя качество значительно более дорогих одномодельных подходов.

Для практиков: Для архитектур, масштабирующих задачи на рассуждение или научные открытия, однообразные запросы к тяжёлым моделям становятся устаревшей стратегией. Статья показывает, что качество инициализации определяет итоговую точность. Поэтому использование большой модели строго для первичной генерации и адаптивная маршрутизация последующих шагов улучшения в более дешёвые модели (на основе их внутренней уверенности) даёт огромный прирост эффективности. В сочетании с кастомными модификациями движка инференса эта техника оркестрации делает масштабный verifier-free инференс практически применимым в условиях жёстких ограничений по задержкам и бюджету.

Эволюционировать тут: /channel/gonzo_ML_podcasts/3223

Читать полностью…

gonzo-обзоры ML статей

Про многоэтапную верификацию CUA (Computer Use Agent).

The Art of Building Verifiers for Computer Use Agents
Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah
Статья: https://arxiv.org/abs/2604.06240v1
Код: https://github.com/microsoft/fara
Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for

# TL;DR

ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов.

ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов.

Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств.

Верифицировать здесь: /channel/gonzo_ML_podcasts/3204

Читать полностью…

gonzo-обзоры ML статей

Большой обзор про латентное пространство!

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Zhucun Xue, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2604.02029v1
Репа: https://github.com/YU-deep/Awesome-Latent-Space
Ревью: https://arxiviq.substack.com/p/the-latent-space-foundation-evolution

# TL;DR

ЧТО сделали: Авторы представили подробную таксономию и формальный обзор подходов на базе "латентного пространства" в языковых моделях. Работа переосмысляет непрерывные внутренние состояния: из скрытых деталей реализации они превращаются в первичный, машинно-нативный вычислительный субстрат. Исследователи систематизировали сотни разрозненных статей в двумерную структуру, сопоставляющую механистический дизайн (архитектуру, репрезентации, вычисления, оптимизацию) с функциональными возможностями (рассуждения, планирование, восприятие, память, embodied-задачи и коллаборация).

ПОЧЕМУ это важно: Современные авторегрессионные модели упираются в серьёзные структурные ограничения из-за избыточности языка, боттлнека дискретизации и высоких затрат на последовательное декодирование. Перенос вычислений в непрерывное латентное многообразие позволяет кодировать суперпозиции путей рассуждения, сохранять высокоточную мультимодальную информацию и обмениваться данными между агентами без семантических потерь. Это фундаментально меняет архитектурные рамки базовых моделей следующего поколения.

Для практиков: Переход на непрерывные репрезентации означает скорый отказ от явного промпт-инжиниринга промежуточных шагов (CoT) в пользу работы со скрытыми состояниями. Дискретный текст останется лишь интерфейсом ввода-вывода, тогда как основная тяжёлая работа (поиск, симуляция, память) уйдёт в латентное пространство. Потребуется новый инструментарий для мониторинга, отладки и AI alignment таких состояний, так как для человека они полностью непрозрачны.

Латенты тут: /channel/gonzo_ML_podcasts/3185

Читать полностью…

gonzo-обзоры ML статей

Вышел свежий 2026 AI Index Report

https://hai.stanford.edu/ai-index/2026-ai-index-report

Читать полностью…

gonzo-обзоры ML статей

ИИ-исследователи всё более полного цикла.

ASI-Evolve: AI Accelerates AI
Weixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao, Pengfei Liu
Paper: https://arxiv.org/abs/2603.29640
Code: https://github.com/GAIR-NLP/ASI-Evolve
Review: https://arxiviq.substack.com/p/asi-evolve-ai-accelerates-ai

# TL;DR

ЧТО сделали: Авторы представили ASI-EVOLVE — агентный фреймворк, созданный для автоматизации дорогих и длительных исследовательских циклов, которые двигают вперёд фундаментальный прогресс в ИИ. Система реализует непрерывную петлю «обучение–дизайн–эксперимент–анализ», усиленную когнитивной базой из априорных человеческих знаний и отдельным модулем-анализатором. Этот анализатор умеет дистиллировать многомерные логи обучения в понятные причинно-следственные инсайты.

ПОЧЕМУ это важно: Хотя предыдущие эволюционные агенты преуспевали в узких алгоритмических задачах или автоматической генерации статей, этот фреймворк демонстрирует унифицированный и полностью автономный поиск сразу в трёх главных столпах современного ИИ: архитектурах моделей, курировании датасетов предобучения и алгоритмах обучения с подкреплением (RL). Успешно перекладывая бремя оптимизации с плеч исследователей на агентный пайплайн, работа создаёт прецедент для рекурсивного самосовершенствования ИИ с замкнутым циклом.

Для практиков: Для опытных специалистов и руководителей, управляющих масштабными исследованиями, ASI-EVOLVE представляет собой структурный сдвиг в подходе к разработке ИИ. Вместо ручной настройки механизмов внимания или формул функции потерь (лосса) в RL, можно развернуть этот фреймворк для автоматического прочёсывания огромных пространств гипотез. Используя семантический поиск по прошлой литературе и программный анализ логов, система уже нашла 105 новых архитектур линейного внимания, превосходящих устоявшиеся бейзлайны, вывела стратегии курирования данных, которые подняли MMLU более чем на 18 пунктов, и сформулировала новые правила обновления для RL. Это прямо указывает на ближайшее будущее, где роль человека сведётся не к инженерному решению задач, а к заданию правильных ограничений для автономного поиска.

Исследовать тут: /channel/gonzo_ML_podcasts/3157

Читать полностью…

gonzo-обзоры ML статей

Дорожная карта развития железа для ИИ на ближайшие 10 лет. Хотим ускорения в 1000 раз: 10x от инноваций в алгоритмах, 20x от архитектурных улучшений и утилизации кремния, и 5x от оркестрации на уровне системы.

AI+HW 2035: Shaping the Next Decade
Deming Chen, Jason Cong, Azalia Mirhoseini, Christos Kozyrakis, Subhasish Mitra, Jinjun Xiong, Cliff Young, Anima Anandkumar, Michael Littman, Aron Kirschen, Sophia Shao, Serge Leef, Naresh Shanbhag, Dejan Milojicic, Michael Schulte, Gert Cauwenberghs, Jerry M. Chow, Tri Dao, Kailash Gopalakrishnan, Richard Ho, Hoshik Kim, Kunle Olukotun, David Z. Pan, Mark Ren, Dan Roth, Aarti Singh, Yizhou Sun, Yusu Wang, Yann LeCun, and Ruchir Puri
Статья: https://arxiv.org/abs/2603.05225
Ревью: https://arxiviq.substack.com/p/aihw-2035-shaping-the-next-decade

# TL;DR

ЧТО сделали: Масштабный консорциум лидеров индустрии и академии составил комплексную 10-летнюю дорожную карту для объединения разработки ИИ-алгоритмов и железа. Цель — улучшить эффективность обучения и инференса в 1000 раз.

ПОЧЕМУ это важно: Экспоненциальное масштабирование foundation-моделей столкнулось с жёсткими физическими, температурными и инфраструктурными ограничениями. Энергия на перемещение данных теперь превышает энергию на сами вычисления, создавая суровую "стену памяти". Решить эту проблему математически и практически необходимо, чтобы глобальная нехватка энергии в дата-центрах не остановила прогресс ИИ.

Для практиков: Для стратегов по железу, проектировщиков архитектур и ML-исследователей эта дорожная карта — срочная директива. Она описывает переход от изолированной разработки, сфокусированной на вычислениях, к парадигме кросс-уровневого совместного проектирования (co-design). Требуя внедрения 3D-интеграции вычислений в памяти (CIM), алгоритмической устойчивости к шуму смешанных сигналов и использования ИИ для автоматизации проектирования электроники (EDA), статья намечает путь к устойчивому агентному ИИ. Такой ИИ будет способен эффективно работать везде: от гигаваттных облаков до милливаттных физических edge-устройств.

Ковать железо тут: /channel/gonzo_ML_podcasts/3148

Читать полностью…

gonzo-обзоры ML статей

Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки. Так, глядишь, и термодинамическое железо массово выстрелит!

Neural Computers

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, 💪 Jürgen Schmidhuber
Paper: https://arxiv.org/abs/2604.06425
Code: https://github.com/metauto-ai/NeuralComputer
Blog: https://metauto.ai/neuralcomputer/index_eng.html
Review: https://arxiviq.substack.com/p/neural-computers

# TL;DR

ЧТО сделали:
Исследователи из Meta AI и KAUST предлагают новую архитектурную парадигму под названием нейрокомпьютер (Neural Computer, NC). Она объединяет вычисления, память и операции ввода-вывода в единое выученное скрытое состояние во время выполнения. Вместо того чтобы рассматривать ИИ как агента, который манипулирует внешней операционной системой, они встроили компьютер прямо в веса диффузионного трансформера (на базе Wan2.1). Идея проверена на двух прототипах: NC_{CLIGen} для работы с терминалом и NC_{GUIWorld} для графических интерфейсов десктопа.

ПОЧЕМУ это важно:
Работа намечает фундаментальный сдвиг от модульного стека железа и софта фон Неймана к единому «нейросетевому латентному стеку». Если этот тренд сохранится, будущие системы не будут программироваться явно кодом, а будут настраиваться дифференцируемым образом. Доказав, что базовые примитивы (например, выравнивание ввода-вывода и управление на коротких горизонтах) могут возникать исключительно из наблюдения за интерфейсными трейсами, авторы рисуют путь к полностью нейросетевым компьютерам (Completely Neural Computers, CNC), которые смогут заменить традиционные цифровые вычислительные платформы.

Для практиков:
Для техлидов и исследователей эта статья подсвечивает критическую развилку в дизайне ИИ-систем. Пока индустрия вливает огромные ресурсы в агентов, использующих внешние инструменты, эта работа предлагает альтернативу, где модель сама впитывает в себя среду исполнения. Подробные абляции показывают, что модели умеют очень точно рендерить интерфейсы и реагировать на ввод пользователя. Однако вскрывается и серьёзное ограничение: текущие реализации на базе видеомоделей — это великолепные рендереры, но пока ещё очень хрупкие рассуждающие модели при решении задач с нативной символьной логикой.

Рендерить тут: /channel/gonzo_ML_podcasts/3121

Читать полностью…

gonzo-обзоры ML статей

Иметь заалайненную "безопасную" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки. И да поможет нам всем Mythos здравый смысл и ответственный подход!

ClawSafety: "Safe" LLMs, Unsafe Agents

Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge
Paper: https://arxiv.org/abs/2604.01438
Code: https://weibowen555.github.io/ClawSafety/
Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents

# TL;DR

ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб).

ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть.

Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический "разрыв комплаенса", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке.

Эксплойтить тут: /channel/gonzo_ML_podcasts/3102

Читать полностью…

gonzo-обзоры ML статей

Зачем агентам нужна интуитивная физика.

Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/

# TL;DR

ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.

ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.

Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.

Получать интуицию тут: /channel/gonzo_ML_podcasts/3088

Читать полностью…

gonzo-обзоры ML статей

Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах, который работает неожиданно хорошо для кода. Есть над чем подумать.

Embarrassingly Simple Self-Distillation Improves Code Generation
Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
Статья: https://arxiv.org/abs/2604.01193v1
Репа: https://github.com/apple/ml-ssd
Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation

# TL;DR

ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя.

ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей.

Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма.

Самодистиллировать тут: /channel/gonzo_ML_podcasts/3075

Читать полностью…

gonzo-обзоры ML статей

Давно мы про табличный ML не писали!

Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for

# TL;DR

ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.

ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.

Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.

Углубляться тут: /channel/gonzo_ML_podcasts/3290

Читать полностью…

gonzo-обзоры ML статей

Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший код Клод кода и анализируют как устроен агент такого рода. Интересное чтиво. Харнесс, всюду харнесс. Больше 98% кода это оркестрационная обвязка вокруг интеллекта.

Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems
Jiacheng Liu, Xiaohan Zhao, Xinyi Shang, Zhiqiang Shen
Статья: https://arxiv.org/abs/2604.14228v1
Репа: https://github.com/VILA-Lab/Dive-into-Claude-Code
Ревью: https://arxiviq.substack.com/p/dive-into-claude-code-the-design

# TL;DR

ЧТО сделали: Авторы провели реверс-инжиниринг исходного кода на TypeScript агента Claude Code (v2.1.88) от Anthropic. Цель — разобрать архитектурный дизайн промышленных AI-агентов для написания кода. Исследователи вытащили наружу базовые механизмы системы и показали сложную инфраструктуру из семи компонентов, которая жёстко отделяет способности LLM к рассуждению от операционной обвязки, отвечающей за безопасность, контекст и память.

ПОЧЕМУ это важно: Работа эмпирически доказывает: по мере того как базовые способности фундаментальных моделей выравниваются, главным конкурентным преимуществом надёжных автономных систем становится именно детерминированная инженерная обвязка вокруг модели. Оказалось, что 98.4% кодовой базы промышленного агента — это операционная инфраструктура, а не логика принятия решений ИИ. Это заставляет переосмыслить подход к разработке и уйти от хрупкой оркестрации на базе промптов в сторону надёжных архитектур, напоминающих операционные системы.

Для практиков: Для техлидов и ИИ-исследователей этот анализ служит детальным чертежом того, как топовые лаборатории разворачивают автономные инструменты в продакшене. Статья подробно разбирает, как Claude Code справляется с давлением бесконечно растущего контекста через пятиуровневый пайплайн сжатия и обеспечивает безопасность с помощью жёсткого гейта разрешений (deny-first). Важно отметить, что работа подсвечивает и структурные трейды: хотя мощная инфраструктура ускоряет разработку в моменте, ограниченное окно контекста и изолированные субагенты создают риск того, что со временем общая связность кодовой базы и понимание проекта человеком будут деградировать.

Погружаться сюда: /channel/gonzo_ML_podcasts/3260

Удобнее наверно читать в виде страницы, где картинки вставлены к месту: https://arxiviq.substack.com/p/dive-into-claude-code-the-design

Читать полностью…

gonzo-обзоры ML статей

Начало холивара детектед! 😁

https://x.com/fchollet/status/2045524796298101077

Читать полностью…

gonzo-обзоры ML статей

Правило обновления можно воспринимать как геном клетки и он у всех клеток будет общим. Правило работает (и клетки живут) на двумерном поле, по факту на тензоре размерности [height, width, 16]. Мы хотим, чтобы на клетку влияло только близкое окружение, так что у правила будет небольшое рецептивное поле, скажем 3x3, с самой клеткой в середине (как и у игры жизнь). Это можно задать операцией свёртки.

Каждая клетка “смотрит” на своё ближайшее окружение (через свёртку размером 3x3). Авторы не стали делать эту свёртку обучаемой, а решили выбрать заранее заданные фильтры Собеля, горизонтальный и вертикальный. Они используются для выделения границ, то есть по сути считают производные по направлениям. Авторы исходили из логики, что внутри организмов клетки часто ориентируются на химические градиенты для направления развития организма. Итого, на вход правила обновления отправляются 48 чисел: 16 чисел оригинального состояния, и ещё два раза по 16 — градиенты по горизонтали и вертикали.

Далее обучаемая часть, которая генерит дельту, добавляемую к исходному состоянию клетки. Обучаемая часть задана двуслойной сетью: dense-128 -> relu -> dense-16 (на выходе relu нет, так как дельты могут быть и отрицательными). Инициализировано так, чтобы на старте обучения давало ноль и ничего не делало с исходным состоянием.

Есть также стохастическое обновление. Обычные KA обновляют все клетки одномоментно, как будто есть глобальная синхронизация. В живых организмах её нет и авторы ослабляют требование синхронизации, считая, что обновления клеток происходят через случайные интервалы времени. Для эмуляции этого процесса генерируется бинарная маска (по превышению рандомом 0.5) и обновляются только клетки с установленной маской. Можно также рассматривать это как поклеточный дропаут.

Для моделирования процесса роста организма надо чтобы на обновление влияли только клетки организма (не фона), поэтому все каналы пустых клеток (определяемых по альфа-каналу) устанавливаются в ноль. Пустой считается клетка без зрелых (α>0.1) соседей в окружении 3x3.

В целом простые правила. Далее, чтобы обучить на какую-то задачу надо задать лосс-функцию.

Эксперименты

В первом эксперименте обучают КА расти, то есть достигать целевого изображения, стартуя с одной клетки (seed). Эта клетка инициализирована единицами во всех каналах кроме RGB, затем к ней многократно применяется правило обновления (количество применений сэмплится из диапазона [64, 96]). В конце такого шага считается L2-лосс между целевым изображением и RGBA каналами, по сигналу от этого лосса с помощью градиентного спуска происходит обучение двух dense слоёв в правиле обновления.

Правила выучиваются генерить заданные паттерны, но будучи запущенными дольше, чем было во время обучения, начинают портить изображения. Хочется сделать так, что когда изображение создано, оно остаётся. Сделать его своеобразным аттрактором, про это второй эксперимент.

По идее для этого можно обучать на большем количестве итераций, периодически применяя лосс. Это требует заметно больше памяти и, понятное дело, дольше. Авторы пошли другим путём. Они стартуют с пула начальных состояний (например, 1024 штуки). Из него сэмплится батч для шага обучения (32 сэмпла), но один сэмпл в батче всегда заменяется на оригинальное начальное состояние, чтобы предотвратить катастрофическое забывание. После шага обучения проитерированные сэмплы заменяют в пуле оригинальные. Это помогает добавить стабильности. Также помогает замена на начальное значение не случайного сэмпла, а сэмпла с худшим лоссом.

Читать полностью…

gonzo-обзоры ML статей

"Думать надо, когда надо. А когда не надо, думать не надо."
-- Тони Роббинс

А вообще забавно, что в LLM появляются механизмы прерываний, как в своё время в процессорах.

Think Anywhere in Code Generation

Xue Jiang, Tianyu Zhang, Ge Li, Mengyang Liu, Taozhi Chen, Zhenhua Xu, Binhua Li, Wenpin Jiao, Zhi Jin, Yongbin Li, Yihong Dong
Статья: https://arxiv.org/abs/2603.29957v2
Код: https://github.com/jiangxxxue/Think-Anywhere
Ревью: https://arxiviq.substack.com/p/think-anywhere-in-code-generation

# TL;DR

ЧТО сделали: Исследователи из Пекинского университета и Tongyi Lab (Alibaba) представили THINK-ANYWHERE — новый механизм рассуждений, который позволяет LLM динамически ставить генерацию на паузу и запускать обдумывание на любом токене при написании кода. Это отход от доминирующей парадигмы, где модель генерирует единый, исчерпывающий блок размышлений строго до начала вывода кода.

ПОЧЕМУ это важно: Такой подход гораздо точнее имитирует мышление человека при программировании, когда проблемы и корнер-кейсы часто всплывают уже в процессе реализации. Запуская ризонинг именно в узких местах с высокой энтропией, модель бьёт SOTA по точности на бенчмарках кодогенерации и, что парадоксально, сокращает общее количество сгенерированных токенов, оптимизируя вычисления во время инференса.

Для практиков: Динамическое распределение токенов ризонинга позволяет снизить задержку при генерации и экономить бюджет токенов. Подход можно адаптировать под разные домены (отлично работает даже на математике), но для запуска потребуется качественный SFT-прогрев, чтобы научить базовую модель правильно использовать теги прерывания.

Думать тут: /channel/gonzo_ML_podcasts/3237
Не думать тут: /channel/gonzo_ML_podcasts/3250

Читать полностью…

gonzo-обзоры ML статей

Про спектральную математику оптимизатора Мюон. На подумать.

Muon Dynamics as a Spectral Wasserstein Flow
Gabriel Peyré
Статья: https://arxiv.org/abs/2604.04891
Код: https://github.com/gpeyre/spectral-wasserstein
Ревью: https://arxiviq.substack.com/p/muon-dynamics-as-a-spectral-wasserstein

# TL;DR

ЧТО сделали: Автор представляет семейство «спектральных расстояний Вассерштейна», параметризованных матричной нормой на положительно полуопределённых матрицах. Обобщая оптимальный транспорт через штрафование глобальной ковариации смещений, статья доказывает, что непрерывный предел оптимизатора Muon (https://kellerjordan.github.io/posts/muon/) — это точный градиентный поток в операторной норме этой геометрии.

ПОЧЕМУ это важно: Работа переводит спектрально нормализованные апдейты из разряда эмпирических эвристик в строгие геометрические принципы непрерывного времени. Это даёт математический фундамент для анализа стабильности, координации частиц и потенциальной глобальной сходимости современных матричных оптимизаторов, которыми сейчас обучают LLM.

Для практиков: Пока это строгая математическая база. Если вы используете Muon для обучения, теперь вы знаете, что он не просто делает ортогональную проекцию, а оптимально двигает веса в специальном неевклидовом пространстве. Это открывает путь к созданию новых, математически обоснованных вариантов оптимизаторов для больших моделей.

Вкуривать тут (я ещё не): /channel/gonzo_ML_podcasts/3216

Читать полностью…

gonzo-обзоры ML статей

Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta Magazine: “The AI Revolution in Math Has Arrived

Mathematical methods and human thought in the age of AI
Tanya Klowden, Terence Tao
Статья: https://arxiv.org/abs/2603.26524
Ревью: https://arxiviq.substack.com/p/mathematical-methods-and-human-thought

# TL;DR

ЧТО сделали: Авторы предлагают философский и стратегический фреймворк для интеграции ИИ в математически строгие пайплайны. Описан поэтапный переход от простой помощи на периферии к полноценному коллаборативному сосуществованию человека и машины.

ПОЧЕМУ это важно: По мере того как языковые и рассуждающие модели масштабируются, автоматизация интеллектуального труда опасно отрывается от базовых когнитивных процессов. Бесконтрольное внедрение ИИ грозит системным загрязнением данных («коллапс ИИ») и эпистемологической цикличностью.

Для практиков: Для безопасного использования ИИ в качестве интеллектуальной базы необходимы строгие барьеры формальной верификации. Это позволяет изолировать стохастические галлюцинации моделей и не принимать сгенерированный синтаксис за фактическую истину.

Искать истину тут: /channel/gonzo_ML_podcasts/3199

Читать полностью…

gonzo-обзоры ML статей

Вчера для deep research брали одного большого агента. Но по пять. А сегодня берут несколько маленьких. Но по три.

Memory Intelligence Agent
Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Статья: https://arxiv.org/abs/2604.04503v2
Ревью: https://arxiviq.substack.com/p/memory-intelligence-agent
Код: https://github.com/ECNU-SII/MIA
Модель: https://huggingface.co/LightningCreeper/MIA

# TL;DR

ЧТО сделали: Авторы предложили фреймворк Memory Intelligence Agent (MIA), который перестраивает ризонинг автономного агента в разделённую архитектуру Manager-Planner-Executor. Подход смещает фокус с простого извлечения фактов на выучивание процедурных стратегий поиска. Это достигается за счёт комбинации явного непараметрического буфера памяти и непрерывного обновления параметров модели через обучение с подкреплением прямо во время инференса (Test-Time Learning, TTL).

ПОЧЕМУ это важно: Исследователи эмпирически доказали, что умное управление памятью и стратегическая абстракция способны нивелировать разницу в качестве между маленькими и большими моделями. Использование 7B модели в роли исполнителя позволило превзойти 32B модель на 18%. MIA показывает, что выучивание самого "процесса" решения задачи вычислительно эффективнее и лучше масштабируется, чем простое расширение окна контекста или увеличение числа параметров.

Для практиков: Современные deep research агенты часто страдают от раздувания памяти и размытия внимания при обработке длинных историй выполнения. MIA решает эту проблему, сжимая сырые трейсы взаимодействия в высокоуровневые саммари рабочих процессов, которые затем используются для динамического обновления агента-планировщика через попеременное обучение с подкреплением. Для архитекторов ИИ-систем это сигнал к переходу на саморазвивающиеся архитектуры, где непрерывное обучение специфичным процедурам прямо на инференсе даёт больший профит, чем статический, перегруженный знаниями контекст.

Три агента тут: /channel/gonzo_ML_podcasts/3169

Читать полностью…

gonzo-обзоры ML статей

Структура свободного времени сильно изменилась за последние месяцы. Теперь есть миллион проектов, которые наконец можно не закапывать в списки на будущее, а делать агентами, и сейчас типовое время за компом выглядит так, что, например, в одном окне я проверяю и готовлю к публикации разбор очередной свежей статьи (сделанный агентами, конечно), в другом антигравити гоняет эксперименты на TPU, а ещё висят пара Клод кодов, куда я периодически захожу чтобы попушить другие проекты. На работе аналогично, пока идут звонки, Курсор или Клод код пишут код, что-то проверяют, готовят документацию или генерят репорты. Узкое место уже давно не код как таковой, а продуктовая проработка и другая осмысленная валидация. Во всём этом богатстве главный челлендж теперь -- находить достаточно непрерывного времени для глубокого обдумывания. Нормальное человеческое внимание -- очень редкий и дорогой ресурс.

Читать полностью…

gonzo-обзоры ML статей

В продолжение темы про Thrust2 и ThrustSSC.

Bloodhound LSR/SSC (https://en.wikipedia.org/wiki/Bloodhound_LSR) -- машина с реактивным двигателем Rolls-Royce Eurojet EJ200, призвана преодолеть порог в 1000 миль в час (это будет 1,609 км/ч). Пока достигли только 628 миль в час (1,011 км/ч). Выглядит уже почти как спейс шаттл в миниатюре (но всё равно немаленькая).

К сожалению, проект преследуют финансовые трудности, так что если среди читателей есть миллиардеры или миллионеры, то рассмотрите вариант помощи этому проекту! Зыкий же!

Сайт проекта: https://www.bloodhoundlsr.com/

В чате Шамиль Чанкаев привёл ещё разные интересные факты про эти скоростные машины, копирую тут с его разрешения:

Кстати, пару фанфактов:

1. SSC в имени Thrust и Bloodhound означал Super Sonic Car. LSR же означает Land Speed Record.

2. Практически все заезды на максимальную скорость делаются в пустынях, на дне высохших озёр - это самое ровное и большое место, которое можно найти на суше.

3. При этом сильно влияет выбор пустыни - на разной высоте разная плотность воздуха => разное сопротивление, испытываемое болидом. Thrust и его предшественники тестировались в Неваде. Bloodhound хотели поставить рекорд где-то в ЮАР. Я помню, как в 2019-21 компания нанимала рабочих из ближайших деревень, чтобы они подготавливали трассу - убирали камни, размечали путь и т.д.

4. Из предыдущих пунктов - если присмотреться на фотографии колёс, можно заметить, что там у них нет резины - просто металлическая болванка. К концу заезда она стирается почти в 0.

5. Ну и насчёт двигателя - в 2019 году Ягуар выпускали топовый двигатель на 585 л.с. Так вот - для LSR этот двигатель выполнял роль компрессора - закачивал топливо в основной реактивный двигатель. А полная мощность превышала 100 000 л.с.

Вообще, это только одна категория рекордов - абсолютный рекорд на суше. Есть и другие категории - самый быстрый наземный транспорт с приводом на колёса, самый быстрый мотоцикл и т.д. Они не так расхайплены, но там тоже есть много чего интересного. Например, самый быстрый мотоцикл, поставивший рекорд в 2010 году, недавно продавался за ~200K$.

Читать полностью…

gonzo-обзоры ML статей

Ещё одна работа про анализ ИИ-автоматизации.

Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks
Matthias Mertens, Adam Kuzee, Brittany S. Harris, Harry Lyu, Wensu Li, Jonathan Rosenfeld, Meiri Anto, Martin Fleming, Neil Thompson
Paper: https://arxiv.org/abs/2604.01363

# TL;DR

ЧТО сделали: Исследователи из MIT FutureTech оценили 41 LLM на 3000+ реалистичных рабочих задачах, взятых из базы данных O*NET (другая недавняя работа на этой же базе). Они собрали более 17 000 двойных слепых оценок от профильных экспертов и смоделировали вероятность успеха ответов ИИ в зависимости от времени, которое потребовалось бы человеку на выполнение той же задачи.

ПОЧЕМУ это важно: Эта работа кардинально меняет наше представление о динамике автоматизации. ИИ не захватывает узкие ниши резко и внезапно (как «цунами»), пасуя перед всем остальным. Наоборот, модели улучшаются параллельно во всех текстовых профессиональных областях (как «прилив»). Такое плоское распределение роста производительности указывает на более предсказуемый и всеобъемлющий сценарий трансформации рынка труда.

Для практиков: Статья даёт отличную эмпирическую базу для стратегов и аналитиков. Передовые системы уже достигают 50% успешности на задачах, занимающих у человека 3–4 часа. Однако пологий наклон кривой успеха означает, что достижение идеальной надёжности без ошибок займёт значительно больше времени. Базовые способности к рассуждению стремительно растут, но главным барьером для реальных экономических сдвигов станет системная инженерия — та самая «последняя миля», необходимая для внедрения моделей в сложные корпоративные процессы.

Автоматизировать тут: /channel/gonzo_ML_podcasts/3136

Читать полностью…

gonzo-обзоры ML статей

Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе.

HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang
Статья: https://arxiv.org/abs/2603.28458v3
Код: https://github.com/MuLabPKU/TransArch
Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing

# TL;DR

ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах.

ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации.

Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели.

Разреживать здесь: /channel/gonzo_ML_podcasts/3112

Читать полностью…

gonzo-обзоры ML статей

Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес инженерной мысли из музея транспорта в Ковентри. Рекордсмены среди самых быстрых машин, которые ещё ездят по земле.

Thrust2 (https://en.wikipedia.org/wiki/Thrust2) -- реактивная машина с турбиной от Роллс-Ройс, в 1983-м установила рекорд скорости в 1,047.49 км/ч. Рекорд продержался до 1997 года.

ThrustSSC (https://en.wikipedia.org/wiki/ThrustSSC) -- сверхзвуковой автомобиль уже с двумя турбореактивными двигателями, сместивший в 1997-м с пьедестала своего предшественника, Thrust2. Теперь уже со скоростью 1.02 Маха (1,228 км/ч). Вроде как единственный наземный автомобиль, преодолевший скорость звука.

Я думал они меньше по размеру.

Читать полностью…

gonzo-обзоры ML статей

Это особенно прекрасно

Читать полностью…

gonzo-обзоры ML статей

Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.

Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization

# TL;DR

ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.

ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.

Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.

Эволюционировать свою обвязку здесь: /channel/gonzo_ML_podcasts/3061

Читать полностью…
Subscribe to a channel