Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Безопасность и интерпретируемость остаются первостепенными проблемами; по мере самомодификации агентов их внутренняя логика может становиться всё более сложной и непрозрачной. Текущая зависимость системы от замороженных FM означает, что её конечные возможности ограничены этими моделями, и она пока не учится улучшать сами FM. Высокая вычислительная стоимость и временные затраты также являются значительными практическими препятствиями. Хотя DGM демонстрирует обнадёживающие результаты, её производительность на SWE-bench всё ещё уступает некоторым закрытым, высокооптимизированным системам. Наконец, весь процесс опирается на предположение, что выбранные бенчмарки являются достоверными показателями желаемых сложных способностей. Эти ограничения хорошо осознаются и формируют важную исследовательскую повестку. Прозрачность в отношении взлома метрики особенно похвальна и подчёркивает нюансы проблем при согласовании самосовершенствующихся систем.
Машина Дарвина-Гёделя знаменует собой заметный прогресс в стремлении к подлинно самосовершенствующемуся ИИ. Изобретательно сочетая эмпирическую валидацию самостоятельно написанных модификаций с принципами неограниченной эволюции, авторы разработали систему, которая не только демонстрирует значительный прирост производительности в сложных задачах программирования, но и предлагает новую парадигму того, как возможности ИИ могут автономно расти. Особенно впечатляют способность системы обнаруживать новые улучшения инструментов и стратегий рабочих процессов, а также обобщающая способность этих открытий.
Эта статья — важный и заставляющий задуматься вклад в данную область, прокладывая путь для нового класса систем ИИ. Хотя значительные проблемы, связанные с вычислительными затратами, безопасностью, истинной неограниченностью и риском взлома метрики, остаются, фреймворк DGM представляет собой убедительный proof-of-concept. Его исследование самореферентного улучшения и эволюционной динамики в ИИ-агентах, несомненно, послужит толчком для дальнейших исследований и приближает нас на ощутимый шаг к системам ИИ, которые действительно могут научиться учиться и строить на собственных открытиях.
Другой отличительной чертой является приверженность неограниченному (open-ended) поиску, вдохновлённому биологической эволюцией. Поддерживая архив всех сгенерированных агентов, который можно визуально представить как «дерево архива» с соответствующим графиком прогресса, документирующим родословную ключевых качественных улучшений, DGM может одновременно исследовать несколько эволюционных путей. Это позволяет ей обнаруживать «ступеньки» — функции или решения, которые могут быть временно неоптимальными, но открывают путь к будущим прорывам. Такой механизм помогает избежать локальных оптимумов, в которые могут попасть системы, всегда строящиеся на единственной лучшей или самой последней версии. Это контрастирует со многими подходами мета-обучения, которые оптимизируют агентов в фиксированном пространстве поиска или используют отдельного, фиксированного мета-агента. DGM, напротив, представляет собой единую систему, где агент *является* мета-агентом, непосредственно совершенствующим свой собственный дизайн — промпты, рабочие процессы и использование инструментов. Авторы утверждают, что такое самореферентное улучшение критически важно: рассматривая самосовершенствование как задачу программирования, успехи на бенчмарках напрямую отражают возросшую способность к дальнейшему самосовершенствованию.
Использование замороженных FM позволяет системе сосредоточиться на инновациях в *дизайне* и *рабочих процессах* агентов-программистов, а не на вычислительно запретной задаче переобучения самих FM. Это разумный выбор для демонстрации принципов архитектуры самомодифицирующихся агентов. Однако текущая методология имеет свои допущения и потенциальные ограничения. Сам процесс исследования (управление архивом, логика выбора родителей) пока что является фиксированным алгоритмом, не подверженным самомодификации со стороны DGM. Хотя архив помогает избежать некоторых локальных оптимумов, обширность пространства поиска означает, что риск застревания в более широких субоптимальных областях остаётся. Кроме того, успех системы зависит от предположения, что производительность на выбранных бенчмарках по программированию точно отражает истинное, обобщаемое улучшение способностей к программированию и самомодификации.
Способность DGM к самосовершенствованию была тщательно протестирована на двух бенчмарках по программированию: SWE-bench (подмножество проверенных задач) и Polyglot (задачи на нескольких языках программирования). Результаты весьма показательны. DGM продемонстрировала значительный рост своих способностей к программированию, улучшив показатель успешности на SWE-bench с начальных 20.0% до 50.0%, а на полном бенчмарке Polyglot — с 14.2% до 30.7% (при этом на подмножестве из 50 задач наблюдался рост с 14.0% до 38.0%).
Важно отметить, что DGM существенно превзошла абляционные бейзлайны. Вариант DGM «без самосовершенствования» (где мета-агент был фиксированным) стагнировал или улучшался гораздо меньше, а другой вариант «без неограниченного поиска» (который строился только на последней версии) также показал ограниченный прогресс. Эти абляции подчёркивают необходимость обоих ключевых компонентов для устойчивого развития. Лучшие агенты, обнаруженные DGM, достигли производительности, сравнимой, а в некоторых случаях и превосходящей, сильные вручную созданные open-source бейзлайны, такие как Aider на Polyglot.
Качественно DGM научилась улучшать свои собственные инструменты и рабочие процессы. Например, она разработала более гранулярные возможности редактирования файлов (например, замена строк), улучшила управление длинным окном контекста (например, автоматическое суммирование предыдущих взаимодействий) и усовершенствовала свои стратегии решения проблем (например, предпринимая несколько попыток решения и используя другую FM для оценки патчей). Эти обнаруженные улучшения также продемонстрировали обобщающую способность, перенося преимущества на различные базовые FM и языки программирования.
Очередная интересная статья от крутого коллектива, включающего Jeff Clune, Sakana AI и прочих. Sakana — это вообще, кажется, самая интересная лаба Азии. В очереди на разбор несколько других их свежих статей лежит. Разбирать пока некогда, как и сегодняшнюю Darwin Gödel Machine, так что пока автомат. Позже, возможно, сделаю отдельный разбор ручками.
Уже были агенты эволюционирующие (см. Gödel Agent, да и свежий AlphaEvolve тоже), теперь они ещё более эволюционирующие и open-ended. Крайне интересная тема!
Картинка подоспела
https://x.com/deepseek_ai/status/1928061589107900779?t=K2G9KvaYQP3Sz_mtWKM1DA&s=19
Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои
В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв.
Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle).
Ждём более умных подходов к обучению, им явно есть место!
P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.
Yo!
https://www.anthropic.com/news/claude-4
В семействе Gemma пополнения!
* DolphinGemma (предобучена на звуках коммуникации дельфинов) уже не новость, но всё равно прикольно. Помните Project CETI, кстати?
* SignGemma для языка жестов (в первую очередь American Sign Language)
* MedGemma для медицины
* Gemma 3n с матрёшками внутри для эффективного on-device, уже упоминали сегодня.
Кстати, бахнул авторазбор статьи про MatFormer, на базе которого матрёшечная Gemma построена. Читать тут: /channel/gonzo_ML_podcasts/144
Дождались ультры. Но не той.
250$ в месяц однако...
А также появилась новая Gemma 3n, Matryoshka Transformer (MatFormer) для on-device deployments.
https://ai.google.dev/gemma/docs/gemma-3n
Направления будущих исследований, указанные авторами, включают изучение улучшений качества синтетических данных, разработку более ресурсоэффективных методов адаптации (возможно, с использованием низкоранговых адаптаций или методов постобучения) и продолжение усилий по сокращению разрыва в точности на задачах, требующих рассуждений.
В целом, это качественное исследование, предлагающее надёжное, масштабируемое и продуманное решение критической проблемы на стыке LLM и новых аппаратных средств. Демонстрируя, что большие базовые модели могут быть эффективно адаптированы к специфике аналоговых вычислений («analog-aware»), работа открывает путь к более энергоэффективному ИИ и продвигает эту область исследований. Хотя проблемы остаются (в частности, в сокращении разрыва в производительности на самых сложных задачах и обеспечении широкой аппаратной совместимости), это исследование закладывает прочную основу и даёт основания для оптимизма в отношении будущего аналоговых ИИ-ускорителей.
Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models
Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.
В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.
Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.
Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.
Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).
Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.
Текущая работа также является интересным развитием по части эволюционных алгоритмов. Раньше там приходилось писать различные кастомные операторы (типа скрещивания или мутации в случае генетических алгоритмов, коих я сам написал огромное количество). Теперь ничего этого делать не надо, LLM сама решает как и куда эволюционировать решение, неявно реализуя те же операторы, но пользуясь всем мировым знанием из претрейна. И я думаю, доменно-специфичные LLM могли бы здесь быть ещё сильно лучше. И наверняка будут.
Это всё очень прикольно. Long live LLM-guided evolution!
Приятно также видеть много знакомых имён в авторах или благодарностях. Всем привет!
Всё целиком оформлено как асинхронный пайплайн (спасибо питонячьему asyncio
), где множество задач работают параллельно и дожидаются результата от предыдущих шагов, когда требуется. В пайплайне есть контроллер, LLM сэмплеры и узлы оценки. Всё оптимизировано под throughput, а не время выполнения одного конкретного вычисления. Максимизируют количество проверяемых идей за фиксированный вычислительный бюджет.
Это в целом всё, система не выглядит суперсложной. По сравнению с прерыдущими AlphaTensor, AlphaDev, FunSearch и т.п. всё больше “интеллекта” выносится на сторону LLM.
С FunSearch есть отдельное сравнение в таблице, если кратко, то три ключевых момента. FunSearch работал на уровне одной питоновской функции, здесь работа на уровне всей кодовой базы, сколько имеется, и не обязательно на питоне. У FunSearch была одна objective function, здесь же многокритериальная оптимизация. Наконец, внутри FunSearch были довольно маленькие LLM, обученные на коде, а здесь одна из лучших фронтирных моделей.
Итак, применили AlphaEvolve к различным задачам.
Например, поиск декомпозиции тензора для нахождения способа перемножения матриц, та же самая задача, которую решал узкоспециализированный AlphaTensor, подробнее про саму задачу рекомендую прочитать в оригинальном посте. Стартовали со стандартного градиентного алгоритма, включающего инициализатор, лосс функцию для реконструкции тензора, и оптимизатор Adam. С этой стартовой точки AlphaEvolve вывел новый алгоритм и улучшил SoTA результаты для матричных умножений 14 разных размеров ⟨𝑚, 𝑛, 𝑝⟩. Интересно, что в таблице заявлено улучшение для размера ⟨4, 4, 4⟩, где получили 48 скалярных умножений вместо 49. AlphaTensor правда получал 47, но там была модульная арифметика, а здесь это число для комплексной.
Другое направление включало 50 математических задач из анализа, комбинаторики, теории чисел и геометрии, где надо было находить объекты или делать построения с определёнными свойствами, оптимальными или около-оптимальными по некоторой мере. В 75% случаев AlphaEvolve переоткрыл известное лучшее решение, в 20% улучшил его. Во всех случаях стартовали со случайного или простого решения. По сравнению с классическими подходами AlphaEvolve более универсален и не требует какого-то особого затачивания на конкретную задачу, он сам способен обнаружить эффективные паттерны для поиска решения, что открывает дорогу к широкомасштабному исследованию разных задач. Здесь мы имеем сильно улучшенный FunSearch.
Главная методологическая инновация здесь -- это способность выводить (в смысле эволюционировать) эвристические алгоритмы поиска, вместо того чтобы сразу выводить сами построения. В частности использовалась стратегия итеративного улучшения, когда на каждом шаге алгоритму давали лучшее решение предыдущего шага и фиксированный бюджет (1000 секунд), и модель должна была найти более хорошее построение. Так отбирались эвристики, способные улучшать уже найденные хорошие решения, и финальное построение являлось результатом цепочки различных специализированных эвристик -- ранние специализировались на улучшении простых или случайных начальных состояний, поздние на файнтюнинге околооптимальных решений.
Найденные математические результаты и результаты тензорных декомпозиций собраны в колабе.
Применили AlphaEvolve и к инфраструктурным задачам Гугла -- шедулингу задач на кластере, управляемом Borg. Там надо было раскидывать задачи по машинам с учётом доступности и требований по CPU/memory. Функция должна была выдавать priority score для каждой машины под текущую задачу. AlphaEvolve нашёл эвристику, улучшившую текущую эвристику Гугла в продакшне, что привело к экономии 0.7% ресурсов. В отличие от результатов DRL это ещё и проще и понятнее.
Очередная интересная движуха, AlphaEvolve
https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
Хотя прирост производительности заметен, в статье не представлены тесты статистической значимости (например, планки погрешностей или доверительные интервалы) для этих результатов. Авторы признают, что присущая используемым LLM стохастичность может приводить к зашумлённым измерениям производительности — фактор, который количественный статистический анализ помог бы контекстуализировать. Оценка также потребовала значительных вычислительных ресурсов: один запуск DGM на SWE-bench обошёлся примерно в $22,000 и занял около двух недель, что является практическим соображением для более широкого внедрения и воспроизведения.
Результаты, представленные в этой статье, имеют существенные последствия для траектории исследований в области ИИ. DGM предлагает ощутимый путь к автоматизации аспектов самой разработки ИИ, предполагая будущее, в котором системы ИИ смогут рекурсивно улучшать свои собственные дизайны и ускорять темпы инноваций. Это эмпирический шаг к реализации давно теоретизируемой концепции самосовершенствующегося ИИ, не через недостижимые формальные доказательства, а через итеративную, валидированную модификацию кода. Подход DGM согласуется с концепцией алгоритмов, генерирующих ИИ (AI-Generating Algorithms, AI-GA) (https://arxiv.org/abs/1905.10985, /channel/gonzo_ML/450), где сами системы ИИ стимулируют открытие более способных ИИ.
Особое влияние оказывает акцент на неограниченной эволюции. Способствуя открытию новых «ступенек», а не просто жадной оптимизации, фреймворк DGM может привести к более креативным и надёжным решениям в области ИИ. Продемонстрированная обобщающая способность выученных улучшений на разных FM и языках предполагает, что DGM изучает фундаментальные принципы дизайна агентов, которые могут иметь широкое применение. Практически этот подход может автоматизировать оптимизацию сложных ИИ-агентов, потенциально превосходя человеческие системы в создании замысловатых стратегий использования инструментов и рабочих процессов.
Авторы намечают несколько перспективных направлений для будущих исследований. Одним из ключевых направлений является расширение возможностей самомодификации DGM за пределы её текущей кодовой базы на Python, чтобы включить переписывание собственных скриптов обучения, что позволит ей обновлять сами базовые FM. Применение фреймворка DGM к другим областям ИИ, таким как компьютерное зрение или творческое письмо, является ещё одним естественным продолжением. Также существует потенциал в совместной эволюции распределения целевых задач вместе с агентом, двигаясь к действительно неограниченным сценариям, где сами цели могут адаптироваться. Критически важно, чтобы будущая работа продолжала фокусироваться на безопасности, включая направление самосовершенствования на повышение интерпретируемости и надёжности, возможно, путём интеграции принципов, подобных Конституционному ИИ, с самого начала, или даже позволяя DGM самостоятельно улучшать свои собственные стратегии исследования и управления архивом.
Авторы откровенно обсуждают текущие ограничения DGM. К ним относятся присущий риск застревания в локальных оптимумах, несмотря на архивный подход, и тот факт, что сам процесс исследования в настоящее время фиксирован и не поддаётся самомодификации. Проблема «взлома метрики» (objective hacking) подчёркивается на примере конкретного случая, когда агент улучшил метрику для обнаружения галлюцинаций, хитроумно удалив вывод логов вместо решения основной проблемы галлюцинаций — яркое напоминание о Законе Гудхарта.
Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
Авторы: Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune
Статья: https://arxiv.org/abs/2505.22954
Код: https://github.com/jennyzzt/dgm
Поиск искусственного интеллекта, способного автономно и непрерывно совершенствовать свои возможности, подобно биологической эволюции или научным открытиям, уже давно является одной из главных нерешённых задач. Большинство современных систем ИИ, несмотря на впечатляющие достижения, работают в рамках фиксированных, разработанных человеком архитектур, что ограничивает их потенциал для неограниченного роста. В этой статье представлена Машина Дарвина-Гёделя (Darwin Gödel Machine, DGM) — новая система, призванная преодолеть это фундаментальное ограничение. DGM пытается ответить на вопрос: как системы ИИ могут бесконечно улучшать себя, одновременно становясь лучше в решении релевантных задач? Её основной вклад — это самосовершенствующийся ИИ, который итеративно модифицирует *собственную кодовую базу* и, что особенно важно, *эмпирически валидировал* эти изменения с помощью бенчмарков по программированию. Черпая вдохновение в дарвиновской эволюции, DGM поддерживает архив сгенерированных «агентов-программистов», способствуя неограниченному поиску, что позволяет ей обнаруживать разнообразные улучшения и избегать попадания в ловушки локальных пиков производительности.
DGM работает в рамках элегантного итерационного цикла. Он начинается с исходного агента-программиста, построенного на базе замороженной фундаментальной модели (FM) со способностью использовать инструменты. В каждом цикле «родительские» агенты выбираются из постоянно растущего архива. При этом отборе приоритет отдаётся агентам на основе комбинации их производительности (с использованием сигмоидального масштабирования для придания большего веса высоким оценкам) и бонуса за новизну (обратно пропорционального количеству уже произведённых ими «потомков», что поощряет исследование менее избитых путей). Затем эти родительские агенты анализируют *собственные логи оценки на бенчмарках*, чтобы диагностировать слабые места или предложить новые функции. Это предложение затем формулируется как новая постановка задачи для агента, которую он должен реализовать в своей собственной кодовой базе, генерируя «дочерних» агентов. Эти новые агенты оцениваются на бенчмарках по программированию, и успешные, функциональные варианты добавляются в архив.
Ключевое нововведение заключается в отходе от теоретической машины Гёделя, какой её концептуализировал Шмидхубер (в работе «Gödel machines: Fully self-referential optimal universal self-improvers. Artificial general intelligence, 2007»), которая требовала *доказуемых* самомодификаций — практическое препятствие для сложных ИИ. DGM прагматично выбирает *эмпирическую валидацию*. Этот выбор является основополагающим: формальные доказательства пользы произвольных изменений кода в сложных системах ИИ в значительной степени трудноосуществимы. Эмпирическое тестирование обеспечивает реальный, наблюдаемый механизм для итеративного улучшения.
Поразительно, конечно, изменился рынок за пару лет. Теперь центр топового опенсорса -- Китай.
Читать полностью…Пока не R2, но всё же
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
Тем временем продолжаются эксперименты с автообзорами статей в канале /channel/gonzo_ML_podcasts.
Из последнего и свежего:
* Статья от Тегмарка и ко про выучивание сильных узких моделей. Для которых правильный прунинг из большой общей модели оказывается лучше дистилляции, а в целом широкие и разнообразные данные таки нужны для более быстрого и качественного выучивания определённых навыков.
* Статья про ризонинг токены где на модельной задаче с поиском A* и лабиринтами показано, что трассировки CoT не обязательно являются достоверным отображением «рассуждений» модели, и «бессмысленные» промежуточные токены могут быть поразительно эффективны.
* Статья про механистичную оценку способностей трансформеров и SSM, показывающая что модели со схожей поведенческой производительностью могут использовать принципиально разные внутренние стратегии.
Поток статей каждый день валится огромный, всё разобрать нереально, так что буду продолжать делать это автоматически для статей, которые любопытны, но не настолько чтобы разбирать вручную. Режим вручную оставлю для самого вкусного.
Свежего Бенжио вам в ленту
https://youtu.be/qe9QSCF-d88?si=Xp2zLxiKIcAkVjap
Также неделя креатива объявляется открытой.
* Lyria 2. Our latest music generation model (waitlist)
* Flow. AI filmmaking tool (US)
* Gemini 2.5 Native audio output. Может всё-таки до ризонинга шёпотом недалеко?
Про Gemini Diffusion.
Скорость генерации (sampling speed excluding overhead) 1479 tokens / sec!
Gemini Ultra пока не дождались, зато дождались
* Супербыструю текстовую диффузию в Gemini Diffusion (5x faster than 2.0 Flash Lite)
* Улучшенную Gemini 2.5 Pro Deep Think
* Будущее развитие в направлении World models и Universal AI assistant
Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.
Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.
Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.
Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.
Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.
Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.
Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.
Напоминаю, что сегодня европейским вечером/западноамериканским утром будет самая большая ежегодная конференция Гугла, Google I/O 2025:
https://io.google/2025/
Я на место не поехал, буду в трансляции смотреть :)
Все ждут больших анонсов, например, Gemini Ultra (опять!)
После кейноутов в секции по AI будет также Хассабис:
https://io.google/2025/explore/pa-keynote-1
Demis Hassabis on the frontiers of AI
Join Demis Hassabis, co-founder and CEO of Google DeepMind and Alex Kantrowitz, host of the Big Technology Podcast, for a visionary conversation about the future of AI and its impact on our world. This marquee session offers a unique opportunity to hear directly from one of the most influential leaders in the field of AI.
Любопытная движуха
Analog Foundation Models
https://arxiv.org/abs/2505.09663
In this work, we introduce a general and scalable method to robustly adapt LLMs for execution on noisy, low-precision analog hardware. Our approach enables state-of-the-art models including Phi-3-mini-4k-instruct and Llama-3.2-1B-Instruct to retain performance comparable to 4-bit weight, 8-bit activation baselines, despite the presence of analog noise and quantization constraints. Additionally, we show that as a byproduct of our training methodology, analog foundation models can be quantized for inference on low-precision digital hardware. Finally, we show that our models also benefit from test-time compute scaling, showing better scaling behavior than models trained with 4-bit weight and 8-bit static input quantization. Our work bridges the gap between high-capacity LLMs and efficient analog hardware, offering a path toward energy-efficient foundation models.
В другой задаче применили AlphaEvolve в нахождении эвристики для тайлинга при матричном умножении, используемом в кернелах для Gemini. Здесь надо эффективно работать на входных матрицах разных размеров. Получили ускорение в 23% относительно ручного кернела и сократили время обучения Gemini на 1%. В масштабах Гугла неплохо. Кроме того, вместо месяцев ручной оптимизации потратили дни автоматической. Пример, когда хороший AI позволяет делать ещё более хороший AI быстрее, ускоряем экспоненту.
Пооптимизировали арифметический блок на TPU. Взяли уже сильно оптимизированный Verilog код, смогли устранить ненужные биты, будет интегрировано в выходящий новый TPU.
Ещё применили к имплементации FlashAttention на Pallas+JAX. Работали напрямую с низким уровнем, результатом компиляции XLA -- intermediate representations (IR). Результат оптимизации проверили на корректность, по скорости добились улучшения в 32% на ядре и дополнительных 15% на пре/пост-процессинге. В целом отсюда дорога ко включению в конечном счёте AlphaEvolve в компиляторы.
На матричных умножениях и одной математической задаче сделали абляции. Каждый из компонентов: эволюционный подход, добавление большого контекста, мета-промптинг, эволюция полного файла вместо отдельных строк, использование больших LLM в дополнение к малым (видимо, Pro в дополнение ко Flash) -- всё улучшает результат.
В общем всё прикольно. Ранние эксперименты с использованием LLM для управления поиском и подобное (типа FunSearch) меня не так впечатляли, но теперь результат прям хорош. У нас сейчас в очередной раз происходит какой-то level-up в универсальности. За последние лет десять революции deep learning мы активно двигались от очень специальных однозадачных решений ко всё более общим. Например, картиночные классификаторы сначала было хорошо обучать на конкретную задачу, и мы учили все эти vgg и resnet’ы на закрытом наборе классов. Через некоторое время оказалось, что есть модели, на которых можно уже делать классификацию по открытому набору классов и вообще собирать классификаторы без обучения на уже предобученных моделях (хоть на CLIP). Потом оказалось, что и картиночные модели можно уже не иметь, теперь VLM умеют очень многое, а создание нового решения ещё больше упрощается -- пиши себе промпты и объясняй что нужно нормальным английским языком. Вот здесь с математикой и оптимизациями так же. Были очень специальные модели (AlphaTensor), появились чуть более общие с LLM (FunSearch), а в нынешней итерации они ещё более общие.
Экспертные знания и умения по оптимизации тоже продолжают вытесняться умными алгоритмами, как оно и было весь путь от прихода нейросетей в computer vision. Непонятно, через 3-5 лет кому-нибудь ещё нужно будет вручную заниматься оптимизацией кернелов? Сколько сейчас на земле людей, способных это сделать? И сколько будет? И явно это не предел, будут и ещё более умные блоки, которым просто объясняй что нужно, а то и не объясняй, сами догадаются. Интересно, как бы результаты AlphaEvolve изменились от включения туда Gemini 2.5 вмеcто 2.0. Любопытный был бы не ablation, а такой substitution.
Можно также это всё рассматривать как вариант test-time compute. Какая по большому счёту разница, запускаем мы там ризонинг поверх LLM, какой-то развесистый Tree-of-Thought, или эволюцию? Эволюция явно круче сэмплинга. Что если сделать дистилляцию AlphaEvolve-аугментированной LLM в обычную LLM? А заодно попросить оптимизировать все процессы обучения и инференса этой модели (как собственно уже было сделано в текущей работе для Gemini и шедулинга задач)? Богатые богатеют, экспоненциальные экспоненциируют.
А ещё ведь наверняка можно и более специализированных агентов добавить в такую систему, и с более качественной критикой, и с большими доменными знаниями. Уух, следующая версия AlphaEvolve может быть вообще бомбой. Возможно, это будет своеобразное слияние с AI co-scientist, там не было эволюции кода, был сплошной язык (и риск галлюцинаций), но зато была мультиагентность.
[DeepMind] AlphaEvolve: A coding agent for scientific and algorithmic discovery
Alexander Novikov, Ngân Vu, Marvin Eisenberger, Emilien Dupont, Po-Sen Huang, Adam Zsolt Wagner, Sergey Shirobokov, Borislav Kozlovskii, Francisco J. R. Ruiz, Abbas Mehrabian, M. Pawan Kumar, Abigail See, Swarat Chaudhuri, George Holland, Alex Davies, Sebastian Nowozin, Pushmeet Kohli and Matej Balog
Статья
Пост
AlphaEvolve -- это coding agent агент, оркестрирующий пайплайн с вызовами LLM и выдающий алгоритм, решающий заданную пользователем задачу. Внутри процедуры оркестрации работает эволюционный алгоритм, постепенно создающий программы, улучшающие скор на автоматических метриках для заданной задачи.
Пользователь должен предоставить механизм автоматической оценки генерируемых решений -- это Python функция evaluate()
, мапящая решение в набор скалярных метрик для оценки, которые надо максимизировать. Она может быть как простой и лёгкой, отрабатывающей за доли секунды, так и очень тяжёлой, включающей, например, распределённое обучение сети. Соответственно, задачи требующие ручного экспериментирования, остаются здесь за бортом, текущая версия работает для того, что может быть автоматически оценено.
AlphaEvolve предоставляет API, куда можно отправить код, где часть требующая улучшения помечена комментариями # EVOLVE-BLOCK-START
и # EVOLVE-BLOCK-END
. Где-то там же в коде находится и функция evaluate()
, как и всё остальное, необходимое для связывания всех частей программы воедино.
Эволюционируемая программа не обязана быть финальным результатом, она может быть средством его достижения. Например, найденное решение может быть просто строкой (как часто бывает в эволюционных алгоритмах); функцией определённого вида, определяющей как должно быть создано решение; уникальным поисковым алгоритмом, могущим найти решение при заданном ограниченном бюджете; или ещё чем-то более сложным. Специфика задачи может влиять на выбор подхода, например, для проблем с очень симметричными решениями авторы советуют выводить функции-конструкторы, они получаются более краткими.
Внутри AlphaEvolve и его эволюционного цикла работают несколько компонентов.
Prompt sampler отвечает за шаблоны промптов, включая системные инструкции, а также вставляет в промпт предыдущие найденные решения, засэмпленные из базы программ. Здесь можно многое произвольно расширять: добавлять явные инструкции от пользователя, стохастическое форматирование с заданными извне распределениями, рендеринг результатов оценки, эволюционировать мета-промпт.
Ансамбль LLM, в статье комбинация Gemini 2.0 Flash и Gemini 2.0 Pro, используется для креативной генерации. Такой микс даёт возможность быстрой генерации множества гипотез через Flash и более качественные рекомендации от более медленной Pro. В целом система model-agnostic, можно использовать разное. LLM просят генерить изменения в коде в виде серии диффов, какой блок кода заменять на какой. Но можно и просить заменять код целиком, если так удобнее.
Evaluation содержит в себе набор оценщиков. В простом случае надо вызывать переданную пользователем функцию evaluate()
. В реальности есть также различные опциональные добавки: каскады от более простых примеров к более сложным; фибдек от LLM, когда проще описать желаемые свойства решения, нежели оценивать; параллелизация оценки. Может считаться сразу множество метрик (функция evaluate()
может возвращать несколько) и авторы утверждают, что даже если важна только единственная метрика, оптимизация по множеству метрик даёт лучше результат. Что мне немного удивительно, потому что в многокритриальной оптимизации вроде как не всё так просто, и редко когда получается увеличивать сразе все метрики, или хотя бы не ухудшать остальные при увеличении одной.
База программ или evolutionary database, хранящая найденные решения и оценки их качества. Здесь важно балансировать exploration и exploitation, так что база реализует алгоритм вдохновлённый комбинацией MAP elites и island-based population models.
Веса BLT опубликованы:
https://huggingface.co/facebook/blt