Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

12 November 2025 16:15

Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
Authors: Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmiduber
Paper: https://arxiv.org/abs/2510.21614
Code: https://github.com/metauto-ai/HGM
Review: https://arxiviq.substack.com/p/huxley-godel-machine-human-level

# TL;DR

Что сделали?
В статье выявляют и решают проблему «несоответствия метапродуктивности и производительности» — критический изъян существующих самосовершенствующихся агентов для написания кода. Суть проблемы в том, что текущая производительность на бенчмарках плохо предсказывает долгосрочный потенциал для улучшений. Для решения авторы представляют Машину Хаксли-Гёделя (HGM) — алгоритм, аппроксимирующий теоретически оптимальную Машину Гёделя. Вместо того чтобы полагаться на оценку отдельных агентов, HGM руководствуется новой метрикой, основанной на анализе всей линии потомков — Метапродуктивностью клады (CMP). Эта метрика агрегирует производительность всего дерева потомков агента, чтобы лучше оценить его будущий потенциал. Такой подход сочетается с эффективной асинхронной стратегией древовидного поиска, которая отделяет процесс создания агентов от их оценки.

Почему это важно?
Эта работа знаменует собой смену парадигмы в проектировании автономных систем ИИ: переход от жадной, краткосрочной оптимизации к более строгому подходу, ориентированному на долгосрочный эволюционный потенциал. Метод не только эффективнее в поиске более качественных агентов, но и значительно экономичнее: он требует до 6,8 раз меньше CPU-часов, чем предыдущие SOTA-методы. Самое главное — агент, разработанный с помощью HGM, достиг производительности на уровне человека на бенчмарке SWE-bench Lite, сравнявшись с лучшими официально верифицированными результатами агентов, спроектированных людьми. Это демонстрирует новый перспективный путь к автоматизированному проектированию ИИ, способному создавать робастные, переносимые решения экспертного уровня.

Подробнее: /channel/gonzo_ML_podcasts/1327