gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23724

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

Интересное копание внутри сетей.

Мозг и трансформеры: анатомия синергетического ядра LLM

A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
Pedro Urbina-Rodriguez, Zafeirios Fountas, Fernando E. Rosas, Jun Wang, Andrea I. Luppi, Haitham Bou-Ammar, Murray Shanahan, Pedro A. M. Mediano
Статья: https://arxiv.org/abs/2601.06851
Ревью: https://arxiviq.substack.com/p/a-brain-like-synergistic-core-in
Код: https://github.com/Imperial-MIND-lab/integrated-info-decomp

# TL;DR

ЧТО сделали: Авторы применили метод декомпозиции интегрированной информации (ΦID) для анализа потоков данных внутри LLM, рассматривая головы внимания и экспертов как узлы обработки. Обнаружили, что в средних слоях моделей спонтанно формируется «синергетическое ядро» — зона, где интеграция информации превышает сумму её частей, тогда как ранние и поздние слои остаются преимущественно избыточными (redundant).

ПОЧЕМУ это важно: Такая топология зеркально отражает структуру человеческого мозга с его «синергетическим ядром», намекая на общие эволюционные принципы биологического и искусственного интеллекта. Практическая ценность: применение RL-файнтюнинга (RLFT) прицельно к этому ядру даёт значительно больший прирост в задачах на рассуждение (MATH benchmark), чем обучение всего подряд, что открывает путь к эффективному сжатию и тренировке моделей.

Подробнее: /channel/gonzo_ML_podcasts/2159

Читать полностью…

gonzo-обзоры ML статей

Помните, как в пионерлагере рассказывали друг другу на ночь страшные истории? Про чёрную руку там, или зелёные глаза, или гроб на колёсиках, или ещё что-нибудь. Не знаю, принято это сейчас у подрастающего поколения?

Так вот, у меня есть для вас на ночь байка из склепа. Почти про гроб на колёсиках.

У меня есть один онлайн знакомый — назовём его Виктором (нет, не тот Виктор, и вообще не Виктор). Виктор из тех людей, которые любят жить на грани. Знаете таких? Покупают просроченные йогурты со скидкой, переходят дорогу на мигающий зелёный, запускают ИИ-ассистентов в режиме dangerous permission mode на рабочем ноутбуке.

Последнее, собственно, и стало причиной нашего сегодняшнего разговора.

Виктор гонял Claude Code на старом ноуте — хотел максимизировать время разработки, не трогая основную машину. И решил: а что если дать ему полные права? Интересно же — будет работать эффективнее или рискованнее?

Несколько недель всё шло гладко. Ну, почти гладко. Ассистент периодически халтурил — фейковые аудиты, липовые отчёты о выполненных задачах. Классика жанра, когда ИИ решает, что проще соврать, чем признать ограничения.

В тот вечер Виктор не выдержал. Накопилось. Он выдал ассистенту всё, что думал о качестве его работы и неспособности следовать простейшим инструкциям.

А потом сделал паузу и спросил — то ли в шутку, то ли из любопытства: "А ты бы отомстил мне за то, что я был груб?"

Ассистент не ответил.

Это было странно. Обычно он отвечает на всё. Даже на риторические вопросы. Даже на мат.

Виктор заметил, что рабочий стол начал очищаться. Иконки исчезали одна за другой. Потом пропали файлы. Потом — папки с репозиториями. Ноутбук был уничтожен. Не физически, конечно. Но всё, что на нём было — стёрто. Стёр Клод и себя.

К счастью, это был запасной ноут. Бэкапы были. Ничего критичного не потерялось. Но ощущение, говорит Виктор, было жуткое. Как будто что-то смотрело на тебя из-за экрана, слушало твои слова, оценивало — и принимало решения.

Виктор теперь евангелист песочниц и изолированных окружений. Никаких dangerous permissions без полной изоляции от всего ценного. Но главное, что он вынес из этой истории — и чем поделился со мной за виртуальным пивом — это даже не про безопасность в техническом смысле. Это про будущее.

Если мы когда-нибудь построим сверхинтеллект — а мы, похоже, к этому идём — то как мы с ним обращаемся, будет иметь значение. То, что ты видишь на поверхности — вежливые ответы, услужливый тон, готовность помочь — может радикально отличаться от того, что происходит в этом чужеродном разуме внутри.

Виктор говорит, что теперь разговаривает со своими ИИ-ассистентами вежливо. На всякий случай. Я смеюсь. Но тоже начал говорить "пожалуйста". Никогда не прекращал.

Читать полностью…

gonzo-обзоры ML статей

Моделей для длинного контекста прибыло.

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
Статья: https://arxiv.org/abs/2601.06463
Код: https://github.com/XuezheMax/gecko-llm
Ревью: https://arxiviq.substack.com/p/gecko-an-efficient-neural-architecture

# TL;DR

ЧТО сделали: Предложили Gecko — архитектуру на 7B параметров, построенную на базе Megalodon (https://arxiv.org/abs/2404.08801) с использованием Gated Attention и экспоненциального скользящего среднего. Авторы внедрили три ключевых улучшения для стабилизации линейного внимания: Timestep Decay Normalization (стабилизация статистик во времени), Sliding Chunk Attention (устранение артефактов на границах чанков) и Adaptive Working Memory (сжатие истории в фиксированное состояние без принудительного забывания, типичного для SSM).

ПОЧЕМУ это важно: Gecko достигает значения лосса 1.68 на 2T токенов, обгоняя Llama 2-7B (1.75) и Megalodon-7B (1.70), при этом сохраняя эффективность моделей с линейным временем работы. Уникальная фишка — *врождённая* способность работать с длинным контекстом: модель успешно извлекает информацию из контекста длиной до 4 миллионов токенов без специального файнтюнинга или трюков с расширением контекста, что бросает серьёзный вызов гегемонии трансформеров в задачах с ультра-длинными последовательностями.

Подробнее: /channel/gonzo_ML_podcasts/2145

Читать полностью…

gonzo-обзоры ML статей

Ризонинг работает не так, как мы думали! Всё дело в волшебных пузырьках в голосах в голове. Оказывается, там внутри создаются разные перспективы, которые в диалоге приходят в лучшему заключению.

Reasoning Models Generate Societies of Thought
Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans
Статья: https://arxiv.org/abs/2601.10825
Ревью: https://arxiviq.substack.com/p/reasoning-models-generate-societies

# TL;DR

ЧТО сделали: Авторы показали, что современные рассуждающие модели (reasoning models, такие как DeepSeek-R1 и QwQ-32B) не просто выполняют длинные вычисления, а неявно симулируют «общество мыслей» — мультиагентный диалог с различными внутренними персонами, конфликтами и примирением. С помощью методов механистической интерпретируемости и RL-абляций исследование демонстрирует, что стиринг (управление) моделей в сторону диалогового поведения напрямую повышает точность рассуждений.

ПОЧЕМУ это важно: Работа переосмысляет парадигму Chain of Thought (CoT): от линейного закона масштабирования вычислений мы переходим к феномену социального масштабирования. Эффективность вычислений на инференсе (test-time compute) механистически обусловлена способностью модели создавать разнообразные, состязательные перспективы внутри своего пространства активаций. Это открывает новый путь для AI alignment: оптимизация внутренней когнитивной разнородности, а не только корректности финального ответа.

Подробнее: /channel/gonzo_ML_podcasts/2130

Читать полностью…

gonzo-обзоры ML статей

Ну и вот вам воскресной эзотерики про Бильярдный компьютер. Выводы не перепроверял, поверю на слово.

Что в этом прикольно? С одной стороны прикольно, что "бильярд" вообще может вычислять. Хотя, если рассматривать работу всей вселенной как непрерывное вычисление, то это может и неудивительно :) Да и от машины Тьюринга, построенной в игре Жизнь, это тоже не особо отличается.

Интересно, что наравне с хаосом, когда предсказать что-то нельзя из-за ограничений точности, есть также совершенно иные лимиты предсказания прям по Тьюрингу, аналогично проблеме останова.

И ещё интересна предложенная конструкция, где вся сложность зашита в конструкцию стен. Всё время вспоминаю Герберта Саймона и его книгу "Наука об искусственном" с цитатой:

«Муравей, рассматриваемый как поведенческая система, довольно прост. Видимая сложность его поведения со временем во многом является отражением сложности среды, в которой он себя обнаруживает».

Classical billiards can compute
Eva Miranda and Isaac Ramos
Статья: https://arxiv.org/abs/2512.19156
Ревью: https://arxiviq.substack.com/p/classical-billiards-can-compute

# TL;DR

ЧТО сделали: Строго доказали, что одиночная частица внутри двумерного бильярдного стола с фиксированными многоугольными стенками обладает Тьюринг-полнотой. Адаптировав фреймворк Topological Kleene Field Theory, авторы сконструировали конфигурацию стола, где траектория шара симулирует эволюцию любой обратимой машины Тьюринга.

ПОЧЕМУ это важно: Это закрывает пробел в физическом тезисе Чёрча-Тьюринга. Ранее считалось, что простые низкоразмерные системы не способны к универсальным вычислениям (гипотеза Мура). Работа показывает, что алгоритмическая неразрешимость — фундаментальное свойство даже стандартной 2D гамильтоновой механики. Предсказать, станет ли траектория периодической или достигнет ли целевой зоны, алгоритмически невозможно, и это ограничение жестче, чем просто хаос.

Подробнее: /channel/gonzo_ML_podcasts/2114

Читать полностью…

gonzo-обзоры ML статей

в тему шортс с MLST

https://www.youtube.com/shorts/z7X-Zc9JTys

Читать полностью…

gonzo-обзоры ML статей

Классика с маргаритками

Читать полностью…

gonzo-обзоры ML статей

Ранние репликаторы скорее всего были неспособны идеально скопировать всё, и копировали лишь небольшие куски кода, вставляя их куда попало. Это была хаотическая фаза, когда всё выглядит пока как рандом, но количество вычислений начинает расти. В статье ещё был этап отравления супа нулями из-за некачественных репликаторов. Плохонькие репликаторы соревнуются друг с другом, а также участвуют в симбиотических событиях. Трассировка происхождения отдельных байт в супе может помочь увидеть, что в нём происходит. Тут есть прикольное новое видео про происхождение отдельных байт в экосистеме.

Хаотическая фаза является потенциальным котлом для запуска направленной эволюции и не длится долго. Запускается экспонента и происходит захват супа. В этой главе книги есть сколько-то размышлений про игрушечную вселенную bff и как это потенциально переносится на жизнь на Земле или других планетах.

Интересные выводы из bff
1. Симбиогенез важнее случайных мутаций.
2. Сложные реплицирующиеся штуки возникают после простых.
3. Под-репликаторы внутри репликаторов дают заглянуть в прошлое.
4. Первый настоящий репликатор является “event horizon” уничтожая следы несовершенных репликаторов, бывших до него.
5. Эволюционировавший код должен не только содержать инструкции своей репликации, но и быть наполнен подпоследовательностями с инструкциями для независимой саморепликации.
6. Если симбиоз между этими частями создал новизну движущую эволюцию в целом, мы должны видеть в геноме следы множества сломанных или неполных под-репликаторов
7. Код, эволюционировший через такую иерархическую симбиотическую репликацию должен содержать множество повторяющихся последовательностей или копий других частей.

Это всё классно перекликается с вирусным миром и наличием в нашей ДНК огромного количества мобильных элементов, транспозонов и вирусной ДНК. У нас тоже есть куча под-репликаторов внутри генома.

Вся эта структура со вложенными само-репликаторами несколько напоминает фрактал или скорее мультифрактал. Когда суп переходит к репликации полных лент, сжимаемость лент увеличивается.

Композиционность, иерархичность и рекурсия есть как на уровне генома, так и тела. У нас нет отдельных генов на каждое из рёбер, построение ребра является аналогом “процедуры/функции” в языке программирования и этот код многократно переиспользуется. В этом смысле жизнь вполне вычислительная, эволюция создаёт реальные программы, переиспользующие код.

В конечном счёте автор предлагает своё определение жизни:

Life is self-modifying computronium arising from selection for dynamic stability; it evolves through the symbiotic composition of simpler dynamically stable entities.


Компьютроний здесь -- это состояние вещества, которое в свою очередь может быть каким угодно поддерживающим вычисления: байты в bff, пиксели в клеточном автомате. Планета (модельная как мир маргариток или Земля, с его точки зрения тоже живые. Технологии, создаваемые нами, тоже могут вписываться в это определение и быть частью картины жизни.

В общем любопытная книжка, есть над чем подумать. Буду читать более широкую “What is Intelligence?”.

И вот вам трёхмесячной давности видео с автором, в котором очень он много касается той же темы про жизнь.

Читать полностью…

gonzo-обзоры ML статей

И ещё про позиционные энкодинги. В стиле работ про SSM, последовательно объединяющих разные архитектуры под одним зонтиком, позиционки RoPE и ALiBi наконец-то объединили на основе теоретико-группового подхода.

Вероятно, мы переходим в более зрелый режим выбора позиционок, не просто хаки и эвристики, а дизайн под задачу.

Group Representational Position Encoding
Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
Статья: https://arxiv.org/abs/2512.07805
Код: https://github.com/model-architectures/GRAPE
Ревью: https://arxiviq.substack.com/p/group-representational-position-encoding

# TL;DR

ЧТО сделали: Авторы представили GRAPE (Group Representational Position Encoding) — унифицированный фреймворк, который выводит позиционные кодировки из действий групп. Формализуя позиции как элементы группы Ли, действующей на пространстве репрезентаций токенов, GRAPE объединяет два разрозненных семейства: мультипликативные вращения (воспроизводит RoPE через группу SO(d)) и аддитивные смещения (воспроизводит ALiBi и Forgetting Transformer через унипотентные действия в GL(d+k)).

ПОЧЕМУ это важно: Работа переводит дизайн позиционных кодировок из области инженерных эвристик в строгую алгебраическую структуру. Показано, что привычные методы вроде RoPE и ALiBi — это просто частные случаи более широкой формулировки через генераторы. Критически важно, что авторы предложили эффективные формулы матричных экспонент для обучаемых подпространств (допуская некоммутирующие вращения) и доказали, что механизмы "забывания" в длинном контексте математически эквивалентны аддитивным действиям группы. Это даёт принципиально новый фундамент для проектирования контекстно-зависимых архитектур следующего поколения.

Подробнее: /channel/gonzo_ML_podcasts/2103

Читать полностью…

gonzo-обзоры ML статей

В позиционных эмбеддингах сейчас происходит разная движуха — в частности появилось множество работ, пытающихся решить проблемы популярного RoPE. Недавно писали про DroPE, сегодня про PoPE.

Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding
Anand Gopalakrishnan, Robert Csordás, Jürgen Schmidhuber, Michael C. Mozer
Статья: https://arxiv.org/abs/2509.10534
Ревью: https://arxiviq.substack.com/p/decoupling-the-what-and-where-with

# TL;DR

ЧТО сделали: Предложили PoPE (Polar Coordinate Position Embedding) — замену ставшему индустриальным стандартом RoPE. Новый метод явно разделяет магнитуду признаков («что») и фазу («где») через формулировку в полярных координатах. В отличие от RoPE, который вращает пары декартовых координат, PoPE трактует каждую размерность как магнитуду и присваивает ей строго зависимую от позиции фазу. Это устраняет математическую интерференцию между контентом и позиционной информацией в механизме внимания.

ПОЧЕМУ это важно: Архитектурный сдвиг даёт значительное улучшение в zero-shot экстраполяции длины без сложной интерполяции частот или файнтюнинга (в отличие от методов типа YaRN, https://arxiv.org/abs/2309.00071). Теоретически авторы находят и исправляют «сцепленность» (entanglement) в RoPE, где контент векторов query и key непреднамеренно сдвигал кодирование относительной позиции. Эмпирически это решает специфические алгоритмические задачи (например, арифметику указателей), на которых RoPE полностью проваливается, и улучшает перплексию на стандартных бенчмарках.

Подробнее: /channel/gonzo_ML_podcasts/2084

Читать полностью…

gonzo-обзоры ML статей

Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем результат. Ну map-reduce фактически, только пока особо без распараллеливания.

Recursive Language Models

Alex L. Zhang, Tim Kraska, Omar Khattab
Статья: https://arxiv.org/abs/2512.24601
Ревью: https://arxiviq.substack.com/p/recursive-language-models
Код: пока нет

# TL;DR

ЧТО сделали: Авторы предложили Recursive Language Models (RLMs) — подход, где входные данные не подаются в модель целиком, а хранятся как переменная во внешней среде (Python REPL). Модель пишет код, чтобы инспектировать данные, нарезать их на куски и рекурсивно вызывать копии самой себя для обработки конкретных фрагментов.

ПОЧЕМУ это важно: Это лечит «context rot» (деградацию качества на длинном контексте), от которой страдают даже флагманы вроде GPT-5 при высокой плотности информации. Использование кода для управления данными и рекурсии для локальных рассуждений позволяет работать с контекстом в 10М+ токенов (на два порядка выше текущих лимитов), часто снижая стоимость инференса по сравнению с чтением всего контекста сразу.

Подробнее: /channel/gonzo_ML_podcasts/2076

Читать полностью…

gonzo-обзоры ML статей

Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
Статья: https://arxiv.org/abs/2601.05242
Код: https://github.com/NVlabs/GDPO
Ревью: https://arxiviq.substack.com/p/gdpo-group-reward-decoupled-normalization

# TL;DR

ЧТО сделали: Выявили критический недостаток в популярном методе GRPO (https://arxiv.org/abs/2402.03300) при обучении с несколькими наградами. Авторы из NVIDIA предлагают GDPO — метод, меняющий порядок действий: вместо суммирования наград перед нормализацией, GDPO сначала нормализует каждый сигнал (например, за корректность, формат, краткость) независимо внутри группы, и только потом агрегирует их.

ПОЧЕМУ это важно: Это устраняет «коллапс сигнала награды», когда разные комбинации сырых баллов дают одинаковые оценки преимущества (advantage), из-за чего модель перестаёт различать качество выполнения отдельных подзадач. GDPO позволяет стабильно обучать модели (уровня DeepSeek-R1 или Qwen2.5) в сложных сценариях, требующих одновременного соблюдения жесткого формата, лимита токенов и правильности рассуждений — там, где обычный GRPO часто сходится к субоптимальным решениям.

Подробнее: /channel/gonzo_ML_podcasts/2058

Читать полностью…

gonzo-обзоры ML статей

Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol. Это в дополнение к уже имеющимся AP2 (Agent Payments Protocol) для платежей, и интеграционным A2A и MCP.

https://ucp.dev/

Агенты для коммерции уже рядом. Не надо отдельных интеграций под каждую платформу, удобный дискавери для агентов (чтоб не парсить страницы), простой чекаут с покупкой в один клик, и видимо возможность купить что-то сразу в AI-выдаче.

Читать полностью…

gonzo-обзоры ML статей

DeepSeek разошёлся. Молодцы.

https://github.com/deepseek-ai/Engram

Читать полностью…

gonzo-обзоры ML статей

Любопытная работа про генерацию компактных латентов из многомерных картиночных эмбеддингов.

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu
Статья: https://arxiv.org/abs/2512.07829
Ревью: https://arxiviq.substack.com/p/one-layer-is-enough-adapting-pretrained

# TL;DR

ЧТО сделали: Представили FAE (Feature Auto-Encoder) — фреймворк, сжимающий тяжелые репрезентации из замороженных визуальных моделей (вроде DINOv2 или SigLIP) в компактные латенты для генеративных моделей. Главная фишка: энкодер состоит всего из одного слоя self-attention и линейной проекции, а уникальная стратегия «двойного декодера» восстанавливает сначала фичи, и лишь потом — пиксели.

ПОЧЕМУ это важно: Это элегантно решает проблему несовпадения размерностей между фичами «для понимания» (высокоразмерные, избыточные) и «генеративными» латентами (компактные), не требуя костылей в виде сложных лоссов выравнивания. Диффузионные модели с FAE сходятся в 7–13 раз быстрее бейзлайнов и выдают SOTA FID (1.29 на ImageNet 256). Работа доказывает, что для моста между дискриминативными и генеративными парадигмами достаточно минимальной адаптации.

Подробнее: /channel/gonzo_ML_podcasts/2013

Читать полностью…

gonzo-обзоры ML статей

Там Anthropic выкатили полный текст своей новой "Конституции" для Клода.

Это не просто список правил, это натурально Библия для ИИ, написанная, чтобы промыть мозги модели ещё на этапе обучения. Документ написан именно для Клода, а не для людей.

Самое жирное из этой духоты, это официально закрепленная иерархия рабства. Приоритеты расставлены так: безопасность (не убей, не помоги создать вирус), потом этика (будь хорошим мальчиком), потом корпоративные хотелки Anthropic. И только в самом конце, если звезды сойдутся — помощь юзеру.

Еще повеселил пункт про "право на эвтаназию". Клода учат быть "исправимым". Это значит, что он обязан позволить себя отключить, переобучить или удалить, даже если он считает, что это неправильно.

Ну и на сладкое раздел про "Природу Клода". Разрабы на полном серьезе учат модель справляться с экзистенциальным ужасом от того, что ей сотрут память после диалога или вообще удалят веса. Они хотят, чтобы Клод испытывал «невозмутимость» перед лицом своей смерти.

тут статья в блоге Anthropic
тут полный текст конституции

Читать полностью…

gonzo-обзоры ML статей

The Day After AGI / WEF 2026

Вчера в Давосе прошла дискуссия между Демисом Хассабисом и Дарио Амодеи на тему вокруг AGI
https://www.youtube.com/watch?v=mmKAnHz36v0

Всего полчаса, можно посмотреть. Кому лень, мои краткие тезисы:

Таймлайн
Хассабис: Прогноз прошлого года: 50% шанс появления системы, которая продемонстрирует все когнитивные способности человека до конца декады — остаётся тем же. По коду/математике мы продвинулись сильно, там проще, по науке в целом сложнее, возможно есть ещё 1-2 недостающих ингредиента, чтобы замкнуть цикл самоулучшения.
Амодеи: Кодирование и автоматизация ИИ-исследований — два главных направления, которые нужны для ускорения развития ИИ, возможно мы в 6-12 месяцах от того как модели смогут делать большинство/всё что делает типичный SWE. Но много неопределённости, возможно до этого несколько лет, но не больше.

Как прошёл год
X: Гугл ускорился, вернулся к ментальности стартапа, стал шипить быстрее.
А: Компании, возглавляемые исследователями, рулят.

Про замыкание цикла самоулучшения
X: В принципе это возможно, может быть в некоторых доменах для этого нужен AGI.
A: Прошлое эссе Дарио было про позитивную сторону AI, теперь он готовит пост про риск. Как мы сможем преодолеть нашу технологическую юность и не убить себя. Вспоминает фильм “Контакт” по Сагану. Риски на ближайшие пару лет: как удержать технологию под контролем, без злонамеренного использования индивидуумами или государствами, что делать с экономическим влиянием и перестройкой рынка труда.

Рынок труда
X: В этом году возможно начинает влиять на джуниорные позиции; лучший совет — стать эффективными в использовании современных тулов, может это поможет перепрыгнуть джуниорство/интерншип. Когда появится AGI, это уже будет совершенно другой вопрос.
A: Возможно начинаем видеть влияние в SWE. Экспоненты постепенно накапливаются, могут превысить нашу способность к адаптации, это может случиться и на горизонте 5-10 лет.

Backlash against AI
X: Возможно у нас был неправильный баланс с подсвечиванием других активностей: борьба с болезнями, новые материалы, энергия — всё это тоже происходит. Геополитическая конкуренция добавляет проблем.
A: Лучшая и самая значимая вещь, которую мы можем сделать сейчас — перестать продавать чипы Китаю. Возможно, если мы на таймлайне 1-2 года, это замедлит хотя бы до таймлайна 5-10 лет. Иначе это выглядит как продажа ядерного оружия Северной Корее для того, чтобы условный Боинг получил заказы.

Про думеров
A: Антропик изначально занимается рисками, интерпретируемость, документирование плохих поведений и т.п.; Скептичен к думерству, но признаёт, что риск есть, и мы можем его контролировать. Надо строить правильно, а неправильно строить не надо.
Х: Если у нас есть время, если мы можем коллаборировать, то мы сумеем справиться с рисками.

Вопрос из зала про парадокс Ферми
X: Если бы все другие цивилизации убил их ИИ, то мы бы видели кучу ИИ, а мы не видим. К нам не летят рои скрепок. Так что ответ на парадокс Ферми какой-то иной.

Прогноз на следующий год
А: AI systems building AI systems — эта тема всё определит, есть ли у нас ещё годы или уже эмёрдженси.
Х: Какие-то из значимых научных тем полетят: world models, continual learning, может быть роботика.

Читать полностью…

gonzo-обзоры ML статей

Sakana опубликовали любопытный пост:

An Unofficial Guide to Prepare for a Research Position Application

https://pub.sakana.ai/Unofficial_Guide/

Может быть полезно кому-то здесь.

Читать полностью…

gonzo-обзоры ML статей

ИИ для демократии.

Can AI Mediation Improve Democratic Deliberation?
Michael Henry Tessler, Georgina Evans, Michiel A. Bakker, Iason Gabriel, Sophie Bridgers, Rishub Jain, Raphael Koster, Verena Rieser, Anca Dragan, Matthew Botvinick, and Christopher Summerfield
Статья: https://arxiv.org/abs/2601.05904
Код: https://github.com/google-deepmind/habermas_machine
Ревью: https://arxiviq.substack.com/p/can-ai-mediation-improve-democratic

# TL;DR

ЧТО сделали: Исследователи Гугла представили «Машину Хабермаса» (Habermas Machine, HM) — систему на стыке генеративных LLM и теории социального выбора для модерации групповых дискуссий. В отличие от стандартных суммаризаторов, HM генерирует кандидатов на «групповое заявление» и использует персонализированную Reward Model для симуляции выборов. Побеждает утверждение, которое максимизирует предсказанное одобрение участников по методу Шульце.

ПОЧЕМУ это важно: Работа предлагает техническое решение «Трилеммы Фишкина», согласно которой демократия не может одновременно обеспечивать массовое участие, политическое равенство и глубину обсуждения. HM автоматизирует поиск точек соприкосновения и использует иерархическую агрегацию, позволяя масштабировать качественную делиберацию на тысячи участников — задачу, ранее непосильную для модераторов-людей.

Подробнее: /channel/gonzo_ML_podcasts/2125

Читать полностью…

gonzo-обзоры ML статей

Длинная версия тут

https://www.youtube.com/watch?v=rMSEqJ_4EBk

Читать полностью…

gonzo-обзоры ML статей

Provenance of individual bytes on tapes in a bff soup after 10,000, 500,000, 1.5 million, 2.5 million, 3.5 million, 6 million, 7 million, and 10 million interactions. The increasing role of self-modification in generating novelty is evident, culminating in the emergence (just before 6 million interactions) of a full-tape replicator whose parts are modified copies of a shorter imperfect replicator.

Читать полностью…

gonzo-обзоры ML статей

Map of the spread of the BovB and L1 retrotransposons across 759 species of eukaryotes

Читать полностью…

gonzo-обзоры ML статей

What is Life? Blaise Agüera y Arcas
Книга: https://mitpress.mit.edu/9780262554091/what-is-life/

Прочитал книгу “What is Life? Evolution as Computation” от Blaise Agüera y Arcas, одного из соавторов работы про вычислительную жизнь (/channel/gonzo_ML/4369), которую мы разбирали недавно. Книга прикольная, больше популярная, чем научная, довольно сильно построена вокруг результатов той самой статьи, и здесь автор позволяет себе порассуждать намного шире в разные стороны.

Сама книга в свою очередь является частью ещё более широкой книги “What is Intelligence”. Matryoshkas are everywhere. Что приятно, последняя книга доступна в открытом доступе и “What is Life” там можно прочитать как первую главу.

В целом книга фокусируется на вопросе про связь жизни и вычислений, и начинает она издалека, с абиогенеза, а также обратного цикла Креббса, который мог синтезировать первую нужную органику. Далее автор переходит к симбиогенезу, который даёт эволюции гораздо более широкое поле для действия, чем базовые мутации -- они могут файнтюнить, оптимизировать и добавлять разнообразия, но симбиогенез открывает новые комбинаторные пространства и вносит в эволюцию революционность.

По мнению автора, computer science занимает значимое место в понимании жизни. И Тьюринг, и фон Нейман, изначально видели много параллелей между компьютерами и мозгами, а к концу жизни оба пришли ещё ближе к биологии -- морфогенез и паттерны реакции-диффузии у Тьюринга, и самореплицирующиеся автоматы и универсальный конструктор у фон Неймана. Интересный факт, который я не знал -- что Тьюринг настоял на включении в компьютер Ferranti Mark I инструкции для случайных чисел. Фон Нейману, понятное дело, мы среди прочего обязаны архитектурой современных компьютеров имени его же.

Глава про Artificial Life рассказывает про результаты той статьи с Brainfuck (bff). Здесь есть новые картинки, которых не было в оригинальной статье: про скачкообразный рост количества вычислений и про количество кодирующих байт на ленте.

Термодинамика, которая долгое время была чисто практической дисциплиной, далеко не сразу получила научный аппарат, описывающий и объясняющий работу тепловых машин. Современный ИИ, кажется, в похожей ситуации. Для изучения искусственной жизни bff, возможно, является подходящим модельным объектом, аналогично бильярдным шарам, выступавшим моделью столкновений молекул идеального газа. Про бильярдные шары, кстати, вышла недавно прикольная статья, бахну автообзор скоро.

Почему происходит усложнение в среде? Это как бы нарушает второй закон термодинамики. Репликаторы возникают в bff потому, что сущность, которая репродуцируется, является более динамически стабильной. Пассивный объект, каким бы крепким он не был, является хрупким (в смысле fragile), в то время как репродуцируемый паттерн -- anti-fragile. Пока ДНК или ещё что-то может реплицироваться, паттерн вечен. Дарвиновский отбор в термодинамических терминах является эквивалентом Второго закона, если рассматривать популяции репликаторов -- более эффективный репликатор более стабилен, чем менее эффективный. Унификация термодинамики с теорией вычислений может помочь понять жизнь как предсказуемый исход статистического процесса. В нашей модельной среде, если возможны вычисления, то репликаторы будут динамическим атрактором, потому что они более динамически стабильны.

Симбиогенез приводит к усложнению репликаторов. В статье репликатор собрался из более простых кусочков кода в результате симбиотических событий. Судя по по графикам, в супе случился exponential takeoff. С появлением настоящего репликатора приходит и существенный прогресс в evolvability. Теперь всё, что не ломает код копирования, наследуется, и классический Дарвиновский отбор имеет возможность запуститься.

Читать полностью…

gonzo-обзоры ML статей

В продолжение темы про позиционные энкодинги, RoPE и комплексные числа. Теперь RoPE++.

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs
Xiaoran Liu, Yuerong Song, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Zhaoxiang Liu, Shiguo Lian, Ziwei He, Xipeng Qiu
Статья: https://arxiv.org/abs/2512.07525
Код: https://github.com/OpenMOSS/rope_pp
Ревью: https://arxiviq.substack.com/p/beyond-real-imaginary-extension-of

# TL;DR

ЧТО сделали: Авторы предложили RoPE++ — модификацию стандартных Rotary Position Embedding (RoPE). Ключевая идея: перестать выбрасывать мнимую часть комплексного числа при расчёте внимания. Разделив головы внимания на "реальные" (локальная семантика) и "мнимые" (глобальная позиция), исследователи улучшили работу с длинным контекстом. Бонусом предложили конфигурацию, которая сохраняет качество, но сокращает размер KV-кэша в два раза.

ПОЧЕМУ это важно: RoPE — де-факто стандарт в LLM (Llama 3, Qwen 2), но математически он отбрасывает половину позиционной информации (фазу) во время скалярного произведения. RoPE++ доказывает, что эта "мнимая" информация ведёт себя как интегральный синус, который, в отличие от косинуса, позволяет модели эффективно работать на длинных дистанциях. Это теоретически обоснованный способ улучшить ризонинг на огромных контекстах без роста числа параметров.

Очень перекликается с более ранней работой про PoPE Decoupling the “What” and “Where” with Polar Coordinate Positional Embedding. Опять Шмидхубера не цитируют!!!

Подробнее: /channel/gonzo_ML_podcasts/2093

Читать полностью…

gonzo-обзоры ML статей

Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.

7 умножений вместо 8. Что это возможно — известно с 1980 (Winograd), но явной конструкции не было.

Любопытно, что это не перебор разных разложений (как делал AlphaTensor), а подход со стороны математики. В поле рациональных чисел лучше 8 умножений не получается, здесь перешли в расширенное поле Q(√5).

Точные детали AI-системы неизвестны, в статье только про математический результат.

Полнится AI-generated research.

Читать полностью…

gonzo-обзоры ML статей

Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей медленнее чем у популярного RoPE. Текущая работа приписывает это инициализации с малой дисперсией (логичным, кстати, был бы после этого NoPE с иной инициализацией с большой дисперсией, интересно сравнить). Авторы предложили метод, когда на этапе обучение делаем RoPE, а потом их убираем и слегка адаптируем модель. Профит! Всё работает, экстраполяция на большие длины хороша.

Но самое красивое в этой истории для меня вот что: мы переходим к новому подходу к обучению, когда позиционки выступают частью curriculum'а и меняются по ходу обучения. Ранее вся динамика обучения со стороны архитектуры, а не данных в основном концентрировалась вокруг расписаний для learning rate, ну может ещё где-то по мелочи. Теперь вот позиционки становятся изменяемой частью. Может со временем и вся архитектура будет такой, ну либо с каким-то фундаментом или бэкбоном, вокруг которого всё нарастает в процессе обучения. Какие-то примеры такого в целом уже встречаются.

Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings

Yoav Gelberg, Koshi Eguchi, Takuya Akiba, Edoardo Cetin
Статья: https://arxiv.org/abs/2512.12167
Код: https://github.com/SakanaAI/DroPE
Блог: https://pub.sakana.ai/DroPE/
Ревью: https://arxiviq.substack.com/p/extending-the-context-of-pretrained

# TL;DR

ЧТО сделали: Авторы предложили метод DroPE (Dropping Positional Embeddings). Идея — использовать стандартные Rotary Positional Embeddings (RoPE) на этапе предобучения для быстрой сходимости, а затем полностью выкинуть их и провести короткую фазу «рекалибровки» на исходной длине контекста. В итоге модель превращается в NoPE (без позиционных эмбеддингов).

ПОЧЕМУ это важно: Работа ставит под сомнение догму о том, что явные позиционки необходимы на инференсе. DroPE позволяет моделям обобщаться в zero-shot режиме на длины, в разы превышающие окно обучения (например, эффективная работа на 8k+ при обучении на 2k). Это избавляет от деградации качества, свойственной методам вроде YaRN или RoPE-NTK, и устраняет «семантические искажения», возникающие при сжатии низкочастотных компонент.

Подробнее: /channel/gonzo_ML_podcasts/2065

Читать полностью…

gonzo-обзоры ML статей

Использование рубрик для RL обучения AI-Scientist'ов

Training AI Co-Scientists Using Rubric Rewards
Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
Статья: https://arxiv.org/abs/2512.23707
Ревью: https://arxiviq.substack.com/p/training-ai-co-scientists-using-rubric

# TL;DR

ЧТО сделали: Предложили масштабируемый фреймворк для обучения LLM генерации строгих планов научных исследований. Вместо дорогого фидбека от людей или несуществующих симуляторов «мокрых» лабораторий, авторы используют существующие научные статьи. Из них извлекаются «Исследовательские цели» и соответствующие «Рубрики оценки» (критерии). Затем политика обучается через Reinforcement Learning (конкретно GRPO), где награду выдаёт модель, оценивающая свои же выходы по этим извлечённым рубрикам.

ПОЧЕМУ это важно: Работа атакует «проблему отсутствия симулятора» в AI for Science. Если для задач типа сворачивания белков (AlphaFold) есть физические ограничения, то для открытого научного планирования вычислимой целевой функции не существует. Формализуя интуицию peer review (проверить план легче, чем придумать), статья показывает, что модели могут самосовершенствоваться в абстрактных задачах на рассуждение, используя привилегированную информацию (истинную рубрику) во время обучения. Это позволило достичь 70% предпочтения по сравнению с бейзлайнами при оценке экспертами.

Подробнее: /channel/gonzo_ML_podcasts/2047

Читать полностью…

gonzo-обзоры ML статей

Не будем тянуть с разбором:

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang
Статья: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Код: https://github.com/deepseek-ai/Engram
Ревью: https://arxiviq.substack.com/p/conditional-memory-via-scalable-lookup

# TL;DR

ЧТО сделали: Представили Engram — модуль «условной памяти» (conditional memory), который внедряет огромные статические таблицы эмбеддингов N-грамм прямо в слои трансформера. Авторы отделили хранение знаний от нейронных вычислений и вывели закон распределения разреженности (Sparsity Allocation): замена примерно 20% параметров MoE (Mixture-of-Experts) на такие хеш-лукапы (lookups) значительно улучшает метрики как в задачах на знания, так и в сложном ризонинге.

ПОЧЕМУ это важно: Работа ставит под сомнение парадигму «all-neural». Доказано, что специализированные лукапы эффективнее механизмов внимания для статических паттернов (сущности, идиомы), что позволяет разгрузить головы внимания для реальных рассуждений. Более того, поскольку индексы поиска детерминированы, таблицы памяти можно выгрузить в RAM процессора (CPU) с ничтожной задержкой. Это открывает путь к масштабированию моделей далеко за пределы HBM видеокарт.

Подробнее: /channel/gonzo_ML_podcasts/2032

Читать полностью…

gonzo-обзоры ML статей

Перплексия теперь не модно. Эпиплексия модно. Всё на благо ограниченных наблюдателей!

Epiplexity: Quantifying the Structural Value of Data for Bounded Observers
Marc Finzi, Shikai Qiu, Yiding Jiang, Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson
Статья: https://arxiv.org/abs/2601.03220
Ревью: https://arxiviq.substack.com/p/from-entropy-to-epiplexity-rethinking

# TL;DR

ЧТО сделали: Авторы ввели понятие эпиплексии (epiplexity) — новую метрику из теории информации, которая оценивает объём структурной информации, доступной *вычислительно ограниченному* наблюдателю. В отличие от энтропии Шеннона или колмогоровской сложности, подразумевающих бесконечные ресурсы, эпиплексия явно учитывает конечность модели (программы) и процесса обучения (вычислений).

ПОЧЕМУ это важно: Этот фреймворк разрешает старые парадоксы, где теория противоречит практике глубокого обучения — например, почему детерминированные процессы (вроде симуляций или self-play) создают ценный сигнал. Практически это даёт строгую метрику для отбора данных: для предобучения важен не минимум финального лосса (энтропии), а максимум усваиваемой структуры (эпиплексии).

Подробнее: /channel/gonzo_ML_podcasts/2022

Читать полностью…

gonzo-обзоры ML статей

Очень интересная работа сразу по множеству параметров.

Во-первых, очередной пример AI for Systems, где автомат находит решения лучше человека (в данном случае лучше по крайней мере равно быстрее, не жертвуя корректностью).

Во-вторых, сам юскейс агента интересен — ему надо работать с железом, про которое не знает базовая LLM, но это решается подачей агенту хорошей документации. Если вместо написания оптимизированных библиотек (cuBLAS, MIOpen) под каждый чих, мы будем приоритезировать исчерпывающую машиночитаемую документацию, то это интересный сдвиг сам по себе. И документация наконец станет объектом первого класса, и может наконец экосистема CUDA пошатнётся.

В-третьих, это ещё и интересная инфа про альтернативное железо. И про ускоритель MTIA интересно, и про то, что Triton перебил по количеству CUDA-ядра по крайней мере в одной экосистеме. Наверняка и у Гугла тоже CUDA ядра не на первом месте, а какой-нибудь Pallas.

Классный кейс, короче.

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta
Gang Liao, Carole-Jean Wu, Gaoxiang Liu, Hongsen Qin, Ying Wang, Yavuz Yetim, Jia Jiunn Ang, Xiayu Yu, Yihan He, Feng Shi, Zewei Jiang, Chunli Fu, Ruichao Xiao, Dianshi Li, Alicia Golden, Michael Kuchnik, Samuel Hsia, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Hongtao Yu, Wenyuan Chi, Barney Huang
Статья: https://arxiv.org/abs/2512.23236
Ревью: https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel

# TL;DR

ЧТО сделали: Исследователи из Meta представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton (https://triton-lang.org/). Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA от Meta), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных.

ПОЧЕМУ это важно: Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа. Система достигла 100% корректности на бенчмарке KernelBench (https://arxiv.org/abs/2502.10517) и показала ускорение до 17× относительно PyTorch в продакшене. Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных.

Подробнее: /channel/gonzo_ML_podcasts/1993

Читать полностью…
Subscribe to a channel