gonzo_ml | Неотсортированное

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21249

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Подписаться на канал

gonzo-обзоры ML статей

Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе RNN

https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

Читать полностью…

gonzo-обзоры ML статей

Пообщались с Иваром Максутовым и Постнаукой о хренах и пряниках разном

Читать полностью…

gonzo-обзоры ML статей

Brand new 2025 AI Index Report is released!

https://hai.stanford.edu/ai-index/2025-ai-index-report

Читать полностью…

gonzo-обзоры ML статей

Multi-Token Attention
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
Статья: https://arxiv.org/abs/2504.00927

Продолжаем разборы архитектур.

Как известно, веса внимания в классическом механизме внимания определяются одним вектором значений query и одним вектором значений key. Этот “single token attention” является своеобразным боттлнеком для отделения важных частей от всего остального. Новый подход Multi-Token Attention (MTA) позволяет устранить боттлнек и определять веса внимания на основе нескольких векторов query и keys одновременно

Напомним, что в стандартном внимании веса внимания определяются как softmax(QK/sqrt(d)). Для каждого токена есть вектор эмбеддинга, этот вектор проецируется в три отдельных вектора Q, K и V, и по скалярному произведению векторов Q и K различных токенов определяется их “похожесть” или “важность”. После нормализации на корень от размерности эмбеддинга и взятию софтмакса от результата получаются веса внимания A. Далее с этими весами взвешиваются и суммируются вектора V и генерятся новые эмбеддинги для каждого токена. На наличие множества голов, маски декодера и прочего мы в этом объяснении забиваем, если хотите лучше понять/вспомнить этот процесс, отсылаю к классике (https://jalammar.github.io/illustrated-transformer/).

Внутри и снаружи этого базового механизма внимания можно много чего модифицировать -- мы писали про температуру в софтмаксе (/channel/gonzo_ML/3013), про отказ от нормализации до или после слоёв внимания (/channel/gonzo_ML/3478), 100500 вариантов разреженного и прочего модифицированного внимания, которые даже перечислять долго (просто как пример -- Reformer, /channel/gonzo_ML/176, далее воспользуйтесь поиском по каналу). Текущая работа тоже где-то в этом пуле.

Допустим, мы хотим найти предложение, содержащее несколько элементов. Пусть для примера это будет предложение “Where did Alice see the rabbit?” и мы хотим найти одновременное упоминание Алисы и кролика, им соответствуют query вектора q_a и q_r. Стандартный механизм считает веса внимания описанным выше способом, мы можем “найти” места в контексте, содержащие эти слова, и нам надо бы проверить, что они находятся где-то в соседних позициях. Но стандартный механизм внимания не даёт этого сделать в пределах одного слоя (через увеличение глубины можно, но хотелось бы и без), поскольку никаких взаимодействий между отдельными attention maps в нём нет, и даже если мы используем отдельные головы внимания для обнаружения Алисы и кролика, то нет механизма для комбинирования этих весов внимания. Модификация внимания в MTA позволяет добавить это взаимодействие между attention maps для соседних позиций Q и K или между отдельными головами.

На уровне конкретных модификаций внутри стандартного механизма внимания появляются три новых блока:
1) key-query convolution: комбинирует несколько key и query внутри головы
2) head mixing convolution: шарит информацию между головами и усиливает важную
3) group normalization with depth scaling: улучшает поток градиентов

Key-query convolution перемешивает веса внимания от разных временных шагов и работает так: к логитам внимания перед софтсаксом (QK/sqrt(d)) применяется двумерная обучаемая свёртка по измерениям q и k, измерения для батча и голов внимания не трогаются. Каждая голова внимания учит свою свёртку. Внутри свёртки используется маска с занулением элементов, чтобы не залезать в будущее. Это был pre-softmax convolution, он будет использоваться по дефолту. Можно также сделать post-softmax convolution, тогда свёртка считается не поверх логитов, а уже после софтмакса. Это делает взаимодействия между весами внимания аддитивными, а не мультипликативными. Я кстати не до конца понял, почему они до софтмакса прям мультипликативные...

Читать полностью…

gonzo-обзоры ML статей

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео. Картинок в контексте может быть до 5 штук, чтобы сохранялся контекст
— 12 основных языков (английский, французский, немецкий, арабский ,хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский), но более 200 в претрейне (из No Language Left Behind)


Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

Читать полностью…

gonzo-обзоры ML статей

Вышла Llama 4!

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Читать полностью…

gonzo-обзоры ML статей

У Михаила Кацнельсона классный пост с подборкой трёх интервью соавторов статей про обучение и многоуровневую оптимизацию :)

------

*Тем, кто интересуется интердисциплинарными исследованиями*

ТрВ провел интересный эксперимент - взяли интервью у трех соавторов одних и тех же работ. Биолог, физик твердого тела и космолог. Мне кажется, очень ценный материал: как люди по-разному смотрят на один и тот же совместно сваянный предмет. Если еще кому-то не пофиг, как делается наука, уместно посмотреть и сравнить (но, правда, это очень много букв).

Eugene Koonin http://trv-science.ru/2022/02/zhizn-kak-mnogourovnevoe-obuchenie/

Vitaly Vanchurin http://trv-science.ru/2022/04/ves-mir-neuroset/

Я http://trv-science.ru/2022/03/vsya-nasha-zhizn-zadachi-po-optimizacii/

Читать полностью…

gonzo-обзоры ML статей

Интересно, что вышел апдейт по ценам для картинки с результатами o3 на ARC-AGI.

Новая картинка выглядит так, что o3-low подорожала с $20 до $200 за задачу, а o3-high видимо с $3000 до $30000 (и ушла с картинки по превышению лимита в $10000 на задачу).

Инфляция!

Но o3-mini действительно выглядит любопытно, явно на другой кривой сидит по сравнению с o1/o1-pro/o3.

Читать полностью…

gonzo-обзоры ML статей

А это тем, кто не любит смотреть 3 часа

https://www.youtube.com/watch?v=SRM6t7mXg5M

Ну и вообще если такое любите:
Cloudylabs" rel="nofollow">https://www.youtube.com/@Cloudylabs

Читать полностью…

gonzo-обзоры ML статей

Хоть фантастику не читай!

We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.

We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.


https://ai-2027.com/

Читать полностью…

gonzo-обзоры ML статей

Кстати, недавно мы протестировали возможности перевода свежих LLM, включая семейство Gemini 2.0, Claude 3.7 Sonnet, o1/o3-mini, GPT-4.5 и DeepSeek-V3/R1.

Модели весьма хороши, и DeepSeek тоже.

Но мир не стоит на месте и с момента тестирования уже были анонсированы Gemini 2.5 Pro, Tencent Hunyuan и обновленный DeepSeek-V3-0324.

Как обычно готовим большой годовой репорт к лету. Прошлый за 2024 можно посмотреть здесь (с регистрацией, но без смс).

https://inten.to/blog/generative-ai-for-translation-in-2025/

Читать полностью…

gonzo-обзоры ML статей

Свежая Кембриджская лекция Хассабиса

https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp

Читать полностью…

gonzo-обзоры ML статей

[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model

Продолжение продакшн движухи про гибриды Трансформер-SSM (/channel/gonzo_ML/2919). Кстати, появилось видео этого доклада с Ереванского Датафеста (https://www.youtube.com/watch?v=w5dCKmkYShU).

На фоне моделей от DeepSeek и Alibaba Cloud Qwen практически незамеченными проходят модели от Tencent, а они интересны хотя бы тем, что это гибриды с Мамбой.

Свежий Hunyuan-T1 (https://x.com/TXhunyuan/status/1903121005809373386), построенный на предыдущем Hunyuan-TurboS (https://x.com/TXhunyuan/status/1899105803073958010) через масштабный пост-трейнинг с RL для прокачки ризонинга. Вроде как обе модели с ризонингом, если воспринимать Slow-thinking integration от TurboS как таковой. Использовали curriculum learning для постепенного усложнения обучающих задач.

Трансформер-мамба гибрид комбинирует в себе высокую скорость и экономное использование памяти от Мамбы и хорошую работу с контекстом от обычного трансформера. Где-то в этой схеме есть также MoE, но непонятно в какой именно части -- у Jamba 1.5 (/channel/gonzo_ML/2903) это было в блоках Мамбы, а у T1 непонятно, может и в трансформерных? Одна из предыдущих LLM от Tencent была Hunyuan-Large, трансформер-MoE c 389B параметров всего и 52B активных (https://arxiv.org/abs/2411.02265).

Технические детали, к сожалению, не опубликованы, только бенчмарки (https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en). TurboS был сравним с DeepSeek-V3 и Claude Sonnet 3.5, новый T1 сравним с o1 и DeepSeek-R1. По скорости генерации T1 обещает первый токен в течение секунды и 60-80 токенов в секунду.

Так понимаю, текущая модель сугубо коммерческая с доступом через API.

Выглядит очень интересно, китайские модели вышли главным фронтом конкуренции с американскими. Никого другого поблизости не видно.

Запросил T1 (https://huggingface.co/spaces/tencent/Hunyuan-T1) посчитать число букв внутри слова Deeplearningstrawberries. Модель пришла к правильному ответу, хотя и с неправильной логикой -- первые две ‘r’ пришли из слова deeplearning, вторые две из strawberry. В этом же чате спросил просто про strawberry -- модель пыжилась, считала правильно, сомневалась потому что ответ 3 не выглядит верным:

“Yes, positions 3,8,9 are R's. So three R's. But I'm certain that "strawberries" is spelled with two R's. Wait, maybe I'm making a mistake here. Let me check an alternative source mentally.”,

несколько раз пересчитывала, но финально ответила верно:

"Oh! So I was correct. The answer is three R's. But I think many people might overlook the R in "straw" and only count the two in "berry", leading to confusion. So the correct answer is three R's in "strawberries"."


Ничего не значит, но забавно 😸

Читать полностью…

gonzo-обзоры ML статей

На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов. Замаскированные токены (бинарная маска размерности T×H×W указывает, что остаётся, а что скрывается) убираются из этой последовательности (остаётся N токенов). Для всех входных токенов энкодером генерируются репрезентации. Далее, к ним подмешиваются убранные токены, где содержатся обучаемые эмбеддинги для mask токенов + позиционные энкодинги. Предиктор по этим данным генерит эмбеддинг для каждого замаскированного токена и финально считается L1-лосс между предсказанными значениями и энкодингом реальных значений. Энкодер для y — это EMA от энкодера для x.

Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений).

В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (/channel/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384.

Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения.

V-JEPA сравнивают с другими видео моделями из двух классов:
1) модели предсказания видео в пиксельном пространстве (VideoMAEv2)
2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro).
Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией).

Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го).

Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/).

Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены.

Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.

Читать полностью…

gonzo-обзоры ML статей

Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.

Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось.

А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :)

https://openai.com/index/gpt-4o-image-generation-system-card-addendum/

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Читать полностью…

gonzo-обзоры ML статей

Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет мышление и коммуникация в эпоху AI? Как LLM справляются с пониманием языка?

https://youtu.be/jWVbaCiN0Tc

Об этом — в подкасте с Григорием Сапуновым, соучредителем и техническим директором компании Intento, специалистом в области ИИ и анализа данных.

Читать полностью…

gonzo-обзоры ML статей

Вчера в разборе Multi-Token Attention упоминалась статья про Differential Transformer. До её разбора я всё-таки не доберусь, так что продолжаю эксперименты с автоматизированным разбором.

Результат тут
.

Читать полностью…

gonzo-обзоры ML статей

Head mixing convolution позволяет перемешивать внимание между разными головами в пределах одного временного шага. Все головы внимания разбиваются на группы заданного размера и перемешивание происходит внутри группы (его также можно рассматривать и как небольшой полносвязный слой). Это делается после софтмакса, но при желании можно делать и до, на логитах, тоже получается pre и post (по дефолту).

Итого, возможны четыре варианта блока MTA с разными комбинациями pre/post свёрток. Тут есть простор для оптимизации, так если оба варианта pre или post, то можно объединить это в одну трёхмерную свёртку.

Group normalization with depth scaling использует GroupNorm и независимый скейлинг для каждой головы по рецепту от Differential Transformer (https://arxiv.org/abs/2410.05258, может кстати тоже его разобрать?).

Эксперименты начинают с игрушечной задачи: модели дают последовательность блоков, каждый из N случайных букв. Далее следует L<N букв вопроса. Задача -- найти блок, содержащий все буквы из вопроса в любом порядке. Модель должна вывести все буквы целевого блока, или только его первый либо последний токен (три разные варианта задачи). Для стандартного трансформера задача сложная, так как требует L кусочков информации для определения целевого блока, и их надо закодировать в один query вектор. С MTA должно быть проще, так как он может найти позицию каждой буквы, а потом свёрткой увеличить вес внимания, если все L букв найдены вместе.

Проверили на N=5 и 8, L=2. Пример задачи (надо найти блок с pb):

hjnvt.qfjgt.whftb.bjtpq. ...(many blocks)... .pxjvf.ulhik.qoiax#pb


Обучали на 1M таких блоков, тестировали на отложенных 1K. Трансформер 4 слоя, 2 головы, размерность 256.

У MTA ошибка почти везде ноль или рядом, у обычного трансформера почти везде двузначные числа процентов. Размеры свёрток были c_q=2 (как L), c_k=2N-1, чтобы можно было покрыть весь блок. Свёртка для голов не использовалась.

Следующий эксперимент с LLM. Предобучили 880M модели с архитектурой LLaMa и сравнили обычный трансформер, Differential Transformer и MTA. Обучали на SlimPajama на 105B токенов. В MTA key-query convolution использовали в каждом четвёртом слое, а head convolution в каждом. Свёртки c_q=6, c_k=11, размер группы 2.

По перплексии MTA лучше (GroupNorm при этом важен). На наборе бенчмарков тоже обычно бьёт остальных, но не везде и разница часто в последней цифре (и непонятно какой доверительный интервал -- обучали дважды). В среднем лучше.

Проверили на отдельном пуле long-range dependency задач: LAMBADA, NeedleIn-A-Haystack и BabiLong. На ламбаде однозначно бьёт, на multi-needle (2,4,6) retrieval точность MTA обычно выше, причём без GroupNorm часто лучше. На BabiLong и QA1-5 у MTA тоже всё хорошо.

Приложили сколько-то визуализаций свёрточных ядер, заметное число близко к identity, но есть и более хитрые. Например, один с диагональной структурой, удобен чтобы находить точное совпадение с паттерном. Или есть аналог edge detection, усиливающий первый или последний из последовательных ключей с высоким вниманием. В свёртках по головам частый паттерн это контраст, вычитание одной головы из другой.

Абляции показали, что даже пары MTA слоёв достаточно для превосходства над бейзлайнами. Все предложенные компоненты что-то улучшают по перплексии.

В целом забавно. Кажется, свёртки по q/k это ещё не предел. Для каких-то задач и языков не удивлюсь, если более забористые и менее локальные интеракции рулят. Главное чтоб параметров много не добавляли. Здесь в примере с LLM разница была на уровне 0.001% (+10K параметров на фоне 880M).

По памяти и FLOPS текущая неоптимизированная имплементация сильно проигрывает у использующих обычное scaled dot product attention: памяти раза в три больше надо, флопсов меньше раз в пять. Но это скорее проблема отсутствия оптимизированного ядра для CUDA. Интересно, компиляция через XLA что бы дала.

Читать полностью…

gonzo-обзоры ML статей

И для разнообразия не про LLM.

Если это не первоапрельская шутка, то Kawasaki показал концепт нового мотоцикла транспортного средства, Corleo:

https://youtu.be/vQDhzbTz-9k?si=oC8mOuc-KfpIqkNa

А кому этого мало, есть Docker контейнерные перевозки для людей:

https://youtu.be/RFZ1aGqzIN4?si=lofqVvmzlJDHjhyg

Блин, круто. Особенно Corleo.

Читать полностью…

gonzo-обзоры ML статей

От непосредственных участников, так сказать

Читать полностью…

gonzo-обзоры ML статей

Очередной лонгрид (264 страницы).

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Кажется, это next step относительно Foundation Models, теперь на новом уровне.

Имена в основном азиатские, кажется никого из них не знаю. Но по списку аффиляций солидно:

MetaGPT, Université de Montréal, Mila - Quebec AI Institute, Nanyang Technological University,
Argonne National Laboratory, University of Sydney, Penn State University, Microsoft Research Asia, University of Illinois at Urbana-Champaign, The Hong Kong University of Science and Technology, University of Southern California, Yale University, Stanford University, University of Georgia, The Ohio State University, King Abdullah University of Science and Technology, Duke University, The Hong Kong Polytechnic University, Google DeepMind, Canada CIFAR AI Chair


Гитхаб страница тоже весьма развесистая:
https://github.com/FoundationAgents/awesome-foundation-agents

Читать не перечитать!

Читать полностью…

gonzo-обзоры ML статей

Подоспели видео с Gemma 3 Day в Париже

https://youtube.com/playlist?list=PLOU2XLYxmsILOkAPDwRqvbiReWbIcLC4k&amp;si=Pdba77GHDhwrWFQI

Читать полностью…

gonzo-обзоры ML статей

Также любопытно.

Не сказать, что уже ImageNet moment, но прогресс хороший.

https://matharena.ai/

Читать полностью…

gonzo-обзоры ML статей

Кто любит посмотреть/послушать

3 часа, но в платном ютубе оказывается есть ускорение до 4x...

https://www.youtube.com/watch?v=htOvH12T7mU

UPD: Но можно и прочитать
https://www.dwarkesh.com/p/scott-daniel

Читать полностью…

gonzo-обзоры ML статей

DeepMind про Technical AGI Safety and Security

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

Сама статья на 145 страниц:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

Читать полностью…

gonzo-обзоры ML статей

Просочились детали про открытую модель от OpenAI (/channel/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.

Что известно про модель:

* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device

* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (/channel/gonzo_ML/2821). Надеюсь, в отличие от Гугла (/channel/gonzo_ML/3447) список языков опубликуют?

* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (/channel/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).

* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.

* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!

Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.

Самый главный вопрос -- название модели пока неизвестно.

Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (/channel/gonzo_ML/2976) -- помните подкасты?

Читать полностью…

gonzo-обзоры ML статей

Неужели??? Для 1 апреля запоздалая шутка. На пару лет.

https://openai.com/open-model-feedback/

We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible. If you’re interested in joining a feedback session with the OpenAI team, please let us know below.

Читать полностью…

gonzo-обзоры ML статей

Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато.

Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще.

По задачам предобучения пробовали три варианта.
* Block Masking маскирует конкретный кусок картинки в каждом кадре
* Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео
* Random Masking маскирует случайные пиксели на каждом кадре.

Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна.

Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут /channel/gonzo_ML/1791).

В любом случае круто. Заодно и JEPA наконец немного разобрали :)

Читать полностью…

gonzo-обзоры ML статей

Intuitive physics understanding emerges from self-supervised pretraining on natural videos
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics

Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.

Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека.

Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).

JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (/channel/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.

JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (/channel/gonzo_ML/590)?

В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).

V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.

Читать полностью…

gonzo-обзоры ML статей

Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали.

Не забывайте про защиту глаз!

Читать полностью…
Подписаться на канал