Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Неотсортированное - каталог телеграмм

gonzo_ml | Неотсортированное

Подписаться на канал

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21999

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Подписаться на канал

gonzo-обзоры ML статей

23 апреля 2025 13:21

Just in case, бахнул авторазбор статьи про iCoT (https://arxiv.org/abs/2405.14838), которую упоминали в разборе Coconut'а (/channel/gonzo_ML/3567). По мне так довольно полезно уже.

/channel/gonzo_ML_podcasts/117

Читать полностью…

gonzo-обзоры ML статей

21 апреля 2025 13:36

Тестируют подход на трёх датасетах с математическим (GSM8k) и логическим ризонингом (ProntoQA, и новый ProsQA).

Проверяют на предобученной GPT-2. Для математики используют две латентных мысли (c=2) на каждый шаг ризонинга, три этапа (stages, k=3) и обучают шесть эпох на первом этапе и три на остальных. На логике одна латентная мысль на шаг, шесть этапов, обучают пять эпох на этап.

В сравнении используются следующие бейзлайны:
1) обычный CoT с файнтюнингом модели на примерах
2) No-CoT, с обучением модели сразу выдавать ответ
3) iCoT, implicit CoT из https://arxiv.org/abs/2405.14838, который постепенно интернализировал промежуточные шаги рассуждений через последовательный файнтюнинг, там шаги по одному выбрасывались, а в Coconut вместо них появляются латентные шаги, что по идее даёт модели “подумать” побольше.
4) Pause token, когда между вопросом и ответом вставляются специальные токены <pause> (столько же, сколько continuous thoughts у кокоса) -- никакой цепочки размышлений тут нет, но дополнительные токены могут дать модели дополнительные вычислительные возможности.

Сам Coconut тоже проверяют в трёх режимах:
1) w/o curriculum без мультиэтапного обучения, сразу берутся данные с последнего этапа, где уже нет языковых мыслей, есть только латентные.
2) w/o thought с мультиэтапным обучением и постепенным убиранием языковых шагов рассуждения, но без использования непрерывных латентных мыслей -- по сути похоже на iCoT, но процедура обучения из Coconut
3) Pause as thought c заменой непрерывных мыслей на токены <pause> и сохранением мультиэтапной процедуры

🏁 Результаты

Coconut стабильно лучше LLM без CoT, и лучше CoT на логических задачах. На GSM8k обычный CoT лучше, но у Coconut растёт качество с увеличением числа мыслей на шаг (насыщения там не видно до двух мыслей на шаг, но в приложении попробовали три и там стало хуже, видимо из-за проблем в обучении, нужно что-то менять в процедуре).

Токенов у Coconut при этом меньше в разы.

Coconut с pause as thought в целом тоже неплохо работает, но обычный Coconut лучше.

На авторском датасете ProsQA, где предсказание следующего шага не очень помогает и надо планировать и искать по более сложному графу, обычный CoT не лучше No-CoT, зато Coconut или iCoT существенно улучшают ситуацию.

Без мультиэтапной процедуры с curriculum модель плохо выучивает ризонинг в латентном пространстве. В идеальном мире она бы сама выучила наиболее эффективные непрерывные мысли через бэкпроп, но чего-то не хватает.

Хоть Coconut и призван обходиться без перехода в пространство токенов, это по-прежнему можно делать, если хочется. В одном примере авторы декодировали первую непрерывную мысль и увидели там токены, которые ожидались в промежуточном рассуждении. Это прикольно в плане интерпретируемости.

🔍Анализ

У модели есть интересная возможность переключаться между ризонингом языковым и в латентном пространстве. Авторы дополнительно покопались в латентном ризонинге.

Проверили работу модели на датасете ProsQA с разным числом латентных мыслей, от нуля до шести. Разница здесь только в инференс тайме, модель одна и та же. Также дополнили мультиэтапную процедуру обучения, чтобы модель не забывала более ранние этапы, так что с вероятностью 0.3 замешиваются данные от других этапов.

Сделали более гранулярную классификацию качества ответа модели, теперь есть не просто корректность конечного ответа, а более детальные типы:
1) Correct Path — верный кратчайший путь в графе
2) Longer Path — верный, но не кратчайший
3) Hallucination — путь содержит несуществующие рёбра или несвязный
4) Wrong Target — путь валиден, но не к тому узлу
5) Correct Label и (6) Incorrect Label — для методов, где можно получить только финальный ответ

Ожидаемо, с увеличением количества непрерывных мыслей корректных результатов становится больше. Галлюцинации тоже уходят.

Читать полностью…

gonzo-обзоры ML статей

20 апреля 2025 12:40

30 мая в Royal Institution в Лондоне будет лекция Хинтона. Есть онлайн.

Discourse: Digital intelligence vs biological intelligence

https://www.rigb.org/whats-on/discourse-digital-intelligence-vs-biological-intelligence

Tech headlines in the last couple of years have been dominated by Artificial Intelligence. But what do we mean by intelligence? What has AI learned from biological intelligence, and how do they still differ?

Acclaimed computer scientist, and winner of the 2024 Nobel Prize in Physics, Geoffrey Hinton will examine the similarities and differences between artificial and biological intelligence, following his decades of ground-breaking work which has enabled the neural networks of today.

Спасибо Мише Бурцеву за ссылку!

Читать полностью…

gonzo-обзоры ML статей

10 апреля 2025 22:05

Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет мышление и коммуникация в эпоху AI? Как LLM справляются с пониманием языка?

https://youtu.be/jWVbaCiN0Tc

Об этом — в подкасте с Григорием Сапуновым, соучредителем и техническим директором компании Intento, специалистом в области ИИ и анализа данных.

Читать полностью…

gonzo-обзоры ML статей

07 апреля 2025 22:03

Вчера в разборе Multi-Token Attention упоминалась статья про Differential Transformer. До её разбора я всё-таки не доберусь, так что продолжаю эксперименты с автоматизированным разбором.

Результат тут.

Читать полностью…

gonzo-обзоры ML статей

07 апреля 2025 01:28

Head mixing convolution позволяет перемешивать внимание между разными головами в пределах одного временного шага. Все головы внимания разбиваются на группы заданного размера и перемешивание происходит внутри группы (его также можно рассматривать и как небольшой полносвязный слой). Это делается после софтмакса, но при желании можно делать и до, на логитах, тоже получается pre и post (по дефолту).

Итого, возможны четыре варианта блока MTA с разными комбинациями pre/post свёрток. Тут есть простор для оптимизации, так если оба варианта pre или post, то можно объединить это в одну трёхмерную свёртку.

Group normalization with depth scaling использует GroupNorm и независимый скейлинг для каждой головы по рецепту от Differential Transformer (https://arxiv.org/abs/2410.05258, может кстати тоже его разобрать?).

Эксперименты начинают с игрушечной задачи: модели дают последовательность блоков, каждый из N случайных букв. Далее следует L<N букв вопроса. Задача -- найти блок, содержащий все буквы из вопроса в любом порядке. Модель должна вывести все буквы целевого блока, или только его первый либо последний токен (три разные варианта задачи). Для стандартного трансформера задача сложная, так как требует L кусочков информации для определения целевого блока, и их надо закодировать в один query вектор. С MTA должно быть проще, так как он может найти позицию каждой буквы, а потом свёрткой увеличить вес внимания, если все L букв найдены вместе.

Проверили на N=5 и 8, L=2. Пример задачи (надо найти блок с pb):

hjnvt.qfjgt.whftb.bjtpq. ...(many blocks)... .pxjvf.ulhik.qoiax#pb

Обучали на 1M таких блоков, тестировали на отложенных 1K. Трансформер 4 слоя, 2 головы, размерность 256.

У MTA ошибка почти везде ноль или рядом, у обычного трансформера почти везде двузначные числа процентов. Размеры свёрток были c_q=2 (как L), c_k=2N-1, чтобы можно было покрыть весь блок. Свёртка для голов не использовалась.

Следующий эксперимент с LLM. Предобучили 880M модели с архитектурой LLaMa и сравнили обычный трансформер, Differential Transformer и MTA. Обучали на SlimPajama на 105B токенов. В MTA key-query convolution использовали в каждом четвёртом слое, а head convolution в каждом. Свёртки c_q=6, c_k=11, размер группы 2.

По перплексии MTA лучше (GroupNorm при этом важен). На наборе бенчмарков тоже обычно бьёт остальных, но не везде и разница часто в последней цифре (и непонятно какой доверительный интервал -- обучали дважды). В среднем лучше.

Проверили на отдельном пуле long-range dependency задач: LAMBADA, NeedleIn-A-Haystack и BabiLong. На ламбаде однозначно бьёт, на multi-needle (2,4,6) retrieval точность MTA обычно выше, причём без GroupNorm часто лучше. На BabiLong и QA1-5 у MTA тоже всё хорошо.

Приложили сколько-то визуализаций свёрточных ядер, заметное число близко к identity, но есть и более хитрые. Например, один с диагональной структурой, удобен чтобы находить точное совпадение с паттерном. Или есть аналог edge detection, усиливающий первый или последний из последовательных ключей с высоким вниманием. В свёртках по головам частый паттерн это контраст, вычитание одной головы из другой.

Абляции показали, что даже пары MTA слоёв достаточно для превосходства над бейзлайнами. Все предложенные компоненты что-то улучшают по перплексии.

В целом забавно. Кажется, свёртки по q/k это ещё не предел. Для каких-то задач и языков не удивлюсь, если более забористые и менее локальные интеракции рулят. Главное чтоб параметров много не добавляли. Здесь в примере с LLM разница была на уровне 0.001% (+10K параметров на фоне 880M).

По памяти и FLOPS текущая неоптимизированная имплементация сильно проигрывает у использующих обычное scaled dot product attention: памяти раза в три больше надо, флопсов меньше раз в пять. Но это скорее проблема отсутствия оптимизированного ядра для CUDA. Интересно, компиляция через XLA что бы дала.

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 22:33

И для разнообразия не про LLM.

Если это не первоапрельская шутка, то Kawasaki показал концепт нового ~~мотоцикла~~ транспортного средства, Corleo:

https://youtu.be/vQDhzbTz-9k?si=oC8mOuc-KfpIqkNa

А кому этого мало, есть ~~Docker~~ контейнерные перевозки для людей:

https://youtu.be/RFZ1aGqzIN4?si=lofqVvmzlJDHjhyg

Блин, круто. Особенно Corleo.

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 21:46

От непосредственных участников, так сказать

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 16:57

Очередной лонгрид (264 страницы).

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Кажется, это next step относительно Foundation Models, теперь на новом уровне.

Имена в основном азиатские, кажется никого из них не знаю. Но по списку аффиляций солидно:

MetaGPT, Université de Montréal, Mila - Quebec AI Institute, Nanyang Technological University,
Argonne National Laboratory, University of Sydney, Penn State University, Microsoft Research Asia, University of Illinois at Urbana-Champaign, The Hong Kong University of Science and Technology, University of Southern California, Yale University, Stanford University, University of Georgia, The Ohio State University, King Abdullah University of Science and Technology, Duke University, The Hong Kong Polytechnic University, Google DeepMind, Canada CIFAR AI Chair

Гитхаб страница тоже весьма развесистая:
https://github.com/FoundationAgents/awesome-foundation-agents

Читать не перечитать!

Читать полностью…

gonzo-обзоры ML статей

04 апреля 2025 01:22

Подоспели видео с Gemma 3 Day в Париже

https://youtube.com/playlist?list=PLOU2XLYxmsILOkAPDwRqvbiReWbIcLC4k&si=Pdba77GHDhwrWFQI

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 19:08

Также любопытно.

Не сказать, что уже ImageNet moment, но прогресс хороший.

https://matharena.ai/

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 18:44

Кто любит посмотреть/послушать

3 часа, но в платном ютубе оказывается есть ускорение до 4x...

https://www.youtube.com/watch?v=htOvH12T7mU

UPD: Но можно и прочитать
https://www.dwarkesh.com/p/scott-daniel

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 10:27

DeepMind про Technical AGI Safety and Security

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

Сама статья на 145 страниц:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

Читать полностью…

gonzo-обзоры ML статей

01 апреля 2025 21:21

Просочились детали про открытую модель от OpenAI (/channel/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.

Что известно про модель:

* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device

* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (/channel/gonzo_ML/2821). Надеюсь, в отличие от Гугла (/channel/gonzo_ML/3447) список языков опубликуют?

* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (/channel/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).

* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.

* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!

Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.

Самый главный вопрос -- название модели пока неизвестно.

Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (/channel/gonzo_ML/2976) -- помните подкасты?

Читать полностью…

gonzo-обзоры ML статей

01 апреля 2025 09:12

Неужели??? Для 1 апреля запоздалая шутка. На пару лет.

https://openai.com/open-model-feedback/

We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible. If you’re interested in joining a feedback session with the OpenAI team, please let us know below.

Читать полностью…

gonzo-обзоры ML статей

21 апреля 2025 13:36

Отдельный интересный результат в том, что Coconut с k=0, то есть когда он вынужден генерировать обычную языковую цепочку CoT без латентных мыслей (но уже с парой токенов <bot>/<eot>), качество выше, чем у CoT, меньше галлюцинирует. Видимо, помогает процедура обучения с замешиванием разных этапов (а может и пара дополнительных токенов тоже).

Латентный ризонинг можно интерпретировать как поиск по дереву, если опираться на интуицию, что непрерывные мысли могут содержать более одного шага рассуждения. Так, первая мысль кокоса может выбрать всех детей узла графа, следующая — детей детей. Получается похоже на поиск в ширину (BFS), но не равномерный, а с вероятностями или приоритетами. В работе посчитали эти вероятности для примеров, получается неявная value function для исследования графа. По ощущению тут где-то рядом MCTS. И вообще выглядит, что обучили не непрерывный CoT, а непрерывный ToT.

По полученным вероятностям можно оценить степень параллелизма мыслей, если смотреть на кумулятивные значения top-1/2/3 кандидатов. У первых мыслей такой параллелизм (разница между линиями для top-1/top-2/top-3) выше, чем у вторых.

Латентное рассуждение позволяет модели отложить выбор конкретных слов и «обдумывать» варианты глубже по дереву поиска, оценивая узлы уже у самых листьев, где ошибочные пути легко выявить. Экспериментально видно, что уверенность модели обратно пропорциональна высоте узла: на малых высотах она чётко отделяет правильные варианты от неправильных, тогда как на больших это различие размывается — поэтому планирование в непрерывном латентном пространстве оказывается выгодным.

---

Интересный подход, он сильно перекликается с LCM (/channel/gonzo_ML/3149), только в LCM сразу работали на уровне отдельных больших мыслей-предложений, а здесь скорее избавляются от токенов для промежуточных вычислений. Наверное, где-то посередине есть подход с латентными концептами для объектов, действий и свойств, пока вроде не видел такого. Верю глобально в это направление с латентным ризонингом и латентным всем. Thought vector is a thing.

In the meantime, прослушайте ~~пение дрозда~~ песню из шапки.

Читать полностью…

gonzo-обзоры ML статей

21 апреля 2025 13:36

Training Large Language Models to Reason in a Continuous Latent Space
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
Статья: https://arxiv.org/abs/2412.06769
Код: https://github.com/facebookresearch/coconut
Песня: https://www.youtube.com/watch?v=PKQPey6L42M

Статья, которую надо разобрать, про Coconut и ризонинг в латентном пространстве. Тем более даже Quanta уже написала, а мы всё нет.

📃TL;DR.

Идея проста: языковое пространство может быть не лучшим выбором для ризонинга через CoT (про CoT и ToT тут /channel/gonzo_ML/1885), и ризонинг можно делать не выходя в пространство токенов. Отсюда рождается Coconut (Chain Of CONtinUous Thought). Последнее скрытое состояние можно не декодировать в токен, а сразу подавать его на вход декодера в авторегрессионном процессе генерации как эмбеддинг для следующего шага.

💡Идея

Это интересный подход по нескольким причинам.

Во-первых, прогон всего ризонинга через токены создаёт узкое место. Из одного эмбеддинга могут быть сгенерированы разные токены, эквивалентные и не очень, и всё богатство оригинальной “мысли” может потеряться. Что если его не терять?

Дополнительный минус в том, что на каждый токен уходит одинаковый вычислительный бюджет, хотя токены неравнозначны. BLT (/channel/gonzo_ML/3109) отчасти решал эту проблему, но там и часть авторов та же, что у кокоса.

В общем, почему бы не попробовать ризонинг без языковых ограничений? Тем более, что, во-вторых, это соответствует некоторым данным по neuroimaging, когда в процессе ризонинга языковые области мозга не задействуются. В частности, одна из свежих работ (/channel/gonzo_ML/2797) говорит, что язык оптимизирован для коммуникации, а не для думания.

🛠Реализация

Она, как уже упоминалось в TL;DR, чрезвычайно проста. В процессе ризонинга мы не задействуем выходную голову модели и её слой эмбеддинга, а в качестве входного эмбеддинга на следующем шаге используем выходной эмбеддинг предыдущего шага.

LLM переключается между двумя режимами: языковым (language mode) и латентным (latent mode). Языковой режим — это стандартный режим для LLM с генерацией токенов. Латентный режим -- новый режим с переиспользованием эмбеддинга. Начало и окончание латентного режима обрамляется токенами <bot> и <eot>. Соответственно для всех токенов с индексами между индексами этих двух токенов включается новый режим. Весь процесс полностью дифференцируемый и позволяет обучать модель обычным бэкпропом.

Вопрос, где взять данные для такого обучения. Для этого берутся языковые данные для обычного CoT и реализуется мультиэтапный curriculum. На начальном этапе (stage) модель обучается обычному языковому CoT. На последующих этапах, для шага номер k, первые k шагов языкового размышления убираются, а внутри <bot>/<eot> тэгов появляются k позиций, в каждую из которых записываются эмбеддинги предыдущего шага. Состояние оптимизатора сбрасывается между отдельными этапами.

Во время обучения оптимизируется обычный negative log-likelihood loss, но маскируется и не учитывается лосс для вопроса и латентных мыслей (не буду кавычки каждый раз ставить вокруг слова мысль). Эта objective никак не стимулирует модель сжимать убираемые текстовые мысли, так что есть потенциал выучивания более эффективных репрезентаций ризонинга.

Для примера с N шагами рассуждения надо сделать N+1 forward pass. KV-кеш может помочь не пересчитывать одно и то же, но всё равно последовательная природа вычисления этих этапов не даёт эффективно распараллеливать весь процесс. Оптимизация является отдельным интересным направлением исследования, и я уверен, что за ней дело не станет.

При инференсе главный челлендж это решить, когда нужно уходить в латентный режим и выходить из него. С токеном <bot> всё просто, ставим сразу после вопроса, а для <eot> рассматриваются две стратегии: 1) обучить бинарный классификатор, решающий по эмбеддингу, когда надо переключаться, и 2) добивать паддингом латентные размышления до фиксированной длины. Оба подхода работают, так что по дефолту используют более простой второй.

🧪Оценка

Читать полностью…

gonzo-обзоры ML статей

15 апреля 2025 23:32

Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе RNN

https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

Читать полностью…

gonzo-обзоры ML статей

10 апреля 2025 22:05

Пообщались с Иваром Максутовым и Постнаукой о ~~хренах и пряниках~~ разном

Читать полностью…

gonzo-обзоры ML статей

07 апреля 2025 17:25

Brand new 2025 AI Index Report is released!

https://hai.stanford.edu/ai-index/2025-ai-index-report

Читать полностью…

gonzo-обзоры ML статей

07 апреля 2025 01:28

Multi-Token Attention
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
Статья: https://arxiv.org/abs/2504.00927

Продолжаем разборы архитектур.

Как известно, веса внимания в классическом механизме внимания определяются одним вектором значений query и одним вектором значений key. Этот “single token attention” является своеобразным боттлнеком для отделения важных частей от всего остального. Новый подход Multi-Token Attention (MTA) позволяет устранить боттлнек и определять веса внимания на основе нескольких векторов query и keys одновременно

Напомним, что в стандартном внимании веса внимания определяются как softmax(QK/sqrt(d)). Для каждого токена есть вектор эмбеддинга, этот вектор проецируется в три отдельных вектора Q, K и V, и по скалярному произведению векторов Q и K различных токенов определяется их “похожесть” или “важность”. После нормализации на корень от размерности эмбеддинга и взятию софтмакса от результата получаются веса внимания A. Далее с этими весами взвешиваются и суммируются вектора V и генерятся новые эмбеддинги для каждого токена. На наличие множества голов, маски декодера и прочего мы в этом объяснении забиваем, если хотите лучше понять/вспомнить этот процесс, отсылаю к классике (https://jalammar.github.io/illustrated-transformer/).

Внутри и снаружи этого базового механизма внимания можно много чего модифицировать -- мы писали про температуру в софтмаксе (/channel/gonzo_ML/3013), про отказ от нормализации до или после слоёв внимания (/channel/gonzo_ML/3478), 100500 вариантов разреженного и прочего модифицированного внимания, которые даже перечислять долго (просто как пример -- Reformer, /channel/gonzo_ML/176, далее воспользуйтесь поиском по каналу). Текущая работа тоже где-то в этом пуле.

Допустим, мы хотим найти предложение, содержащее несколько элементов. Пусть для примера это будет предложение “Where did Alice see the rabbit?” и мы хотим найти одновременное упоминание Алисы и кролика, им соответствуют query вектора q_a и q_r. Стандартный механизм считает веса внимания описанным выше способом, мы можем “найти” места в контексте, содержащие эти слова, и нам надо бы проверить, что они находятся где-то в соседних позициях. Но стандартный механизм внимания не даёт этого сделать в пределах одного слоя (через увеличение глубины можно, но хотелось бы и без), поскольку никаких взаимодействий между отдельными attention maps в нём нет, и даже если мы используем отдельные головы внимания для обнаружения Алисы и кролика, то нет механизма для комбинирования этих весов внимания. Модификация внимания в MTA позволяет добавить это взаимодействие между attention maps для соседних позиций Q и K или между отдельными головами.

На уровне конкретных модификаций внутри стандартного механизма внимания появляются три новых блока:
1) key-query convolution: комбинирует несколько key и query внутри головы
2) head mixing convolution: шарит информацию между головами и усиливает важную
3) group normalization with depth scaling: улучшает поток градиентов

Key-query convolution перемешивает веса внимания от разных временных шагов и работает так: к логитам внимания перед софтсаксом (QK/sqrt(d)) применяется двумерная обучаемая свёртка по измерениям q и k, измерения для батча и голов внимания не трогаются. Каждая голова внимания учит свою свёртку. Внутри свёртки используется маска с занулением элементов, чтобы не залезать в будущее. Это был pre-softmax convolution, он будет использоваться по дефолту. Можно также сделать post-softmax convolution, тогда свёртка считается не поверх логитов, а уже после софтмакса. Это делает взаимодействия между весами внимания аддитивными, а не мультипликативными. Я кстати не до конца понял, почему они до софтмакса прям мультипликативные...

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 21:46

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео. Картинок в контексте может быть до 5 штук, чтобы сохранялся контекст
— 12 основных языков (английский, французский, немецкий, арабский ,хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский), но более 200 в претрейне (из No Language Left Behind)

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 21:28

Вышла Llama 4!

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Читать полностью…

gonzo-обзоры ML статей

05 апреля 2025 14:47

У Михаила Кацнельсона классный пост с подборкой трёх интервью соавторов статей про обучение и многоуровневую оптимизацию :)

------

*Тем, кто интересуется интердисциплинарными исследованиями*

ТрВ провел интересный эксперимент - взяли интервью у трех соавторов одних и тех же работ. Биолог, физик твердого тела и космолог. Мне кажется, очень ценный материал: как люди по-разному смотрят на один и тот же совместно сваянный предмет. Если еще кому-то не пофиг, как делается наука, уместно посмотреть и сравнить (но, правда, это очень много букв).

Eugene Koonin http://trv-science.ru/2022/02/zhizn-kak-mnogourovnevoe-obuchenie/

Vitaly Vanchurin http://trv-science.ru/2022/04/ves-mir-neuroset/

Я http://trv-science.ru/2022/03/vsya-nasha-zhizn-zadachi-po-optimizacii/

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 20:30

Интересно, что вышел апдейт по ценам для картинки с результатами o3 на ARC-AGI.

Новая картинка выглядит так, что o3-low подорожала с $20 до $200 за задачу, а o3-high видимо с $3000 до $30000 (и ушла с картинки по превышению лимита в $10000 на задачу).

Инфляция!

Но o3-mini действительно выглядит любопытно, явно на другой кривой сидит по сравнению с o1/o1-pro/o3.

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 18:46

А это тем, кто не любит смотреть 3 часа

https://www.youtube.com/watch?v=SRM6t7mXg5M

Ну и вообще если такое любите:
Cloudylabs" rel="nofollow">https://www.youtube.com/@Cloudylabs

Читать полностью…

gonzo-обзоры ML статей

03 апреля 2025 18:40

Хоть фантастику не читай!

We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.

We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.

https://ai-2027.com/

Читать полностью…

gonzo-обзоры ML статей

02 апреля 2025 19:18

Кстати, недавно мы протестировали возможности перевода свежих LLM, включая семейство Gemini 2.0, Claude 3.7 Sonnet, o1/o3-mini, GPT-4.5 и DeepSeek-V3/R1.

Модели весьма хороши, и DeepSeek тоже.

Но мир не стоит на месте и с момента тестирования уже были анонсированы Gemini 2.5 Pro, Tencent Hunyuan и обновленный DeepSeek-V3-0324.

Как обычно готовим большой годовой репорт к лету. Прошлый за 2024 можно посмотреть здесь (с регистрацией, но без смс).

https://inten.to/blog/generative-ai-for-translation-in-2025/

Читать полностью…

gonzo-обзоры ML статей

01 апреля 2025 11:30

Свежая Кембриджская лекция Хассабиса

https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp

Читать полностью…

gonzo-обзоры ML статей

31 марта 2025 19:37

[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model

Продолжение продакшн движухи про гибриды Трансформер-SSM (/channel/gonzo_ML/2919). Кстати, появилось видео этого доклада с Ереванского Датафеста (https://www.youtube.com/watch?v=w5dCKmkYShU).

На фоне моделей от DeepSeek и Alibaba Cloud Qwen практически незамеченными проходят модели от Tencent, а они интересны хотя бы тем, что это гибриды с Мамбой.

Свежий Hunyuan-T1 (https://x.com/TXhunyuan/status/1903121005809373386), построенный на предыдущем Hunyuan-TurboS (https://x.com/TXhunyuan/status/1899105803073958010) через масштабный пост-трейнинг с RL для прокачки ризонинга. Вроде как обе модели с ризонингом, если воспринимать Slow-thinking integration от TurboS как таковой. Использовали curriculum learning для постепенного усложнения обучающих задач.

Трансформер-мамба гибрид комбинирует в себе высокую скорость и экономное использование памяти от Мамбы и хорошую работу с контекстом от обычного трансформера. Где-то в этой схеме есть также MoE, но непонятно в какой именно части -- у Jamba 1.5 (/channel/gonzo_ML/2903) это было в блоках Мамбы, а у T1 непонятно, может и в трансформерных? Одна из предыдущих LLM от Tencent была Hunyuan-Large, трансформер-MoE c 389B параметров всего и 52B активных (https://arxiv.org/abs/2411.02265).

Технические детали, к сожалению, не опубликованы, только бенчмарки (https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en). TurboS был сравним с DeepSeek-V3 и Claude Sonnet 3.5, новый T1 сравним с o1 и DeepSeek-R1. По скорости генерации T1 обещает первый токен в течение секунды и 60-80 токенов в секунду.

Так понимаю, текущая модель сугубо коммерческая с доступом через API.

Выглядит очень интересно, китайские модели вышли главным фронтом конкуренции с американскими. Никого другого поблизости не видно.

Запросил T1 (https://huggingface.co/spaces/tencent/Hunyuan-T1) посчитать число букв внутри слова Deeplearningstrawberries. Модель пришла к правильному ответу, хотя и с неправильной логикой -- первые две ‘r’ пришли из слова deeplearning, вторые две из strawberry. В этом же чате спросил просто про strawberry -- модель пыжилась, считала правильно, сомневалась потому что ответ 3 не выглядит верным:

“Yes, positions 3,8,9 are R's. So three R's. But I'm certain that "strawberries" is spelled with two R's. Wait, maybe I'm making a mistake here. Let me check an alternative source mentally.”,

несколько раз пересчитывала, но финально ответила верно:

"Oh! So I was correct. The answer is three R's. But I think many people might overlook the R in "straw" and only count the two in "berry", leading to confusion. So the correct answer is three R's in "strawberries"."

Ничего не значит, но забавно 😸

Читать полностью…

Подписаться на канал