gonzo_ml | Неотсортированное

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

23470

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Подписаться на канал

gonzo-обзоры ML статей

☝ всех с 70-летием ИИ!

https://raysolomonoff.com/dartmouth/boxa/dart564props.pdf

Читать полностью…

gonzo-обзоры ML статей

Что-то интересное про world models, надо внимательно разбираться:
/channel/gonzo_ML_podcasts/772

Читать полностью…

gonzo-обзоры ML статей

Вот вам ещё воскресное, про книги.

Прочитал за лето пару книжек про нейтрино и людей вокруг него.

Книга Фрэнка Клоуза более-менее классическая научпоп книга, построенная вокруг истории нескольких людей, в первую очередь Рэя Дэвиса, но также и Ферми, Понтекорво, и не очень многих других. В прошлом году также читал другую книгу Клоуза, про антиматерию, он хорошо пишет, даёт нормальную базу для первого знакомства.

Начинается с открытия радиоактивности, необходимости соблюдения закона сохранения энергии при бета распаде и придумывания Паули новой частицы. Что интересно, в тот момент ещё даже существование нейтрона было не доказано, и Паули по факту придумал и нейтрон, и нейтрино (название пришло уже от Ферми), и не сразу стало ясно, что это разные частицы. Когда стало ясно, Паули считал, что обнаружить нейтрино ("нейтрончик") не удастся.

Лет через пятнадцать Бруно Понтекорво (в последующем сбежавший в Советский Союз, но в конце жизни жалевший об этом) предложил способ как таки можно его обнаружить, если работать на больших числах (на сильном потоке и с большим количеством вещества в детекторе). В итоге в середине 50-х сумели таки обнаружить (анти)нейтрино от ядерных реакторов. Потом был челлендж поймать солнечные нейтрино, а когда поймали, понять почему их так мало (примерно в три раза меньше ожидаемого) и всё ли ок с солнцем и нашими моделями, и нет ли косяков в экспериментах (а там надо было детектировать считанные атомы на тонны вещества). И после долгих пересчётов и экспериментов понять наконец, что это не ошибки, и есть три разных типа нейтрино и они ещё и осциллируют (превращаются друг в друга). Это финально подтвердили только в начале 2000-х. Вот большая часть книги про эти поиски и эксперименты, включая также детекцию нейтрино от сверхновой в соседней галактике.

Вторая книга совсем иная. Она конкретно про Этторе Майорану и также сильно про нейтрино, которое, возможно, является майорановской частицей -- когда она же одновременно и своя античастица.

История Майораны -- большая загадка. Он был явно очень талантлив, не менее (и вероятно более) чем Ферми. Он входил в изначальный коллектив итальянского института и в группу Ферми, откуда вышло много Нобелевских лауреатов по ядерной физике. Туда же потом пришёл и Понтекорво, то есть реально центр экспертизы в нейтрино родился там.

Майорана почти не публиковался (ему было неинтересно), часть своих работ он уничтожал после того как они были готовы, часть его бумаг была потеряна. Однажды он просто исчез, и до сих пор есть множество теорий, что с ним могло произойти, от суицида, через бегство в монастырь или в Аргентину (он снял все свои деньги перед исчезновением), до похищения какой-нибудь разведкой (например, СССР, потому что он мог быть близок к созданию атомной бомбы) или даже инопланетянами. Или ещё сбежал в четвёртое измерение, и его могут видеть только кошки 🙀 В общем ответа нет, а спекуляций много.

Интересно, кстати, что та самая группа была очень близка к открытию ядерного распада и цепной реакции ещё в 1934-м (уже в фашистской Италии), когда они систематически обстреливали нейтронами всю таблицу Менделеева, но результат для урана интерпретировали неправильно (и проигнорировали правильную обратную связь от Иды Ноддак). В итоге это открытие случилось уже в 1939-м. Мир мог бы быть совсем другим, не факт что лучше.

В части нейтрино эта книга описывает вещи за пределами книги Клоуза. Здесь есть про двойной безнейтринный бета распад (он был бы подтверждением майорановости нейтрино), здесь мне кажется получше передана суть осцилляций. Книга сильно более неформальная, чем первая, и в целом выступает неплохим историческим взглядом в ту эпоху и конкретно в жизнь Италии (и немного Германии). И безусловно в жизнь самого Майораны. Короче, зачётная, редкого жанра.

#books

Читать полностью…

gonzo-обзоры ML статей

🔬 Метод

Форматы FP4

Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.

Стохастическая квантизация

Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.

Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.

В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.

🧪Эксперименты

Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)

Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).

0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)

💡 Выводы

Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.

Читать полностью…

gonzo-обзоры ML статей

More FP4 training is coming!

Читать полностью…

gonzo-обзоры ML статей

Детали апдейта DeepSeek-V3.1 подъехали

https://api-docs.deepseek.com/news/news250821

Читать полностью…

gonzo-обзоры ML статей

Вы наверное уже видели.

Claim: gpt-5-pro can prove new interesting mathematics.

Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.

Details below.

https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19

Читать полностью…

gonzo-обзоры ML статей

Популярная новость сегодняшнего дня :)

https://www.reuters.com/business/ai-slows-down-some-experienced-software-developers-study-finds-2025-07-10/

Before the study, the open-source developers believed using AI would speed them up, estimating it would decrease task completion time by 24%. Even after completing the tasks with AI, the developers believed that they had decreased task times by 20%. But the study found that using AI did the opposite: it increased task completion time by 19%.

Читать полностью…

gonzo-обзоры ML статей

Вот ещё очень интересная картинка, спасибо Fedor Shabashev за ссылку.

https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/

Страна аффилиации первого автора

Читать полностью…

gonzo-обзоры ML статей

Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий получать бенефиты контрастивного обучения без положительных пар. Дешёвый лосс, который при добавлении к сильным бейзлайнам, заметно их улучшает.

Читать тут: /channel/gonzo_ML_podcasts/303

Читать полностью…

gonzo-обзоры ML статей

Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао

https://www.youtube.com/watch?v=HUkBz-cdB-k

Читать полностью…

gonzo-обзоры ML статей

Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по текстовому описанию задачи, обученная гиперсеть (моя любимая тема, см. /channel/gonzo_ML/1696, /channel/gonzo_ML/2394, /channel/gonzo_ML/2693) на лету генерит LoRA адаптеры и модифицирует базовую сеть. Не надо ничего обучать, даже лорой, просто пиши ясные описания задач!

/channel/gonzo_ML_podcasts/268

Я бы ожидал, что LLM следующих поколений будут иметь что-то подобное внутри. Может не лора адаптеры будут генерить, а сразу активации модифицировать. Крутой движ.

Читать полностью…

gonzo-обзоры ML статей

Для тех, кто по Илье соскучился

https://youtu.be/zuZ2zaotrJs?si=w4qfH4eU2-90QR4O

Читать полностью…

gonzo-обзоры ML статей

Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели: /channel/gonzo_ML_podcasts/234

Из интересного, авторы постарались уйти от контаминированных датасетов для оценки ризонинга и сумели оценивать не только конечный результат, но и промежуточные шаги. Выводы нетривиальны и очень интересны: для простых задач LLM лучше LRM, для задач средней сложности LRM особенно хороши, а на сложных задачах LRM (как и LLM) фейлятся капитально. При этом по мере усложнения задачи LRM может не особо стараться и просто сдаться в какой-то момент, даже если бюджета хватает.

Читать полностью…

gonzo-обзоры ML статей

Log-Linear Attention
[Статья][Код]

Введение

Вообще, давно пора было бы смириться с тем фактом, что лучше Attention ничего нет на свете, но человек в своем упрямстве продолжает искать альтернативы более быстрые и не уступающие по качеству.

И коллектив авторов (звезд Голливуда в мире AI) выкатил статью про очередного "убийцу" ☠️ Attention - Log-Linear Attention .

Читать полностью…

gonzo-обзоры ML статей

Интересный пост от Анимы Анандкумар:

It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the logarithmic number system (LNS), meaning it has only exponent and no mantissa. Our multiplicative weights update (Madam) for training in that format was done several years ago while at NVIDIA It yields maximum hardware efficiency with no accuracy loss https://arxiv.org/abs/2106.13914

Logarithmic number system achieves a higher computational efficiency by transforming expensive multiplication operations in the network layers to inexpensive additions in their logarithmic representations. In addition, it attains a wide dynamic range and can provide a good approximation. Also, logarithmic number system is biologically inspired, and there is evidence that our brains use such a format for storage.

However, using standard SGD or Adam optimization for training in logarithmic format is challenging, and requires intermediate updates and optimization states to be stored in full precision (FP32). To overcome this, we proposed Multiple Weights update (Madam) that instead updates directly in the logarithmic format and leads to good training outcomes.

Our LNS-Madam when compared to training in FP32 and FP8 formats, LNS-Madam reduces the energy consumption by over 90% and 55%, respectively, while maintaining accuracy.

Читать полностью…

gonzo-обзоры ML статей

Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation

https://www.simonsfoundation.org/2025/08/18/simons-foundation-launches-collaboration-on-the-physics-of-learning-and-neural-computation/

Читать полностью…

gonzo-обзоры ML статей

Это выглядит просто бомбически!

Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.

Имеем 99.9% на AIME 2025 с открытой моделью.

/channel/gonzo_ML_podcasts/759

Читать полностью…

gonzo-обзоры ML статей

FP4 All the Way: Fully Quantized Training of LLMs
[Статья][Анонимный не анонимный репозитрий]

📘 Введение

Висело оно у меня давно в бэклоге, но в кулуарах напомнили.

С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.

Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.

И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.

Читать полностью…

gonzo-обзоры ML статей

Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме:

* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.

Читать полностью…

gonzo-обзоры ML статей

Михаил Бронштейн и ко написали практически учебник про геометрическое глубокое обучение. Выглядит очень достойно. Вдруг вы хотели почитать что-то по матчасти на выходных или в остаток лета.

Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723

Русское саммари тут: /channel/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric

Читать полностью…

gonzo-обзоры ML статей

Интересная работа про Energy-based трансформеры: /channel/gonzo_ML_podcasts/633

Модель выучивает энергетическую функцию, и далее генеря что-то, может оценивать это же по энергетической функции и оптимизировать результат градиентным спуском. Результат выглядит неплохо.

Читать полностью…

gonzo-обзоры ML статей

Андрей Карпаты про Software 3.0

https://youtu.be/LCEmiRjPEtQ?si=wK51YqY68SR4UBwn

Читать полностью…

gonzo-обзоры ML статей

Интересно про то, как построен Курсор

https://newsletter.pragmaticengineer.com/p/cursor

Paywall, но довольно большая часть доступна

Читать полностью…

gonzo-обзоры ML статей

Интересная новость от Huggingface. Компания не осилила multi-backend и прекращает поддержку всего кроме PyTorch (то есть JAX и TF) в своей либе transformers начиная с версии 5. 4-я LTS версия будет жива до лета 2026. Компания беспокоится, что библиотека разрослась, и обещает убрать 50% кода и разросшиеся абстракции. Новость тут: https://x.com/LysandreJik/status/1933201171130593530, PR тут: https://github.com/huggingface/transformers/pull/38758

Это любопытно. JAX при этом вполне жив и активно используется (из больших игроков как минимум модели Гугла и xAI обучаются на нём), статей тоже достаточно, а TF и правда не выглядит сильно живым, но наверняка он сидит в разных продакшн и мобильных деплойментах. Судя по paperswithcode (https://paperswithcode.com/trends) доля JAX наконец превысила долю TF. У обоих правда она невысока, у JAX 3%, у TF 2%. Интересно, что у MindSpore от Huawei уже 6%. Не совсем понятно, что там в other languages and frameworks с 31%.

Не знаю, как относиться, будем посмотреть. Я сам понял, что тоже не то чтобы активно использую transformers, все мои последние эксперименты с LLM шли мимо него. Но жаль всё-таки, что не получилось тру мультибэкенда.

Читать полностью…

gonzo-обзоры ML статей

В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из работы про мезаоптимизацию (/channel/gonzo_ML/1855). В новой работе архитектура и слой проработаны основательно, результаты RNN на синтетических тестах очень хороши, но всё равно показывают интересную особенность: подобно другим RNN, MesaNet работает лучше трансформеров на ранних токенах в последовательности, но трансформеры сохраняют преимущество на поздних токенах.

Подробнее: /channel/gonzo_ML_podcasts/280

Читать полностью…

gonzo-обзоры ML статей

Классная движуха про демократизацию моделей «зрение-язык-действие» (Vision-Language-Action, VLA). Авторы обучили SmolVLA — компактную модель для управления роботом. Модель в 10 раз меньше конкурентов, всего 450M параметров, при этом как правило лучше. С таким размером можно влезть на очень разное железо. И это ещё без квантования.

/channel/gonzo_ML_podcasts/255

В опенсорс робототехнике сейчас что-то происходит, начинается большая движуха. В эти выходные, кстати, глобальный хакатон LeRobot, участвует 100+ городов по всему миру: https://huggingface.co/LeRobot-worldwide-hackathon

Читать полностью…

gonzo-обзоры ML статей

В автообзорах пополнение, статья про DataRater (/channel/gonzo_ML_podcasts/245).

Тема про "не все данные одинаково полезны". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win.

Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (/channel/gonzo_ML/143). Результат был немного эзотерическим, но крайне интересным!

Читать полностью…

gonzo-обзоры ML статей

Метод

Почти с момента выхода Attention было предложено много альтернатив с субквадратичной сложностью. Если убрать softmax в Attention - операцию можно посчитать за линейное по длине последовательности число операций. Аналогично, SSM (S4, Mamba-1/2), DeltaNet линейно масштабируются с ростом числа токенов. Тем не менее, несмотря на успехи на отдельных задачах - вытеснить трансформер с пьедестала никому не удалось.

Попытка запихнуть весь контекст в скрытое состояние фиксированного размера, по всей видимости, фундаментально ограничивает модель в возможности знать все в длинном контексте.

Потому предлагается промежуточный вариант - логарифмическая по памяти и времени операция, являющаяся надстройкой над одним из линейных механизмов attention. Токены разбиваются на корзинки с экспоненциально растущим числом токенов. Самые свежие токены обычно важнее для предсказания следующего, потому в одной корзине меньше токенов, и, соответственно, их вес больше, а с отдалением от текущей позиции размер корзинок растет, а вклад индивидуальных токенов убывает. Log-Linear attention сначала вычисляет линейный attention по корзинкам, а затем суммирует с некоторыми обучаемыми коэффициентами результат каждой корзинки (коэффициенты предсказывает отдельная MLP). Число корзинок растет логарифмически с длиной - потому и имеем O(L log L) как итоговую сложность операции. Для эффективной реализации используют деревья Фенвика.

Log-Linear Attention можно представить в виде структурированной матрицы HODLR (Hierarchically Off-Diagonal Low-Rank), где диагональные блоки нижнетреугольные, а внедиагональная часть состоит из блоков ранга-1, где размер блока растет с удалением от диагонали.

Log-Linear Attention можно применить как поверх Linear Attention, так и Mamba-2 и DeltaNet. И для всего написаны соответствующие кернелы.

Эксперименты

Для валидации метода авторы обучают модельки на синтетических и реальных задачах.

На синтетике Log-Linear модификация значительно улучшает качество DeltaNet на MQAR (достать несколько элементов из контекста).

Далее авторы обучают в сопоставимых условиях (700-800M параметров, 50B токенов из Long-Data-Collections с длиной последовательности 16k) Transformer, DeltaNet и Mamba-2 (без и с Log-Linear надстройки). Log-Linear дает небольшой прирост поверх DeltaNet и Mamba-2.

По скорости инференса на длинных контекстах Log-Linear Mamba-2 медленнее Mamba-2 (в ~2 раза на 64k/128k токенах), но быстрее Attention.

На Needle-in-Haystack в бенче, где нужно достать один токен Log-Linear хорош, в multi-key/multi-value задачах Log-Linear лучше линейных бейзлайнов, но хуже Attention.
На LongBench где-то дает прирост, а где-то не дает.

За что уважение авторам - они не утверждают, что предложенная модификация бьет все и всея, а стараются более менее честно все замерить.

Выводы

С точки зрения математики все красиво - вообще вопросов нет, и уважение 🤠 мастерам написания ядер на CUDA. В целом выглядит как неплохой промежуточный вариант между Attention и линейными по длине альтернативами, но как будто требует валидации бюджетах и размерах моделей ближе к production-grade.

Читать полностью…

gonzo-обзоры ML статей

Я пока основное свободное время трачу на развитие и обновление своей системы генерации обзоров, на ручное временно не хватает. Но поток интересных статей не ослабевает, среди прочего хочу обратить внимание на новый подход "grafting", позволяющий экспериментировать с тяжелыми предобученными диффузионками и заменять их на более лёгкие почти без потери качества. А также менять архитектуру имеющихся моделей. В примере авторы распараллелили 28-слойную модель, заменив пары последовательных слоёв на параллельные, и побили более глубокие варианты и запруненные до тех же 14 слоёв модели.

Автообзор тут: /channel/gonzo_ML_podcasts/224

Заодно скажите, как вам новый формат автообзора?

Читать полностью…
Подписаться на канал