kantor_ai | Unsorted

Telegram-канал kantor_ai - Kantor.AI

11839

Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap РКН: 5140322136

Subscribe to a channel

Kantor.AI

Тренируете LLM на нескольких GPU и думаете, как масштабироваться дальше? Упираетесь в лимиты по скорости обучения или замечаете, что увеличение числа GPU не даёт нужного ускорения?

Тогда присмотритесь к LLM Scaling Week — насыщенному кейсами интенсиву от ШАДа и Яндекс Образования.

Практические лекции и семинар от инженеров команды обучения YandexGPT покажут, как они работают на GPU-кластере. Всё, чтобы без воды, с практикой, на реальных кейсах научить:

- Арифметике глубоко обучения
- Коммуникации в распределенном обучении и инференсе
- Mixture of Experts
- FP8 + Triton
- Inference challenges

Интенсив полностью бесплатный и подойдет ML и DL-инженерам, исследователям, специалистам по инфраструктуре и студентам технических вузов. Зарегистрироваться можно здесь.

Читать полностью…

Kantor.AI

State Space Models: часть 2. Свежие (2024-2025) публикации по SSM как альтернативам/добавкам к трансформерам

Продолжая тему SSM, сначала вброшу список статеек, с которыми будет интересно ознакомиться, а в следующий раз напишу кратко основные выводы. Кому интересно полистать самому - сохраняйте себе, прекрасное чтиво на праздники.


Статьи про связь SSM и трансформеров

Две статьи с перекликающимися названиями, в которых изучается, как связаны SSM и трансформеры. Первая - еще из 2024 года:
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - https://arxiv.org/abs/2405.21060

Вторая опубликована уже в 2025 и разбирает границы возможностей рекуррентных моделей при извлечении из контекста:
When recalling in-context, Transformers are not SSMs - https://arxiv.org/abs/2508.19029

В целом, как говорила одна моя знакомая (разумеется, работавшая эффективным менеджером): "Из этой книги я прочитала только название и мне этого достаточно". Так и тут, названия статей очень информативны, но очень советую заглянуть внутрь, там достаточно красивые вещи, особенно в первой.


Гибриды SSM+Attention в 2025

Как мы обсуждали в прошлый раз, не обязательно упарываться в чистые SSM, можно делать гибридные решения. 2025 год дал нам много примеров таких гибридных решений для насущных задач. Ниже некоторые из них.

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Models - https://arxiv.org/abs/2503.13440
Часть слоёв декодера VLM заменяют на Mamba-2, получая ускорение и экономию памяти при сохранении качества.

MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement - https://arxiv.org/abs/2507.00966
Гибрид Mamba + MHA улучшает обобщаемость в шумоподавлении при обработке речи.

Exploring Resolution-Wise Shared Attention in Hybrid Mamba-based Speech Enhancement - https://arxiv.org/abs/2510.01958
Ещё один вариант гибрида для улучшения речи с сильной межкорпусной обобщаемостью.

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning - https://arxiv.org/abs/2505.15703
Предсказание движения транспорта (супер важная задача для развития беспилотных автомобилей): attention-энкодер + Mamba-декодер даёт SOTA на бенчмарке Argoverse 2.


Еще несколько статей из 2024, которые все же стоит смотреть даже сейчас:

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - https://arxiv.org/abs/2406.07522
Простая послойная гибридизация Mamba + скользящее внимание: длинный контекст и высокая эффективность.

Transformers are Better than State Space Models at Copying - https://arxiv.org/abs/2402.01032
Тут, опять-таки, все понятно из названия.

ML-Mamba: Efficient Multi-Modal Large Language Model with Mamba-2 - https://arxiv.org/abs/2407.19832
Применение Mamba-2 в мультимодальных моделях как альтернатива чистому attention.

Читать полностью…

Kantor.AI

На чем фокусироваться компании, чтобы инвестиции в genAI окупались? Как не утонуть в AI-пилотах? А понять, что AI-трансформация состоялась?

Ответы на эти вопросы можно урывками найти по разным экспертным tg-каналам или на конференциях. Спасибо ребятам из Just AI, которые собрали свой опыт работы с корпорациями по части внедрения genAI в классную экспертную статью.

- Как сформулировать зрелую AI-цель? Снизить нагрузку на колл-центр, подключить LLM к CRM – это незрелая цель.

- Как выстроить систему управления AI? Ведь традиционный подход, при котором одна команда отвечает одновременно и за ИИ-проекты, и за другие направления, уже нэффективен.

- Как выбирать кейсы для реализации? Основные критерии: есть потенциал к масштабированию, дадут максимальный эффект для бизнеса, дорогостоящие в реализации

- Как измерять результат?

- 4 признака, что AI-трансформация состоялась.

Кстати, эксперт отдельно отметил тренд на внедрение мультиагентных систем. Тем, кто уже созрел для автоматизации процессов с помощью AI-агентов, отлично подойдет платформа для разработки Just AI Agent Platform.
Реклама. Erid 2W5zFJM8yKN

Читать полностью…

Kantor.AI

Субботний оффтоп

Если вы задумали или даже только мечтаете сделать что-то на ваш взгляд очень классное, но не видите вокруг одобрения затеи (особенно от крутых знакомых из числа успешных корпоративных менеджеров), а еще забыли или не видели этот шедевр - вдохновляйтесь :)

https://youtu.be/F_jMbmu4Di0?si=fW76evTAVidq_M7o

Читать полностью…

Kantor.AI

Пост для тех, кто ещё не решился

Если вам нравится перспектива работать в ML, но кажется, что уже поздно или “всем места заняты”, то мой ответ — нет, всё только начинается.

И если вы хотите найти своё место в этой быстрорастущей индустрии, то пора бы определяться. С этим вам поможет канал 8БИТ.

В нем редакция Журнала Яндекс Образования просто и понятно объясняют, как работают нейросети, алгоритмы и инженерные системы — без лишней мистики и с любовью к своему делу. Меня зацепили эти посты:

5 существующих гаджетов из «Футурамы»
Промптинг по методу Memento
Как нейросети улучшают поиск

Команда показывает, из чего реально делаются технологии, и как даже школьные или студенческие проекты могут перерасти в большие истории.

Если вы на стадии “присматриваюсь”, — зайдите туда. Почитайте пару постов. Возможно, поймёте, что технологии — не отдельный мир для избранных, а просто инструмент, которым стоит научиться пользоваться.

Читать полностью…

Kantor.AI

Надо ли уметь писать промты

Мы с Савелием (моим партнером по школе AI) за последние полгода проводили ряд корпоративных обучений про использование LLMок в работе. В начале я не сильно верил в это направление обучения, но когда увидел, как Савелий ведет лекцию, закидывая стандартные задачки заказчика в GPT и автоматизируя выполнение, я сильно впечатлился, насколько же убедительно выглядит то, что получается. Да, без внутреннего контекста организации бывают косяки - например, что можно у клиента компании запрашивать, а что нельзя, с учетом законодательства. Но это очень легко исправляется добавлением ограничений в контекст.

У Савелия есть целая методика про то, как формировать запрос к GPT (промт), и я со своей скептичностью технаря конечно в начале смотрел на нее без фанатизма. Однако попробовав самостоятельно напромтить сравнимые по качеству ответов GPT вещи, я быстро потерпел неудачу и махнул рукой.

Второй мой заход был более удачен: я пошел в GPT с вопросом - расскажи какие есть методики промтинга и как составлять промт оптимально для тебя. Ответ получился очень даже полезен на практике. Далее я начал просить исправлять или дополнять мои промты в соответствии с полученными от GPT рекомендациями. И это тоже неплохо сработало. В конечном итоге я убедился, что даже быстрый экскурс в промтинг сильно повысил мою удовлетворенность результатом.

Чувства я испытал противоречивые. Я, 6 лет учившийся в МФТИ, 15 лет работавший в сфере ныне именуемой AI, учусь делать что??? Промт писать? Срам-то какой, хорошо мои учителя этого не видят. Однако видимо в том и секрет, как не отправиться на свалку истории: как бы ни казалось «не солидно», «несерьезно» и «не по масти» учиться чему-то на первый взгляд простому, снимать уже корону и идти разбираться.

Прошло не сильно много времени, и во многих задачах я сейчас уже не представляю, сколько времени бы я с ними мучался без сеток.

Итого, мои выводы за последние полгода:

1) для офисной работы, IT и написания текстов промтинг теперь все же базовый навык, как и знание, с какой задачкой в какой нейросетевой сервис можно прийти, а также отслеживание (пусть и в ленивом режиме), что нового появляется

2) игнорирование этого навыка по причине «нейросети же галлюцинируют» и «да она придумывает несуществующие в библиотеке функции» и «да нейросеть наврет клиенту так, что по судам ходить замучаемся» (по сути одно и то же, повторенное разными словами) - это полная лажа. Чем меньше вы разбираетесь, как этого всего избегать, тем больше у вас таких косяков вылезает

3) начать знакомство с промтингом можно просто «пообщавшись» на эту тему с GPT и вообще «обсудить» что-то с GPT теперь супер важный навык для самообразования

4) все больше и больше компаний начинают внедрение AI внутри с обучения своих сотрудников использованию нейросетевых сервисов, потому что это просто выгодно с точки зрения повышения производительности и минимизации ошибок (см. пункт 2)

Кстати, если ваша компания сама заплатит за ваше обучение, не игнорируйте эту возможность: самому разбираться с чем угодно дороже и сложнее, чем с группой, с преподом и за счет работодателя :)

Читать полностью…

Kantor.AI

Сегодня с утра порекомендовали посмотреть 4 серию 10 сезона Футурамы. Причина рекомендации прояснилась довольно быстро: один из персонажей там Георг Кантор, тот самый математик, создатель теории множеств, про которого еще Давид Гильберт говорил: «Никто не изгонит нас из рая, который основал Кантор».

Меня периодически спрашивают, родственники мы или нет, на что я честно отвечаю: «не знаю», хотя на кафедре высшей математики МФТИ меня учили в ответ на такой вопрос картинно посмущаться и застенчиво сказать: «ну какое это имеет значение?».

Фамилия не всегда работала в плюс: например, на пересдаче по матану в первом семестре, когда над феноменом Кантора на пересдаче по матану ржала раздающая билеты преп, было не очень приятно. С другой стороны, никогда не забуду лицо своей семинаристки по матану, когда на сдаче задания я сказал ей, что решил задачу со звездочкой в предположении верности континуум-гипотезы (попытки доказательства которой согласно легенде привели Георга Кантора в сумасшедший дом, хотя там конечно было много других факторов)

Читать полностью…

Kantor.AI

Генерируйте видео с Kandinsky 5.0 Video Lite в удобном интерфейсе

Как? Сейчас расскажем.

Kandinsky 5.0 Video Lite — новая open source модель для генерации коротких видео, которая по качеству обгоняет большинство открытых решений.

С помощью гайда от Cloud․ru можно настроить модель в удобном интерфейсе ComfyUI в сервисе Evolution Notebooks на GPU Nvidia V100 и использовать для реальных бизнес-задач.

Так дизайнеры и маркетинговые команды могут быстро создавать видео для презентаций, рекламных кампаний и прототипов, а модель будет всегда готова к работе.

Подробный гайд уже тут

Читать полностью…

Kantor.AI

Как поступить в ШАД часть 2

С тех пор много воды утекло, и теперь есть много всяких материалов в открытом доступе. Это и задания ШАД прошлых лет и инструкции, что нужно ботать и зачем. Так то теперь у гораздо большего числа людей есть возможность поступить, но надо будет ботать и тщательно выбирать, где.

Важная ремарка: понятно, что как и везде в жизни на экзаменах вы можете найти кого-то, кто поможет вам сжульничать. Я призываю вас ни в коем случае так не делать, потому что иначе вы во-первых будете чужим в дружной семье ШАДа, и это будет культурная трещина, которая с годами расползется дальше и вырастет до пропасти, а во-вторых это просто самообман.

Ну и, наконец, в репосте ниже есть несколько ссылок на материалы для подготовки к ШАД в открытом доступе от нашего лектора по математике в MLinside Сергея Жесткова. Кроме того, если вам прям хочется поработать с преподом и поучиться в группе с другими людьми, планирующими поступать в ШАД - у Сергея есть собственный проект где сейчас начинается новый поток.

Продолжение все еще следует, часть 3 будет чуть позже и там поделюсь своими любимыми задачками со вступительных ШАД

Читать полностью…

Kantor.AI

Возвращаюсь сейчас с data driven top 100 из Черногории (очень необычная конфа для топов аналитики и CDO без заготовленных докладов с максимумом нетворка и обсуждения реально интересных для руководителя тем). Вспомнил, насколько ж это круто три дня подряд плотно пообщаться с умными людьми из твоей сферы и с похожим бэкграундом.

Как отрефлексирую, напишу подробнее, но главное - решил еще больше времени уделять общению с коллегами по цеху, т.к. три дня конфы показали, насколько это дает и много ценных идей, и хорошую такую моральную поддержку :)

Читать полностью…

Kantor.AI

Истории успеха - это часто истории выживших, уверовавших в себя после подмены причин и следствий 🤔

Читаешь или слушаешь: человек «поверил в себя», сделал «смелый шаг» - и вот она, карьера/экзит/прорыв. Красиво. Но за кадром остаются десятки тех, кто сделал то же самое и не взлетел. Мы читаем не правило, а исключение, у которого всё совпало: контекст, тайминг, люди рядом, удача.

Пара наблюдений из практики:

- Сверяйте урок с распределением, а не с яркой биографией. Если тезис не выдерживает «а что с теми, кто делал так же, но…», перед вами байка, а не принцип.

- Ищите контр-примеры. «Уровень менеджера измеряется стоимостью его ошибки» - звучит броско, пока не вспомнишь авиадиспетчера, оператора на АЭС, хирурга. Там ставка ошибки запредельна, но это не «самые большие менеджеры». Значит, метрика - мимо.

- Проверяйте переносимость правил. Лозунг «рискуй» в венчуре и в операционке критической инфраструктуры - разные виды спорта.

- Отделяйте агентность от везения. Да, усилия важны. Но одинаковые усилия в разных контекстах дают разный результат.

Ещё один неприятный угол: легче рассуждать о «силе воли» и «правильных решениях», когда тебя не прижимало жизнью. Кто не попадал жёстко, часто недооценивает роль случайности, здоровья, семейных обстоятельств, войны, регуляторики - всего, что сильнее любого «майндсета».

Это не повод перестать вдохновляться примерами. Просто держим в голове фильтр: история ≠ инструкция, яркая судьба ≠ доказательство правила. И главное - если вы сделали всё, что могли, а не получилось, это не автоматически «ваша вина». В игре всегда много факторов, часть из них вне нашего контроля.

А какие «красивые правила» вам приходилось пересматривать после столкновения с реальностью?

Читать полностью…

Kantor.AI

Визуализация, которой пользуются: правила для составления дашбордов

Красивый дашборд, все кивают, а решение принимают интуитивно. Видели? Я видел десятки раз. Проблема не в данных, а в том, что экран не отвечает на управленческий вопрос.

Как это починить:

1️⃣ Сначала вопрос, потом график. Что именно хотим решить: перераспределить бюджет, снять риск, ускорить воронку. Если вопроса нет, втыкание в дашборд в 90% случаев только ест время.

2️⃣ Один экран — один тезис. Если тезисов два, это два экрана. Концентрация конечна.

3️⃣ Единицы и масштабы без сюрпризов. Подписи в явных единицах, проценты форматированы, шкала с нуля, если это не разрушает смысл.

4️⃣ Сравнение обязательно. Вчера, план, соседний кластер. Без контекста цифра - это просто красивая цифра.

5️⃣ Действие в зависимости от данных. Внизу экрана if-else: если метрика падает - что делаем завтра, если растет - что усиливаем.

Практические проверки, которые реально помогают:

⚠️ Если смысл не считывается за 5 секунд, меняем визуал или выносим тезис в заголовок.

⚠️ Если по информации на экране нельзя принять решение, убираем декоративный шум и добавляем то, чего не хватает для принятия решения :)

⚠️ Если спорите о цифрах, а не о действиях, значит нет понятной операционализации метрики.

К сожалению, на совещаниях и комитетах, где уже нужно принять 5-10 решений за час-два, уже некогда копать. Если из вашего дашборда непонятно, что делать дальше, на этих встречах будут смотреть не на него, а на экспрессивность каждого оратора за столом и заботливо подготовленные и положенные на слайды графики, а значит решение станет еще дальше от реальных данных и появится лишний простор для манипуляций. Дашборды работают, когда вся организация использует как источник информации именно одни и те же дашборды, а не десяток различных картинок из десятка различных презентаций десятка заинтересованных лиц.

Читать полностью…

Kantor.AI

Продолжая тему соревнований: МТС в своем канале пишет, что на их True Tech Champ можно будет как порешать задачки на алгоритмы, так и поучаствовать в битве роботов. Выглядит как довольно неплохой способ развлечься :)

По своему опыту с МТС True Tech проектами могу сказать, что коллеги очень круто вкладываются в проведение True Tech Champ и True Tech Conf, так что должно быть классно.

Читать полностью…

Kantor.AI

Если бы вы нанимали Chief Data Officer'а в большую компанию, что бы вы ожидали от него и что спрашивали на входе?

Читать полностью…

Kantor.AI

Кроме того, я вспомнил, что знакомился много лет назад с Георгием Черемовским, фаундером Wunderfund ( wunderfund.io ). От него я узнал, что они запустили соревнование как раз для тех, кому интересно применять ML в трейдинге. И в нем можно сейчас поучаствовать: wundernn.io , $13600 призового фонда, срок проведения до 1 декабря

Читать полностью…

Kantor.AI

State Space Models: часть 3. Что можно сказать сейчас.

Краткий вывод про SSM
Чистые SSM дают хорошее ускорение и вполне себе сравнимы с трансформерами по качеству работы (а где-то лучше). При этом чистые SSM хуже чем трансформеры справляются с задачей точного копирования из длинного контекста. На практике сейчас по факту лидируют гибриды SSM+Attention.

Почему это работает
Гибриды дают лучшую точность при меньших затратах, чем чистые трансформеры, при этом нужно понимать, что это не прям гибрид с трансформером, а скорее прикручивание идеи механизма внимания (с некоторыми модификациями) к SSM. Отдельный вопрос в том, что у SSM линейная ассимптотика времени работы, а у attention вследствие попарных сравнений - квадратичная, т.е. чтобы делать эффективный гибрид, хорошо бы как-то улучшить ассимптотику для аттеншена. Здесь можно провести аналогию с оптимизацией матричных операций: если вы оперируете матрицами какого-то специального вида (разреженными, диагональными, еще какими-нибудь особыми), то для того же перемножения матриц ассимптотику можно существенно улучшить. Также можно поступать и с аттеншеном, добавляемым к SSM, если добавлять дополнительные ограничения. Другой подход к гибридам - это послойные гибриды, когда где-то вы заменяете аттеншн на SSM-блоки. Тут мы не ускоряем сам аттеншн, просто используем его менее активно и получаем общее ускорение модельки.

Почему это важно
К сожалению или к счастью, не у всех компаний есть бюджет OpenAI или FAAMG на инфраструктуру для обучения своих сеток. Что делать, если железа и денег сильно меньше, чем у них? Я вижу три варианта для менеджмента AI-направлений: 1) не лезть в историю со своими собственными LLMками, 2) повторять за большими ребятами и надеяться на ускорение и удешевление вычислений в будущем, а пока это происходит - отмазываться тезисом "ну у нас же нет бюджетов OpenAI, вот поэтому и хуже работает", 3) смотреть в сторону более эффективных архитектур, которые будут менее требовательны к ресурсам, чем трансформеры, но смогут давать аналогичное качество. Основанные на SSM архитектуры выглядят как очень правдоподобные кандидаты для сценария 3.

Остается вопрос: если SSM такая классная штука, почему же все еще на нее не переехали? Об этом в следующем, заключительном посте.

Читать полностью…

Kantor.AI

Быстрее, умнее, точнее

VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций.
Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел.

В основе датасет VK-LSVD:
40 млрд взаимодействий
20 млн роликов

Формат:
Студенты, исследователи, ML-инженеры — welcome
Призовой фонд — 2 500 000 рублей 💸

Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.

Читать полностью…

Kantor.AI

Игра, в которой программируешь робота-фермера

Недавно друг, знакомящийся с программированием, стримил, как играет в Farmer was replaced - игру, где нужно на почти Python программировать дрона-фермера, который сажает растения, поливает, удобряет и собирает урожай. Кто помнит "веселую ферму" в ВК - вот это примерно оно, только для всех действий пишешь код.

Мне стало интересно самому посмотреть на игру поближе, и это правда оказалось очень здорово. С одной стороны, возможности языка открываются постепенно и снабжаются понятными объяснениями. С другой стороны, это не было профанацией, когда соединение квадратиков выдается за обучение программированию. Так что очень рекомендую тем, кто только знакомится с программированием (и взрослым, и детям).

Ну а самое приятное - это было интересно и весело, даже когда умеешь программировать, и вот почему:

👷‍♂️ Игра дает приятную ностальгию по чувству «я у мамы инженер». Вы же не будете даже в игрушке писать код так, будто вам по нему проходить код-ревью? Будете? Ну ладно-ладно, а я поговнокодил вдоволь (не как на скриншоте из Steam, но тоже у внутреннего ревьюера миллион вопросиков). Чем это приятно? Тем, что возвращает дух инженерного авантюризма из детства: «я это сделал, оно работает, где-то я по пути набажил, но работает всё равно приемлемо, потом перепишу». Такой раздолбайский подход, который на работе как правило был бы непозволительной роскошью и заявкой на вылет, в игре добавляет веселья.

👨‍💻 Когда у тебя на экране на поле N x N в реальном времени показывается анимация как робот выполняет написанный тобой код, это создает неведомую до сих пор мотивацию оптимизировать код. Одно дело - когда ты сдаешь задачу на leetcode и не проходишь по времени или когда в проде нужно уложиться в X миллисекунд на инференс, чтобы не портить пользовательский опыт. Совсем другое - ждать блин пока вам покажет анимацию всех действий робота 😬 И игра придумана именно так, чтобы были легальные алгоритмические способы срезать углы - вырастить тыквы побольше, эффективнее собирать подсолнухи и т.д.

📈 Можно с детства понимать, что квадрат растет быстрее линейной функции, но когда с ростом размера фермы разница между сложностью решений становится настолько наглядна, что то, что было приемлемым решением полчаса назад, теперь становится невыносимо медленным, задумываешься о многом. И о том, как здорово, что знаешь, как оптимизировать. И о том, зачем в IT компаниях на собеседованиях спрашивают алгоритмы, которые потом требуются раз в три года. В комментах на Steam разумеется есть жалобы на то, что «игра быстро превращается просто в долгое ожидание исполнения кода» от тех, кто про алгоритмы и сложность не слышал. И ведь что интересно: людям не приходит в голову погуглить про оптимизацию решений. Кто не знаком с самой концепцией, и правда не знает, что искать. Поневоле наводит на мысли, что ваш потенциал в любом начинании сильно зависит от уровня знаний как у вас, так и у партнеров и коллег, о том, что на свете бывает. Есть те люди, кто может оптимизировать процесс в разы или вообще на порядки, а есть те, кто будет говорить, что работать просто надо больше и делать однотипные операции изо дня в день.

🐍 В игре все не ограничивается фермерством и ближе к концу дерева технологий открываются лабиринты и игра в змейку, тоже с исполнением роботом написанного вами кода. А для самых рьяных автоматизаторов можно написать код не только выполняющий задачи, но и самостоятельно открывающий дерево технологий и проходящий игру.

В общем, я прекрасно провел вечер, процесс игры одновременно и медитативный, и забавный и поучительный. Поделитесь в комментариях другими играми, которые вызвали у вас похожие чувства :) Кажется, что жанр игр с образовательным флером хоронить рано, и это прекрасно ❤️

Читать полностью…

Kantor.AI

State Space Models: кратко о чем там речь

В комментариях к посту про RNN и трансформеры в курсах DL и NLP зашла речь про State Space Models, и мне захотелось поговорить об этом подходе подробнее. Что это такое SSM, почему вокруг них столько разговоров, где они уже работают, и правда ли это “конкуренты трансформерам”, а не очередной виток моды.

Если совсем в общих чертах, SSM - это способ описать последовательность через скрытое состояние, которое эволюционирует во времени, а наблюдение получается из этого состояния. В непрерывном времени это красивое уравнение состояния, а в дискретном возможна как рекуррентная форма, так и сверточная форма с ядром, которое можно посчитать заранее и применить ко всей последовательности.

В модели S4 (Structured State Space Sequence Model) идею довели до более-менее юзабельного состояния: подобрали такую параметризацию, чтобы и устойчивость была, и длинные зависимости улавливались, и всё считалось быстро. На длинных последовательностях S4 в своё время стал эталоном, потому что сумел соединить теорию со скоростью и разумным расходом памяти. Получилось это сделать как раз благодаря записи модели в форме глобальной свертки. Подробнее - в оригинале: https://arxiv.org/abs/2111.00396

Дальше идея эволюции скрытого состояния получила развитие через добавление селективности - параметры начали зависеть от входа, а модель учиться, что хранить, а что забывать по ходу чтения текста. Так появилась Mamba: рекуррентный проход (в S4 селективности не было как раз в том числе чтобы "упаковать" все в глобальную свертку), но с аппаратно дружелюбным параллельным алгоритмом, учитывающим, что где лучше в GPU хранить и как быстрее считать. При этом в оригинале архитектура не использует attention и MLP блоки, хотя гибридные версии позднее тоже появились. Mamba показывала линейное по длине время, высокую пропускную способность на инференсе и приличную точность на языковых, аудио и геномных задачах. Оригинал статьи можно полистать тут: https://arxiv.org/abs/2312.00752

Есть и эмпирические исследования на больших настроенных моделях, где Mamba и Mamba-2 сравнивают лоб в лоб с трансформерами на тех же данных - и там уже видно, где SSM выигрывают по скорости и памяти, а где ещё уступают по качеству при равном масштабе. Прочитать целиком можно по ссылке: https://arxiv.org/abs/2406.07887 , а краткие выводы я приведу ниже.

Скорость и память на инференсе: асимптотика по длине последовательности лучше, как следствие выше пропускная способность, требующаяся память тоже меньше, что особенно ощутимо на длинных контекстах. Кратное ускорение относительно чистого трансформера.

🎯Приемлемое качество работы в стандартных задачах: чистые SSM часто сопоставимы с трансформерами, а Mamba-2-Hybrid стабильно лучше трансформера на всех стандартных бенчмарках из статьи

📚Длинный контекст при разумной цене: в приведенных в статье экспериментах гибрид сохраняет или превосходит качество трансформера на 23 задачах при лучшей эффективности.

При этом в некоторых менее стандартных задачах SSM проигрывают, особенно в требующих поиска “иголки в стоге сена” и иных кейсах, где нужно адресно вспоминать фрагменты из очень длинного контекста. В частности, тяжело дается бенчмарк Phonebook (с вопросами в духе "какой в точности номер у Боба?" по данным синтетического телефонного справочника), а также MMLU (Massive Multitask Language Understanding) - набор вопросов из ~57 предметных областей (STEM, гуманитарные, соцнауки, профессиональные дисциплины) с множественным выбором.

Однако для начала все равно выглядит очень здорово, а это мы только на статью аж от лета 2024 года посмотрели, больше года прошло. В следующем посте мы продолжим тему и поговорим о более свежих публикациях и применениях.

Читать полностью…

Kantor.AI

Не пора ли начинать рассказ про DL в NLP с attention

Я все чаще ловлю себя на мысли, что привычная последовательность знакомства с нейросетями для NLP в курсах (RNN, потом LSTM, потом seq2seq, потом attention, и только затем transformer) уже не выглядит актуально. В проде и в открытых моделях сегодня везде трансформерные архитектуры. При этом кажется ничего не мешает сразу давать центральную идею attention и уже от нее строить всю тему сеток в NLP.

Логика рассказа получается довольно простая. У нас есть запрос, ключи и значения. Мы учимся понимать по запросу, на что в контексте стоит смотреть. Меряем близость запроса к каждому ключу, нормируем веса, собираем контекст как взвешенную сумму векторов по токенам. Так одно слово может опереться на те кусочки текста, которые сейчас важны, и не тянуть за собой целиком всю цепочку скрытых состояний. Многоголовость добавляет несколько независимых взглядов на тот же контекст. Отсюда же понятно место для параллелизма и ускорения обучения.

Если начинать с такого рассказа (ну, конечно, на лекции уже с формулами и примерами), студент с первого дня знакомства с NLP начинает с механизма, лежащего в основе современных моделей. Он видит, как именно текст «смотрит сам на себя», и как это знание затем упаковывается в блоки модели.

Рассказ про seq2seq тоже можно сразу избавить от наследия RNNок. Есть энкодер, который читает вход и делает из него удобное представление. Есть декодер, который порционно генерирует выход и каждый раз смотрит на то, что уже написал, и на то, что закодировал энкодер. Перекрестный attention служит мостом между входом и выходом, а позиционные эмбеддинги отвечают за порядок, поэтому мы не теряем структуру последовательности, даже без рекуррентного вида архитектуры.

В таком изложении можно сразу слегка «подзабить» на проблемы длинных зависимостей и затухающих градиентов. Достаточно заметить, что внимание может прыгнуть на нужное место в тексте, хоть в самое начало. И сразу понятно, почему обучение и инференс параллелятся на уровне токенов в энкодере, и где параллелизация ограничена в декодере. Мы сразу изучаем предмет в рамках сегодняшней практики и сразу видим, как эта схема ложится на прикладные задачи: машинный перевод, чат-боты, суммаризацию и т.д.

Дальше уже как обычно рассказ разветвляется на два направления (по принципу какую часть от трансформера оставляем - энкодер или декодер). Transformer-encoder и семейство BERT учатся понимать текст, маскируя кусочки входа и восстанавливая их, обучая в итоге плотное векторное представление, которое хорошо работает для поиска, классификации, извлечения фактов и многих задач понимания языка. Transformer-decoder и семейство GPT учатся продолжать текст. Т.е. если нужно кодировать смысл эмбеддингом и искать, можем брать энкодерные модели, если нужно писать, объяснять, суммаризовать, вести диалог - берем декодер. И кажется от устранения RNN и LSTM из общего рассказа мы ничего не потеряли, кроме, быть может, «развития интуиции в DL», «понимания важности проблемы затухающих градиентов» и гордости за «знание базы».

Так что думаете, уже пора убирать RNN и LSTM из курсов DL? :)

У меня есть ощущение, что морально многим еще сложно на это решиться. Но набрасывать на эту тему уже пора, а то так и будем всякое старье рассказывать десятилетиями (как SVM или наивного Байеса). И вообще есть мнение, что история машинного обучения это интересный предмет, но вполне тянет на отдельный курс, дабы не таскать с собой по курсам всякое старое барахло вечно.

Читать полностью…

Kantor.AI

Согласитесь, genAI-индустрия становится все более зашумленной – что ни день, то новый стартап или эксперт. Как понять, что работает, а что – мыльный пузырь?

Ходить на мероприятия, где делятся решениями из первых рук – например, Conversations.

Ежегодная конференция по genAI в бизнесе и разработке пройдет 5 декабря в Москве и онлайн. Будет полезно всем, кто внедряет AI в бизнес-процесы и разрабатывает генеративные решения.

Вот только несколько примеров докладов на ближайшей конференции:

- GenAI в разработке: как внедрять генеративные технологии в вашей самой дорогой команде и считать профит в деньгах и других метриках? Axenix (ex Accenture)

- Как в Альфа-Банке с помощью ИИ персонализируют продажи на основе поведения пользователей? Альфа-Банк

- Как в Авиасейлс выстраивают процесс оценки качества ИИ-продуктов? Авиасейлс

Лайнап насыщенный: будут доклады от Т-Банк, Plata card, Positive Technologies, Яндекс, Just AI, GigaB2B, ВкусВилл и других. Полную программу можете посмотреть на сайте.

А если надумаете посетить ивент, то вот промокод на скидку 10%: CVS25mTnK

Читать полностью…

Kantor.AI

Про конформизм и машинное обучение

Давным-давно я уже будучи преподом делал с командой студентов сервис для автоматического аннотирования текстов. Трансформеров и LLM тогда и в проекте не было, задача аннотирования сводилась к тому, чтобы выделять ключевые предложения, чтения которых достаточно для понимания смысла текста, а лучшими известными подходами были TextRank и LexRank - эдакие аналоги PageRank, но не на сайтах, а на предложениях.

Так вот именно тогда мы усвоили один важный урок: как получить желаемый результат сравнения алгоритмов, если в оценке задействованы асессоры. Для разметки валидационной выборки мы сделали веб-страничку, где асессор должен был сам выбирать ключевые предложения из текста. Задача показалась нам непростой для решения «с чистого листа», поэтому в качестве варианта по умолчанию мы подсвечивали те предложения, которые выбрала бы наша реализация TextRank. Надо ли говорить, какой алгоритм победил в сравнении на этой выборке с большим отрывом?

К сожалению или к счастью, люди обычно довольно легко соглашаются на предложенный им вариант или меняют его не слишком сильно. В частности, поэтому полезнее самому говорить, что вы от них хотите, чем играть с людьми в угадайку и надеяться получить предложение мечты: на работе, в отношениях или договариваясь, как провести время с друзьями. Ну а если вам надо просто собрать выборку для оценки качества - постарайтесь ни к чему не подталкивать ваших асессоров :)

Читать полностью…

Kantor.AI

Готовимся к поступлению в ШАД 🟡🔴⚫️, AI Masters и магистратуры!

🔝 Три шага на пути к победе 🔝

1️⃣ Большой обзор курсов и литературы в моей статье на Habr ⚡️

2️⃣ Задачник, в котором я собрал 300 задач со студеннческих олимпиад и вступительных в ШАД/Сколтех/РЭШ (доступен бесплатно по ссылке) 🧠

3️⃣ Мой авторский курс по подготовке к поступлению в ШАД и магистратуры! 75 лекций по высшей математике в записи, домашнее задание на 80 задач с индивидуальной проверкой и подробный разбор более 130 задач из вариантов вступительных в ШАД прошлых лет и студенческих олимпиад. Это уже восьмой поток, курс прошло более 200 человек. Все подробности и отзывы на сайте, а еще про структуру и особенности курса рассказываю вот в этом ролике. Запуск нового потока уже совсем скоро: 15 октября (присоединиться можно до 10 ноября)

Читать полностью…

Kantor.AI

Как поступить в ШАД: часть 1

Все знают, что в Школу Анализа Данных Яндекса очень непросто поступить, но многие все равно туда очень хотят. Проблема в чем: желающих так много, что просто поговорить с ними недостаточно, приходится делать вступительные, которые за долгое время стали многоступенчатыми. Вопрос в том, что спрашивать на таких вступительных. Коллеги из Яндекса, когда много лет назад вводили экзамен, поступили просто: начали давать задачки на высшмат и алгоритмы, потому что это вроде как неплохо знать до обучения, и потому что понятно как проверять и дает относительно честный способ для ранжирования.

Отдельный момент, что человек, который разложит функцию в степенной ряд без ошибок, и человек, который где-то налажает в арифметике, не факт что имеют разный потенциал в изучении анализа данных и ML в частности. Но тут логика в другом: поступающих так много, что просто нужна какая-то процедура ранжирования, которая будет более-менее стабильна и к ней можно будет подготовиться.

Раньше подготовка (рассказываю на примере однокурсника с Физтеха) была устроена так: смотришь темы экзамена, обкладываешься учебниками по матану, линалу, теорверу и алгоритмам, и вспоминаешь изученное на Физтехе или в МГУ (сюрприз, после появления письменного экзамена просто того что ты там учился и все расшарил могло не хватить, надо было готовиться). И даже тогда были "залетные" ребята из других вузов, но их было мало и часто готовились они по принципу "иду к преподу с мехмата и прошу подсказать, что читать и что разбирать, чтобы такое решить". Надо заметить, что если препода с условного  мехмата такое спрашивал кто-то из, например, РУДН или МИСиС, препод обычно не отказывал в помощи (в тех историях, которые знаю). Потому что это настолько редкая и уникальная ситуация, что человек тянется к настолько дополнительным знаниям, что помочь такому человеку очень хочется.

Продолжение следует

Читать полностью…

Kantor.AI

В этом году меня позвали в экспертный совет премии RuCode и я сразу согласился, во многом из интереса к тому, какие будут заявки, кто будет подаваться и с какими проектами :)

Оказалось, у премии аж 11 номинаций за популяризацию и использование ИИ. Так что возможностей проявить себя у участников много.

Поучаствовать могут:

образовательные и научные организации

преподаватели школ, СПО и вузов

школьники и студенты

разработчики и исследователи

популяризаторы науки и блогеры


На тему пробовать/не пробовать участвовать: раньше я довольно сдержанно относился ко всякого рода премиям, пока одна из них не дала мне классную карьерную возможность. Также может получиться и у вас: генеральный партнер премии - компания MWS (отвечающая за IT в экосистеме МТС), также в партнерах есть Сбер и Астра, так что есть возможность не только потешить эго и испытать соревновательный азарт, но и засветиться на HR-радарах крупных компаний

Заявку можно заполнить на сайте до 20 октября ⚡️

Читать полностью…

Kantor.AI

Как считать эффект от AI без магии

"Модель повысит прибыль на X процентов". Звучит бодро, но что именно считать и как не самообмануться? 🤔

Много раз наблюдал у DSов кейс: команда принесла красивый AUC и демо. Далее звучат вопросы руководителя: где деньги, какие риски и срок окупаемости? И тут все резко усложняется.

Если коротко, рабочая схема такая:

🎯 Сформулируйте бизнес-единицу эффекта: деньги / время / риск. Пример: плюс рубли к выручке, минус часы операции, минус вероятность дефекта.

🔗 Привяжите модель к решению: какое действие изменится? (раньше звонили всем - теперь звоним топ 20 процентов скоринга)

🧮 Посчитайте дельту: uplift к текущему подходу.

🧱 Оцените инфраструктурные издержки: железо, лицензии, люди, поддержка, деградация качества и дальнейшая поддержка.

🧪 Сделайте контрольный A/B-эксперимент, длительность не меньше одного бизнес цикла и достаточная для статзначимости допустимого для бизнеса прироста (как минимум покрывающего затраты, но обычно - дающего хороший ROI).

📊 Финал: P&L табличка на 12 месяцев: эффект - затраты = маржа. Сценарии: базовый, оптимистичный, пессимистичный.

Чудес не бывает: крутая модель без внедрения в процессы = просто презентация с красивыми картинками, а даже простая эвристика, встроенная в бизнес-процесс может давать реальный прирост денег 💸 Выбор, что делать (и что не делать) в основном диктуется в коммерческой компании экономикой.

Как вы сейчас считаете экономику своих ML внедрений? Что чаще всего стреляет в ногу - доступность и качество данных, точность моделей, процессы или ожидания?

Читать полностью…

Kantor.AI

МТС True Tech Champ 2025: измерение технологий

Запускаем третий сезон ИТ-чемпионата по программированию! В этом году он станет еще масштабнее, а задания — сложнее. Листай карточки, чтобы узнать подробности. Рассказали о треках, формате соревнований, призовом фонде и программе офлайн-мероприятия.

Успей зарегистрироваться до 20 октября, если планируешь участвовать 😉

Читать полностью…

Kantor.AI

А теперь представьте, что вы выбираете, в какую компанию пойти работать как Chief Data Officer. На что вы бы обращали внимание? (Помимо зарплаты и в каком городе офис))

Читать полностью…

Kantor.AI

Про GPT в Алисе

Бывает, скажешь что-нибудь эдакое Алисе — например, ругнешься невзначай в ответ на её «в данную минуту на улице плюс шесть» в сентябре, а она подхватит и ответит как живая. С развитием больших языковых моделей это хоть и приятно, но не удивительно. Но вопрос-то в другом: насколько в ней действительно «сидит» GPT, а где всё ещё работают старые сценарные схемы?

На прошедшем big tech night 12 сентября как раз был доклад Павла Капли, руководителя продуктовой разработки Алисы, посвящённый этой теме. Выделил для себя главное:

1. Раньше Алиса жила на сценариях: «услышала intent → выбрала готовый ответ».

2. Теперь команда двигается к агентности: ИИ сам строит логику решения задачи, вызывает нужные инструменты по шагам, а не идёт по заранее заданным веткам.

3. Первые прототипы работали по 15 секунд на запрос, но инженерная оптимизация позволила добиться скорости и стабильности.

4. Результаты внедрения на ТВ-станциях: перезапросы ↓ 11,41 %, ошибки «извините» ↓ 16,09 %, «не смогла» ↓ 15,58 %.

Итог простой: GPT внутри Алисы не только работает, но и улучшает пользовательские метрики и даёт системе возможность понимать сложные команды вроде «включи Титаник на громкости 30». Если хотите узнать больше об архитектурной революции в Алисе — смотрите запись доклада вот тут.

Читать полностью…

Kantor.AI

Дальнейшие изыскания привели к интересным находкам. Первая - что есть целое направление инфобиза про как заниматься трейдингом на питоне)) Ценники на доступ к материалом с первого же этапа солидные, из чего возникает гипотеза, что дальше может быть какой-то офер на 25/50/100к. Так что как минимум можно сказать, что заработать на трейдинге можно независимо от успешности трейдинга, главное, чтобы торговали при этом не вы. И помимо совсем примитивных вариантов в духе предложений ботов в комментах тг каналов, есть чуть более продвинутые штуки с питончиком и прохладными лозунгами типа "Join 1,510 alumni that are using Python to make money"

Читать полностью…
Subscribe to a channel