Меня зовут Андрей Кузнецов Руковожу лабораторией FusionBrain в AIRI, один из создателей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87
Head of FusionBrain Lab (Andrey Kuznetsov) meets co-lead of VGG group at University of Oxford (Andrea Vedaldi)
Читать полностью…Head of FusionBrain Lab (Andrey Kuznetsov) meets Head of Google Research (Yossi Matias)
Читать полностью…Приглашаю вас на открытую лекцию от DeepSchool, чтобы разобраться в одном из ключевых вопросов: есть ли жизнь после релиза?
После запуска модели работа не заканчивается. Начинаются новые испытания: модель деградирует, количество новых пользователей растёт, а для эффективной поддержки у команды нет лишних рук. Важно заранее предугадывать, где и что может пойти не так.
На лекции узнаете:
▶️как в реальности выглядит цикл жизни CV-модели
▶️как выстраивать поддержку: что можно автоматизировать, а что — нет
▶️как следить за качеством модели: дрифты, аутлаеры, шум, ключевые метрики
▶️какие есть подходы для автоматизации мониторинга модели
▶️и спроектируте возможное решение на примере реальной задачи
Также все участники лекции получат программу курса CV Rocket и скидки на обучение 📕
Обо всём этом расскажут:
⏩Анастасия Старобыховская — руководитель CV-направления НЛМК ИТ
⏩Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer, KoronaPay
Регистрируйтесь по ссылке и подключайтесь 24 апреля, четверг, 18:00 МСК.
В ожидании новой модели синтеза видео…
Поделюсь новостями, как выйдет подробная информация📝
Продолжаем тренд. Теперь делаем анимацию😉
Промпт для Image2Video (Kling 1.6) в комментариях👇
Очень люблю разные визуализации риалтайм событий. Раньше в Самарском универе делали онлайн карту движения гор транспорта на модном тогда HTML5, когда Яндекс.Транспорта ещё не существовало. Тогда же появилось приложение мобильное "Прибывалка-63" и онлайн можно было посмотреть каждый автобус, трамвай и троллейбус (это к слову были 2012-2013 г.г.!). А в конце января 2025-го пришли какие-то персоны из деп транспорта и под какими-то не особо обоснованными предлогами доступ к данным закрыли и сервис с приложением перестали радовать жителей Самары...
"Мы никому не скажем, когда займёмся оптимизацией, но знаки будут")
А вспомнил я про это потому, что недавно набрёл на live карту Лондонского метро, и ностальгия посетила 👇
https://www.londonunderground.live/
Приглашаю принять участие в IT_ONE Cup. ML Challenge
Соберите крутого AI-ассистента для дизайнеров, системных и бизнес-аналитиков! Призовой фонд — 1,5 миллиона рублей, каждый участник сможет забрать классный мерч и получить приглашение в магистратуру ИТМО.
Окончание регистрации совсем близко — успейте зарегистрироваться до 13 апреля!
Почему стоит участвовать?
✔️ Нужен всего лишь прототип, а не готовый продукт
✔️ Попробуете свои силы в машинном обучении, обработке текста и компьютерном зрении
✔️ Узнаете, какие методы реально работают
✔️ Базовых знаний и желания экспериментировать хватит — модели с нуля учить не придётся
Что вас ждёт на IT_ONE Cup. ML Challenge?
✔️ Поработаете с современными технологиями: LLM, NLP, RAG, MCP
✔️ Создадите AI-инструмент, который упростит работу других специалистов
✔️ Сможете попасть в магистратуру ИТМО на факультет Программной инженерии и компьютерной техники. Число приглашений не ограничено – шанс будет у каждого
Какие треки есть?
1️⃣ Динамические контекстные подсказки для системного аналитика
2️⃣ AI-генератор дизайн-макетов по описанию требований
3️⃣ Система визуализации BPMN-диаграмм
Пройдите регистрацию и получите главный приз!
Я участвую в Программном комитете AiConf X 2025 — конференции по Data Science от Онтико, организаторов HighLoad++ и TeamLeadConf 🌟
Сейчас мы ищем сильных спикеров и доклады по темам:
🟡RecSys, поиск, таблицы
🟡Генеративный AI: генерация и распознавание текстов, музыки, изображение, видео, рerception
🟡ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.
🟡Automotive, роботы
🟡Обработка данных и бенчмарки
Акцент конференции на практические форматы: мастер-классы, воркшопы, круглые столы и т.д.
Даже если ваша тема отличается от перечисленных, присылайте заявки 🙂
10 апреля в 17:00 приглашаем на бесплатную онлайн-встречу с программным коммитетом, где обсудим темы конференции, идеи и ответим на вопросы. Встреча неформальная, нужно пройти регистрацию!
Жду ваши доклады!
Прошло уже больше 6 лет с последнего open source релиза LLM от Open AI (это была модель GPT-2 в феврале 2019), и вот Альтман говорит, что в ближайшее время планируется релиз новой открытой модели🙈 Верим?
https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/
⚡️Всегда испытываю искреннюю радость за успехи ребят, с которыми удалось работать! Андрей пришел стажером ко мне в лабораторию в 2024 году по предложению @Ivan_Oseledets, занимался исследованиями мультимодальных архитектур, параллельно обучаясь и набираясь опыта, достигая успехов в исследованиях в AIRI и не только. А сегодня я горжусь его успехами и рад, что имею возможность работать с такими талантливыми ребятами🙏
Читать полностью…M-Attack: как обмануть GPT-4.5 и Gemini
Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".
Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).
И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).
Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.
Статья, GitHub, dataset
🎉Всех женщин и девушек, читающих этот канал, сердечно поздравляю с Международным женским днём!
Прекрасно понимаю, что среди читателей представительницы совершенно разных профессий: учёные, преподаватели, студенты, менеджеры, маркетологи, дизайнеры и многие другие. И в каждом деле, в каждой профессии, в доме и в семье вы приносите душевность, нежность, вдохновение и заряжаете окружающих вас мужчин огромным зарядом энергии, оптимизма и стремления совершать открытия💐 Спасибо вам за то, что вы есть каждый день! Мы вам очень-очень благодарны за это💐❤️
Kandinsky в платёжных терминалах по всей стране готовится поздравлять всех женщин и девушек 💐
Читать полностью…Приглашаю вас на AI Agents x Web3 BuildCon — митап для фаундеров и разработчиков, которые работают над запуском AI-продуктов в Web3.
Мероприятие состоится 4 марта при поддержке моих коллег из ComUnity Sber и MSK FRENS! На митапе будут разобраны реальные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ. Если вы ИИ-разработчик, владелец бизнеса, который хочет внедрить ИИ в свои процессы, заинтересованный в технологиях ИИ пользователь, то митап для вас 🙂
Ключевые вопросы:
🟡Как билдить AI-агентов?
🟡Где искать инфраструктуру и полезные контакты?
🟡Что реально работает в Web3 и AI?
В программе спикеры: Sber AI, Лаборатория блокчейн Сбера, Fluence, AIRI, TETRIX, VARA, ComBox, Quarm и другие.
🔜 Бесплатный билет
🔜 ТГ-чат с навигацией @mskfrens
Адрес митапа: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.
Как добраться: Яндекс Карты | Google Карты
Для участия обязательно необходима регистрация и подтверждение регистрации, для прохода на площадку необходим паспорт. Не забудьте!
Как ML-инженеру пробиться из мидлов в сеньоры?
Вы умеете делать fit() и predict(), но что-то не даёт покоя — застряли на уровне мидла и нет понимания, как пробиться в сеньоры.
Сеньор — это не просто человек, который знает больше библиотек или пишет код быстрее. Это специалист, который видит картину целиком, способен самостоятельно взять на себя задачу или выбрать направление в развитии проекта и довести его до успешного завершения.
Прокачайте свои навыки и получите level up своей карьеры на курсе Hard ML от karpov courses. Авторы курса — Валерий Бабушкин, из British Petroleum и другие топовые специалисты из Яндекса, X5 Retail Group и других крупных компаний.
Вы получите максимально глубокое погружение в задачи, с которыми сталкивается современный бизнес. К концу каждого модуля у вас будет собственный ML-сервис, решающий сложную и важную задачу.
Курс охватывает абсолютно все этапы работы ML-инженера. Вы научитесь самостоятельно собирать и размечать данные, строить пайплайны их поставки, деплоить приложения, настраивать мониторинги и оценивать эффективность алгоритмов.
Присоединяйтесь к курсу со скидкой 5% по промокоду COMPLETE до 31.03.2025: https://clc.to/e2oXRg
21 апреля в AIRI мы организовали крупнейший в России семинар по генеративному проектированию ⤵️
Более 100 участников руководителей и представителей департаментов проектирования крупнейших строительных компаний и промышленных предприятий собрались на площадке AIRI. Магистральная команда AIRI и Сбера со своей стороны поделилась текущими результатами создания передовых методов для автоматизации задач проектирования в строительстве и инженерии, получив в завершении важную положительную обратную связь и новые предложения о сотрудничестве.
Основные темы дискуссии
⚫️Автоматизация процессов в строительстве и архитектуре, синтез BIM моделей, квартирография и создание дизайн проектов по текстовым описаниям
⚫️Применение генеративных моделей в промышленности при создании 3D моделей изделий
⚫️Реверс-инжиниринг и восстановление CAD-моделей
Отдельно поговорили о разработке AI-помощников для контроля качества, оптимизации расходов и онлайн-мониторинга реализации проектов на стройке. Обсудили внедрение 3D-технологий в производство — например, как восстанавливать сложные детали на базе облаков точек.
Мы также сделали фокус на прикладном применении наших решений и создании плагинов для широко используемых продуктов (Компас-3D, Autodesk Revit). Важно отметить, что команда генеративного проектирования достаточно молодая — трек стал активно развиваться с сентября 2024 года, хотя экспертиза в GenAI накоплена уже существенная. При этом сам трек в бОльшей степени ориентирован на прикладную пользу для решения реальных задач строительства и промышленности. Side эффект в виде научных публикаций, конечно, станет приятным дополнением!
Генеративное проектирование поможет сделать производство эффективнее:
📍сократить сроки реализации проектов
📍снизить риски пропуска ошибок на этапе проектирования
📍упростить выполнение ряда задач, а некоторые полностью заместить работой AI-ассистента.
Для российской экономики такие инструменты — важная часть в плане конкурентоспособности предприятий на мировой арене. На пути много вызовов, и мы к ним готовы💪
📍На этой неделе я решил посетить конференцию Machines can see 2025, пока большинство моих коллег поехало на ICLR. Довольно интересные дискуссии происходят, много внимания уделяется прикладным задачам, которые можно решать на базе VLM/LLM.
Крупные компании показывают свои разработки в области ускорения развертывания моделей, NVidia показывала свой фреймворк для использования LLM as a microservice, Google говорит о geospatial reasoning, квантовых вычислениях, создании помощников для задач медицины, образования, copilot для учёных исследователей. Постараюсь дальше чуть подробнее рассказать про некоторые интересные инсайты.
#MCS2025
Отметили четырёхлетие Института!
Все сердца AIRI сегодня — для вас ❤️
Не участвовал в разработке Llama 4 — можно рассмотреть резюме😅
Спасибо @data_secrets за весёлый инсайт
Все в тренде, а я чем хуже😅
Промпт в подарок в комментариях 👇
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга
я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал
второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела
P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр
⚡️⚡️⚡️И вот снова приближается Лето с AIRI, где моя лаборатория будет представлена в трёх треках:
📍Мультимодальные модели для видео
📍Генеративные модели для параметрических данных
📍World Models (совместно с @causality_links)
Мы подготовим очень крутой материал на базе проводимых исследований, в том числе с описанием ряда прикладных продуктовых кейсов, где нам удалось апробировать полученные результаты. Поделимся процессом поиска эффективных решений и результатом выбора наилучших из них.
Летняя школа пройдёт с 30.06 по 10.07 на базе Томского государственного университета. Участникам, прошедшим отбор, понадобится самостоятельно покрыть только транспортные расходы.
Если ты бакалавр 2-4 курса, магистр, аспирант или молодой учёный, то…
👉 Регистрируйся по ссылке до 29 апреля включительно
👉 Пиши крутую заявку на участие в отборе
👉 Приезжай и получай возможность интенсивно прокачаться за лето, найти новых единомышленников и может быть даже подготовить свою первую статью на топ конференцию
❓Вопросы можно оставлять под постом
Делитесь, распространяйте
/channel/airi_research_institute/825
Как удаление знаков препинания и артиклей в запросе снижает точность языковых моделей до 20%⤵️
Исследователи AIRI обнаружили, что знаки препинания и артикли играют более важную роль в обработке информации языковыми моделями, чем кажется на первый взгляд. Это удалось узнать с помощью метода, который позволяет определить, какие именно данные сохраняются в связке с конкретными токенами.
В серии экспериментов исследователи использовали тексты, из которых заранее убрали элементы, кажущиеся незначительными для логики повествования: знаки препинания, артикли и стоп-слова. Для этого систему обучили анализировать последовательность токенов и восстанавливать текст. Оказалось, что больше всего информации о контексте содержится именно в стоп-словах. Затем поставили перед несколькими популярными языковыми моделями задачу — решить, какие элементы текста, с точки зрения человека, можно удалить. Проверка подтвердила, что, если убрать из формулировки технического задания такие «незначительные» символы, качество работы модели падает.
📎Код для анализа работы языковых моделей доступен по ссылке.
Приглашаю вас на онлайн-эфир моих друзей из South HUB на тему локализации IT-сервисов на международные рынки ✏️
В эфире они разберут вопросы, с которыми может столкнуться CEO, CTO и CPO при локализации и масштабирования бизнеса в других регионах на примере реальных компаний. Локализация требует комплексного подхода, включающего не только решение технических вопросов, но и работу с культурными различиями и местными игроками, иначе покорение новых рынков обернётся серьёзной проблемой.
Эфир будет полезен как для общего развития, так и специалистам, планирующим международные проекты или уже работающим с зарубежными продуктами.
Модерировать встречу будет Энтони Минковский, автор проекта First Steps GoGlobal — еще не вышедшей в свет книги, в которой он обещает раскрыть подробности 48 стартапов, успешно вышедших на международные рынки, и Максим Политов CMO South Hub. Отвечать на вопросы будут CTO Flowwow — Дмитрий Шестернин, CEO Достависта — Дмитрий Зубков.
🔜 Когда? 1 апреля, 19:00 (МСК)
🔜 Где? Прямой эфир в Telegram-канале South HUB
⚡️Наша новая статья про прунинг визуальных энкодеров в мультимодальных моделях «When Less is Enough: Adaptive Token Reduction for Efficient Image Representation» снова борется за звание Paper of the day на Hugging Face
Особенность исследования в том, что от 30 до 50% визуальных фичей можно исключить из контекста мультимодальной модели при незначительном проседании в качестве на бенчах. Очень интересный результат, который мы продолжаем проверять на различных задачах - несёт пользу для экономии длины контекста мультимодальных моделей
Немного не хватает до первого места) Будем очень рады и благодарны вашим апвоутам 🔝
https://huggingface.co/papers/2503.16660
На прошлой неделе вышло моё небольшое интервью для @snobru на тему технологической гонки в ИИ в мире. Обсуждали глобальные вызовы, подходы к развитию ИИ в США, Европе и Азии.
Подробнее можно посмотреть по ссылке
На связи #AIRI_Seminars, рассказываем про следующий семинар, который пройдет 12 марта⤵
Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.
Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube📌
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
@complete_ai
⚡️+1 Accept на CVPR-2025
Детали о принятой статье расскажу чуть позже😉