Меня зовут Андрей Кузнецов Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87 Linkedin: https://tinyurl.com/y96nmmdd
На связи #AIRI_Seminars, рассказываем про следующий семинар, который пройдет 12 марта⤵
Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.
Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.
Трансляции: VK Видео и YouTube📌
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
@complete_ai
⚡️+1 Accept на CVPR-2025
Детали о принятой статье расскажу чуть позже😉
⚡⚡⚡Прекрасная новость!
Наша статья про open source фреймворк LLM-Microscope и методы оценки языковых моделей на предмет измерения контекстуальности токенов, нелинейности, logit lens и прочего снова борется за первое место на Hugging Face за звание Paper of the day🏆
Поддержите upvote'ами🙏
Мы пока на втором месте, но верю, что можем на первом оказаться)
Cтатья принята на большую международную конференцию Core A — NAACL 2025
Отдать голос за статью можно тут👇
https://huggingface.co/papers/2502.15007
Что не так с LLM?
🔵Модели игнорируют команды
🔵Даже лучшие LLM фантазируют
🔵RAG не работает с первого раза
🔵API дороже, чем кажется
🔵Инференс без оптимизации — дорогое удовольствие
На лекции 20 февраля в 18:00 на лекции DeepSchool спикеры разберут эти и другие проблемы LLM, и покажут, как их решать на примере реальной задачи ✔️
Спикеры:
🙂 Илья Димов — Senior NLP-инженер
🙂 Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer, KoronaPay
Регистрируйтесь на лекцию и получите список полезных инструментов и библиотек для работы с LLM, а также скидки на обучение.
Поделитесь в комментариях мнением: какая главная проблема LLM сегодня?
Дорогие читатели, друзья, коллеги, поздравляю всех с Днём российской науки🔬
Желаю выдающихся открытий, передовых результатов, никогда не сдаваться в процессе исследований и побольше мечтать! Наука - это не только про формулы и законы, но и про удачу, чутьё и целеустремлённость! «Per aspera ad astra» (Через тернии к звёздам) (это всё, что я знаю на латыни — мама в детстве как-то сказала, я запомнил и регулярно вспоминаю это выражение)
У науки нет границ и пусть так остаётся всегда!
Вот, как работают современные алгоритмы на примере Ведра:
1) Samsung Galaxy S22+
2) iPhone 15 Pro Max
3) iPhone 13 mini
4) iPhone 16 Pro
Ссылка на ведро:
https://market.yandex.ru/cc/VX3y9Pk
На самом деле, это конечно же фейковая новость, которая довольно быстро распространилась за последние дни и дошла даже до федеральных телеканалов.
Какой можно сделать вывод: какой бы источник информации вы не читали/смотрели/слушали, всегда надо сохранять место здоровой критике и уделить 1-2 минуты факт-чекингу или проверке достоверности сообщения. Как правило, большинство таких «громких» или кликбейтных заголовков раскручивается на раз-два🧐
Будьте бдительны и проверяйте всё, что читаете)
ICT.Moscow собрал 80 крутых инструментов для разработчиков ИИ 🔥
Все они в открытом доступе и подходят для решения абсолютно разных задач. В подборку вошли библиотеки, фреймворки, датасеты, архитектуры и многое другое.
В подборке также есть решение от нашей лаборатории — фреймворк LLM Microscope для визуализации и анализа характеристик языковых моделей. Он позволяет исследовать свойства трансформерных архитектур. Статья о LLM Microscope была недавно принята на международную конференцию NAACL 2025.
Полную версию подборки ICT.Moscow можно посмотреть тут 🔜 ссылка
Также есть удобная инфографика для быстрого поиска нужных решений в PDF.
А вот скажите, есть ли среди вас кто-то, кто рубит в low-level-ML? Руками под CUDA писать, оптимизировать потоки данных, кэши, вот это всё? Если да, то черкните мне в личку (@oulenspiegel), возможно у меня для вас будет прямо хорошее предложение
Читать полностью…ChatGPT меня загазлайтила
Как вы уже видели, у OpenAI появилась возможность отложенных задач. Я решил проверить лимиты дозволенного и попросил ChatGPT уйти играть в шахматы с самим собой, делая только случайные ходы, и не возвращаться с ответом, пока не доиграет. Ну, она и ушла играть в шахматы на... ДВА ДНЯ! При этом я регулярно спрашивал, как там дела, и получал ответ: «Партия ещё идёт». Терпение у меня лопнуло. Я стал в каждом сообщении спрашивать, сколько сейчас фигур осталось в игре, и, о чудо, с каждым моим вопросом их становилось чуть-чуть меньше. За одну минуту игра закончилась. Я получил набор ходов и отрисовал их в артефактах Claude (см. видео).
Какая мораль? Ассистент прокрастинировал два дня и ничего не делал, пока я не заставил показывать промежуточный результат. "Джун" level of AGI has been achieved internally.
Ссылка на диалог
Математические этюды @EtudesRu рассчитали особенность числа 2025🎉
Подробнее тут
С Новым годом🎄
Интерактивная сегментация, то есть автоматическое определение границ объектов на изображении, нужна и в медицине, и в индустрии развлечений. Для корректной оценки метода интерактивной сегментации разработчикам нужно собирать информацию о взаимодействии реальных людей с ним в процессе разметки изображений.
Исследователи AIRI объединили несколько классических датасетов для оценки этих методов и собрали для них в общей сложности 475 000 пользовательских кликов и тапов через специальный веб-интерфейс. Датасет получил название RClicks и был использован, чтобы протестировать популярные сегодня методы интерактивной сегментации. Статья с результатами этой работы была представлена на NeurIPS 2024.
📎Инженер–исследователь группы «ИИ для роботов» лаборатории FusionBrain AIRI Антон Антонов поделился подробностями исследования на Хабре.
⚡️⚡️⚡️Несколько часов назад Qwen анонсировали QvQ-72B-Preview — первую open source мультимодальную модель с ризонингом (умеет итеративно «размышлять/рассуждать» и двигаться в сторону правильного ответа)
Сами авторы говорят, что модель в стадии preview и может «тупить», но так или иначе метрики очень крутые. Ключевые проблемы:
📍Модель может миксовать языки при ответах
📍Модель может зацикливаться в рассуждениях, не приближаясь к правильному выводу
📍Требуется дополнительный уровень безопасности и “любимого” alignment
📍В ходе рассуждений модель может утратить внимание на входную картинку и начать галлюцинировать
Ещё детали и примеры в блоге👇
https://qwenlm.github.io/blog/qvq-72b-preview/
P.S. Так или иначе — we made a new step to AGI💪
@complete_ai
Kandinsky в платёжных терминалах по всей стране готовится поздравлять всех женщин и девушек 💐
Читать полностью…Приглашаю вас на AI Agents x Web3 BuildCon — митап для фаундеров и разработчиков, которые работают над запуском AI-продуктов в Web3.
Мероприятие состоится 4 марта при поддержке моих коллег из ComUnity Sber и MSK FRENS! На митапе будут разобраны реальные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ. Если вы ИИ-разработчик, владелец бизнеса, который хочет внедрить ИИ в свои процессы, заинтересованный в технологиях ИИ пользователь, то митап для вас 🙂
Ключевые вопросы:
🟡Как билдить AI-агентов?
🟡Где искать инфраструктуру и полезные контакты?
🟡Что реально работает в Web3 и AI?
В программе спикеры: Sber AI, Лаборатория блокчейн Сбера, Fluence, AIRI, TETRIX, VARA, ComBox, Quarm и другие.
🔜 Бесплатный билет
🔜 ТГ-чат с навигацией @mskfrens
Адрес митапа: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.
Как добраться: Яндекс Карты | Google Карты
Для участия обязательно необходима регистрация и подтверждение регистрации, для прохода на площадку необходим паспорт. Не забудьте!
Как ML-инженеру пробиться из мидлов в сеньоры?
Вы умеете делать fit() и predict(), но что-то не даёт покоя — застряли на уровне мидла и нет понимания, как пробиться в сеньоры.
Сеньор — это не просто человек, который знает больше библиотек или пишет код быстрее. Это специалист, который видит картину целиком, способен самостоятельно взять на себя задачу или выбрать направление в развитии проекта и довести его до успешного завершения.
Прокачайте свои навыки и получите level up своей карьеры на курсе Hard ML от karpov courses. Авторы курса — Валерий Бабушкин, из British Petroleum и другие топовые специалисты из Яндекса, X5 Retail Group и других крупных компаний.
Вы получите максимально глубокое погружение в задачи, с которыми сталкивается современный бизнес. К концу каждого модуля у вас будет собственный ML-сервис, решающий сложную и важную задачу.
Курс охватывает абсолютно все этапы работы ML-инженера. Вы научитесь самостоятельно собирать и размечать данные, строить пайплайны их поставки, деплоить приложения, настраивать мониторинги и оценивать эффективность алгоритмов.
Присоединяйтесь к курсу со скидкой 5% по промокоду COMPLETE до 31.03.2025: https://clc.to/e2oXRg
🔜 Как формируются ценности искусственного интеллекта?
LLM обучаются на данных, созданных людьми, но действительно ли они наследуют наши убеждения? Как культура разметчиков данных и разработчиков влияет на то, какие решения принимает искусственный интеллект?
25 февраля эксперты Школы управления СКОЛКОВО разберут эти вопросы на открытой встрече. В рамках дискуссии Александр Диденко (руководитель Лаборатории искусственного интеллекта СКОЛКОВО), Николай Верховский (академический директор Digital Shift), Яна Чаруйская (исполнительный директор Управления экспериментальных систем машинного обучения, Сбер) и Валерий Шульгинов (ведущий научный сотрудник Центра междисциплинарных исследований МФТИ, НИУ ВШЭ) обсудят:
🔘действительно ли LLM отражают ценности своих создателей
🔘как культурные различия формируют характер искусственного интеллекта
🔘во что «верят» современные AI-модели — ChatGPT, YandexGPT, GigaChat и другие
🔘как это влияет на экономику, корпоративные стратегии и управление командами
⭐️Регистрируйтесь и приходите уже завтра, 25 февраля в 17:00, кампус СКОЛКОВО.
У нас тут кстати случилось чудесное событие после одного телефонного звоночка на прошлой неделе)
Разблокировали гитхаб лаборатории — https://github.com/FusionBrainLab 🎉
Все звёзды на месте🔥🔥🔥
Когда чувства компилируются без ошибок❤
Мы сделали валентинки для тех, кто видит красоту в коде, звёздное небо в репозиториях и всегда выбирает оптимальный путь — и в науке, и в жизни. Отправляйте их коллегам, друзьям и просто дорогим людям.
Пусть ваши градиенты сходятся, модели не переобучаются, а сердце остаётся в стабильной конвергенции!
Приглашаю вас на научно-фантастические дебаты сотрудников AIRI в баре Ровесник. Обсудим правдивы ли тезисы из научно-популярных фильмов❓
Я буду спорить с Костей Соболевым, руководителем группы "Генеративный ИИ для видео" лаборатории FusionBrain, о наличии у искусственного интеллекта эмоций. Может ли он что-то чувствовать или это всё-таки бездушная машина🙂
К какой точке зрения склоняюсь я, вы узнаете уже завтра в 19:00. Не забудьте зарегистрироваться!
Как известно, в лаборатории FusionBrain есть несколько научных групп. Одна из них занимается механистической интерпретируемостью (Architectural insights) и руководит ею Антон Разжигаев (автор канала AbstractDL). На днях он выпустил отличную статью на Хабре про нашумевшую модель DeepSeek-R1, где подробно изложил все тонкости процесса обучения.
Несмотря на то, что называется она "DeepSeek-R1 для чайников", внутри много технических деталей (мы вчера уже пошутили, что это какие-то очень навороченные чайники с кучей сенсоров и умных программ). Не пугайтесь, вы в них не утоните😉
Рекомендую всем почувствовать себя каким-то "чайником" и получить ответы на вопросы, которые могли еще остаться без ответа) Желаю приятного чтения! Приходите с вопросами, будем рады помочь разобраться💪
👉Хабр
Секретная новость от создателя DeepSeek — в основе модели код, написанный советскими учеными в 1985 году💪
Инфа сотка
Китайцы перед своим Новым годом, конечно, обеспечили всех пищей для размышлений на пару недель празднества💪
А меж тем Janus Pro 1B (any-to-any новую мультимодальную модель) уже раскатали в режиме локального использования в браузере на WebGPU
Почитать тред на Reddit тут
Попробовать тут
Подготовил мини-колонку про ИИ-агентов для нового новостного проекта @anti_agi от команды канала @antidigital, который читают многие decisionmakers IT-отрасли. Ребята создали форк, посвященный исключительно искусственному интеллекту, а так как они на медиарынке уже 20 с лишним лет – стараются отличить важное от сиюминутного. Радует, что научная составляющая ИИ-повестки интересует все больше людей.
Читать полностью…Мои коллеги из SberDevices приоткрыли завесу тайны и представляют Malvina — функциональное расширение GigaChat для редактирования изображений через текстовый промпт. Только промпт! Больше никаких масок, точек и танцев с бубнами😃
Проект пока в закрытой альфе, но на конференции AIJ был представлен демо-стенд и выступал с рассказом Сергей Марков. Архитектура использует сильные стороны LLM-ассистентов и генеративных моделей, фокусируясь на гибкости и качестве данных. Сейчас за генерацию изображения отвечает диффузионка, но коллеги ищут и авторегрессионные решения.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями.
Ждите релиз в GigaChat! Подробнее о технологии на ➡️ канале команды компьютерного зрения Layer в SberDevices.
Дорогие подписчики!
Поздравляю вас с наступающим Новым годом ⭐️
Хочу от всей души пожелать вам благополучия, добра, спокойствия и тихого счастья. Пусть все ваши задуманные планы осуществляются всегда и не зависят от даты на календаре 🍪
Отдельно хочу пожелать процветания российской науке! Благодаря сильным людям, вам, она тоже становится сильнее на мировой арене.
Спасибо вам за активность, за комментарии. Буду радовать вас интересным контентом и новыми релизами команды!
С Новым годом 😱
🔥 Сколтех открыл приём заявок на конкурсный отбор в магистратуру!
Отличная новость: теперь можно проходить весь процесс как на английском, так и на русском языках. Учиться и сдавать экзамены на неродном языке бывает сложно, поэтому Сколтех облегчает задачу и даёт возможность выбирать:
🟢Английский язык — всё идёт по привычному сценарию, но плюс к этому вы получаете дополнительные баллы за участие
🟢Русский язык — проходите все этапы отбора на русском, а потом приезжаете в Сколтех на месяц раньше, чтобы подтянуть английский на программе English Bootcamp. Главное условие — ваш уровень языка должен быть не ниже B1, что проверится на финальном этапе
🙂 Решайте сами: хотите получить бонусные баллы и спокойно провести лето или же сначала пройти отбор на своём языке, а затем отправиться на интенсив по английскому? Всё зависит от вас!
Не упустите шанс — начните свой путь в Сколтех уже сегодня!
Можно ли научить модель text-to-video физике?
Решили с коллегами из AI Talent Hub, что будет здорово разобрать статью из поста ранее.
25 декабря в 18:30 разберёмся, можно ли на большом объёме синтетических данных научить модели text-to-video пониманию физики мира? В частных случаях — да, но чтобы построить "модель мира", придется подружиться с дифференцируемыми законами физики.
📕 Статья: How Far is Video Generation from World Model?
Не забудьте про ➡️ регистрацию
Приходите, жду вас!