Меня зовут Андрей Кузнецов Руковожу лабораторией FusionBrain в AIRI, один из создателей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87
🔥GigaChat Lite ➡️ Open Source
Велкам тестировать💪
👉Детали на Хабре
🔥Представляю вашему вниманию 3 работы лаборатории FusionBrain, представляемые сейчас на конференции NeurIPS 2024 (одна из самых престижных международных конференций по ИИ) в Канаде.
Всего команды института AIRI представляют рекордные 17 работ на конференции💪
👉На N+1 можно почитать подробнее про другие работы
🅰🅰🅰
Совсем скоро начнётся главная дискуссия на конференции AIJ, которую мы вновь проводим и делимся самыми важными новостями в области ИИ.
Подключайтесь к прямой трансляции в 15.00
🏆В рамках AIJ в этом году моя команда готовила задачу Emotional FusionBrain — участники должны были разработать мультимодальную модель для понимания эмоций, подведения и социального взаимодействия людей на видео.
Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇
https://habr.com/ru/companies/airi/articles/864422/
Новый подарочек от Open AI в 21.00 тут👇
https://www.youtube.com/watch?v=2jKVx2vyZOY
@complete_ai
Уже завтра состоится финальная ИИшница этого года, где исследователи расскажут про свои статьи на NeurIPS 2024 🍳
На онлайн-митапе будут два моих сотрудника:
⚫️Инженер-исследователь Robotics Антон Антонов с RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation — методом интерактивной сегментации для реалистичной оценки скорости и робастности аннотирования. Метод основан на оригинальной модели кликабельности, которая генерирует реалистичные клики аннотаторов. Исследование показало, что не существует одновременно оптимального метода с точки зрения скорости и робастности разметки.
⚫️Младший научный сотрудник Controllable Generative AI Максим Николаев с HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach — методе для редактирования причёсок на фотографиях. Метод основан на использовании пространства StyleGAN и набора предобученных энкодеров, что обеспечивает высокую скорость работы. HairFastGAN превосходит аналоги как по качеству переноса причёсок, так и по скорости исполнения, включая самые сложные случаи.
Подробнее об ИИшнице ➡️ тут.
Исследователи из лаборатории «Сильный ИИ в медицине» и лаборатории FusionBrain AIRI вошли в топ-5 соревнования MIDRC XAI Challenge 🔥
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
📎Подробнее об участии в конкурсе команда рассказала в свежей статье на нашем Хабре.
За миром технологий можно наблюдать через конкретных инфлюенсеров и фаундеров, как и в любой сфере 😑
У вас может быть сто тысяч подписок “новости AI обо всём и всех”, но из них лучше оставить 2-3 годных. Информация часто дублируется, плюс, если вы джун, то не будете понимать насколько та или иная модель “прорывная” под капотом, какое влияние она окажет на рынок, а также, что происходит в конкретных областях ИИ (от роботехники до маркетинга). Полезно сохранить несколько лидеров мнений, которые будут держать в курсе новых решений, расскажут об ошибках, предложат новые гипотезы.
Например, по тематике “ИИ в бизнесе” рекомендую забрать папку с 11 фаундерами👇
🔗 Папка
Возможно, вы уже с кем-то знакомы!
📝 Поделитесь в комментариях: за кем следите вы из наших или зарубежных фаундеров и учёных в сфере технологий?
Новый шаг для индустрии игр или способ синтеза данных для обучения больших моделей?
Что думаете?
⚡️Reducio! Microsoft в соавторстве с Гарри Поттером на днях выпустил статью про свой новый image-conditioned VAE для видео
За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)
Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.
Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!
По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥
Статья
Код
Веса
❗Напоминаю про конкурс за лучший диалог в GigaChat Max 👆
Конкурс
Кидайте скриншоты диалогов из @gigachat_bot, голосуйте и завтра будем выбирать лучший по количеству 👍
⚡️Компания Sony не так часто выходит с какими-то громкими релизами. Но вот анонсировали 2 модели на NeurIPS 2024: GenWarp и PaGoDA
Первая про синтез 3D сцен по одной картинке (судя по качеству интересно проверить для задач робототехники и 3D моделирования)
Вторая про генерацию картинок в высоком разрешении на базе low-res предобученной модели (вычислительно эффективно — максимум 32 карты A100, рост разрешения с 32x32 до 512x512 почти без потери качества)
Детали тут👇
Ссылка
⚡⚡⚡Выпустили Хабр в формате technical report про новую модель синтеза видео и аудио — Kandinsky 4.0
Приглашаю изучить и готов ответить все вопросы😉
👉 Хабр
📺 Прикольные генерации и некоторые детали можно также посмотреть тут
@complete_ai
🎧 АйЛетов - Маленькая страна (AI Cover на Н. Королёва)
• Автор
@aiaiai
Новый релиз модели синтеза и обработки видео — Sora🎥
Читать полностью…Я тут иногда на канале буду размещать интересные вакансии от наших партнёров и моих знакомых коллег.
Компания EKSLi, специализирующаяся на автоматизации промышленности, в поисках разработчика и team lead С++. Вакансия для тех, кому хочется участвовать в создании социально/экономически важных проектов и стать частью наукоёмкого, взлетающего стартапа.
Обязанности:
🔹Выстроить стратегию развития стека, разработать внутренние алгоритмы и бизнес логику всей системы
🔹Сформировать команду, руководить группой разработки системы сепаратора и периферийных микросервисов
🔹Поддерживать и модернизировать уже существующее ПО
🔹Прорабатывать функциональные спецификации, формировать и согласовывать техническую документацию
🔹Управлять развитием команды, формировать пул HiPo
Важно:
🔹Управленческий опыт
🔹Опыт работы от 3-х лет на позиции Senior/ Team Lead C++, базовое знание Python
🔹Опыт разработки архитектуры высоконагруженных систем на C++ и построения сложных программных продуктов
🔹Уверенное знание принципов работы ОС Linux
Преимуществом будет:
🔹Опыт в области робототехники или создания оптических сепараторов
🔹Опыт работы с Jetson, Cuda, Docker, Gitlab CI/CD, OpenTelemetry, gRPC, REST API
Пишите в личку или на почту HRD:
l.kuznetsova@eksli.com
@Liubov_ku
Подробнее о вакансии тут.
Награда в виде SberBoom Mini 2 сегодня нашла своего нового владельца — победителя конкурса! С чем я его ещё раз поздравляю и желаю приятного пользования💪
В следующем году будем чаще практиковать конкурсы🏆
Сегодня закончили трехдневную научную отчетную сессию AIRI, на которой исследователи, от младших научных сотрудников до директоров лабораторий, поделились итогами работы за этот год и планами на следующий. За 3 дня мы прослушали 45 докладов и обсудили 159 постеров.
Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
☝️Метрики и детали в большом техническом отчете
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon?
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет сегодня — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
Т - триллион😊
⚡️Вот и релиз новой языковой модели OLMo2 от Allen Institute подоспел
Просто взгляните на метрики💪
https://allenai.org/blog/olmo2
@complete_ai
Выступал сегодня на фесте «Формула будущего» в Иннополисе. Разгоняли со студентами тему карьеры в науке: с чего начать, как выглядит карьерный трек, как построена работа у меня в лабе в AIRI, какие направления занимают пальму «популярности» сейчас в исследованиях, а также о симбиозе науки и бизнеса в современных реалиях.
Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪
Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉
⚡️Nvidia выкатила веса и демку text2image модели Sana
Демо
Код
Статья
AIRI и МТУСИ анонсировали хакатон SafeSpeak 2024, посвящённый борьбе с голосовыми дипфейками, и нацеленный на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.
Зарегистрироваться можно уже сейчас по ссылке. Регистрация будет открыта до 26 ноября, старт самого хакатона — 22 ноября.
⚡️GigaChat стал гигачадовее 😎
Теперь он лучше понимает запросы, быстрее отвечает, запоминает длинные диалоги, распознаёт изображения, а ещё стал прокаченнее в науках.
Так как моя команда принимает участие в разработке модели, мне интересно, чтобы вы потестили GigaChat Max и поделились своими диалогами в комментариях!
🏆 Конкурс
Самый оригинальный, интересный и получивший наибольшее количество 👍 диалог получит SberBoom Mini 🔥
Делитесь конкурсом, пробуйте самые разные промпты и в пятницу 22 ноября в 23:59 я подведу итоги и выберу победителя 💪
Кидайте тесты-скриншоты в комментарии (должно быть видно, что это диалог именно с GigaChat)👇