Меня зовут Андрей Кузнецов Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87 Linkedin: https://tinyurl.com/y96nmmdd
🔥 Сколтех открыл приём заявок на конкурсный отбор в магистратуру!
Отличная новость: теперь можно проходить весь процесс как на английском, так и на русском языках. Учиться и сдавать экзамены на неродном языке бывает сложно, поэтому Сколтех облегчает задачу и даёт возможность выбирать:
🟢Английский язык — всё идёт по привычному сценарию, но плюс к этому вы получаете дополнительные баллы за участие
🟢Русский язык — проходите все этапы отбора на русском, а потом приезжаете в Сколтех на месяц раньше, чтобы подтянуть английский на программе English Bootcamp. Главное условие — ваш уровень языка должен быть не ниже B1, что проверится на финальном этапе
🙂 Решайте сами: хотите получить бонусные баллы и спокойно провести лето или же сначала пройти отбор на своём языке, а затем отправиться на интенсив по английскому? Всё зависит от вас!
Не упустите шанс — начните свой путь в Сколтех уже сегодня!
Можно ли научить модель text-to-video физике?
Решили с коллегами из AI Talent Hub, что будет здорово разобрать статью из поста ранее.
25 декабря в 18:30 разберёмся, можно ли на большом объёме синтетических данных научить модели text-to-video пониманию физики мира? В частных случаях — да, но чтобы построить "модель мира", придется подружиться с дифференцируемыми законами физики.
📕 Статья: How Far is Video Generation from World Model?
Не забудьте про ➡️ регистрацию
Приходите, жду вас!
Новое интервью: Андрей Кузнецов, директор лаборатории FusionBrain в AIRI, один из создателей Kandinsky, кандидат технических наук. Смотрите на YouTube и на VK (76 минут). Помимо разговора об ИИ, обсудили самое главное: куда пойти молодому исследователю и как попасть в команду AIRI. Подписывайтесь на канал Андрея (@complete_ai) и на канал AIRI (@airi_research_institute). #наши
Читать полностью…Фанаты Вайбера, добро пожаловать в телеграм😅
Да здравствуют гифки со стразами и букетами красных роз🙈
Сейчас на AIJ выступает мой коллега — Александр Панов, рассказывает об актуальных задачах в робототехнике
Самый крутой кейс для фундаментальных моделей — применение в реальных задачах реальной жизни. У меня в лаборатории есть отдельная команда, занимающаяся развитием мультимодальных моделей для планирования и манипуляции в робототехнике — FusionBrain.Robotics. С командой Александра мы тесно сотрудничаем в исследовательских задачах по поиску новых архитектур и решений для развития технологий роботов общего назначения.
🔥GigaChat Lite ➡️ Open Source
Велкам тестировать💪
👉Детали на Хабре
🔥Представляю вашему вниманию 3 работы лаборатории FusionBrain, представляемые сейчас на конференции NeurIPS 2024 (одна из самых престижных международных конференций по ИИ) в Канаде.
Всего команды института AIRI представляют рекордные 17 работ на конференции💪
👉На N+1 можно почитать подробнее про другие работы
🅰🅰🅰
Совсем скоро начнётся главная дискуссия на конференции AIJ, которую мы вновь проводим и делимся самыми важными новостями в области ИИ.
Подключайтесь к прямой трансляции в 15.00
🏆В рамках AIJ в этом году моя команда готовила задачу Emotional FusionBrain — участники должны были разработать мультимодальную модель для понимания эмоций, подведения и социального взаимодействия людей на видео.
Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇
https://habr.com/ru/companies/airi/articles/864422/
Новый подарочек от Open AI в 21.00 тут👇
https://www.youtube.com/watch?v=2jKVx2vyZOY
@complete_ai
Уже завтра состоится финальная ИИшница этого года, где исследователи расскажут про свои статьи на NeurIPS 2024 🍳
На онлайн-митапе будут два моих сотрудника:
⚫️Инженер-исследователь Robotics Антон Антонов с RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation — методом интерактивной сегментации для реалистичной оценки скорости и робастности аннотирования. Метод основан на оригинальной модели кликабельности, которая генерирует реалистичные клики аннотаторов. Исследование показало, что не существует одновременно оптимального метода с точки зрения скорости и робастности разметки.
⚫️Младший научный сотрудник Controllable Generative AI Максим Николаев с HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach — методе для редактирования причёсок на фотографиях. Метод основан на использовании пространства StyleGAN и набора предобученных энкодеров, что обеспечивает высокую скорость работы. HairFastGAN превосходит аналоги как по качеству переноса причёсок, так и по скорости исполнения, включая самые сложные случаи.
Подробнее об ИИшнице ➡️ тут.
Исследователи из лаборатории «Сильный ИИ в медицине» и лаборатории FusionBrain AIRI вошли в топ-5 соревнования MIDRC XAI Challenge 🔥
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
📎Подробнее об участии в конкурсе команда рассказала в свежей статье на нашем Хабре.
За миром технологий можно наблюдать через конкретных инфлюенсеров и фаундеров, как и в любой сфере 😑
У вас может быть сто тысяч подписок “новости AI обо всём и всех”, но из них лучше оставить 2-3 годных. Информация часто дублируется, плюс, если вы джун, то не будете понимать насколько та или иная модель “прорывная” под капотом, какое влияние она окажет на рынок, а также, что происходит в конкретных областях ИИ (от роботехники до маркетинга). Полезно сохранить несколько лидеров мнений, которые будут держать в курсе новых решений, расскажут об ошибках, предложат новые гипотезы.
Например, по тематике “ИИ в бизнесе” рекомендую забрать папку с 11 фаундерами👇
🔗 Папка
Возможно, вы уже с кем-то знакомы!
📝 Поделитесь в комментариях: за кем следите вы из наших или зарубежных фаундеров и учёных в сфере технологий?
⚡️⚡️⚡️Несколько часов назад Qwen анонсировали QvQ-72B-Preview — первую open source мультимодальную модель с ризонингом (умеет итеративно «размышлять/рассуждать» и двигаться в сторону правильного ответа)
Сами авторы говорят, что модель в стадии preview и может «тупить», но так или иначе метрики очень крутые. Ключевые проблемы:
📍Модель может миксовать языки при ответах
📍Модель может зацикливаться в рассуждениях, не приближаясь к правильному выводу
📍Требуется дополнительный уровень безопасности и “любимого” alignment
📍В ходе рассуждений модель может утратить внимание на входную картинку и начать галлюцинировать
Ещё детали и примеры в блоге👇
https://qwenlm.github.io/blog/qvq-72b-preview/
P.S. Так или иначе — we made a new step to AGI💪
@complete_ai
Международный научный комитет собирает предложения по задачам для IOAI 2025 (международная олимпиада школьников по искусственному интеллекту)
Приглашаю вас, подписчики, составить техническое задание для учеников старших классов. Задание должно быть оригинальным, не слишком лёгким (без универсальных методов решения) и быстрым! В процессе работы ученики должны приобрести новые, полезные навыки. Ваша задача — вдохновить молодое поколение учиться 🙂
Лучших авторов пригласят на олимпиаду в Китай в 2025 году!
📌 Дедлайн: 31 января 2025.
Больше информации от организаторов ➡️ тут
Ваша задача может стать частью истории и мотивировать будущих AI-исследователей!
А теперь подробнее о новинках от команды GigaTeam. Помимо выхода в Open Source GigaChat Lite, разработчики также поделились моделями GigaEmbeddings и GigaAMv2.
Решил выделить ключевые моменты:
🔹 GigaChat Lite — первая по-настоящему российская open-source модель. Это не просто локализованное решение: в отличие от «натюненных» моделей из других стран. Она надежна, стабильна и не зависит от внешних ограничений. Компактная и при этом невероятно эффективная, GigaChat Lite обеспечивает тот самый баланс между производительностью и затратами по времени. Иными словами — одно из лучших решений для тех, кто ценит скорость и точность.
🔹 GigaEmbeddings — модель эмбеддингов для RAG, классификации и других задач. По производительности она заметно превосходит аналоги, такие как E5. На тестах RAG демонстрирует прирост до 15% в абсолютном качестве.
🔹 GigaAMv2 — новая версия модели распознавания речи, признанная лучшей в России. Эта технология представляет собой революцию в работе с аудиоданными, обеспечивая высочайшую точность. Кроме того, поддерживается дообучение и использование современных видеокарт, что значительно ускоряет обработку запросов.
Потрогать каждую из них можно по ссылке. 😉
@complete_ai
Конференция AI Journey 2024 завершилась😁
Записи докладов исследователей AIRI уже можно посмотреть по ссылке.
До встречи в следующем году! #AIRIзация
Один из мастодонтов искусственного интеллекта, Александр Николаевич Горбань, сейчас выступает на AIJ
Рекомендую послушать классика💪
⚡⚡⚡Выпустили Хабр в формате technical report про новую модель синтеза видео и аудио — Kandinsky 4.0
Приглашаю изучить и готов ответить все вопросы😉
👉 Хабр
📺 Прикольные генерации и некоторые детали можно также посмотреть тут
@complete_ai
🎧 АйЛетов - Маленькая страна (AI Cover на Н. Королёва)
• Автор
@aiaiai
Новый релиз модели синтеза и обработки видео — Sora🎥
Читать полностью…Я тут иногда на канале буду размещать интересные вакансии от наших партнёров и моих знакомых коллег.
Компания EKSLi, специализирующаяся на автоматизации промышленности, в поисках разработчика и team lead С++. Вакансия для тех, кому хочется участвовать в создании социально/экономически важных проектов и стать частью наукоёмкого, взлетающего стартапа.
Обязанности:
🔹Выстроить стратегию развития стека, разработать внутренние алгоритмы и бизнес логику всей системы
🔹Сформировать команду, руководить группой разработки системы сепаратора и периферийных микросервисов
🔹Поддерживать и модернизировать уже существующее ПО
🔹Прорабатывать функциональные спецификации, формировать и согласовывать техническую документацию
🔹Управлять развитием команды, формировать пул HiPo
Важно:
🔹Управленческий опыт
🔹Опыт работы от 3-х лет на позиции Senior/ Team Lead C++, базовое знание Python
🔹Опыт разработки архитектуры высоконагруженных систем на C++ и построения сложных программных продуктов
🔹Уверенное знание принципов работы ОС Linux
Преимуществом будет:
🔹Опыт в области робототехники или создания оптических сепараторов
🔹Опыт работы с Jetson, Cuda, Docker, Gitlab CI/CD, OpenTelemetry, gRPC, REST API
Пишите в личку или на почту HRD:
l.kuznetsova@eksli.com
@Liubov_ku
Подробнее о вакансии тут.
Награда в виде SberBoom Mini 2 сегодня нашла своего нового владельца — победителя конкурса! С чем я его ещё раз поздравляю и желаю приятного пользования💪
В следующем году будем чаще практиковать конкурсы🏆
Сегодня закончили трехдневную научную отчетную сессию AIRI, на которой исследователи, от младших научных сотрудников до директоров лабораторий, поделились итогами работы за этот год и планами на следующий. За 3 дня мы прослушали 45 докладов и обсудили 159 постеров.
Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
☝️Метрики и детали в большом техническом отчете
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon?
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет сегодня — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
Т - триллион😊