Меня зовут Андрей Кузнецов Руковожу лабораторией FusionBrain в AIRI, один из создателей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87
Генеративный искусственный интеллект должен быть применим к реальным задачам реального бизнеса. Места такого применения ИИ для бизнеса сейчас формируются зачастую на стороне крупных клиентов 👍 Как раз такими проектами занимается Андрей Богомолов, сооснователь GenAI Lab, и рассказывает про них на канале лаборатории. Ребята не собирают лучшие промпты для контент-плана, но зато объясняют методы оценки точности RAG и нюансы разворачивания open-source LLM в контуре.
Контент будет полезен разработчикам, продактам и всем, кто планирует или уже внедряет генеративный ИИ в свои процессы 🤔 Как раз завтра на вебинаре в 19:00 команда расскажет, как сделали ИИ-аватара на базе GPT в формате бота в ВК.
Подписывайтесь и приходите на вебинар!
Хочу пригласить вас на мероприятие Soft Weekend 23 ноября 🥂 организованное моим хорошим другом Андреем Смирновым из X5 Tech. Вся конференция посвящена софт-скиллам, чтобы как можно больше айтишников умели в коммуникации с коллегами и, конечно, с собой!
На конференции будут практические знания о личной эффективности, переговорах, работе с командой и личном бренде айтишника. 14+ спикеров, 8+ полезных часов и много знакомств.
Темы мероприятия:
😎 Харды на максимуме — что дальше?
🤬 Как перестать со всеми ругаться и начать договариваться?
🗺 Карты гипотез в управлении изменениями
И другие!
Приходите перезагрузиться, отрефлексировать этот год и наметить стратегию на следующий.
Приобрести билет со скидкой можно по моему промокоду COMPLETEAI
Как вам темы международного совещания по ИИ 1977 года в Ленинграде? Большая часть является актуальной в современных статьях по мультимодальным и генеративным моделям😅
По ссылке скан приглашения профессора Стэнфорда на мероприятие
Лекции «Лето с AIRI 2024» — в плейлисте в VK Видео 🔥
Выложили записи лекций и семинаров летней школы по искусственному интеллекту «Лето с AIRI» с ведущими исследователями научных организаций и технологических компаний.
📎Сохраняйте ссылку на плейлист
Как пандемия позитивно складывается на некоторых отраслях: с 2020 года 2й альбом уже🤘
11й альбом с приходом нового барабанщика прямо отличным получился!
Запустился второй сезон конкурса Красоты кода — легендарного состязания программистов от Сбера на самый обаятельный и привлекательный код!
В этом сезоне:
⚡️ Пять дисциплин: Frontend, Backend, Mobile, DevOps и AI
⚡️ Три номинации в каждой дисциплине и две общие номинации
⚡️ Призы: iPhone 16, колонка SberBoom и приглашение на оффлайн конференцию HighLoad++ в Москве
Финал на HighLoad++ 2-3 декабря!
Вся-вся информация ✨ вот тут ✨
Я буду экспертом в жюри и верю, что красота спасёт мир 😎
💪Даёшь большие LLM в каждый чайник
На днях группа ученых из MBZUAI и UESTC выложила тех репорт фреймворка TPI-LLM, который позволяет запускать большие LLM на смартфонах значительно быстрее аналогичных фреймворков (на 80-90%). По памяти тоже выбили рекордные 3.1 Gb для модели LLaMA 2-70B. LLaMA 3.1-70B «кушает» уже 11.3 Gb (но кого сейчас это пугает на смартфонах)
👉Код выложили тут
👉Тех репорт на arXiv
1️⃣Начинается первый день основной конференции ECCV’24
Почти 7000 очных участников, 75 воркшопов, 30 демо, 650+ speed mentoring для студентов и много других красивых цифр (а еще очень модный свет)
Больше статистики на фотках☝️
@complete_ai
Из того, что запомнилось особенно за сегодня на ECCV’24 — доклад лидера команды Wayve (которые в том году выпускали статью про свою модель Gaia-1 для генерации видео в стиле видеорегистратора — эдакая модель мира).
Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.
И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут
@complete_ai
Новый рекорд исследователей AIRI в этом году — сразу 17 статей принято на NeurIPS🔥
Поздравляем всех авторов!
Всем привет!
Срочная и классная новость!
Мои коллеги из DeepSchool уже завтра проведут трёхдневный мастер-класс по 3D Computer Vision, где вы сможете научить беспилотную машину ориентироваться в пространстве 🚘
Мастер-класс будет состоять из трёх лекций, они пройдут 17, 18 и 20 сентября (вт, ср и пт).
На лекциях вы:
✔️ научитесь восстанавливать 3D-сцену по данным с камеры и лидара
✔️ узнаете, как ориентировать робота в пространстве
✔️ освоите симулятор Carla для синтеза данных
✔️ поймёте теорию, стоящую за SLAM-алгоритмами
Первая лекция начнётся уже сегодня в 19:00(мск). Не пропустите 💪
Всё подробности и регистрация тут!
Всем привет 🫡
Мои коллеги из DevCrowd проводят исследование рынка специалистов DS/ML/AI, как нынче в этой сфере живётся. Исследование планируется проводить каждый год, чтобы понимать, стало ли житься ещё лучше 😎
Вам нужно только немного рассказать о себе: чем занимаетесь, где учитесь, работаете; и — вуаля — вы внесёте свой маленький вклад в наше общее AI-дело. Исследование поможет сравнить свои ожидания с рынком, построить карьерный план и узнать, что происходит с индустрией в России. Выйдет оно совсем скоро на сайте DevCrowd.
Опрос займёт всего 15 минут!
⚡️Новый релиз лаборатории FusionBrain в конце рабочей недели
Представляем вам Guide-and-Rescale — новый способ редактирования изображений с помощью диффузионных моделей, принятый на Core A* конференцию ECCV 2024! Наш метод позволяет менять объекты на картинке, стиль изображения или эмоции на лице по текстовому описанию, сохраняя структуру и детали, которые не должны меняться.
По ссылкам ниже можно найти демо и код👇
🟢GitHub
🟢Google Colab
🟢Hugging Face
Также мы закинули статью на Daily Papers и надеемся на вашу поддержку🤝
Будем рады вашим отзывам, звёздам и апвоутам! ⭐️
Саму работу читайте на arXiv и на хабре.
За деталями можно залетать в канал Айбека, который как раз руководит научной группой Controllable GenAI в лабе, разработавшей этот подход
⚡⚡⚡Вот и пожаловал релиз Qwen2-VL
https://qwenlm.github.io/blog/qwen2-vl/
Две ключевых фишки подсветили, как и на выступлении на ACL:
1) работа с динамическим разрешением входных изображений (без даунсэмплинга картинок по умолчанию), а энкодер ViT-600M работает как для картинок, так и для видео на входе
2) мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией
We opensource Qwen2-VL-2B and Qwen2-VL-7B with Apache 2.0 license, and we release the API of Qwen2-VL-72B
На днях вышла интересная работа про учёт физики в генеративных text-to-video моделях и вообще возможности называть такие модели «моделями мира». Авторы показывают, что на исключительно на большом объёме наблюдений выучить закономерность модели не могут. Проверяют на законе сохранении энергии, законе инерции и 2м законе Ньютона в задачах на плоскости. Занимательные эксперименты и даже есть код для воспроизведения)
В целом, вопрос достаточно дискуссионный, и я планирую сделать мини обзор подходов к этой задаче в ближайшее время, потому что синтез видео в задачах аугментации или «расширения обзора» полезно и нужно в ряде направлений, особенно в робототехнике и беспилотном автотехе.
Приглашаю всех на второй Большой Семинар AIRI, который пройдет в нашем офисе в Сити. Спикером будет доктор юридических наук и профессор Александр Яковенко.
→ Подробности и регистрация: /channel/airi_research_institute/667
Круто, когда есть под рукой база знаний на случай непредвиденных рабочих ступоров 😔 Рассказываю вам про канал моих коллег из DeepSchool, который понадобится вам в повседневной ML-работе.
Ребята делают обзоры последних технологических статей, рассказывают, как решать различные DL-задачи, напоминают теорию, проводят видео мастер-классы и лекции с внешними специалистами индустрии. ТГ ведёт команда практикующих инженеров и исследователей, они шарят 💪
Канал можно использовать как шпаргалку в рабочих вопросах, поэтому подпишитесь, он вам пригодится 💯
Хочу поделиться IT-папкой с подборкой классных тг-каналов про технологии. Внутри вы найдёте каналы с релизами, аналитикой, инструментами и, конечно, мемами — всё необходимое, чтобы ориентироваться в современном мире.
Сохраните, чтобы быть в курсе всех новостей. Мой канал там тоже есть 👌
Всем привет!
Наверняка среди моих подписчиков есть те, кто интересуется робототехникой и применением ИИ для решения задач планирования и манипуляции. Хочу отдельно подсветить, что у нас сейчас в активной фазе соревнование AIJ Contest, где есть задача Embodied AI.
Там как раз есть 2 задачи в рамках трека. Подключайтесь, чтобы побороться за призовые места💪
-> Ссылка на описание соревнования👇
https://dsworks.ru/champ/aij2024-embodied-ai
-> Чтобы быстрее влететь в сореву, есть вебинар, который мы записывали пару недель назад
https://vk.com/video-22522055_456244521
Помимо ECCV’24 прошлая неделя запомнилась ещё двумя крайне знаменательными событиями:
✅ Один из ключевых исследователей в лаборатории FusionBrain, защитил PhD в Сколтехе. Руководителями работы выступили Александр Панченко и ваш покорный слуга
✅ У нас успешно приняли статью «Kandinsky 3: text-to-image synthesis for multifunctional generative framework» на демо трек Core A* конфы EMNLP’24, которая пройдет в середине ноября в Майями🎉
🏁 Конференция ECCV’24 подошла к концу
За последние дни у меня в основном аккумулировались разные интересные постеры, которые сейчас хочу тематически разложить, сделать в облаке папку и пошарить её всем подписчикам — это будет своего рода персонализированная фильтрация всего того контента, который привлёк моё внимание и близок темам, которыми мы занимаемся в лаборатории:
1) мультимодальность и видео, визуальные энкодеры
2) генерация и редактирование изображений и видео
3) embodied AI, VLM в робототехнике
4) генеративное проектирование в задачах синтеза CAD объектов различных форматов
5) эффективные методы представления визуальной информации (отдельно от самих энкодеров)
Если получится сделать мини семинар с разбором интересных статей и просто обзором конференции, то его тоже распространю всем😉
А пока, предлагаю улыбнуться нескольким забавным постерам и необычным участника, которых я заметил за эти дни☝️
🥇 Экономный исследователь
🥈 «Я-свой-постер-оставлю-навечно-тут»
🥉 «Не жалею краску в плоттере»
Встретились на ECCV’24 с Артёмом @ai_newz
Обсудили развитие GenAI в мире, новые направления исследований, которые привлекают больше всего внимания на конференции и самые обсуждаемые проблемы в генеративном ИИ
Рад очной встрече с Артёмом и тому, что такие мероприятия как ECCV объединяют исследователей со всего мира и создают плодотворную площадку для коммуникации💪
На фотке радостно передаём привет подписчикам наших каналов👋
⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.
Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.
Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪
В комментариях выложу фото избранных слайдов по обоим докладам👇
@complete_ai
🏆Стартует первый этап профиля «Искусственный интеллект» Национальной технологической олимпиады
Задача в этом году посвящена биоразнообразию и устойчивому развитию. Участникам предстоит внести свой вклад в спасение животных: разработать алгоритмы для классификации животных на изображениях, создать системы идентификации и научиться детектить редкие виды. Стать и разработчиком, и биологом, и просто неравнодушным ❤️
Призы для победителей:
✔️ Денежные сертификаты на образование (призовой фонд 4 млн рублей)
✔️ Стажировка в Сбере
✔️ Менторская поддержка от крутых AI-экспертов
✔️ Льготы на поступление в ведущие вузы России
📅 Регистрация открыта до 21 октября. Успевайте!
Все подробности по ссылке
Кейс разрабатывался при участии команды SberAI, ученых Института экологии и эволюции им. А.Н. Северцова и Национального парка «Сайлюгемский».
👨🏫 Век живи — век учись
Сегодня на конференции Practical ML Conf мы провели мастер класс по методам файнтюнинга диффузионных моделей — это чтобы за небольшое время и на малом объёме данных и вычислительных ресурсов сделать из генеративной модели кастомную конфетку😏
Рассказали и показали какими способами можно файнтюнить модели (LoRA, IP Adapter и др.), какие плюсы и минусы у каждого подхода. Всё это проходило в live режиме, и участники могли сами попробовать разные сценарии работы.
📆На следующей неделе мы отдельно проведём запись мастер класса, и я им сразу поделюсь с вами: там будет и про SD, и про Kandinsky😉
А давайте-ка устроим конкурс на ближайшие выходные за самую крутую генерацию😏
🏆Победителя выберем по максимуму положительных реакций в начале следующей недели. В качестве приза устроим персональную экскурсию в Институт AIRI (если вы в Москве), а также задарим мерча (отправим почтой, куда деваться😅)
🖼️Генерировать картинки тут
Ваши прекрасные генерации отправляйте в комментах к этой записи👇
UPD: Присылайте сразу в формате — исходная картинка, текстовый промпт для редактирования и результат
🎉Торжественно завершили Летнюю школу AIRI 2024
Ребята прошли очень напряженный интенсив в части лекционной нагрузки, параллельно прокачивали проекты и сегодня их защищали. Это был крутой путь, выбирать среди представленных 25+ проектов всего 3 лучших было сложно, но мы справились💪
Всем участникам желаю удачи, ПИШ ИТМО большое спасибо за площадку и помощь в организации, ну а мы немного выдохнем, соберём обратную связь, порефлексируем и начнём продумывать Школу в 2025 году!
В следующих постах расскажу про тройку лидеров😉
Всем привет!
29 августа в 18:00 мск я буду на секретно-секретной закрытой встрече сообщества AiConf
На онлайн-встрече будем обсуждать насущное:
✅ Как развивается внутри data science?
✅ Какие интересные прикладные задача стоят перед лидерами индустрии?
✅ Перспективы для senior'ов
✅ Где же всё-таки получать практически навыки?
Участники встречи мои коллеги из Альфа-Банка, Яндекса, МТС и других компаний.
Встреча пройдёт в формате открытой дискуссии, участие бесплатное.
Регистрируйтесь и скоро увидимся 🤝