Меня зовут Андрей Кузнецов Руковожу лабораторией FusionBrain в AIRI, один из создателей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87
Ведем прямой репортаж с конференции EACL 2024, которая проходит сейчас на Мальте ⤵️
⚫️Кандидат технических наук, руководитель группы FusionBrain Андрей Кузнецов и научный сотрудник Антон Разжигав приехали на конференцию со статьей "The Shape of Learning: Anisotropy and Intrinsic Dimensions
in Transformer-Based Models", которую подготовили с коллегами из Сколтеха, Сбера, МГУ, ВШЭ и Самарского университета. Краткий обзор можно посмотреть в канале у Антона.
⚫️Вчера прошел интересный пленарный доклад от Hongning Wang из Tsinghua University "Human vs Generative AI in Content Creation Competition: Symbiosis or Conflict" о проблеме «борьбы» человека и генеративного ИИ. Делимся кратким обзором от Андрея Кузнецова: исследователи в команде разработали фреймворк для симуляции различных соревнований в области креативного искусства. Они моделировали поведение человека, который использует нейросети при участии в творческих соревнованиях. Например, таких как конкурс художников "State Fair Fine Arts Competition", на котором в 2023 году победила созданная нейросетью картина. В симуляционных экспериментах показано, как креаторы ведут себя во время разных типов соревнований. Такие эксперименты в целом дают понять, что в недалёком будущем использование генеративного контента может преобладать над ручным творчеством, а желание адаптироваться и учиться применять генеративные модели будет только расти.
Скоро расскажем про исследование на Хабре, подписывайтесь, чтобы не пропустить 🔖
С 13 по 15 марта в павильоне Сбера на ВДНХ будут походить Дни AI, приуроченные к «Дню искусственного интеллекта».
Ну и собственно 13 марта(среда) в программе Лектория в павильоне с 12:00 до 15:30 запланированы лекции о различных технологиях AI, которыми плотно занимаются команды AIRI, Sber AI и др. подразделения:
⁃ Что такое Generative AI
⁃ AI для устойчивого развития
⁃ Как AI поможет улучшить нашу речь и навыки публичных выступлений
⁃ Как научить AI слышать, видеть и понимать текст
Приходите, будет интересно)
Вход бесплатный
⚡⚡⚡Anthropic сегодня анонсировал новую линейку мультимодальных моделей Claude 3
https://www.anthropic.com/news/claude-3-family
По дефолту длина контекста 200K токенов, но может быть 1М для "особых случаев"
Всего 3 модели:
1) Haiku — самая быстрая и компактная
2) Sonnet — сбалансированная модель, для энтерпрайза
3) Opus — самая умная, human-like understanding
@complete_ai
ℹ️ И снова небольшое объявление)
Мои друзья и коллеги из центра ИИ в Самарском университете ищут DL инженера с возможностью удалённой работы.
💼 В приложенном PDF описание вакансии
📟 По всем вопросам обращайтесь к заместителю директора центра — Юлии Выборновой @yuliyavybornova
⚡⚡⚡Вот и статья про Sora пожаловала "от OpenAI"
(А точнее от Lehigh University и Microsoft Research)
Сделать разбор статьи о том, что внутри?
PDF
@complete_ai
⚡⚡⚡OpenAI снова всех удивляет
Выпустили модель text2video под названием Sora. Качество потрясающее - фотореалистичность в полной мере. В основе комбо из диффузии и трансформера.
Ждём статью, но интуитивно есть представление, как добились такого.
https://openai.com/sora
@complete_ai
Добавлю немного научного вдохновения вам на выходные) Делюсь отчетом нашего Института AIRI за 2023 год.
За прошедший год в нашем портфолио сформировался целый ряд крупных научных результатов по фундаментальным и прикладным аспектам AI.
От себя еще хочу добавить, что в этом году мы продолжаем активно развивать партнерства и стремиться к лидерству по числу публикаций на конференциях A/A*.
🐉С Новым 2024м годом!!!
By Kandinsky
📌Давайте в комментариях к сообщению добавлять самые лучшие ваши генерации на новогоднюю тематику. Очень люблю ваше творчество!
🎉🎄2023 год подходит к своему завершению, и я считаю его супер успешным как для команды в целом, так и для себя лично. За год было больше 50 различных мероприятий, где я принимал участие в роли спикера, было много релизов, 5 из которых, на мой взгляд, были очень громкими:
Kandinsky 2.1, Kandinsky 2.2, Kandinsky 3.0, Kandinsky Video, OmniFusion.
Мы опубликовали больше 10 научных статей, среди которых есть и статья в Q1, и публикация в Core A* конференции. Сформировали новые направления исследований и уже получили в рамках них определённые значимые результаты, провели несколько соревнований, организовали стабильное партнёрство с зарубежными и российскими командами.
Все эти и многие другие достижения — результат упорного труда всей команды, каждого её участника. Хочу выразить благодарность каждому персонально и пожелать новых прорывных результатов в 2024 году, задел для этого уже есть достаточно большой.
Результат этого года уже можно назвать вызовом для следующего, потому что планку снижать точно нельзя, а для роста ещё есть огромный потенциал.
Всем ещё раз спасибо и всех благ в 2024м году!
P.S. Спасибо и тебе, 2023й — ты был крут🏆🔥
@complete_ai
⚡️Сколько раз меня спрашивали в этом году: а что если нейросеть сгенерирует «не то», а можно ли результаты генерации присвоить себе, а кто автор созданного объекта и т.д.?
Где-то говорил, что знал от коллег юристов, где-то аккуратно обходил тему… И вот наконец нашёл человека, который поможет разобраться в этих острых и наболевших вопросах ⬇️
@NeironkiIPravo - канал про развитие правовых аспектов ИИ в России и мире
🔍Канал ведет дипломированный юрист в области цифрового права, увлеченный темой цифровизации бизнеса. Если вы заинтересованы в последних тенденциях искусственного интеллекта и его правовом регулировании, то вам точно сюда надо подписаться😉
🔍Информация будет полезна как физ, так и юр лицам!
📈 Подписывайтесь на @NeironkiIPravo и получайте ответы на все вопросы, касающиеся ИИ и права!
🔍Довольно неплохая вышла инфографика про существующие LLM и их число параметров
Исходник
Таблица с параметрами
@complete_ai
Добавлю вам новогодней и Рождественской тематики из Сингапура🎄
Читать полностью…✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
Гугл представил Gemini — семейство мультимодальных моделей
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
⚡⚡⚡Stability AI зарелизили модель синтеза 3D на базе своей же модели синтеза видео — Stable Video 3D
- умеет синтезировать orbital 3D по картинке объекта
- может генерировать произвольные пролёты камеры вокруг объектов (camera path conditioning)
- на выходе может создавать меши объектов
Итого сценарий: входная картинка -> видео (синтез новых положений объекта, novel view synthesis) -> 3D mesh (3D оптимизация)
Тех репорт
GitHub
@complete_ai
❓А что если SORA - это в первую очередь не синтез видео по тексту, а синтез трёхмерных сцен, которые потом просто превращены в облёт камерой?
Небольшую заметку тут нашёл
https://arxiv.org/abs/2402.17403
Что думаете?
Всем привет!
Завтра выступаю в Сириусе на Всемирном Фестивале Молодёжи👨🏫
Расскажу про мультимодальные модели и мультиагентные подходы к взаимодействию языковых моделей
ℹ️Приходите к 12.00 в павильон Сбера, будет интересно!
Программа
ℹ️ В рамках воркшопа на конференции СLEF 2024 мои коллеги проводят соревнование по извлечению вложенных именованных сущностей в биомедицинском домене.
Соревнование проводится на корпусе английских и русских медицинских текстов.
Регистрация
Все подробности в гите. По возникающим вопросам можно писать Вере @veranchos
⏳Mistral-next на подходе
Link
Затаились в ожидании
Вчера мы в AIRI запустили флешмоб, в рамках которого учёные рассказывают про свои первые публикации. Вот и я решил окунуться в прошлое и вспомнить, с чего начал я свой путь в науке и компьютерном зрении.
Первая моя статья вышла в 2008 году в Вестнике Самарского государственного аэрокосмического университета и была посвящена анализу изображений радужки с использованием преобразования Радона. Я был на 3м курсе и незадолго до написания статьи был увлечён рассказом своего первого научного руководителя Александра Викторовича Куприянова (ныне д.т.н., директор Института информатики и кибернетики Самарского университета) о проводимых исследованиях в области анализа цифровых изображений. Я стал понемногу погружаться в мир цифровой обработки сигналов, узнал о возможных применения таких разработок в разных доменах, в том числе медицинском, и достаточно быстро втянулся в исследования. Хотелось найти в области анализа радужных оболочек что-то очень интересное, ведь их структура при ближайшем рассмотрении выглядит завораживающе.
Читая сейчас свою первую работу, я, конечно, гляжу на неё совсем другим взглядом, но в памяти всплывают моменты, как я строил графики и генерировал к ней иллюстрации. Довольно приятные и ностальгически-душевные воспоминания)
В статье я исследовал различные механизмы извлечения признаков в полярной развёртке радужек с помощью преобразования Радона и искал способы эффективного признакового представления в различных цветовых пространствах.
Дальше мои исследования в этой области далеко не пошли, медицинский домен в то время меня вероятно не сильно интересовал. Следующим этапом в карьере в компьютерном зрении стали данные дистанционного зондирования Земли, и вот задачи их анализа захватили меня на 10+ лет🗺️ — но это уже совсем другая история)
P.S. Ещё раз хотел бы поблагодарить своего первого научного наставника Куприянова А.В. за этот стартовый "научный капитал"🤝
#AIRI_вдохновляет
☕️Первая коллаборация в 2024 году
Императорский Фарфоровый Завод создал коллекцию кружек с рисунками, сгенерированными Kandinsky.
Теперь можно пить чай и держать в руках кусочек AI
Новость
P.S. Скоро вернусь с большими апдейтами и новыми обзорами😉
🎉🎉🎉С Новым годом, дорогие подписчики! Спасибо, тем, кто уже был со мной в 2023 и тем, кто присоединился)
Буду дальше радовать вас новым контентом, будет ещё интереснее!
Здоровья вам и успехов во всём! Пусть все желания сбудутся!
Стартуем!🐉
⚡️Стал одним из 5 лучших исследователей года в Сбере
Напряжённый год, мало сна, много задач и выступлений, но результату персональному и команды очень рад🍾
Чуть позже хочу оформить рефлексию с результатами года, постараюсь успеть в этом году - объективно результативность выдалась мощнейшая🙏
⚡⚡⚡Важная новость!
Начинаю поиск middle и senior исследователей на следующие треки:
1) мультимодальные архитектуры — добавление новых модальностей для расширения возможностей языковых моделей, разработка специфических энкодеров
2) генеративный ИИ — синтез мультимедийных данных по различным условиям: текст, набор каких-либо параметров, инструктивные задачи video/image editing
3) reinforcement learning в прикладной области (RLHF, задачи робототехники и т.д.)
4) задачи компьютерного зрения — face/head swap, стилизация видео, повышение разрешения изображений/видео и др.
5) опыт обучения больших моделей с использованием технологий PyTorch Lightning, DeepSpeed и тд.
❗❗❗
1) Важно иметь опыт в указанных направлениях (1-3+ лет)
2) Идеально будет наличие публикаций в журналах Q1, конференциях A/A*
3) Наличие степени/PhD будет плюсом
💥Свои CV можно присылать мне в ЛС (@kuznetsoff87) и в ближайшее время будем начинать серию собеседований. Там же отвечу на все вопросы, ответы на самые частые вопросы выложу в этот пост в формате апдейта.
Буду благодарен за репост🙏
UPD: Найм в AIRI и Sber AI
@complete_ai
📽️На днях выложили записи выступлений на YaTalks 2023, делюсь с вами ссылками на своё выступление и в целом на плейлист докладов с конференции — все очень интересные и рекомендуются к просмотру холодными зимними вечерами🎄
📌Сильный ИИ - миф или уже реальность?
📌Все доклады
⚡️Мы снова в списке Daily Papers на Hugging Face (за 7 декабря 2023)
В этот раз с техническим отчетом по нашей новой модели text-to-image Kandinsky 3.0. Там внутрянка об архитектуре, отличия от прошлых версий, количественные и качественные результаты.
Приглашаю всех ознакомиться со статьёй и поддержать её upvote голосами на платформе по ссылке ниже🙏
📌Ссылка
С некоторым запозданием возвращаюсь к рассказу о поездке в Гуанчжоу. Добирался туда на скоростном поезде из Шеньчженя, поэтому путь в 140 км занял около 30 минут.
По приезде первая задача была найти такси и тут всё очень интересно: есть официальные такси, есть «бомбилы», которые дерут деньги и которых гоняют полицейские очень сурово. А в обычное такси ты должен просто отстоять в живой очереди из пассажиров - эдакий матчинг двух бесконечных очередей: люди и машины.
Заселился в 4 seasons по промо стоимости, и это было лучшее место, в котором я бывал в командировках. Чтобы повысить КПД от поездки, по приезде сразу пошли изучать достопримечательности.
Отправились в Canton Tower - телебашня высотой 604 м, в которой много разных точек обзора. Мы там взяли полный билет и прошли все доступные уровни для наблюдения) А на верхушке установлен самый высокий аттракцион для свободного падения.🎢
📋Из особенностей - передвигаться пешком практически невозможно, везде очень много скутеров, которые едут по тротуарам наравне со всеми) Ощущения безопасности нет от слова совсем. С англ языком такие же проблемы - почти никто его не понимает. В остальном - гигантский суперсовременный и красивый город!
Подводя итог: новые впечатления от еще одного города Китая. Рекомендую всем, кто планирует побывать в этой стране, заехать в этот город. Фото по написанному прилагаю😉 На этом путь по Китаю в этом году завершён) Далее - Сингапур🇸🇬
Наша модель OmniFusion на базе Mistral 7B справляется не хуже новой Gemini💪
Читать полностью…⚡️⚡️⚡️Барабанная дробь!
А вот и первый зимний подарочек от наших команд - приложение для работы с Kandinsky доступно в AppStore👨💻
✅Скачивайте скорее fusionbrain.ai и пользуйтесь широким спектром возможностей генеративных моделей!
По традиции все замечания и предложения пишите в комментариях к посту, и они сразу же горяченькие попадут к разрабам!
P.S. Пока из функций только генерация изображений, но скоро довезём весь функционал веб-сервиса fusionbrain.ai
@complete_ai