Канал команды RND CV. Repo: https://github.com/ai-forever/ Результаты, факапы, мысли и идеи в Computer Vision и не только.
Уже сегодня в 11:00 стартует Data Fest 2025 в сердце Сбера на Кутузовском 💚
Подробная программа: по ссылке
Подключиться в онлайн:
Ссылка на Main Stage
Ссылка на AI Disrupt Stage
Ссылка на ODS VK Видео стрим
Приходите! 🦜
Новая SignGemma от Google
Google продолжает идти в интересные специализированные версии Gemma: они анонсировали модель SignGemma специально для высокоточного перевода с языка жестов.
Автоматизировать перевод с жестов – это достаточно сложная задача, потому что люди жестикулируют очень быстро и все по-своему + мимика, в том числе мелкая и сложно уловимая, тоже имеет значение.
Какой точности добились в Google – пока не заявляют, но сама их политика тюнинга моделей под подобные задачи не может не радовать. Обещают, что модель появится уже скоро (ну и будет опенсорсной, как и все геммы).
Если у вас есть соответствующий научный интерес или квалификация, можно даже подать заявку на раннее тестирование
📝 Senior NLP/PLP Engineer в команде GigaCode
📝 О продукте:
Мы — команда GigaCode, разрабатываем AI-ассистента для разработчиков, который конкурирует с Copilot и TabNine. Наш продукт сочетает передовые технологии NLP и PLP (Programming Language Processing), включая претрейн моделей, SFT/DPO/PPO, RAG, ускорение инференса, генерацию тестов и мультиагентность. Подробнее: https://gigacode.ru/
👥 О команде:
Мы — исследователи и инженеры, работаем на мощном кластере Кристофари с полной свободой в использовании GPU. Наша цель — создавать прорывные решения и внедрять их в продакшн.
👁Обязанности:
— Дизайн экспериментов и генерация гипотез для улучшения моделей.
— Обучение моделей с нуля и дообучение opensource-решений.
— Анализ SOTA-статей, предложение новых подходов.
— Интеграция моделей в продукт (вместе с командой SberWorks).
— Менторинг стажеров и младших коллег.
🔍 Требования:
— Глубокие знания в DL/NLP/трансформерах.
— Опыт обучения моделей (PyTorch, Hugging Face, Deepspeed, FSDP).
— Умение проводить исследования с научной строгостью.
— Публикации или участие в соревнованиях (Kaggle, лидерборды) — будет плюсом.
➕ Будет преимуществом:
— Опыт управления командой.
— Сабмиты на конференциях уровня A/A*.
— Работа с кластерами и распределенным обучением.
От нас:
➕ отсутствие проблем с вычислительными мощностями
🏙 удаленка или современный agile-офис по желанию
💊 ДМС, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, бесплатная парковка
💰 конкурентная зарплата!
Откликайтесь:
По вопросам вакансии пишите @LubovGer
В сообщении укажите, на какую позицию откликаетесь.
#job #hr #gigacode #ai #nlp
7 мая — день Радио. 📻
Админ канала @hukenovs однажды запилил большой бесплатный курс по цифровой обработке сигналов с примерами на python. 📡
Список лекций: 📖
— Сигналы: аналоговые, дискретные, цифровые. Z-преобразование,
— Преобразование Фурье: амплитудный и фазовый спектр сигнала, ДПФ и БПФ,
— Свертка и корреляция. Линейная и циклическая свертка. Быстрая свёртка
— Случайные процессы. Белый шум. Функция плотности вероятностей
— Детерминированные сигналы. Модуляция: АМ, ЧМ, ФМ, ЛЧМ. Манипуляция
— Фильтрация сигналов: БИХ, КИХ фильтры
— Оконная фильтрация. Детектирование слабых сигналов с помощью наложения окна,
— Ресемплинг: децимация и интерполяция. CIC-фильтры, фильтры скользящего среднего
— Непараметрические методы спектрального анализа
— Полифазные схемы преобразования Фурье — усреднение по частоте и по времени
— Банки фильтров в задачах аудиокодирования
— Фильтры Фарроу
— Мел-спектрограммы
— Кепстр и MFCC
— Вейвлет-преобразование
— Алгоритм Герцеля
В создании материалов принимали участие @karinakvanchiani @lizaforlizard и @vhs_glitch 💪
Для всех желающих курс доступен на гитхабе.
Предложения и замечания принимаются.
Stay discrete and quantized! 📶
Ты кто? Конь в пальто!🐴 + 🧥 = ⚡️
Команда Layer активно работает над очень амбициозной задачей в рамках проекта мультимодального GigaChat 😎 — инструктивное редактирование изображений, под кодовым названием Malvina.
В отличие от многих популярных релизов или решений из статей в задаче img2img, подход Malvina направлен на точное и строгое редактирование заданных областей, не меняя остальное изображения (даже частично!). 🤯
Ребята подготовили крутую статью про то, как это все работает и какие архитектурные решения сейчас используются в мультимодальных сценариях. Это первая статья из цикла, дальше — больше! 💪
На скриншоте для этого поста показано сравнение редактирований разных моделей (спойлер: так выглядит Максим Купрашевич, тимлид команды Layer)
P.S. конь в посте потерялся — ищите его на хабре :)
Привет, друзья!
Я участвую в Программном комитете AiConf Х 2025 — прикладной технической конференции по data science.
Сейчас мы в поисках спикеров и докладов на темы:
📊 RecSys, поиск, таблицы.
🖼 GenAI: генерация и распознавание текстов, музыки, изображение, видео, 2D/3D.
🖥 ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.
🤖 Automotive, роботы.
🖥 Данные, краудсорсинг, синтетика и бенчмарки.
Особое внимание мы уделим практическим форматам: мастер-классам, воркшопам, круглым столам и т.д. Если у вас есть интересная тема, но ее нет среди предложенных, все равно подавайте заявку, мы ждем крутые доклады🔥
10 апреля в 17:00, мы приглашаем вас на онлайн-встречу с ПК. Обсудим потенциально интересные темы конференции и ответим на вопросы.
Для участия необходимо зарегистрироваться.
by @hukenovs
#conference #ml
💸 Вакансия!
Ищем инфраструктурного менеджера в большую исследовательскую ML-команду.
Инфраструктурный менеджер в RnD
🛠Обязанности
— собирать, планировать и оценивать потребность в инфраструктуре для 10+ исследовательских ML-команд
— осуществлять распределение и контроль за выделенными мощностями, следить за утилизацией
— взаимодействовать с командами по вопросам распределения и утилизации выделенных серверных квот
— взаимодействовать со смежными подразделениями компании в рамках инфраструктурных вопросов
— настраивать дашборды и аналитику по выделенным ресурсам
— осуществлять работу с заявками на выделение ресурсов, обеспечение необходимых доступов и прав для сотрудников команд.
👨💻Требования
— опыт работы с технологически сложными сервисами (AI, ML)
— имеете широкий кругозор в области ML
— способны собрать, структурировать и проанализировать большие объёмы информации
➕Будет плюсом, если вы:
— имеете опыт разработки/devOps
— базово владеете языками программирования
— работали в ML-проектах.
По вопросам найма: @olkaa_aa
#job #hr
UPDATE: Кандидат найден
Нерегулярная рубрика пятничных мемасов из области CV
#meme #shitpost #cv
😍 HaGRIDv2-1M – 1 МИЛЛИОН изображений для распознавания жестов!
В 2022 году мы представили HaGRID – самый полный на тот момент датасет для обучения моделей жестового управления. Он быстро завоевал популярность, стал основой множества исследований и использовался не только в задачах детекции жестов, но и в генерации анатомически корректных рук с text-to-image моделей.
Сегодня мы представляем HaGRIDv2-1M – расширенную версию датасета с более чем 1 МИЛЛИОНОМ изображений и новым алгоритмом распознавания динамических жестов. Теперь система способна в реальном времени определять свайпы, клики, zoom, drag-n-drop, значительно расширяя возможности жестового управления!
🚀 Что нового?
🔹 15 новых жестов – разговорные («holy», «heart», «gun») и контролирующие («thumb index», «grip», «point» и др.), включая двуручные жесты, такие как «timeout», «take photo» и «xsign», для более гибкого и естественного взаимодействия.
🔹 Алгоритм динамических жестов – поддержка swipe, click, zoom, drag-n-drop без обучения на видео. Алгоритм настолько быстрый, а модели такие компактные, что позволяют распознавать динамические жесты в реальном времени без использования GPU!
🔹 Расширенный класс "no gesture" – больше естественных положений рук — в 16 раз меньше ложных срабатываний.
📊 Эксперименты и результаты
Мы провели сравнение HaGRIDv2-1M с другими датасетами и протестировали его не только в задачах детекции рук и жестов, но и для дообучения моделей text-to-image генерации.
✔️ Лучшая обобщающая способность в cross-dataset evaluation.
✔️ В 16 раз меньше ложных срабатываний на "no gesture" по сравнению с первой версией.
✔️ Идеален для предобучения – модели, обученные на HaGRIDv2-1M, показывают высокие метрики, что делает этот датасет мощной основой для разработки жестовых интерфейсов.
✔️ Дообучение Stable Diffusion на HaGRIDv2-1M улучшило генерацию рук, повысив анатомическую точность.
🖇Ссылки
💻HaGRIDv2-1M
💻Dynamic Gesture Recognition
📖 Статья
🖥 Пост на Habr
👥 Авторы: @drshellycooper @nagadit @AlexS_340 @hukenovs @karinakvanchiani
Будем рады получить ваш фидбек!
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
@complete_ai
Всем привет!
Обзор методов редактирования SVG. Часть 2
2 статьи о методах text2vector генерации, способных на редактирование в качестве бонуса (1я часть о методах редактирования по промпту тут)
💮 IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers
Авторы представляют новый способ токенизации SVG кода и применяют авторегрессионную трансформерную модель для его генерации (см. картинку 1).
Особое внимание авторы уделяют обучению такой модели не только на next token prediction, но и на fill-in-the-middle задачу — грамотно маскируя определенные пути в коде, модель учится дополнять уже нарисованные примитивы (см. картинку 2).
Благодаря fill-in-the-middle как раз и происходит возможность редактирования в качестве бонуса — меняя определенные пути, можно по-разному редактировать SVG изображение. Кроме того, встроенная в редактор SVG кода модель может предлагать дизайнеру дорисовать его работу, что упрощает процесс создания уникальных векторных изображений.
Авторы сравнивают предложенный метод с моделями BERT и DeepSVG+GAN, получая очень высокие метрики (см. картинку 3).
📄 ArXiv
💾 Project
💮 Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models
Пайплайн разделен на несколько частей (см. картинку 4):
1. Template Generation. Авторы используют LLM для генерации SVG и уточнения деталей. Для этого они представляют набор очень подробных промптов, которые описывают не только детали изображения, но и добавляют в сгенерированный SVG код семантические пояснения к каждому SVG примитиву. Таким образом, за несколько итераций авторы строят шаблон таргетного SVG кода.
2. Detail Enchancement. SDEdit и ControlNet используются для уточнения деталей картинки в соответствии с таргетным изображением.
3. Latent & Point Optimization. Используя предобученную SVG VAE, дифференцируемый растеризатор и множество различных лоссов, авторы уточняют сначала формы и атрибуты путей в SVG коде с помощью Latent Optimization, а после добавляют деталей с помощью Point Optimization.
В итоге полученный метод text2vector обходит всех конкурентов (см. картинку 5).
Благодаря тому, что LLM генерирует код с семантическими комментариями к каждому примитиву, она может легко понять, какой путь за что отвечает, и впоследствии редактировать их. На картинке 6 видно, что метод меняет только часть путей, оставляя без изменений остальной SVG код.
📄 ArXiv
💾 GitHub
😎 Обзор подготовил Нуждин Антон @drshellycooper
Qwen2.5-VL Technical Report (Part 2)
🏞Данные
Все просто — фильтрация данных, создание собственной синтетики. Датасет претрейна расширен с 1.2Т токенов до 4.1Т.
Особое внимание уделяют конвейеру создания качественных interleaved text-image датасетов, поскольку существующие решения слишком шумные, либо не задают адекватных соответствий изображения и текста.
Пайплайн состоит из двух этапов: стандартная очистка датасета в 4 стадии:
(1) оценка текстового качества
(2) релевантность изображения и текста — более высокий балл получают изображения, которые лучше связаны с описывающим текстом
(3) взаимодополняемость изображения и текста — высокую оценку получает связка изображение-текст, которые лучше дополняют друг друга
(4) баланс полезной информации — эта стадия призвана отфильтровать мусорное и излишнее описание изображений.
Для groudning и counting разработаны собственные пайплайны синтетики, включая различные алгоритмы аугментации (copy-paste) и модели DINO и SAM. Датасет локализации содержит 10K+ категорий.
В задачах Doc/OCR также использует большой объем синтетики текстов, диаграмм, графиков, формул на разных языках, включая французский, немецкий, итальянский, испанский, португальский, арабский, русский, японский, корейский и вьетнамский. Для синтетики диаграмм использовался matplotlib и seaborn, и было создано ≈1М семплов. Для таблиц обработано ≈6М семплов.
Для анализа видео использовался подход динамического семплирования кадров, а для видео длительностью более 30 мин. были специально созданы длинные субтитры специальным пайплайном синтетики.
📈Метрики
Модель доступна в 3 вариантах. Qwen2.5-VL-72B показывает результаты не хуже GPT-4o и Claude 3.5 Sonnet, и превосходит их на бенчах математики (MathVista, MATH-Vision, MathVerse), бенчмарках OCR (DocVQA, InfoVQA, SEED-Bench-2-Plus, OCRBench), а также на MMBench-EN, MMStar и др. В видео опережает конкурентов на MVBench, LVBench, PerceptionTest, MVLU, TempCompass, в частности в задаче video grounding на Charades-STA.
Модель показывает крутые результаты на GUI-агентных бенчах: ScreenSpot Pro, Android Control, AndroidWorld, MobileMiniWob.
(см. Table 3-9)
Ссылки
🤗 HF
💻 Repo
😎 Обзор подготовил Капитанов Александр @hukenovs
В декабре прошлого года в рамках конференции HighLoad++ провели панельную дискуссию на тему "Искусственный vs естественный интеллект в задачах разметки" вместе с коллегами: Александр Капитанов (автор этого канала и член ПК), Евгений Россинский (IVI), Евгений Макаров (Ozon), Роман Куцев @Roma_Data (llmarena.ru), Дмитрий Антипов (Сбер/АБТ), Дмитрий Пименов (Yandex). Поговорили о будущем разметки и разметчиков в эпоху LLM и фаундейшен моделей.
🎉 А уже в этом году мы открываем прием заявок на прикладную конференцию по Data Science — AIConf и на ML-трек конференции Saint HighLoad 2025.
🤖 AI Conf пройдет 26 сентября в Москве, а заявки принимаются до 25 апреля.
🌅 Saint HighLoad пройдет 23-24 июня в Санкт-Петербурге, а заявки принимаются до 23 февраля.
Примерный список тем (но не ограничивается):
📊 RecSys, поиск, table data
🎨 Генеративный AI: генерация и распознавание текстов, музыки, изображений, видео и 3D
👾 ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.
🦾 Automotive и роботы
➗ Обработка данных и бенчмарки
Ждём ваших заявок и увидимся на конференциях! ❤️
😎 Powered by @hukenovs
Всем привет!
Сегодня мы расскажем о статье SignCLIP: Connecting Text and Sign Language by Contrastive Learning, которая была представлена в прошлом году на конференции EMNLP. Авторы статьи применяют идею Contrastive Pretraining из CLIP’а, чтобы спроецировать текст и видео жестовой речи в одно внутреннее пространство. Примечательно, что в своей работе авторы используют мультиязычный корпус жестовой речи.
Жестовые языки обладают таким интересным свойством, как иконичность — это значит, что жест часто визуально напоминает предмет, который он обозначает. Благодаря этой особенности перевод между двумя жестовыми языками зачастую оказывается проще, чем между разговорными языками, так как многие жесты внешне похожи (например, на картинке выше жест «дом» выглядит схожим образом на разных языках: руки как бы образуют крышу). Поэтому Contrastive Pretraining на разных жестовых языках способен выделить более информативные визуальные признаки, а также решить проблему нехватки данных в этом домене.
Авторы обучили модель VideoCLIP на большом корпусе жестовой речи, содержащем более 500 тысяч видео с жестами 44 разных языков. Модель была обучена в двух версиях:
💮 FingerCLIP
Сначала для проверки своей гипотезы авторы обучают мини-версию модели только на видео с изолированным дактилем (то есть отдельными буквами жестового алфавита); полученная модель с большим отрывом обходит supervised-метод, с которым авторы сравниваются.
💮 SignCLIP
Затем авторы обучают полную версию модели на всем корпусе жестовых языков, после чего замеряются на популярных бенчмарках американского жестового языка и получают метрики, сравнимые с SOTA-решениями.
Также авторы сделали SignCLIP доступным по API и опубликовали ноутбук, где можно протестировать своё видео или изучить эмбеддинговое пространство модели. Так, пользуясь классическим примером, авторы демонстрируют, что выученные эмбеддинги отражают семантику жестов (см. вторую картинку).
📖 ArXiv
📔 Colab Notebook
😎 Обзор подготовила Петрова Елизавета @lizaforlizard
Привет!
Сегодня для нас очень важный день, поскольку мы подходим к большой и важной вехе на нашем рабочем и жизненном пути. Жизненном потому, что это давно вышло за рамки исполнения обязанностей и стало личным.
Сегодня мы представляем вам проект с рабочим названием Malvina. Технологию, с чьей помощью GigaChat теперь умеет редактировать любые изображения просто по обычному текстовому промпту на любом языке.
Не хочется распинаться о том, какая Malvina крутая модель. Она способна говорить сама за себя.
Но, всё-таки, будет одно громкое заявление:
На основании наших технических метрик, а так же нескольких SBS-сравнений независимыми разметчиками, Malvina обходит на основных задачах по качеству Gemini и Grok.
Мы не говорим здесь о новом ChatGPT-4о (в этом контексте имеется ввиду новая возможность для AR-генерации изображений) потому, что модели невозможно напрямую адекватно сравнить. Мы много рассказали об этом в статье на Хабре, поэтому тут просто кратко повторим: ChatGPT-4о — совершенно потрясающая, стоящая на переднем крае науки, модель. Но на данный момент она не выполняет попиксельное редактирование. И пусть результат часто близок к этому (хотя ещё чаще — нет), всё-таки это сильно разные задачи с разным потолком качества.
Gemini же, на удивление, вполне хорошо справляется с именно нашей задачей, поэтому мы больше ориентируемся на неё.
На всякий случай, мы оставили SBS вот тут.
Но вернёмся к к теме. Поскольку у Malvina под капотом одновременно и сильная VLM модель и качественная диффузионка, она умеет очень много всего классного.
В том числе, делает такие штуки, за которые люди часто хотят денег: удаляет объекты по любому текстовому описанию, восстанавливает и раскрашивает старые фотографии, меняет внешность, удаляет и добавляет бороды, меняет цвет глаз, причёски, одежду, аксессуары, удаляет фон для фотографии на паспорт, перекрашивает что заблагорассудится пользователю, меняет материалы объектов, она даже может восстановить ржавый автомобиль или прибраться за вас в комнате (ну, пока только на фотографии).
И ещё очень много всего, мы даже не всё сами знаем. Кажется этот случай, когда пользователи могут исследовать возможности глубже, чем сами создатели. Главное — следовать духу экспериментаторства и пробовать несколько раз подряд, проверять разные подходы к промпту.
Есть и то, чего модель честно не умеет, просто потому, что пока мы над этим не работали в достаточной мере: ей плохо даётся смена поз или вращение объектов, она не умеет добавлять текст, не всегда справляется с сильными структурными изменениями. Мы не заканчиваем разработку этим релизом, скорее только начинаем, так что в конечном счёте мы решим и эти проблемы.
А сейчас, мы хотим показать, чего уже достигли, и приглашаем вас в GigaChat попробовать самостоятельно!
Data Fest в Сбере 🏦 🦜
30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.
🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
😎 Также будет представлен доклад Федора Минькина @gigadev_channel о разработке больших языковых моделей в Сбере
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode
🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
🧠 Александр Абрамов @dealerAI расскажет про глобальную память в LLM на примере GigaChat
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
🖥 Виктория Вольф @rndcv_team поделится лайфхаками обработки и фильтрации больших объемов мультимодальных данных.
И это еще не все, в программе представлено более 20 крутых докладов!
🖥 Зарегистрироваться и узнать подробности можно на сайте
Представляем новый уровень творчества! 🔥
Kandinsky 3D — первая российская разработка для создания крутых 3D-моделей прямо из текста. Да-да, теперь достаточно описать объект словами, и сервис сделает всю работу за вас!
🎯 Зачем это нужно?
— Хотите быстро создать архитектурный проект или промышленный макет? Легко!
— Нужен персонаж для игры или аватарка для приложения? Пожалуйста!
— А может, задумали что-то распечатать на 3D-принтере? Тоже прокатит!
И самое классное — можете интегрироваться с GigaChat API и прокачать функционал своей системы ещё сильнее. 💪
Всё это доступно абсолютно бесплатно. Зацените возможности сервиса прямо сейчас и почувствуйте себя настоящим дизайнером будущего! ✨
P.S.: Скоро появится возможность генерировать модели из картинок и куча новых фичей. Подписываемся и ждём обновлений вместе! 😉
Почитать на хабре ✔️
#release #kandinsky #3d
Словарь русского жестового языка растёт! 📕📺
Мы продолжаем развивать наш проект и рады поделиться обновлениями:
✅ Добавлены новые жесты — уже доступно для изучения около 1,000 жестов с почти 2,000 переводов.
✅ Появилась вкладка «Тесты» — теперь можно проверять свои знания и закреплять материал в интерактивном формате.
Попробуйте пройти тесты и поделитесь результатами в комментариях! Какие жесты для вас стали открытием?
🔗 Ссылка на словарь 👉 https://signflow.ru
🙏 Мы благодарим за помощь в развитии нашего сервиса команду спецпроектов Соловьёва Н. и Хоруженко А.
#ржя #жестовыйязык
📝 Senior NLP Engineer
👥 О команде:
Команда RnD NLP занимается исследованиями на переднем краю LLM-строения; в зоне интересов как улучшение рецептов обучения LLM (pretrain, SFT, RL), так и разведка новых технологических компонент (reasoning, agents, специализированные модели, etc.)
Мы стремимся доводить результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.
👁 Требования:
— Обширный опыт в современном трансформерном NLP, отличное теоретическое понимание этапов разработки топовых индустриальных LLM, практический опыт (включая pet-проекты) хотя бы в одном релевантном этапе.
— Хорошая насмотренность по научным и индустриальным статьям, понимание, в какую сторону развивается отрасль, какие направления исследований самые «горячие», какими методами/моделями/датасетами достигаются те или иные результаты,
какими бенчмарками это валидируется и т.п.
👁 Задачи (список примерный):
— Работа с большими языковыми моделями, разбор имеющихся пайплайнов по кирпичикам, поиск направлений, где можно сделать diff +1-10%, генерация исследовательских гипотез, где можно сделать diff x2-x10
— Обучение, валидация и имплементация новых state-of-the-art подходов для соответствующих задач
— Упаковка исследований и презентация результатов, delivery до прод GigaChat
— (Опционально) публикация результатов исследований в топовых научных конференциях
➕Будет плюсом:
— Большой опыт в классическом ML/NLP
— Публикации уровня А/А* и опыт написания статей
— Призовые места в соревнованиях по машинному обучению (Kaggle, etc.)
От нас:
➕ отсутствие проблем с вычислительными мощностями
🏙 удаленка или современный agile-офис по желанию
💊 ДМС, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, бесплатная парковка
💰 конкурентная зарплата!
Откликаться через: @m_ovsepyan , а по техническим вопросам расскажет тимлид — @walfry
❗️В отклике обязательно укажите, на какую вакансию откликаетесь.
#job #hr #gigachat
🖥 Scaling Vision Pre-Training to 4K Resolution
https://nvlabs.github.io/PS3/
PS3 — это метод предобучения моделей компьютерного зрения, который позволяет эффективно обрабатывать изображения высокого разрешения (до 4K) с почти постоянной стоимостью вычислений благодаря механизму выборочного кодирования, учитывающего контекст подсказки.
Основные идеи и достижения
🖼 Масштабирование до 4K-разрешения: Традиционные CLIP-ы ограничены разрешением около 384x384 пикселей. PS3 позволяет эффективно масштабироваться до изображений размером 4K, сохраняя низкую вычислительную стоимость.
👨🎨 Выборочное кодирование: Вместо обработки всего изображения целиком, PS3 избирательно обрабатывает только наиболее релевантные области изображения, основываясь на промте. Это снижает затраты на вычисления и улучшает качество представления деталей.
🔝 Top-down механизм выбора: Модель сначала получает глобальные особенности низкого разрешения, а затем выбирает высокодетализированные участки, соответствующие запросу. Это позволяет адаптивно управлять количеством используемых патчей в зависимости от доступного бюджета вычислений.
🤖 Эффективность и производительность: PS3 значительно повышает эффективность работы Vision Transformer (ViT), позволяя достигать лучших результатов при меньших затратах на обучение и инференс.
📚 Новый бенчмарк (4KPro): Бенчмарк фокусируется на доменах, где важно высокое разрешение, включая беспилотные авто, бытовые устройства, игры и интерфейсы пользователей.
➕ VILA-HD: Модель VILA-HD демонстрирует лучшие результаты по сравнению с аналогичными моделями, такими как Qwen2-VL, особенно на задачах, требующих высокого разрешения.
Преимущества:
— Лучше масштабируемость: VILA-HD с PS3 показывает лучшую кривую масштабирования производительности по сравнению с базовыми моделями, которые не были предобучены на изображениях высокого разрешения.
— Высокая эффективность: Благодаря выбору областей изображения, PS3 существенно экономит вычислительные ресурсы, обеспечивая лучшее соотношение производительности и затрат.
😎 [summarized by GigaChat]
Усиляем команду! 🦾
👁 Senior ML Engineer и 🛠 Junior DE в направление мультимодального GigaChat.
👥 О команде:
Команда RnD CV занимается исследованиями мультимодальных моделей в области компьютерного зрения. Мы стремимся довести результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.
—————————
👁 Задачи Senior MLE:
— Практический опыт в компьютерном зрении, включая обработку видео (распознавание, трекинг, анализ временных последовательностей)
— Работа с большими мультимодальными языковыми моделями, VLM (LLaVA, QwenVL, DeepSeekVL и т.д.)
— Обучение, валидация и имплементация новых state-of-the-art подходов для задач компьютерного зрения
— Работа с VLM в домене видео и омни-модальности
— Публикация результатов исследований в топовых научных конференциях
➕Будет плюсом:
— Опыт дообучения моделей (Supervised Fine-Tuning)
— Публикации уровня А/А* и опыт написания статей
— Призовые места в соревнованиях по машинному обучению (Kaggle, etc.)
—————————
🛠 Задачи Junior DE:
— Поддержка сервисов для сбора и разметки данных
— Построение пайплайнов для создания синтетических датасетов (с помощью нейронных сетей и классических алгоритмов)
— Создание качественных бенчмарков для оценки мультимодальных LLM, преимущественно в домене CV
—————————
Минимальные ожидания:
— Хороший уровень Python 3 🐍
— bash, git, Docker, dvc, OpenCV, pytorch
— Понимание ML и CV
— Умение разбирать и реализовывать идеи из научных статей
—————————
От нас:
➕ отсутствие проблем с вычислительными мощностями
🏙 удаленка или современный agile-офис по желанию
💊 ДМС, программы лояльности для сотрудников
⚙️ бесплатный фитнес-зал, бесплатная парковка
💰 конкурентная зарплата!
Откликаться через: @m_ovsepyan
❗️В отклике обязательно укажите, на какую вакансию откликаетесь.
#job #hr #gigachat
🪆 RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation
🎉 Нашу совместную работу с коллегами из Sber-AI недавно приняли на международную научную конференцию NAACL 2025 (A Rank).
🖼 Статья посвящена исследованиям культурных и региональных особенностей при создании генеративных моделей, с особым упором на домен российской культуры. В статье раскрываются нюансы оценки и обучения таких моделей. Например, сможет ли модель отличить борщ от окрошки, Лермонтова от Пушкина, понимает ли она значение фразы "вишневая девятка" или "зеленая копейка". Для этого мы собрали полноценный бенчмарк, который позволяет оценить качество моделей на российском культурном коде.
Спасибо всем соавторам, в частности @dendi_math_ai , @CocktailCocteau , @nikolaygerasimenko , @julia_agafonova132 , @voloshinapolina
📖 ArXiv: https://arxiv.org/abs/2502.07455
👩💻 GitHub: https://github.com/ai-forever/RusCode
🔥 Наши коллеги релизнули open-source модель переноса головы на фото — GHOST 2.0. Подробнее в посте выше и по ссылкам в описании. 🔥
Хоть вклад нашей команды был и не такой значительный, нам удалось помочь коллегам с обучением моделей в задачах портретной сегментации лица и фейс парсинга.
Для работы моделей GHOST необходимо иметь качественную модель сегментации — она используется в модуле Blender, а также на этапах предварительной обработки для выбора головы человека. К модели предъявляются требования:
1) она должна уметь сегментировать прически и волосы на лице как отдельные классы,
2) она должна быть аддитивной, то есть сегментировать таким образом, чтобы мы могли объединить сегменты для получения полной головы.
3) каждый регион должен быть однородным по цвету — например, класс «борода» не должен пересекаться с классом «кожа».
Для обучения модели был собран и размечен датасет EasyPortrait из 20,000 HD+ изображений реальных людей, и на его основе была обучена модель сегментации. Коллеги остановились на Segformer-B5.
На рисунке показано визуальное сравнение нашей модели и бейзлайна.
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Habr: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Repo: https://ai-forever.github.io/ghost-2.0/
🌸 NLP-исследователь в команду AGI NLP 🌸
👥 О команде:
Команда AGI NLP занимается передовыми исследованиями в области больших языковых моделей (LLM), AI-агентов, RAG-систем и оценки их возможностей. Наша работа охватывает создание новых подходов к оценке, разработку бенчмарков, обучение генеративных LLM и исследование их способностей.
👨💻 Что вас ждёт:
— Работа с современными LLM, такими как ChatGPT, GigaChat, LLaMA, DeepSeek и другими.
— Возможность заниматься прикладными исследованиями мирового уровня.
— Публикация результатов на конференциях уровня A/A* (у тимлида хирш 11 💪).
— Влияние на развитие AGI и участие в проектах на самом фронтире индустрии.
👨🔧 Что нужно делать:
— Разрабатывать задачи и тесты для оценки моделей
— Проводить эксперименты и оценивать текущие модели, включая сотрудничество с ведущими компаниями в области ИИ
— Разрабатывать принципиальные подходы к измерению возможностей ИИ и проводить эксперименты для их проверки
— Создавать бенчмарки и тесты для оценки AI-агентов.
🛠 Мы ожидаем, что вы:
— Имели опыт опытом работы с передовыми крупными языковыми моделями (LLM);
— Имели опыт проведения полного цикла экспериментов: от сбора данных и формирования метрик до поддержки внедрённой фичи;
— Имели опыт работы hf/transformers и API OpenAI/Claude/GigaChat;
— Следите за развитием индустрии больших языковых моделей и мультимодальных моделей.
➕Будет плюсом, если вы:
— Имеете опыт работы с тестированием и бенчмарками;
— У вас есть публикации уровня А/А*;
— Успешно выступали в соревнованиях по машинному обучению или являетесь выпускником ШАДа.
По всем вопросам писать рекрутеру: @VeronikaShel
По деталям вакансии тимлиду, Феногеновой Алене — @alenusch
🌸 честно украдено у @rybolos_channel , основателя команды AGI NLP
Qwen2.5-VL Technical Report (Part 3 — заключительная)
👾Обучение
ViT обучен с нуля на DataComp и собственных данных, включая синтетику. LLM предобучена на текстовых данных (см. репорт QWEN2.5).
Претрейн разбит на три стадии (см. рис):
— Visual Pre-training: на первом этапе обучается только визуальный кодировщик, ViT. Основной корпус для обучения — изображения с кепшенами и Doc/OCR.
— Multimodal Pre-training: на втором шаге все веса модели размораживаются. На этой стадии вводятся более сложные описания изображений, требующие рассуждения от модели, включая VQA-датасеты, interleaved данные, мультимодальную математику, код и т.д.
— Long-Context Pre-Training: на этом этапе в обучение включаются видео и данные на основе агентов, а также данные, учитывающие расширенный контекст.
Для балансировки и ускорения процесса обучения авторы динамически упаковывали входные данные на основе длины их векторных представлений. На первом и втором этапе данные равномерно упакованы до длины последовательности 8192, а на третьем до 32768.
Пост-трейнинг использует SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization), на этом этапе визуальный энкодер заморожен. SFT использует формат ChatML (OpenAI) для упорядочивания данных следованию инструкциям. Датасет для SFT состоит примерно из 2М сэмплов в пропорции: чистые текстовые данные (50%) и мультимодальные данные (50%). Набор состоит из данных на китайском и английском языках.
👾Фильтрация
Очевидно, что открытые датасеты достаточно грязные, чтобы использовать их в обучении as is. Авторы реализуют конвейер фильтрации для стадии SFT:
— Stage 1: Domain-Specific Categorization — для иерархической категоризации QA-данных по доменам используется специальная модель Qwen2-VL-Instag. Она делит датасет на 8 основных доменов, например Coding & planning, который содержит до 30 поддоменов (Debugging, Generation, Translation, Understanding и т.д). Такая кластеризация позволяет лучше фильтровать данные.
— Stage 2: Domain-Tailored Filtering — применяется для обработки специфических доменов на основе правил и моделей, для каждого из которых используется собственный пайплайн обработки данных (например, для Doc, OCR, Grounding и т.д.)
Rule-Based Filtering: жесткая фильтрация по правилам, удаление дубликатов, некачественных документов, обрезанных фото, провокационные материалы и т.д.
Model-Based Filtering: фильтрация на основе модели дополнительно уточняет датасет. Запросы оцениваются по сложности и релевантности, а ответы оцениваются на основе правильности, полноты, ясности, релевантности
запросу и полезности.
❌Rejection sampling
Для улучшения качества данных, авторы используют rejection sampling, который особенно важен в задачах ризонинга и сложного анализа (например, в мультимодальной математике или генерации кода).
На этом шаге используется промежуточная версия модели Qwen2.5-VL, которая оценивает сгенерированные ответы по истинности. Сохраняются только те образцы, в которых выход модели соответствует ожидаемым ответам. Это гарантирует, что набор данных состоит исключительно из точных примеров с высоким качеством. Авторы исключают ответы, в которых происходит переключение кода, чрезмерная длина или повторяющиеся шаблоны.
Авторы отмечают, что использовать CoT к мультимодальным моделям непросто ввиду зависимости от визуальной и текстовой составляющей. Для решения этой проблемы, разработан подход, который учитывает обе компоненты на каждом шаге рассуждений. Детали подхода не раскрываются, но авторы отмечают о необходимости его совершенствования.
Ссылки
🤗 HF
💻 Repo
Qwen2.5-VL Technical Report (Part 1)
📝Саммари
Авторы Qwen выпустили техрепорт обновленной линейки VLM – Qwen2.5-VL.
Основной буст в локализации объектов, анализе документов и понимании длинных видео (вплоть до часа!). Одной из главных особенностей модели является способность точно локализовать объекты, что позволяет в том числе извлекать данные из документов, диаграмм, графиков и таблиц.
Qwen2.5-VL использует динамическую обработку входного разрешения изображений и абсолютное временное кодирование. Визуальный кодировщик ViT обучен с нуля, использует механизм Window Attention, переделанные FNN блоки с SwiGLU активациями и RMSNorm.
Кроме того, Qwen2.5-VL способен выступать в качестве интерактивного агента с возможностью ризонинга и выполнять реальные задачи, например, работа с интерфейсами компьютера и мобильных устройств.
🦾Вклад
— Window attention в визуальном энкодере, что снижает вычислительные затраты
— Динамический сэмплинг кадров при анализе видео, а при работе с видео два соседних кадра группируются вместе.
— Обновленный MRoPE во временном домене, выровненный по абсолютному времени
— Фильтрация данных для стадии претрейна и SFT, включая создание собственной синтетики, и interleaved text-image данных. Датасет претрейна расширен с 1.2Т токенов до 4.1Т.
Авторы подчеркивают существенный рост в:
— Обработке документов: в том числе многоязычных, рукописных, таблиц, диаграмм, химических формул и даже нот
— Задачах граундинга: повышенная точность локализации и подсчета объектов.
— Анализ длинных видео: утверждается способность анализировать видео часовой длительности, причем события извлекаются за секунды реального времени.
— Визуальные агенты: возможность интерактивного взаимодействия с интерфейсами компьютера и мобильных устройств.
🤖Модель
— LLM: за основу взята предварительно обученная Qwen2.5 (еще бы)😃, а для лучшего понимания визуальных особенностей 1D RoPE модифицирован в MRoPE (Multimodal Rotary Position Embedding Aligned to Absolute Time).
— Visual Encoder: за основу взят ViT, используются 2D-RoPE и window attention. Во время обучения высота и ширина изображений изменяются до кратных 28 (например 784x784). ViT разбивает изображения на патчи размером 14.
— Адаптер: вместо использования сырых патчей с выхода ViT, авторы группируют смежные наборы патчей по 4. Сгруппированные признаки проходят двухслойный MLP. Авторы уверяют, что этот метод снижает вычислительные затраты и обеспечивает гибкий способ динамического сжатия фичей различной длины.
(см. Table 1)
Всем привет!
Обзор методов редактирования SVG. Часть 1
Как таковых методов редактирования SVG сейчас совсем мало, поэтому обзор разделили на 2 части:
часть 1. 2 статьи о методах редактирования по промпту
часть 2. 2 статьи о методах text2vector генерации, способных на редактирование в качестве бонуса
💮 Text-Guided Vector Graphics Customization
Предложенный метод состоит из 4х частей (см. картинки 1 и 2):
1. Рендерим input SVG в растровое изображение;
2. Fine-tune предобученной диффузионки для конкретной картинки, чтобы получить растеризованный таргет. Причем генерируются K кандидатов и выбирается лучший на основе CLIP-score;
3. Path alignment: с помощью (1) сегментации отдельных «путей» растеризованного svg, (2) DINO-ViT фичей и (3) парочки хитрых манипуляций разбиваем пути на пары (до редактирования, после редактирования) и отдельно классифицируем «новые» пути;
4. Path optimization: с помощью дифференцированного растеризатора SVG оптимизируем атрибуты SVG используя несколько лоссов: CLIP Loss (чтобы картинки получились похожими) и Procrustes distance loss на уровне SVG кода (сумма евклидовых расстояний после некоторых геометрических преобразований);
Так как сравниваться особо не с кем, сравнивались с методами Potrace, LIVE, CLIPDraw и VectorFusion, которые предназначены для text2vector генерации. Предложенный метод везде побил конкурентов, показав высокие метрики.
📄 ArXiv
💾 Project
💮 Text-Based Vector Sketch Editing With Image Editing Diffusion Prior
Авторы предлагают метод редактирования не обычных SVG, а рисунков / набросков. Использована идея, взятая у модели Prompt-to-Prompt, где cross-attention фичи из source image впрыскиваются в фичи target image.
Модель способна на три вида редактирований, благодаря некоторым манипуляциям с cross-attention масками (см. картинку 4):
1. Word swap: «photo of rabbit» -> «photo of lion»;
2. Prompt refinement: добавление чего-то к промпту, например «photo of dress» -> «photo of dress with sleeves»;
3. Attention re-weighting: когда нужно какой-то эффект усилить / ослабить.
Сама архитектура довольно простая (см. картинку 3):
• Initial и edited промпты прогоняются через LDM (Latent Diffusion Model), обмениваясь cross-attention фичами;
• На выходе получаем original image, target image и маску, которая выделяет изменяемый объект на оригинальном изображении (маска получается из attention карт признаков);
• Далее происходит оптимизация с помощью привычного дифференцируемого растеризатора, оптимизируя только те пути, которые попадают в маску.
Сравнивались с CLIPDraw, DiffSketcher, Vector Fusion, по большинству метрик + SBS победили!
📄 Paper
💾 GitHub
😎 Обзор подготовил Нуждин Антон @NuzhdinAO
Давно не было обзоров! Исправляем )
SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion
от создателей SVGDreamer
Предложенный подход позволил авторам получить SOTA метрики с огромным отрывом по FID (показателю, оценивающему визуальное качество генерации) без потерь в скорости генерации. Кроме того, генерируемые векторные изображения просто редактировать. Все благодаря одной идее — привнести в пайплайн генерации логику отрисовки векторных изображений дизайнерами (примитив за примитивом в порядке видимости).
Метод разбит на 3 составляющие:
💮 SVG Representation
Так как дизайнеры рисуют векторные изображения поэтапно от нижних слоев к верхним, полученный SVG-код можно разбить на примитивы с помощью срезов, где paths[:1] будет соответствовать самому нижнему слою, а paths[:] — целостному представлению.
• SVG Embedding формируется за счет преобразования всех путей в вектора размерности 10 и составления матрицы из полученных векторов.
• Каждый полученный срез авторы растеризуют для создания визуальных фичей (Pixel Embedding) с помощью DINO-V2.
💮 Vector-Pixel Fusion VAE (VP-VAE)
Энкодер спроектирован для выравнивания визуальных (Pixel Embedding) и геометрических (SVG Embedding) признаков, тогда как декодер восстанавливает векторное изображение.
💮 Vector Space Diffusion Transformer (VS-DiT)
Модель нацелена восстановить предварительно зашумленный выход энкодера VP-VAE в соответствии с текстовым описанием. Архитектура представляет собой последовательность VS-DiT блоков и легко масштабируется при увеличении их количества.
Результаты выглядят многообещающе: SVGDreamer, IconShop и другие методы остались позади; а код авторы обещают выложить скоро!
📄 ArXiv
💾 Project
😎 Обзор подготовила Кванчиани Карина @karinakvanchiani