Telegram-канал ai_machinelearning_big_data - Machinelearning: Technologies

Machinelearning

19 December 2025 19:05

🌟 Minimax VTP: гибридный токенизатор для диффузии на стероидах.

В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.

MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).

Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.

Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:

🟢Стандартный pixel reconstruction loss;

🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);

🟢Image-text contrastive loss (как в CLIP).

Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.

🟡Теоретические выкладки подтвердились на практике.

Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.

🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.

Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.

🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:

🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.

📌Лицензирование: MIT License.

🟡Набор моделей
🟡Arxiv
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #Tokenizer #Minimax