gonzo_ml | Неотсортированное

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

21249

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Подписаться на канал

gonzo-обзоры ML статей

UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2

Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (/channel/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.

В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.

В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.

Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.

Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.

С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.

С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.

Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.

Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).

MoD -- это смесь устоявшихся и новых denoising objectives, а именно:

* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).

Читать полностью…
Подписаться на канал