Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

02 February 2026 11:29

Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование умного учителя для переписывания обучающих данных низкого качества. Но по сути очень похоже на предыдущую работу (/channel/gonzo_ML/4687) — заменяем SFT на RL, причём делаем это так, что появляется плавная интерполяция между этими двумя режимами — начинаем с клонирования хороших примеров, постепенно переходим на улучшение собственных роллаутов.

Все эти работы последних дней любопытны тем, что переосмысливают процесс предобучения и файнтюнинга, он становится более активным и динамическим и в большей степени RL. Это интересный движ, я ожидаю его усиление.

Self-Improving Pretraining: using post-trained models to pretrain better models
Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
Статья: https://arxiv.org/abs/2601.21343
Ревью: https://arxiviq.substack.com/p/self-improving-pretraining-using

# TL;DR

ЧТО сделали: Авторы предлагают Self-Improving Pretraining — метод, заменяющий стандартное предсказание следующего токена на онлайн-цикл обучения с подкреплением (RL) прямо на этапе предобучения. Вместо пассивного поглощения "сырых" корпусов текста, модель использует сильного "учителя" (post-trained модель), который на лету переписывает низкокачественные данные и оценивает генерации самой модели-ученика. В итоге модель учится на отфильтрованном, качественном сигнале, состоящем из "переписанных" текстов и её собственных лучших роллаутов.

ПОЧЕМУ это важно: Подход ломает догму о том, что alignment (безопасность, фактология) — это забота исключительно этапа пост-тренировки (SFT/RLHF). Интегрируя обучение на предпочтениях (preference learning) в сам субстрат предобучения, метод не даёт модели "запечь" в веса токсичность или галлюцинации из сырых данных. Показано, что модели могут учиться быть безопасными даже на небезопасных данных, если целевая функция активно уводит их от грязи. Прирост win rate составляет до 86.3% по сравнению с базовыми методами.

Подробнее: /channel/gonzo_ML_podcasts/2300