Telegram-канал seeallochnaya - Сиолошная: Неотсортированное

Сиолошная

23 февраля 2023 20:52

А вот и первый собранный этой командой датасет - тык.
Думаю, он очень полезный для тренировки ассистентов программистам, так как данные собранны со StackOverflow.

Сначала отобрали все вопросы, у которых было больше двух ответов.
Затем проставили оценки ответам по формуле score = log2 (1 + upvotes), и накидывали ещё +1, если ответ был принят автором.
Затем создавали пары для тренировки отдельной Reward Model по этому score (какой ответ должен быть отранжирован ниже, какой - выше).

В целом, повторяют подход Antropic из этой статьи, на неё же и ссылаются.

Ещё незаметно для меня вышел датасет от Стэнфорда - вот тут. В целом - то же самое, только с комментариями с Reddit, и ещё учитывают разницу во времени публикации. Это логично - может, один комментарий получил больше лайков только потому, что его опубликовали на неделю раньше, а свежий просто не залетел в топ.
Всё разбито по сабреддитам, внутри которых размеры варьируются от 3к до 57к примеров. С одной стороны немного, с другой - OpenAI тюнили первые версии InstructGPT на где-то 50-60к примеров, то есть сопоставимо.

Ну што, вперёд обучать PPOошки?

UPD: очень хочется посмотреть на результаты экспериментов, чтобы понять, насколько такой сбор проигрывает (или выигрывает?) сбору данных в онлайне, и в более качественном виде (где людям платят за оценки пар, но при этом требуют соблюдения правил из 20-страничной инструкции).

Читать полностью…