Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
А вот и первый собранный этой командой датасет - тык.
Думаю, он очень полезный для тренировки ассистентов программистам, так как данные собранны со StackOverflow.
Сначала отобрали все вопросы, у которых было больше двух ответов.
Затем проставили оценки ответам по формуле score = log2 (1 + upvotes)
, и накидывали ещё +1, если ответ был принят автором.
Затем создавали пары для тренировки отдельной Reward Model по этому score (какой ответ должен быть отранжирован ниже, какой - выше).
В целом, повторяют подход Antropic из этой статьи, на неё же и ссылаются.
Ещё незаметно для меня вышел датасет от Стэнфорда - вот тут. В целом - то же самое, только с комментариями с Reddit, и ещё учитывают разницу во времени публикации. Это логично - может, один комментарий получил больше лайков только потому, что его опубликовали на неделю раньше, а свежий просто не залетел в топ.
Всё разбито по сабреддитам, внутри которых размеры варьируются от 3к до 57к примеров. С одной стороны немного, с другой - OpenAI тюнили первые версии InstructGPT на где-то 50-60к примеров, то есть сопоставимо.
Ну што, вперёд обучать PPOошки?
UPD: очень хочется посмотреть на результаты экспериментов, чтобы понять, насколько такой сбор проигрывает (или выигрывает?) сбору данных в онлайне, и в более качественном виде (где людям платят за оценки пар, но при этом требуют соблюдения правил из 20-страничной инструкции).