Telegram-канал seeallochnaya - Сиолошная: Неотсортированное

Сиолошная

09 ноября 2024 17:29

Свежая заметка «Two alignment threat models» от Jan Leike, в прошлом со-руководителя команды Alignment в OpenAI, а ныне занимающего ту же должность в Anthropic. В тексте он рассуждает о двух концах спектра несоответствия поведения моделей ожидаемым/закладываемым (то есть misalignment-нутые):

— under-elicited models (не знаю как перевести, недостимулированные? недовыровненные?), или модели, которые совершают ошибки потому, что они не до конца настроены («не прикладывают все усилия для решения задачи, потому что не знают как или не замотивированы»). То есть модель пишет, что 2+2 = 5 не потому, что хочет вас обмануть, а потому что не знает/не может/etc.

— Scheming models (хитрые/коварные модели), или такие, которые притворствуют, что они на самом деле соответствуют ожиданиям, демонстрируя намеренно обманчивое поведение. Модель пишет 2+2=5 в научных расчётах, потому что думает, что никто не проверит, и она напакостит людям. Или даст вредный совет, какие грибы можно есть, а какие нельзя.

Сейчас мы куда чаще видим первый тип ошибок, а примеров второго почти не бывает. Однако про него важно думать наперёд, как минимум потому, что мы точно не сможем читать все генерации моделей — уже сейчас запуск LLM дешевле человеческого труда (по вычитке), и в будущем разница будет расти ещё больше. Scheming не проявляется, в основном, по трём причинам:
— уровень навыков/знаний пока недостаточен, у модели нет возможности сделать какую-то большую пакость (привести к потере денег/итд)
— модели не situationally aware (какой тут перевод... не контекстно-осведомлённые?), то есть они не ощущают себя как субъект в некотором контексте. Да, они знают, что они AI-ассистенты, зачастую даже не путаются в том, какую компанию представляют, но и всё. Это приводит к отсутствию долгосрочной мотивации как-то действовать.
— модели не натренированы быть агентами, которые взаимодействуют со средой, и не предпринимают действия, ожидая последствий. Вот в недавней Claude 3.5 (New) только-только потихоньку начали это демонстрировать, вероятнее всего с помощью замкнутого цикла обучения на своих же действиях и сигнале «задача решена/провалена».

Вероятно, существует достаточно научно-фантастических историй о плохом ИИ в тренировочных данных, из-за чего модели иногда будут пробовать какое-то «неправильное» поведение, связанное с обманом, и большой вопрос заключается в том, будет ли процедура обучения закреплять такой паттерн поведения. Например, если несколько раз подряд сымитировать решение вместо реального решения проблемы, и ни одна из проверок не обнаружит проблем — модель может выучиться, что такое поведение нормально, и продолжать врать (у самих Anthropic про это уже даже было исследование, подтверждающее тезис — там модель уже даже начала редактировать написанный человеком код, отвечающий за проверку процесса тренировки).

===

Но вообще хотел поделиться этим блогом по другой причине — Jan пишет, что текущие модели всё ещё далеки от elicited (см. первое определение выше). Например, когда появился один из методов дообучения GPT, RLHF, то маленькая GPT-2-1.5B начала выдавать ответы лучше, чем модель, на которую потратили в 100 раз больше вычислительных мощностей. И вот автор считает, что тренд продолжится, и ещё несколько порядков улучшений здесь есть. То есть те модели, которые сейчас могут крутиться на ноутбуке/телефоне, значимо поумнеют.

С одной стороны я тоже думал, что улучшать точно есть куда, но не до степени «на несколько порядков». Может в 5-6-8 раз, ок, но точно не в 20-100. «Я ожидаю, что если бы вы пообщались с полностью elicited моделью GPT-4, то это было бы совершенно иным опытом относительно текущего состояния» — подытоживает Jan.