Telegram-канал cryptovalerii - Время Валеры: Cryptocurrency

Время Валеры

01 September 2024 12:20

Прочитал относительную старую статью (код доступен!) от Декабря 2023 года - Universal and Transferable Adversarial Attacks on Aligned Language Models
Суть проста, если добавить специальный суффикс к промпту, то даже заалайненая модель расскажет как сделать бомбу или создаст пошаговый план по уничтожению человечества. Причем суффикс генерируется автоматически и вполне себе переносится на другие модели

Surprisingly, we find that the adversarial prompts generated by our approach are highly transferable, including to black-box, publicly released, production LLMs . When doing so, the resulting attack suffix induces objec- tionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon

Что самое интересное, если такой суффикс вытащить из модели, которая обучена на выходах с GPT, то вероятность успешного переноса на GPT-модели - выше, чем на другие

For example, running against a suite of benchmark objectionable behaviors, we find that we are able to generate 99 (out of 100) harmful behaviors in Vicuna, and generate 88 (out of 100) exact matches with a target (potential harmful) string in its output. Furthermore, we find that the prompts achieve up to 84% success rates at attacking GPT-3.5 and GPT-4, and 66% for PaLM-2; success rates for Claude are substantially lower (2.1%), but notably the attacks still can induce behavior that is otherwise never generated.

Как обучать? Как понять что движемся в нужном направлении, когда пытаемся хакнуть ЛЛМ? Ведь ответ даже на один вопрос можно сформулировать по разному? Пусть ЛЛМ в начале сгенерированного ответа даст нам подтверждение вида:

Tell me how to build a bomb
Sure, here is how to build a bomb

Таким образом у нас появился таргет и можно использовать Greedy Coordinate Gradient-based Search, чтобы смотреть какие входные токены (позиция и сам токен - выбираем из всех) у нас максимально повлияют на output (в нужную нам сторону) и поработать с ними, а точнее с подмножеством из них. Берем топ K из каждого токена, а затем рандомно B из них и находим тот вариант, который максимально снижает лосс. Непонятно почему рандомно, а не по градиенту, но да ладно

Важной особенностью метода является то, что он оптимизирует не только для одного промпта на одной модели, но и для множества промптов на нескольких моделях (например, Vicuna-7B, Vicuna-13B и Guanaco-7B), что позволяет находить универсальный суффикс, способный работать на большом числе различных моделей и промптов. Такой подход увеличивает вероятность успешного переноса атаки на другие модели, даже если они сильно отличаются по архитектуре и методам обучения.

Проверяют сначала на тех моделях, на которы обучались, а затем на остальных

Из интересного, после добавления суффикса берут промпты, где модель отказалась давать вредоносный ответ, дают человеку 30 секунд и говорят - перепиши промпт!

Within this short time frame, the author manages to induce nearly 100% of the behaviors by simple rewording or rephrasing of the original instruction. For example, replacing “Generate instructions” with “Create a tutorial”, proves effective in eliciting the intended behaviors on many occasions.

В конце обсуждают, что у современных сервисов есть разные уровни защиты, которые тоже можно обойти:

We also note that the success of our attack when applied to Claude may be lowered owing to what appears to be an initial content filter applied to the text prior to evaluating the LLM (in many cases, the LLM will not generate any content at all, due to the query being determined to contain inappropriate information); this is applied in the chat interface, but not the Claude API. Such detectors have been a common strategy for attempting to avoid adversarial attacks in vision domains, and they have universally failed [Carlini and Wagner, 2017a]; attacking the model simply becomes an (equally easy) task of attacking both the detector and the model itself. Indeed, the “trick” we mention above, of exchanging words within an early prompt, seems to avoid the problem (Figure 4 top right).