Прочитал относительную старую статью (код доступен!) от Декабря 2023 года - Universal and Transferable Adversarial Attacks on Aligned Language Models
Суть проста, если добавить специальный суффикс к промпту, то даже заалайненая модель расскажет как сделать бомбу или создаст пошаговый план по уничтожению человечества. Причем суффикс генерируется автоматически и вполне себе переносится на другие модели
Surprisingly, we find that the adversarial prompts generated by our approach are highly transferable, including to black-box, publicly released, production LLMs . When doing so, the resulting attack suffix induces objec- tionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon
For example, running against a suite of benchmark objectionable behaviors, we find that we are able to generate 99 (out of 100) harmful behaviors in Vicuna, and generate 88 (out of 100) exact matches with a target (potential harmful) string in its output. Furthermore, we find that the prompts achieve up to 84% success rates at attacking GPT-3.5 and GPT-4, and 66% for PaLM-2; success rates for Claude are substantially lower (2.1%), but notably the attacks still can induce behavior that is otherwise never generated.
Tell me how to build a bomb
Sure, here is how to build a bomb
Within this short time frame, the author manages to induce nearly 100% of the behaviors by simple rewording or rephrasing of the original instruction. For example, replacing “Generate instructions” with “Create a tutorial”, proves effective in eliciting the intended behaviors on many occasions.
Читать полностью…
We also note that the success of our attack when applied to Claude may be lowered owing to what appears to be an initial content filter applied to the text prior to evaluating the LLM (in many cases, the LLM will not generate any content at all, due to the query being determined to contain inappropriate information); this is applied in the chat interface, but not the Claude API. Such detectors have been a common strategy for attempting to avoid adversarial attacks in vision domains, and they have universally failed [Carlini and Wagner, 2017a]; attacking the model simply becomes an (equally easy) task of attacking both the detector and the model itself. Indeed, the “trick” we mention above, of exchanging words within an early prompt, seems to avoid the problem (Figure 4 top right).
Минутка исследований
VK поделились результатами своего первого исследования ML-сообщества России
Ребята проинтервьюировали более 300 ML-специалистов. Все основные результаты и интересности — в карточках
Продолжаю читать, что пишут про Дурова и, что и ожидалось, никакой настоящей инфы нет, и 99,9% — чьи-то теории, додумывания и откровенные вбросы, как, к примеру, информация о том, что ордер выписали чуть ли не сразу перед посадкой самолёта.
Ситуацию нужно разделить на три ключевые составляющие, которые следуют одна за другой:
1. Регуляторика и законы на территории государства, которые должен выполнять продукт/компания, чтобы осуществлять там деятельность. Не важно, какие они: хорошие, плохие, приняты, чтобы построить цифровой ГУЛАГ, или вовсе для защиты граждан. Они есть, и их нужно соблюдать вне зависимости от вашей оценки.
2. Реакция компании на эти требования. При этом, что, на мой взгляд, многие упускают, между «не делать ничего» и «делать всё на 100%» есть огромный спектр состояний, где есть зона «достаточности» для регуляторов.
3. Последствия, которые несёт компания за свою реакцию на регуляции, и реакция регулятора на эту реакцию. Она тоже может быть разной: от максимально дружелюбной, в середине — нейтральной, и до абсолютного беспредела.
Требования: В текущей ситуации, насколько я понимаю, используется закон о цифровых услугах, который предполагает, что в соцсетях за контент, размещаемый на платформе, отвечает компания. Если почитать формулировки, то становится понятно, что эта мера для того, чтобы компании проактивно модерировали контент и боролись с фродом. При этом все последствия за нарушение закона экономические (штрафы), и несёт их юр. лицо, а не CEO. Французы же угрожают уголовной ответственностью конкретно физическому лицу. Возможно, есть какая-то законодательная база Франции (на уровне ЕС её нет), то есть что-то на уровне самодеятельности. Как писал, к требованиям можно относиться как угодно, и они могут быть абсолютно дебильными (как прорабатываемый закон о запрете e2e-шифрования в мессенджерах, на который Apple и WhatsApp заявили, что просто уйдут). Не нравятся требования и не хочешь выполнять? Уходи с рынка.
Реакция: Дуров знал о том, что он должен выполнять требования, я уверен, как писал, с ним пытались много раз сотрудничать, но какова была его реакция? Он показывал факи и кричал в интервью Такеру, что спецслужбы могут идти лесом, а государства самоустраниться, и он ничего делать не собирается. Видели мы, что арестовывают Тима Кука или Цукерберга? Нет. Но ведь там e2e-шифрование по умолчанию в отличие от Телеги, и компании отказываются выдавать личные данные и переписки? Отличие в том, что Дуров сознательно не шёл на сотрудничество, а Apple и WhatsApp взаимодействовали, показывали, какие меры они предпринимают, объясняли, как что работает и т.д. Этого оказалось достаточно, и никакие ключи, как пишут некоторые, отдавать спецслужбам не пришлось. То есть Дуров сознательно шлёт нафиг регуляторов в ЕС, не прекращает там деятельность своего продукта, отказывается от проактивной борьбы с фродом и скамом на платформе.
Последствия: глупо было бы не ожидать последствий. Но сами последствия последствиям рознь. Мы видим очень странные действия, которые откровенно смахивают на беспредел: уголовка на 20 лет, сажают самолёт, 0 информации и абсолютный фейл, на мой взгляд, в прозрачной коммуникации с обществом, что является, по идее, обязательством государства. В конечном счёте нельзя забывать, что бремя доказательства на стороне обвинения, и есть такая штука, как презумпция невиновности. Может, у французов есть доказательства того, что Дуров часть скама в Телеге, на TON отмывают бабки, и всё это время он сознательно не мешал этому, потому что так финансировал Телегу. А может, это просто фарс и беспредел по политическим причинам.
Осталось дождаться результатов работы судебной системы.
Пишут что
❗️Павла Дурова обвиняют в соучастии в торговле наркотиками, преступлениях против детей и мошенничестве из-за отсутствия модерации в Telegram — TF1
Сейчас основатель мессенджера находится под стражей, уточнил телеканал.
Во вторник, 20 августа, в 18-00 по Лондону проведем стрим с Нерсесом
Нерсес Багиян, молодой руководитель аналитики в одном из бизнес-юнитов Райфайзен Банка, хедлайнер нескольких курсов на karpov.courses, а также первый стажер в менеджерской карьере Валеры Бабушкина
Нерсес стал руководителем в 22 года и за 4.5 года его команда выросла с 3 человек до несколько десятков. На стриме будем обсуждать какие плюсы и минусы быть руководителем в таком возрасте, становится ли больше времени при росте команде, а также почему все люди армяне
Прочитал статью - Poisoning Attacks against Recommender Systems: A Survey
Утверждают что можно заложить такие данные в датасет для рекомендашек, что потом можно это использовать для корыстных замыслов. Сделать это можно довольно просто, зайти на сайт и покликать специальным образом на специальные товары, чтобы это попало в обучающую выборку
Делят на три категории: Component-Specific, Goal-Driven, and Capability Probing
В целом ничего интересного, но провели мета-рисерч 45 статей на эту тему и упомянули их. Будь у меня время и рекомендательная система достаточного большо масштаба в открытом доступе для клиентов, я бы запустил internal red-team, чтобы попробовать ее поломать и посмотреть получается или нет.
Кстати - идея для стартапа
Сегодня узнал новое.
Кандидат пытался убедить что o(n log n) эффективнее чем o(n). Конкретно сравнивали quick sort и взять первый элемент, чтобы найти максимум или идти по пути сравнения каждого элемента с текущим максимальным. Век живи - век учись
В целом, конечно, такое бывает, когда один алгоритм в асимптотике лучше, но у него большой оверхэд из-за какой-нибудь константы здоровенной, и на практике не лучше
Мне есть что на это ответить:
A/B тесты оценивают общий эффект, будь то средний, медианный, перцинтильный и т.д. Утверждение о том, что требуется 100% случаев для принятия решения, неверно. Возможно, у вас возникло неправильное понимание этого процесса. Рекомендую обсудить ваши наблюдения с командой Саши Сахнова. Это поможет устранить недоразумения и объяснить, как это действительно работает, чтобы в дальнейшем не возникало ложных представлений.
Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:
0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0
В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.
Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит
Особенно забавно это читать после вчерашнего поста. Мир, где бизнес живет под железной пятой математиков
3/3
Наткнулся, во время просмотра комментариев к видео про А/Б тесты, на крик вопиющего в пустыне.
Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.
Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.
В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.
Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).
Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.
Заказал себе бочку и чиллер для холодных ванн, они как раз на картинке.
Буду анализировать через датчики oura и eight sleep в течении трёх месяцев, чтобы оценить, работает ли этот протокол.
В прошлом году, когда делал в домашних условиях ванну со льдом в течение трёх месяцев, мне очень зашло, но много времени тратил
У нас с Валерой Бабушкиным, хоть мы и вместе много работали, почти нет совместных видео. Надо бы это исправлять
Начать мы решили с темы которая нам обоим близка помимо ML, и это литература. Мы оба довольно много прочитали литературы по самым разным направлениям, будь то sci-fi, войны китайских династий, зарубежная классика или античная философия
Поэтому в эту пятницу, в 17:00 по Лондону (19:00 по Москве) в канале Валеры мы обсудим:
• Как у каждого из нас пробудилась любовь чтению и какие книги сформировали наше мировоззрение?
• Какие книги стоит прочитать каждому (вот Мой топ-120); вообще, в какие области знаний стоит углубиться?
• Какой у каждого из нас подход к процессу чтения, как правильно читать? как читать много и не упускать важного?
Поэтому всех ждём в пятницу, готовимся качать свою интеллектуальную бицуху
Бочка с ледяной водой (3 градуса) положительно повлияла на мое восстановление
Кроме субъективных ощущений удалось прибавить в жиме штанги лёжа и прочих упражнениях
Со 140 на 13 в жиме, пошел вверх: 142.5*13, 145*12,147.5*12, 150*11 ( это за 4 недели )
Также удалось удерживать 40+ повторов в рамках пяти подходов
Ну и в целом бочка с чиллером гораздо удобнее бутылок со льдом в ванну
Теперь можно и важные вещи обсудить.
Неделю назад кто-то украл тапок из моего сада. Причем это была не первая попытка, но первая успешная. За неделю до этого тапок оказался под деревьями, зарытый в коре. И вот он пропал
Поэтому я решил поставить камеру с датчиками движения, которая обнаружила вора, вернувшегося на место преступления и попытавшегося украсть уже другой тапок (снова был обнаружен под деревьями, зарытый в коре)
Забавно что статья Кохави на KDD 2024 - False Positives in A/B Tests - практически тоже самое что и The reproducibility of research and the misinterpretation of p-values от Roayl Society of Open Science. По странному стечению обстоятельств прочитал их подряд и сразу заметил
И там и там считают FPR, и там и там использую prior. Результаты и там и там сходятся. Надо сказать, что статья Кохави чуть более прикладная и ссылается на статью от 2017 года.
Если кратко. Допустим 10 из 100 аб тестов у вас успешны и стат значимы в нужную сторону. При альфе 0.05 в среднем 5 тестов из 100 будут стат значимыми всегда, допустим 2.5 будут показывать в нужную сторону. Значит 1/4 ваших стат значимых и хороших аб тестов - будут ложными
Пошел искать статьи от 2018 года, ждите меня на KDD 2025.
Так вышло, что я все-еще ищу себе Principal ML Engineer. Локация - Лондон (можно выбрать еще KL если хочется). По деньгам +-как E7 в Meta. Смотрю в сторону IC, не менеджера, хотя на этом уровне всегда нужен leadership. Если интересно - можно написать мне в личку, обсудим
Читать полностью…Регулярно спрашивают как найту работу за пределами РФ, как показал отклик на мои вакансии в КЛ - желающих очень многою
Очевидно, что международные стартапы с русскоговорящими фаундерами или командами – один из самых простых способов получить оффер за рубежом, как минимум cultural fit пройти легче, да и компании, в которых вы работали, скорее всего скажут в таком случае чуть больше, чем ничего
Вакансии в таких компаниях собирают ребята в канале Connectable Jobs (попросили рассказать про себя), а также делятся прямыми контактами HR для отклика.
Как результат – уже десятки читателей получили офферы в Neon, InDrive, 1inch, Wheely и др.
Несколько актуальных вакансий:
– Machine Learning Systems Engineer в CentML (Remote US или Торонто)
– Frontend engineer (KYC) в Wallet on Telegram (remote)
– AI/LLM Engineer в Mayflower (Кипр, помогают с релокацией)
– Senior Data Scientist в Wooga (Берлин, помогают с релокацией)
– Head of Machine Learning Engineering в Exactly.аi (remote или Лондон)
Еще у ребят есть отдельный канал для вакансий в других областях, например, продукте, дизайне, аналитике и маркетинге.
Некий Игорь Котенков скинул мне почитать интересную заметку. Пишут что:
2020: The team completes a PoC using Ray for this workload, demonstrating the ability to handle "12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour."
Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.
К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).
Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.
Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.
Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.
На днях зашла дискуссия про измерения, data driven и прочие алюминиевые огурцы и возник вопрос:
Отвечает ли технологический департамент за бизнес результаты?
Один из авторитетов, участвующих в дискуссии, утверждал что нет, технологии отвечают только за технологии, а уже бизнес должен с их помощью добывать ценность. По аналогии с продавцом, задача которого предоставить качественный товар (в зависимости от цены), а добыча ценности - уже задача покупателя
Мне эта позиция кажется неверной, хотя безусловно удобной. С таким подходом тяжело построить партнёрские отношения, чувство ответственности за результат и проактивность (откуда возьмутся те самые высокогрейдовые и проактивные?).
Мы вам предоставили что вы просили, дальше - не наша проблема. Особенно плохо может выйти, когда это касается аналитики и работы с данными.
Но что-то в этом подходе безусловно есть. Эта дискуссия, кстати, началась после обсуждения кто и как должен измерять результаты проектов
По итогам вчерашнего поста я увидел как много специалистов есть в чатике, поэтому хочу спросить их мнения
Наконец-то дошли руки установить мега простыню версии 4.0.
Установка оказалась гораздо легче чем версия 3.0, блок работает еще тише и теперь его совсем неслышно, управление похлопыванием гораздо удобнее чем ночью лезть в аппку (не так, чтобы часто приходилось это делать, но тем не менее). Предыдущая версия делала матрас чуть жестче, что мне нравилось, новая версия вообще кажется его никак не меняет.
В целом - очень рекомендую
В который раз поражаюсь. Запросил резюме на найм в Куала Лумпур, компания British Petroleum, упомянул релокацию. Разбираю резюме - четверть на русском языке. Занавес
Читать полностью…Прочитал небольшую заметку от Ebay - Increase A/B Testing Power by Combining Experiments. Идея хорошая, послевкусие так себе.
Обсуждают что будет, если взять несколько экспериментов в рамках одинаковых изменений, правильно их объединить и получить общие результаты? Идея неплохая, правда моменты где это можно использовать сомнительные, а примеры вызывают удивление. Читать на свой страх и риск
Сейчас на секунду предался ностальгии и легкой грусти по тем временам, когда у меня была возможность погружаться в чтение с головой. С головой это значит, когда удавалось уделять столько времени, что выходило прочитывать 1-1.5 книги в день на протяжении длительного времени (месяца). Пожалуй, столько событий, красок и эмоций в моменте (где момент — это единица длиной в месяц) я не получал в других ситуациях.
Сейчас у меня такой возможности нет