boris_again | Неотсортированное

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Подписаться на канал

Борис опять

AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.

Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.

В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.

В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.

Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.

Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.

- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)

Читать полностью…

Борис опять

А теперь снова развлекательная часть: в интернете опять кто-то не прав 🍿
Осуждаемый пост: We Have Made No Progress Toward AGI

Если упростить, вся статья сводится к 2 утверждениям. Утверждения аналогичны вот этому посту: (Maybe) A Bag of Heuristics is All There Is & A Bag of Heuristics is All You Need, только позиция по ним несколько другая 😳

🔹Утверждение 1: языковые модели — это только мешок эвристик
Цитаты:
> These models are nothing more than statistical models. They can’t determine what is right and what is wrong. They can only heuristically determine what is probably right and what is probably wrong.
> Emergent model behavior is simply patterns. You build bigger models that can find more patterns and you get more patterns. It is patterns all the way down.

Перефразируя, в языковых моделях нет ничего, кроме статистических шаблонов. Посты про механистическую интерпретацию как будто бы это подтверждают: в них в моделях находятся именно эвристики и шаблоны. Для сложения, например, нашлась своя эвристическая схема.

Какова же реальная ситуация? Мы знаем, что статистические шаблоны в языковых моделях есть, но есть ли что-то ещё? Предположим, мешок эвристик на самом деле является параллельным алгоритмом сложения (пример из этого комментария). Смогли бы мы это понять с текущими инструментами интерпретации? А ведь разные алгоритмы даже вполне находятся: раз, два, три.

В целом, конструктивные вопросы звучали бы так: какие алгоритмы представимы и выучиваемы на базе трансформеров? Какие из них выучиваются языковыми моделями? Автор же говорит: только шаблоны, только эвристики 🤦‍♂️

🔹Утверждение 2: мешок эвристик — это не интеллект
Цитаты:
> A statistical model can not perform the full set of capabilities as intelligence and for the ones where there appears to be overlap, it is seemingly so at the cost of extraordinary inefficiency and unreliability.
> LLMs are statistical models that can arrive at the correct answers, but by means that look nothing like intelligent reasoning and therefore this meaningful difference in process has significant implications for what LLMs will ultimately be capable of achieving.
> Therefore, they (language models) are incapable of constructing hard rules of the world by reasoning.

Перефразируя, языковые модели работают неправильно. Хоть они и достигают целей, но делают это способами, непохожими на нормальные разумные рассуждения. Вот если бы они приводили логичные человекочитаемые рассуждения, тогда было бы другое дело! Но вот сейчас они галлюцинируют, и будут галлюцинировать, и текстовые рассуждения не соответствуют реальным процессам внутри модели.

С моей точки зрения тут в полный рост и проявляется антропоцентричность, и на протяжении всей статьи мы не раз ещё это увидим 👎
> On the quest for human-like reasoning machines
> Human reasoning is something far more sophisticated than a statistical model
Доведенное до конца рассуждение звучит так: если ты не человек, ты не разумен.

Означают ли плохие вербальные рассуждения отсутствие интеллекта? Если бы это было правдой, то можно было бы говорить, что все животные в принципе не обладают интеллектом. Рассуждения людей тоже могут быть неправильными или не соответствовать действиям.

Если отбросить эти компоненты, то останется неприятие статистических паттернов. Почему статистические паттерны — это не интеллект? А чёрт его знает. Хорошо бы определить, что такое интеллект. Автор, естественно, не соизволил этого сделать.

🔹Остальное
Автор предлагает избавиться от всех бенчмарков и вводит 2 новых сигнала интеллекта: эффективность и отсутствие коллапса при обучении в цикле на сгенерированных данных. И если эффективность — ок, то второй сигнал абсурден, потому что даже люди так не умеют.

Что касается определения интеллекта, мне нравится RL определение:
Интеллект — это способность агента достигать целей в широком спектре окружающих сред
По нему что эвристики, что рассуждения — не важно, лишь бы работало и обобщалось.

И личное: использование мема из Звёздного Пути считаю особенно греховным, учитывая репрезентацию синтетиков в сериалах.

Читать полностью…

Борис опять

https://250bpm.substack.com/p/accountability-sinks

Читать полностью…

Борис опять

AI-as-a-service -> AI-as-a-middleman 🧠

Gemini Flash 2.0 настолько преисполнился, что вместо того чтобы сгенерировать мне картинку по API (а он умеет, все было гуд!),
решил в какой-то момент сходить на бесплатный pollinations ai, передать туда мой промпт и прислать ссылку на результат генерации стороннего сервиса 😁😁😁

Читать полностью…

Борис опять

Массовое отключение электроэнергии в Португалии и Испании неожиданным образом создало A/B тест AI-assisted программирования.

Во время отключения многие программисты продолжили работать. Ведь система контроля версий GIT позволяет делать коммиты оффлайн с сохранением всей истории и позже загрузить изменения на Github. Теперь у нас есть срез кода который был гарантированно написан без использования Cursor, Copilot и других ИИ инструментов.

Исследователи проанализировали код из подверженных отключению регионов. Оказалось, что оффлайн-разработчики написали в среднем на 34% меньше строк кода.

Отличий в количестве выполненных задач, запущенных продуктов или созданных багов не замечено.

Подробнее в треде на x.com

Читать полностью…

Борис опять

Все, кто не верил в пользу локальных LLM, серверной стойки и дизельного генератора в шкафу. Ну и как вы теперь узнаете, что больше, 9.11 или 9.9? Наверное вам сейчас очень стыдно

Читать полностью…

Борис опять

Когда на всем полуострове нет интернета.

Спустя несколько часов после отключения электроэнергии в Португалии перестал работать и мобильный интернет. Вайб как будто я попал в кино про девяностые. На улице раза в четыре больше людей. Парки прям заполнены. На лавочках читают книги (!), все кругом общаются, играют в карты. Даже коммерция продолжается, правда за наличку, так что работают только киоски и палатки с фруктами.

Дорожное движение регулируется по старинке: вайбами + страхом смерти и увечий, иногда регулировщиками.

На всем Иберийском полуострове объявлен диджитал детокс + touch grass day (а я нашел отель с незапороленным работающим WIFI).

Читать полностью…

Борис опять

Недавно стал замечать такие штуки тут и там. Прямо как в Oblivion. Можно открыть и внутри какие-то буквы, какой-то лор. Кто-нибудь знает что это и откуда они берутся?

Читать полностью…

Борис опять

OpenAI неожиданно зарелизили голос демона

Сурс

Читать полностью…

Борис опять

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

Читать полностью…

Борис опять

Для простоты, вот пример.

Здесь красиво то, что так как мы контроллируем агументацию, то можем не засорять батчи шумом. Допустим у вас была фотография попугая. Вы сделали из неё позитивный пример (другое изображение того же попугая) и сложный негативный (похожее изображение другой птицы). Есть опасность, что добавив эти примеры в батч, вы случайно создатите новые позитивные пары. Только что созданное изображение другой птицы может оказаться подходящим к какому-то текстовому описанию. Но мы об этом не знаем и будем учить модель так, будто они не подходят друг другу.

Авторы решают эту проблему с помощью весов в лоссе для пар. Ставим вес 0 везде где мы не уверены, что пары позитивные или негативные, то есть просто не учитываем ошибки на этих парах.

Читать полностью…

Борис опять

Чтобы научить эту модель ещё и сохранять детали, авторы добавляют два лосса реконструкции: для изображений и текста.

Для изображений это Masked Autoencoder сетап. Для каждой картинки пропущенной через визуальный энкодер мы получаем её эмбеддинг, подаем этот эмбеддинг и часть патчей оригинального изображения в небольшую модель. Остальные патчи заменяем маск-токенами. Задача модели: использовать эмбеддинг, чтобы попиксельно восстановить замаскированные патчи.

Таким образом мы ставим задачу, что по эмбеддингу должно быть возможно восстановить любую часть изображения.

Для текста задача реконструкции выглядит как декодирование. Берем подпись, делаем из неё эмбеддинг, а затем пытаемся из эмбеддинга декодировать подпись в оригинальном виде. Таким образом мы ставим задачу, что эмбеддинг должен сохранять все нюансы входного текста.

Подходы почти идентичные тем, что применили в SigLIP2! К тому же, как и там, Visual Encoder обучали с помощью DINO-like self-distillation.

Авторы называют лоссы реконструкции регуляризацией. Их задача – не дать модели забыть маленькие детали, которые необходимы VLM для решения сложных задач.

Читать полностью…

Борис опять

#обзор_статьи

Babe, it's time for your daily bitter lesson.

# TULIP: Towards Unified Language-Image Pretraining

Не успели все внедрить SigLIP2 в свои мультимимодальные LLM, как появился ещё более хороший новый CLIP-like энкодер текста и изображений.

CLIP-подход позволяет тренировать модели на большом количестве пар текст-изображение, которые можно насобирать в интернете. Он не требует хорошей разметки. Это самое близкое, что есть в в компьютерном зрении к NLP-like foundational моделям. CLIP модели можно использовать для zero-shot классификации, дообучения для downstream задач, поиска и много чего ещё. Однако в последнее время всех интересует одно конкретное применение: как visual encoder для мультимодальных LLM.

Способность у LLM видеть картинки появляется через пришивание визуального энкодера, обычно CLIP-подобного. Делается примерно так. Берем уже хорошо обученную LLM и отдельно обученный визуальный энкодер. От визуального энкодера требуется уметь превращать картинки в последовательность эмбеддингов, например эмбеддинги патчей как в ViT. Теперь у нас есть два нечта которые проецируют текст и картинки в последовательности векторов. Однако эти векторы изначально в разных пространствах. Поэтому мы делаем проекцию: обучаем небольшой MLP который получает на вход эмбеддинги пачтей картинок и переводит в ту же размерность, что эмбеддинги токенов LLM.

Теперь у нас есть способ сделать из картинки такую последовательность токенов, которую можно подать в LLM вместе с текстом. Надо только дообучить LLM, чтобы она научилась работать с этими токенами. В итоге качество визуального энкодера во многом определяет способности мультимодальной LLM. Если токены картинки на входе плохие, то много не сделаешь.

Обычный CLIP это отличный энкодер для MMLM потому что он изначально обучается сопоставлять текст и изображения и благодаря обучению на условно всём интернете хорошо обобщается. Однако у него есть недостатки:
1. Хорошо понимает общие концепты, например, что на картинке собака. Но теряет понимание маленьких деталей изображения, потому что его лосс этого не требует.
2. Теряет нюансы текста. Он не обучается сопоставлять части изображений с частями текста.

Всем хочется такой энкодер, который:
1. Будет давать хорошие репрезентации для понимания на разных уровнях абстракции. И image-level understanding, и pixel-level understanding. Сможет сказать, и что на картинке собака, и какого цвета фон.
2. Будет для каждого патча давать такие репрезентации, которые описывают, что происходит именно на этом патче. Чтобы VLM могла сопоставить эту информацию с промптом.

TULIP, как и недавно вышедший SigLIP2, это CLIP плюс дополнительные лоссы, чтобы сделать хороший энкодер. Качество по бенчмаркам очень близкое, но в TULIP более общее и красивое решение, так что лессон более биттер.

Читать полностью…

Борис опять

Яндекс тестирует reasoning-модель YandexGPT 5 в чате с Алисой — для России это первая такая модель. Правда, пока что в бете.

Работа над моделью ещё идет. В посте на Хабре описывают с чем экспериментируют, например: RL после SFT-этапа и GRPO как в R1. Для того, чтобы собрать датасет и получить больше фидбэка от пользователей, дают возможность параллельно тестировать DeepSeek-R1. Альтернатива не только хороша для пользователей, но и в целом для компании. Молодцы, что используют открытые решения наряду со своими.

Бенчмарков пока нет и скорее всего не будет до выхода модели из беты. Но шум от Deepseek R1 и o3 моделей OpenAI был неспроста: reasoning модели действительно лучше справляются в некоторых задачах. Например, кстати, в поиске, как показал новый лидерборд арены, где на первом месте reasoning модель от Perplexity.

Напомню, что reasoning модели отличаются от обычного chain-of-thought специальным этапом тренировки с помощью reinforcement learning. Предполагается, что reasoning модель способна раскладывать задачу на подзадачи, и чем дольше она "думает" над задачей, тем лучше ответ. Это, конечно, не всегда так. Существует множество работ, указывающих на то, что процесс рассуждений модели может и не иметь прямого отношения к выводам. Но в некоторых задачах reasoning модели приносят ощутимый результат и даже вне своей весовой категории. Например, я сам видел как в одной продакшн-задаче маленькая модель с ризонингом от большой компании G победила фронтир модель без reasoning от большой компании A с отрывом в 0.2 F1-Score.

Читать полностью…

Борис опять

Принес вам инсайд: сегодня вечером на lmarena что-то выйдет 🙂

А как выйдет сделаю обзор

Читать полностью…

Борис опять

https://arstechnica.com/ai/2025/05/time-saved-by-ai-offset-by-new-work-created-study-suggests/

Their analysis covered data from 25,000 workers and 7,000 workplaces in Denmark.

Despite finding widespread and often employer-encouraged adoption of these tools, the study concluded that "AI chatbots have had no significant impact on earnings or recorded hours in any occupation" during the period studied

Читать полностью…

Борис опять

https://claytonwramsey.com/blog/prompt/

Хороший наброс, хотя я и не со всем согласен

Читать полностью…

Борис опять

Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT

Читать полностью…

Борис опять

Меня часто спрашивают (голоса в голове): Борис, как продвигается написание книги?

С октября 2024 я пишу научно-популярную книгу про исскуственный интеллект.

Книга пишется в md файлах в git репозитории через мой любимый Zettlr. Так что я могу прокрастинировать делая аналитику.

Например, если смотреть на добавленные/убранные слова, то получается так. Git не позволяет нормально оценить добавленное и отредактированное, потому что все же считает строки, а не слова, но можно что-то прикинуть. Угадайте по графику где у меня был прилив вдохновения после отпуска.

Спустя семь месяцев я закончил четвертую главу книги и сейчас в ней около 30к слов. И мне очень страшно писать вам про это! Потому что был план писать каждый день. И писать много. В общем планы были сверхчеловеческие. А получилось всего на 3 моих типичных лонгрида. Зато написано всего было 150 тысяч слов, это уже звучит более уважаемо.

Факт в том, что писать длинное это совсем не то же самое, что писать телеграм посты или даже статьи-лонгриды. Это почему-то сильно сложнее психологически. Вероятнее всего из-за монументальности задачи. Как видно по графику, переписывать приходится едва ли не больше, чем писать. И здесь ещё не отражена вся работа над кодом для графиков и экспериментов.

У меня довольно плохо получается совмещать написание книги с работой. Вроде бы время есть, а сил не хватает: для письма нужно выделить 2-4 часа и прям погрузится. А после работы погрузится хочется разве что в ванную. Оптимально писать утром, но не получается самоорганизоваться. Хотя иногда удается. Так что по факту книга пишется по выходным, отсюда и результат.

Тем не менее, это определенно лучшее, что я писал. Надеюсь скоро вам что-нибудь показать.

Читать полностью…

Борис опять

К сожалению свет дали, я надеялся хотя бы ночь так проведем

Читать полностью…

Борис опять

Общество когда отрубило свет

Читать полностью…

Борис опять

Жесть, в Португалии забастовка электронов.

Читать полностью…

Борис опять

Раз уж сегодня день голоса, может ли text-to-audio модель нюхать кокаин? Оказывается, что да. Оказывается у ребят в TTS весело.

https://www.reddit.com/r/LocalLLaMA/comments/1k4v5fm/dia_16b_is_one_of_the_funnest_models_ive_ever/

https://huggingface.co/nari-labs/Dia-1.6B

Читать полностью…

Борис опять

LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.

Настроение определяют с помощью Gemini Flash 2.0.

Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.

За наводку спасибо Игорю.

https://blog.lmarena.ai/blog/2025/sentiment-control/

Читать полностью…

Борис опять

Мне эта статья понравилась сильно больше, чем SigLIP2, который я даже не стал обозревать. Потому что там был такой вайб типа "мы добавили дополнительные лоссы и головы, потому что это нууу работает". Тут прям стройная идея и как-то более целостно всё, что-ли.

В итоге метод показывает очень хорошие результаты. Например, на сложном visual reasoning бенчмарке BLINK, MMLM LLava 34B с энкодером TULIP достигает качества GPT-4o.

Моделей на HF пока что нет, но скоро будет, а пока код и статья.

Читать полностью…

Борис опять

Но откуда можно взять много изображений и описаний одного объекта? Обычный CLIP этим не заморачивается: парсим из интернета всё, что нашли, и на этом учимся.

Здесь эта статья принципиально превосходит SigLIP2. Авторы используют диффузионную модель, чтобы генерировать positive/negative примеры для изображений, и замороженную LLAMA 3.1 8b для примеров текстов. Старая добрая аугментация данных, но сделанная очень красиво.

Читать полностью…

Борис опять

Статья строится на красивой ключевой идее. Если обычный CLIP построен на идее, что встреченные вместе изображение и его подпись имеют какую-то связь и можно попробовать её выучить, то здесь авторы идут дальше. Они говорят: на самом деле изображение и текст являются представлениями объекта из объективной реальности.

Это означает, что для этого объекта может быть больше представлений. Для одного тюльпана может быть много фотографий с разных углов и много описаний, все из которых являются его отражением. Давайте же будем сопоставлять все представления друг-другу! Пока что опустим откуда мы возьмем много фотографий и описаний одного объекта.

Следуя за этой идеей авторы предлагают новый сетап для contrastive learning. Берем много изображений и текстовых описаний для одного объекта. Будем считать constrastive loss не только между парами (изображение, текст), но и между (изображение, изображение) и (текст, текст). Таким образом мы заставим модель учиться описывать в своих эмбеддингах реальный объект независимо от того в каком виде он описан.

Кстати это очень похоже на Platonic Representation Hypothesis.

Это добавляет к обычному CLIP сетапу два новых лосса: Image-Image Contrastive Learning и Text-Text Contrastive Learning. Они делают обучение более эффективным.

Однако этого недостаточно. Это прокачивает то, что CLIP уже умеет хорошо: image-level understanding. Но не помогает понимать маленькие детали изображений и сохранять их связь с текстом.

Читать полностью…

Борис опять

Много релизов за неделю: о3 и Gemini Flash 2.5. Но и для GPU poor что-то подвезли!

Meta FAIR выпустили опенсорс модели, в том числе визуальный энкодер лучше Siglip2, VLM и даже Byte Latent Transformer!

Модели на 1b, 3b и 8b.

https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning

Читать полностью…

Борис опять

Моя сеть анонимных информаторов не обманула (спасибо, Леха)

На lmarena появился лидерборд LLM для поиска. Первое место делят Gemini Pro 2.5 и Perplexity Sonar Reasoning Pro. В целом весь топ занимают модели Perplexity и Google. Модель OpenAI на седьмом месте.

https://x.com/lmarena_ai/status/1911842298914328959

Читать полностью…

Борис опять

https://rakhim.exotext.com/but-what-if-i-really-want-a-faster-horse

Tldr: old man yells at cloud

Интересно почему все сервисы на свете превращаются в Tiktok

Читать полностью…
Подписаться на канал