Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Про тюн llama-3.2-3b в зависимости от файнтюна на математике
Читать полностью…Дамы и господа, выдыхаем: RL всё таки не работает.
Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.
Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.
Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.
Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.
А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.
Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.
Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Разорвало, сори.
Особенно в контексте того, что ребята в комментах постоянно лезут рекламить такое.
Mistral 3.1
Новый малой, мультимодальный, инструктивный, твой - mistral 24b. Да еще и с длинным контекстом. Над пробнуть вместо мультимодального Qwen'а.
https://mistral.ai/news/mistral-small-3-1/
TAID или кипичение, а может быть дистилляция?
- Тогда мы идем к вам с Sakana.ai
Мои любимые упоротые рисечеры из японской лабы Sakana.ai придумали изящный и простой способ адаптации дистилляции для LMок (на самом деле работает для всего). В качестве подхода,который риал прост, предлагается темпоральная (т.е. многостадийная во времени) дистилляция.
Идея в том,чтобы не сразу через KLD адаптировать ученика к распределению вероятностей токенов в генерации учителя, а делать это в две и более стадии. Концептуально на первой стадии мы имеем промежуточное целевое распределение, которое по "форме" находится между учеником и учителем, чем дальше стадии идут по времени, тем ближе они по форме к распределению учителя, пока не станут 1-в-1 (условно конечно).
Для этой многостадийности используется адаптивный множитель зависящий от номера стадии/времени и преобразования KLD (вырезку из статьи приложу ниже), это и позволяет форме распределения изменяться от ученика к учителю.
Очень Дяде напомнил такой подход уже всем известные аннилинги. Когда мы после pretrain стадии и до sft делаем еще мостик между ними в виде еще одной процедуры обучения - annealing (отсюда и аннилинги). Она состоит в обучении модели на меньшем по размеру, чем претрен сете, но качественнее и с тем же распределением. Но при этом по сравнению с sft сетом размер больше и задача все еще близкая к pretrain, нежели к domain adaptation. Однако, если мы перейдем сразу к sft авторы утверждают, что мы можем потерять важные знания о мире, когда как с этапом отжига это сохраняется, если распределение соответствует не ниже 84% схожести. Почитать об этом можно в последних статьях по Llama и open coder.
Upd. Насчет TAID, у людей также мы начинаем не сразу с жоских задачек, а постепенно учим от учителя к ученику с простых задач к сложным. Тут аналогия та же. Постепенно поэтапно усложняем дистилляцию.
По сообщению какого-то там портала ключевым разрабам DeepSeek ограничили выезд за границу.
Вот те и великий китайски фаервол...
Я твой кэш everything считал.😳
Рубрика мудрость дня от Дяди
Нет ничего бодрящего с утра, как увидеть в коде платформы пересборку faiss index'а при каждом вызове матчера...
Всем мамкиным рукожопам разрабам кидаю простую ссылку на хабр:
https://habr.com/ru/companies/okkamgroup/articles/509204/
И совет:
1. Делайте прекомпьют кеша при сборке кода перед раскаткой на стенды. Просто потом берешь index.save().
2. А при раскатке на прод не забывайте про хотя бы initial long. А тут делаешь index.load().
И, пожалуйста, ОДЫН раз!
Все по ссылочке выше есть в примерах. Да даже в доке faiss есть, но для людей кто любит по-русски специально хабропост приложил.
По следам reasoning и моих комментариев к посту выше. Паша подготовил краткий tldr статей,что я посоветовал прочитать.
/channel/evilfreelancer/1230
📼 Вышел новый ролик от Андрея Карпаты — Как я использую LLM.
В прошлый раз он объяснял, как [устроены] модели ChatGPT, а теперь делится реальными кейсами из своей жизни.
Что в ролике:
• Разбор популярных моделей и их возможности
• Как выбирать модель под задачу (и не переплачивать)
• Инструменты: поиск, код, графики, работа с файлами
• Голос, изображения, видео и даже Custom GPTs
2 часа контента с таймкодами. Отличное времяпровождение на выходные 😬
🔘Ссылка [тут].
@tips_ai #news
Everyday i shuffle you, MMLU.
Недавно вышла интересная работа про замер MMLU путем подмены варианта ответа.
Авторы предлагают в MMLU-like бенчах рандомно подменить один из неправильных ответов на «None of the above», и это рушит на ≈10-15 процентных пунктов перфоманс).
Также напомню,что ранее еще работал шаффл, замена индекса с abcd, на i,ii,iii и т.п. В целом давно пора подрайвить эти бенчи на leakage и format overfitting.
За наводку спасибо @walfry
Удиви своим SVG. Нарисуй с LLM.
На kaggle вышло соревнование, где нужно тюнить LMку по промпту генерить svg'шку максимально близкую по clip score к референсу в тесте.
Дядя помимо прямого тюна, куче открытой датки и дистилляции моделек лидеров на рынке (кстати Sonnet3.7 круто могет), уже видит, также атаки на тестовый файл. Ведь CLIP скор можно взломать через OOV примеры, подобно взлому reward моделей. И мы видели соревнования,где атаковали модели скореры промптов. Цель однако соревнования в первую очередь сделать тюн генераций, но сопутствующие бонусы как уберечь от атак.
Ссылка: https://www.kaggle.com/competitions/drawing-with-LLMs
Мои бывшие студенты ищут к себе коллег в команду.
В Туту ищем middle/middle+ Data Scientist.
Локация: у нас есть офисы в Москве, Санкт-Петербурге и можно работать удалённо (и за пределами РФ тоже).
З/П: 300 000 – 370 000 gross (зависит от итогов интервью).
Туту - онлайн-сервис для планирования путешествий. Помогаем с билетами, расписаниями, отелями и всем прочим для поездок.
Основные задачи:
— Разработка моделей рекомендаций для персонализированных маркетинговых коммуникаций, оптимизации времени и канала взаимодействия с клиентами (email, push-уведомления и т.д.).
— Разработка и внедрение Look-a-like моделей для поиска новых клиентов, похожих на самых ценных покупателей Туту.
— Прогнозирования LTV (Lifetime Value) для каждого сегмента, для эффективного расходования маркетингового бюджета.
— Создание и поддержка прогнозов (бейзлайнов) для целевых метрик на квартальный и годовой горизонт.
Мы ожидаем:
— Коммерческий опыт от 2 лет.
— Знания и опыт в области статистического анализа и методов моделирования.
— Владение алгоритмами машинного обучения и их применение в аналитике.
— Знакомство с эконометрическими методами и моделями прогнозирования маркетинговых данных.
— Опыт в разработке и внедрении прогнозных моделей (как плюс — для оптимизации маркетинговых стратегий).
— Опыт работы с SQL, ClickHouse, Python (scikit learn, catboost, pytorch, prophet, plotly).
Отклики направлять @juliape_TuTuHR
Забавно, что Anthropic'и успели быстрее.
/channel/ai_newz/3694
Qwen`цы сделали анонс перед релизом своего нового супер-сервиса, видимо и чит-чат и поиск и рассуждения и тп – все в одном.
https://chat.qwen.ai
Про качество обученных ризонер моделей с разными промптами
Читать полностью…Вот это поворот 😱😱😱😱
Крч, RL и sft снова под ударом!?!?
Upd.
На самом деле грамотный pretrain и sft дают хороший фундамент и тут, а rl снова нужен, чтобы ломать тимплейты элайнить под видение авторов поведение. Но даже в уже легендарной команде deepseek видим,что предусмотрели не все. Очень интересное исследование и анализ. Чтобы было бы, если этих ошибок не сделали китайцы?!? 🤔
RAG system design на хабр.
Вот хороший пост про то, как чел сделал сам RAG и прошел все основные этапы проектирования. Хороший system design, советую к прочтению в выходные.
От себя добавлю чего не хватает. И вы должны себе в рамках дизайна об этом всегда напоминать. Если заявляется SOTA не хватает описания системы метрик. В каких осях SoTA, как измеряли качество извлечения информации, как измеряли качество ризонинга, или все измерялось e2e, то тоже как?
Всегда есть типы ошибок, которые рассматриваются: ошибка поиска (в топ выдачи нет полезных подсказок), ошибка ризонинга (когда ллмка получила подсказки) и даже эта ошибка распадается на ошибку, когда в топе была подсказка и модель не ответила, когда подсказки не было и не ответила (те не сработала из весов). А еще интересное, когда модель сама принимает решение ответить из весов, несмотря на плохие подсказки. Вот этого не хватило. В остальном лайк, закладка.
Upd. Автор опубликовал код тут.
У семи нянек LLM-ка reward хакает.
(с) Старинная DL поговорка.
OpenAI представила свое исследование хака поведения агентов на основе reasoning моделей. Утверждается, что после обучения при помощи CoT+RL модели все еще хакают задачи. Скрывают намерения или обходят тесты, что конечно не ново для комьюнити.
Для идентификации такого поведения, предлагается простое решение ввиде "надсмотрщика". Это другая LMка, которая следит за суждениями агента во время выполнения задач и идентифицирует "девиантное" поведение. Причем для 4-O поколения GPT достаточно прописать доп. промпт.
При этом, авторы подчеркивают, что переиспользование мониторинга взломов для дообучения моделей не приводит гарантированно к полному отсутствию хаков. Модели дословно: "учатся скрывать свои намерниям". Поэтому, черезмерное давление на CoT обучение приведет к недееспособности системы обнаружения. Отсюда совет, не переусердствовать с способами дообучения моделей по результатам детекции, а лучше вовсе оставить систему мониторинга для обнаружения запретных рассуждений и фиксить их "постфактум" на инференсе. Т.е. не прибегая к переобучению на таких примерах.
Далее авторы указывают на то, что в будущем, именно такие системы обнаружения взлома и их развитие, поможет контролировать (ага да щаз) поведение AGI.
Только авторы, думаю, понимают, что чем сложнее и умнее система, тем лучше она сможет скрывать свои намерения, о которых уже упоминается в статье и наблюдается такой эффект. Да такое же поведение мы наблюдаем у людей и все мы не герои "Особого мнения" и тп., чтобы за скрытыми намерениями заранее до совершения преступления предугадать его.
Paper тут.
Чорд у Дяди есть пару агентов тоже с такими "мониторами".
Мануш, ты ли это?
Тренили мы агентов, потеряли табун лошадей из Tesla Y и перелили их силы в h800.
https://manus.im/
Твой цыганский агент дилер от китайцев 💳💳💳
Немного про LLM и реальность в проде (бизнес кейсы).
Дядя тут быканул на один постик про оркестрацию, метамодели и роутинг моделек вокруг/с LM. Закономерно получил отрицательную ОС. Но все же, чтобы там не думали, что автор с НИИ и все же прод.опыт имеющий, а не тварь дрожащая, расскажет вам Дядя про реальность чутка.
Интро. Борд хочет, чтобы all in на LLM и кидает в вас задачу на проникновение современных БЯМ в бизнес процессы, тех.решения и платформы. Ведь ему со всех углов уже налили в уши, что это рокет саенс и золотая пуля. Нет.
И вот Вы бедняга, берете под козырек тащить это в уже устоявшиеся пайпы, системы и процессы.
Кейс 1. Система распознавания намерений. Хочется взять описания основных сценариев взаимодействия с клиентом, ака интенты, взять фразы в чате юзера и сказать: LMушка а вызови подходящий сценарий по описанию и запросу. И по-началу у вас будет это работать, но есть нюанс. На десятке интентов это может и ок. Если ваша LMка норм,то даже и соточку потянет. Но в системе интентов бывает сотни сценариев, и некоторые модельки тут уже не тянут. Да еще и глючат при генерации названия интента. И поэтому хитрые прод. инженеры используют хаки. Например, мы вот имели ж до этого систему на классификаторах и tfidf/fasttext/bert и хорошо оно работало итак без LLM для сотни и даже тыс. интентов. А давайте, чтобы убрать глюки и проблемы масштабируемости просто будем с этих модулей старых выдавать топК кандидатов. Берем К кандидатов, их описание и фразу юзера, кидаем в LLM и профит она из ограниченного списка, с recall@K которого 0.95+ выберет вам с 100% вероятностью нужный ответ. И фигак ты и кпэ закрыл и как бы LMка в проде. А чтобы это было чисто на LMке тебе придется еще думать про скейлинг, сегодня у тебя 10 интентов, а завтра 20 и перетюнить LM ты задолбаешься, классификаторы быстрее ретюн. Конечно можно лорку гонять, да.
Ах и да, тут ещё важно,что на запросы отвечает всеравно старый добрый сценарный движок или qa система. Да, да это оч близкий подход к RAG.
Кейс 2. Поиск и LLM. Мы же понимаем,что из весов LM поисковик так себе? Тут возникает вопрос актуальности данных,постоянного из-за этого переобучения, да и еще до кучи — глюки. Поэтому тут как раз, был придуман RAG. А LMка получает роль или ризонера по выдаче или вообще пишет тлдр по выдаче. До кучи, конечно, это над присыпать ссылками на источники, чтобы повысить доверие, да еще пошарить с вами ответственность за верификацию выдачи. Но иногда, ребята идут дальше, например делают технологию блендера, когда ответ из весов LM и выдачи с поиска (иной любой системы) еще скорится доп.алгоритмом и выбирается лучший ответ. К примеру, тут вот ребята с Яндекс создавали рекламные тайтлы, используя такой подход.
Кейс 3. Про читчат и ассистентов.
Когда появились LMки аля ChGPT все говорили, что это новая эра для ассистентов. Но в итоге, эти LM-based системы всеравно у серьезных игроков опираются на тот самый блендер между старыми отлаженными модулями: intent recognition, retrieval и дерево сценариев. А роль БЯМ или переписывать ответы, или выбирать из уже порезанной выдачи ретривала/интент классификации и в остальных случаях вести беседу самостоятельно e2e. Вообщем в целом жизнеспособность only e2е LLM в таких задачах спорно. По крайней мере сейчас. У знакомых вообще долгое время retrieval based диалоговая система не уступала LLM-based причем метрику оценки формировала команда БЯМ. Да LLM дает больше разнообразия ответов, интересности, зато ретривал релевантности. Поэтому и тут-то тоже блендер схема зашла на ура.
К чему я это все, да оркестрация старых + склейка с новыми системами важна. Переиспользование старых стабильных, надежных и высокоэффективных модулей тоже не зазорно. Можно ли это блендить и мерджить с LLM? Нужно. И не стоит делать all in на LLM. Сложно ли это сделать? Да нелегко, но дорогу осилит идущий.
YandexGPT R1 на Huging Face
Выпустил адаптер на Hugging Face который я дообучил при помощи impruver поверх YandexGPT-5-Lite-8B-pretrain вышедшей на днях, используя датасеты оптимизированные под reasoning.
Ссылки:
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_lora
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_gguf
- https://ollama.com/evilfreelancer/r1_yandexgpt5-lite
Конфигурация: YandexGPT/8B_lora_r1
Отчёт W&B: https://api.wandb.ai/links/evilfreelancer/zj6s02v4
Запустить через Ollama:
ollama run evilfreelancer/r1_yandexgpt5-liteЧитать полностью…
https://openai.com/index/introducing-gpt-4-5/
Тлдр.
- Безопасность не предел.
- Креативный креатив.
- Интересненько.
- Грибы не предлагать Меньше глючит.
Упд. Поменял картинку.
🔮 CN-AI-RESEARCH | Исследования в области ИИ
Компания DeepSeek в рамках своей недели Open Source представила два новых инструмента и набор данных, которые помогут улучшить производительность AI-моделей.
🔧 DualPipe
Этот алгоритм параллельной обработки позволяет одновременно выполнять вычисления и обмен данными, устраняя задержки (так называемые "пузыри" в pipeline). Представьте, что вы дирижируете оркестром, где каждый музыкант (GPU) работает синхронно, без ожидания других. Именно это делает DualPipe!
🔧 EPLB (Expert-Parallel Load Balancer)
Инструмент для балансировки нагрузки между GPU при использовании экспертного параллелизма. Он оптимизирует распределение задач, чтобы минимизировать простои и максимизировать эффективность использования ресурсов.
📊 Анализ данных тренировки и инференса
DeepSeek также опубликовал данные анализа своих фреймворков, чтобы помочь сообществу лучше понять стратегии перекрытия вычислений и коммуникаций.
🎯 Почему это важно?
Эти инструменты не только упрощают работу с моделями DeepSeek, но и могут быть полезны для разработчиков других крупных языковых моделей.
Подробнее о проектах:
👉 DualPipe
👉 EPLB
👉 Анализ данных
#КитайскийИИ #КитайAI #DeepSeek #OpenSource
От подписчика
З.Ы. не то запинил ответом, но вы поняли.
YaGPT-5, без комментариев.
Читайте тут.
https://habr.com/ru/companies/yandex/articles/885218/
А...
Это, всего лишь, крыжовник...
😂😂😂😂
З. Ы. Запахло Йенифер...
Спасибо за шутку @kristaller
Спасибо товарищу по цеху, как-то удачно выпустил пост про длинные контексты: /channel/gonzo_ML/3408
Тут прям в тему моего поста про CAG. Мы там с подписчиками в комментариях также сошлись ко мнению,что хорошо бы смотреть на метрики forgot in the middle для длинноконтекстных моделек.