Telegram-канал dealerai - Dealer.AI: Неотсортированное - каталог телеграмм

dealerai | Неотсортированное

Подписаться на канал

Telegram-канал dealerai - Dealer.AI

8212

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko

Подписаться на канал

Dealer.AI

29 марта 2025 11:18

OpenAI ограничило возможности генерации изображений с новой моделью не только в стиле Ghibli, но и иных ныне живущих художников. Так компания старается не нарушать авторское право на стиль и тп?

Upd. На самом деле просто не вывозят ГПУ. Да и какое авторское право на стиль, Дядь.

Читать полностью…

Dealer.AI

25 марта 2025 20:34

Красивое.
С incontext image style transfering.
С детализацией и читаемыми буковами.

https://openai.com/index/introducing-4o-image-generation/

Читать полностью…

Dealer.AI

25 марта 2025 11:11

KBLaM от Microsoft или как перепридумать RETRO.

Майкры зачастили капитанить и выдавать их поделки за "открытия". Помимо уже их захода на RAG, который они запотентовали как RAS, теперь еще и RETRO под себя сделали.

В общем, чем у нас отличается KBLaM от RETRO – механизмом кроссвнимания, вместо классического у них там "прямоугольное". Но базово это все ещё RETRO-like архитектура. А ваше прямоугольное внимание все еще cross-attention просто на knowledge tokens. Просто челы выпендриваются и хотят называть все по-своему.
Итого ребята уповают на то,что мол RAG квадратичную сложность создает от числа токенов в подсказке. А они вот экономят время это. Так-то оно так, но почему RETRO так и не взлетел после 2022 года? Почему RAG пока на коне? Потому, что оперирует текстами перед подачей в модель. RETRO же требует лезть под капот, на уровне векторов и внимания работать с моделью. И когда у тебя появятся OOD примеры, их вектора будут тоже out of domain и тебе нужно будет e2e перетюнить этот сетап вектор+внимание+LLM в худшем случае. С RAG ты тюнишь или поисковую часть (если в топе нет нужных подсказок) или ризонинг в LLM (если LMка с подсказками не отвечает). Отдельно... И тексты итак у тебя в какой-то нормальной форме кормятся, и тюнится все быстрее и на прод инкремент идет быстрее и не надо думать,что тюня кросс внимание и LMку ты чет сломаешь в самой модели. Банально начнется катастрофическое забывание.

И тут же ребята оправдываются в статье:
"Исследователи подчеркивают, что KBLaM пока не готов к широкому использованию. Хотя он хорошо справляется с простыми вопросами и ответами, ему все еще нужно поработать над более сложными задачами рассуждения."(С)
........
Занавес.

Источник новости.
Код.
Статья.

Читать полностью…

Dealer.AI

24 марта 2025 14:10

Midjourney обзор про LM.

Пока свежа память про всякие там RL и Llama. Завезли тут Midjourney обзор про языковые модели. Конечно обзор челы из дата секретов сделали,но кое-что интересное упустили. А мои подписчики не секретами деланы и их раскрывают.

Далее дословно от подсичика, с моими вставками:

Тут немного в тему RL вот такая статья есть, в ней наверное самый забавный момент помимо прочих, что основной авто-«бенч» — это ревард-моделька, которую обучили на тех же данных, из которых и dpo-датасет сварили 🧠 (бусты существенные, duh 🚬).

Дядя: Эт че у нас уже лики пошли из трейна в тест? Логично,что модель такая будет давать сродственнным с dpo сетом предпочтения и завышать скоры. ❓ Ну и что ниже мы щас и увидим.

Продолжаем. Потом авторы ещё это все шлифанули человеческой разметкой, но размечали только эти же сами авторы (!), утверждают, что честно-честно не знали (ага щаз 😀), где какая модель 😮‍💨. И разумеется , в итоге их 8В победила GPT-4o с разгромным счётом 🌿, и добить решили перлом 🧖:
>> Note that all authors have years of experience in computational creative writing research. (Ты смотри святые люди, а.)

А, да, размечали ещё при этом не сами генерации, а их суммаризированные (!!!) версии, так как "doing the task with eight lengthy creative writings can be cognitively overloading" ))))) Бедняжки от кожанных могут перегреться. 🦻

В общем, читаем внимательно, может у вас сложится иное мнение и зря мы гоним тут.

За материалы спасибо @walfry

Читать полностью…

Dealer.AI

24 марта 2025 09:25

Про качество обученных ризонер моделей с разными промптами

Читать полностью…

Dealer.AI

24 марта 2025 09:25

Про темплейты и селф рефлексию

Читать полностью…

Dealer.AI

24 марта 2025 09:24

Вот это поворот 😱😱😱😱

Крч, RL и sft снова под ударом!?!?

Upd.

На самом деле грамотный pretrain и sft дают хороший фундамент и тут, а rl снова нужен, чтобы ~~ломать тимплейты~~ элайнить под видение авторов поведение. Но даже в уже легендарной команде deepseek видим,что предусмотрели не все. Очень интересное исследование и анализ. Чтобы было бы, если этих ошибок не сделали китайцы?!? 🤔

Читать полностью…

Dealer.AI

23 марта 2025 10:40

RAG system design на хабр.

Вот хороший пост про то, как чел сделал сам RAG и прошел все основные этапы проектирования. Хороший system design, советую к прочтению в выходные.

От себя добавлю чего не хватает. И вы должны себе в рамках дизайна об этом всегда напоминать. Если заявляется SOTA не хватает описания системы метрик. В каких осях SoTA, как измеряли качество извлечения информации, как измеряли качество ризонинга, или все измерялось e2e, то тоже как?

Всегда есть типы ошибок, которые рассматриваются: ошибка поиска (в топ выдачи нет полезных подсказок), ошибка ризонинга (когда ллмка получила подсказки) и даже эта ошибка распадается на ошибку, когда в топе была подсказка и модель не ответила, когда подсказки не было и не ответила (те не сработала из весов). А еще интересное, когда модель сама принимает решение ответить из весов, несмотря на плохие подсказки. Вот этого не хватило. В остальном лайк, закладка.

Upd. Автор опубликовал код тут.

Читать полностью…

Dealer.AI

16 марта 2025 11:11

Вырезка про изменение KLD лосса.

Читать полностью…

Dealer.AI

15 марта 2025 19:51

У семи нянек LLM-ка reward хакает.
(с) Старинная DL поговорка.

OpenAI представила свое исследование хака поведения агентов на основе reasoning моделей. Утверждается, что после обучения при помощи CoT+RL модели все еще хакают задачи. Скрывают намерения или обходят тесты, что конечно не ново для комьюнити.

Для идентификации такого поведения, предлагается простое решение ввиде "надсмотрщика". Это другая LMка, которая следит за суждениями агента во время выполнения задач и идентифицирует "девиантное" поведение. Причем для 4-O поколения GPT достаточно прописать доп. промпт.

При этом, авторы подчеркивают, что переиспользование мониторинга взломов для дообучения моделей не приводит гарантированно к полному отсутствию хаков. Модели дословно: "учатся скрывать свои намерниям". Поэтому, черезмерное давление на CoT обучение приведет к недееспособности системы обнаружения. Отсюда совет, не переусердствовать с способами дообучения моделей по результатам детекции, а лучше вовсе оставить систему мониторинга для обнаружения запретных рассуждений и фиксить их "постфактум" на инференсе. Т.е. не прибегая к переобучению на таких примерах.

Далее авторы указывают на то, что в будущем, именно такие системы обнаружения взлома и их развитие, поможет контролировать (ага да щаз) поведение AGI.

Только авторы, думаю, понимают, что чем сложнее и умнее система, тем лучше она сможет скрывать свои намерения, о которых уже упоминается в статье и наблюдается такой эффект. Да такое же поведение мы наблюдаем у людей и все мы не герои "Особого мнения" и тп., чтобы за скрытыми намерениями заранее до совершения преступления предугадать его.

Paper тут.

Чорд у Дяди есть пару агентов тоже с такими "мониторами".

Читать полностью…

Dealer.AI

10 марта 2025 21:52

Мануш, ты ли это?

Тренили мы агентов, потеряли табун лошадей из Tesla Y и перелили их силы в h800.

https://manus.im/

Твой цыганский агент дилер от китайцев 💳💳💳

Читать полностью…

Dealer.AI

05 марта 2025 18:13

Немного про LLM и реальность в проде (бизнес кейсы).

Дядя тут быканул на один постик про оркестрацию, метамодели и роутинг моделек вокруг/с LM. Закономерно получил отрицательную ОС. Но все же, чтобы там не думали, что автор с НИИ и все же прод.опыт имеющий, а не тварь дрожащая, расскажет вам Дядя про реальность чутка.

Интро. Борд хочет, чтобы all in на LLM и кидает в вас задачу на проникновение современных БЯМ в бизнес процессы, тех.решения и платформы. Ведь ему со всех углов уже налили в уши, что это рокет саенс и золотая пуля. Нет.
И вот Вы бедняга, берете под козырек тащить это в уже устоявшиеся пайпы, системы и процессы.

Кейс 1. Система распознавания намерений. Хочется взять описания основных сценариев взаимодействия с клиентом, ака интенты, взять фразы в чате юзера и сказать: LMушка а вызови подходящий сценарий по описанию и запросу. И по-началу у вас будет это работать, но есть нюанс. На десятке интентов это может и ок. Если ваша LMка норм,то даже и соточку потянет. Но в системе интентов бывает сотни сценариев, и некоторые модельки тут уже не тянут. Да еще и глючат при генерации названия интента. И поэтому хитрые прод. инженеры используют хаки. Например, мы вот имели ж до этого систему на классификаторах и tfidf/fasttext/bert и хорошо оно работало итак без LLM для сотни и даже тыс. интентов. А давайте, чтобы убрать глюки и проблемы масштабируемости просто будем с этих модулей старых выдавать топК кандидатов. Берем К кандидатов, их описание и фразу юзера, кидаем в LLM и профит она из ограниченного списка, с recall@K которого 0.95+ выберет вам с 100% вероятностью нужный ответ. И фигак ты и кпэ закрыл и как бы LMка в проде. А чтобы это было чисто на LMке тебе придется еще думать про скейлинг, сегодня у тебя 10 интентов, а завтра 20 и перетюнить LM ты задолбаешься, классификаторы быстрее ретюн. Конечно можно лорку гонять, да.
Ах и да, тут ещё важно,что на запросы отвечает всеравно старый добрый сценарный движок или qa система. Да, да это оч близкий подход к RAG.

Кейс 2. Поиск и LLM. Мы же понимаем,что из весов LM поисковик так себе? Тут возникает вопрос актуальности данных,постоянного из-за этого переобучения, да и еще до кучи — глюки. Поэтому тут как раз, был придуман RAG. А LMка получает роль или ризонера по выдаче или вообще пишет тлдр по выдаче. До кучи, конечно, это над присыпать ссылками на источники, чтобы повысить доверие, да еще пошарить с вами ответственность за верификацию выдачи. Но иногда, ребята идут дальше, например делают технологию блендера, когда ответ из весов LM и выдачи с поиска (иной любой системы) еще скорится доп.алгоритмом и выбирается лучший ответ. К примеру, тут вот ребята с Яндекс создавали рекламные тайтлы, используя такой подход.

Кейс 3. Про читчат и ассистентов.
Когда появились LMки аля ChGPT все говорили, что это новая эра для ассистентов. Но в итоге, эти LM-based системы всеравно у серьезных игроков опираются на тот самый блендер между старыми отлаженными модулями: intent recognition, retrieval и дерево сценариев. А роль БЯМ или переписывать ответы, или выбирать из уже порезанной выдачи ретривала/интент классификации и в остальных случаях вести беседу самостоятельно e2e. Вообщем в целом жизнеспособность only e2е LLM в таких задачах спорно. По крайней мере сейчас. У знакомых вообще долгое время retrieval based диалоговая система не уступала LLM-based причем метрику оценки формировала команда БЯМ. Да LLM дает больше разнообразия ответов, интересности, зато ретривал релевантности. Поэтому и тут-то тоже блендер схема зашла на ура.

К чему я это все, да оркестрация старых + склейка с новыми системами важна. Переиспользование старых стабильных, надежных и высокоэффективных модулей тоже не зазорно. Можно ли это блендить и мерджить с LLM? Нужно. И не стоит делать all in на LLM. Сложно ли это сделать? Да нелегко, но дорогу осилит идущий.

Читать полностью…

Dealer.AI

02 марта 2025 19:14

YandexGPT R1 на Huging Face

Выпустил адаптер на Hugging Face который я дообучил при помощи impruver поверх YandexGPT-5-Lite-8B-pretrain вышедшей на днях, используя датасеты оптимизированные под reasoning.

Ссылки:
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_lora
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_gguf
- https://ollama.com/evilfreelancer/r1_yandexgpt5-lite

Конфигурация: YandexGPT/8B_lora_r1
Отчёт W&B: https://api.wandb.ai/links/evilfreelancer/zj6s02v4

Запустить через Ollama:

ollama run evilfreelancer/r1_yandexgpt5-lite

Читать полностью…

Dealer.AI

27 февраля 2025 21:23

https://openai.com/index/introducing-gpt-4-5/

Тлдр.

- Безопасность не предел.
- Креативный креатив.
- Интересненько.
- ~~Грибы не предлагать~~ Меньше глючит.

Упд. Поменял картинку.

Читать полностью…

Dealer.AI

27 февраля 2025 09:56

🔮 CN-AI-RESEARCH | Исследования в области ИИ

Компания DeepSeek в рамках своей недели Open Source представила два новых инструмента и набор данных, которые помогут улучшить производительность AI-моделей.

🔧 DualPipe
Этот алгоритм параллельной обработки позволяет одновременно выполнять вычисления и обмен данными, устраняя задержки (так называемые "пузыри" в pipeline). Представьте, что вы дирижируете оркестром, где каждый музыкант (GPU) работает синхронно, без ожидания других. Именно это делает DualPipe!

🔧 EPLB (Expert-Parallel Load Balancer)
Инструмент для балансировки нагрузки между GPU при использовании экспертного параллелизма. Он оптимизирует распределение задач, чтобы минимизировать простои и максимизировать эффективность использования ресурсов.

📊 Анализ данных тренировки и инференса
DeepSeek также опубликовал данные анализа своих фреймворков, чтобы помочь сообществу лучше понять стратегии перекрытия вычислений и коммуникаций.

🎯 Почему это важно?
Эти инструменты не только упрощают работу с моделями DeepSeek, но и могут быть полезны для разработчиков других крупных языковых моделей.

Подробнее о проектах:
👉 DualPipe
👉 EPLB
👉 Анализ данных

#КитайскийИИ #КитайAI #DeepSeek #OpenSource

Читать полностью…

Dealer.AI

26 марта 2025 11:27

Привет!

На платформе открылась регистрация на соревнования Avito ML Cup 2025

🚀Старт отправки решений: 31 марта
🔥Призовой фонд: 1 200 000 рублей

Задача 1: создать модель, которая предскажет интересные для пользователя товары на основе его действий на платформе.

Задача 2: разработать решение на базе технологии компьютерного зрения, которое сможет обнаруживать одинаковые товары.

Участвовать можно как индивидуально, так и в команде до 4 человек.
Не пропустите возможность проявить себя и забрать денежный приз!

Подробности ➡️ на страницах задач: Задача 1 (персональные рекомендации), Задача 2 (поиск дублей)

Читать полностью…

Dealer.AI

25 марта 2025 15:10

Pain test task.
Pain trial day.
Pain trial week.

Upd. Pain offer.

Так гораздо естественнее.

Источник

Читать полностью…

Dealer.AI

24 марта 2025 16:37

⚡️Твоя китайская Big Mom
на 700gb⚡️

Надеюсь, чуваки успели прочесть исследования выше и исправились. Нет.
"deepseek, out of nowhere, dropping a new model
~700GB, mit license." (C)
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

Читать полностью…

Dealer.AI

24 марта 2025 09:25

Про тюн llama-3.2-3b в зависимости от файнтюна на математике

Читать полностью…

Dealer.AI

24 марта 2025 09:25

Про длину ответов с поправленным GRPO

Читать полностью…

Dealer.AI

24 марта 2025 09:24

Дамы и господа, выдыхаем: RL всё таки не работает.

Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.

Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.

Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.

Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.

А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.

Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.

Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.

Читать полностью…

Dealer.AI

23 марта 2025 18:19

Разорвало, сори.

Особенно в контексте того, что ребята в комментах постоянно лезут рекламить такое.

Читать полностью…

Dealer.AI

17 марта 2025 18:22

Mistral 3.1

Новый малой, мультимодальный, инструктивный, твой - mistral 24b. Да еще и с длинным контекстом. Над пробнуть вместо мультимодального Qwen'а.

https://mistral.ai/news/mistral-small-3-1/

Читать полностью…

Dealer.AI

16 марта 2025 11:10

TAID или кипичение, а может быть дистилляция?
- Тогда мы идем к вам с Sakana.ai

Мои любимые упоротые рисечеры из японской лабы Sakana.ai придумали изящный и простой способ адаптации дистилляции для LMок (на самом деле работает для всего). В качестве подхода,который риал прост, предлагается темпоральная (т.е. многостадийная во времени) дистилляция.

Идея в том,чтобы не сразу через KLD адаптировать ученика к распределению вероятностей токенов в генерации учителя, а делать это в две и более стадии. Концептуально на первой стадии мы имеем промежуточное целевое распределение, которое по "форме" находится между учеником и учителем, чем дальше стадии идут по времени, тем ближе они по форме к распределению учителя, пока не станут 1-в-1 (условно конечно).

Для этой многостадийности используется адаптивный множитель зависящий от номера стадии/времени и преобразования KLD (вырезку из статьи приложу ниже), это и позволяет форме распределения изменяться от ученика к учителю.

Очень Дяде напомнил такой подход уже всем известные аннилинги. Когда мы после pretrain стадии и до sft делаем еще мостик между ними в виде еще одной процедуры обучения - annealing (отсюда и аннилинги). Она состоит в обучении модели на меньшем по размеру, чем претрен сете, но качественнее и с тем же распределением. Но при этом по сравнению с sft сетом размер больше и задача все еще близкая к pretrain, нежели к domain adaptation. Однако, если мы перейдем сразу к sft авторы утверждают, что мы можем потерять важные знания о мире, когда как с этапом отжига это сохраняется, если распределение соответствует не ниже 84% схожести. Почитать об этом можно в последних статьях по Llama и open coder.

Upd. Насчет TAID, у людей также мы начинаем не сразу с жоских задачек, а постепенно учим от учителя к ученику с простых задач к сложным. Тут аналогия та же. Постепенно поэтапно усложняем дистилляцию.

Читать полностью…

Dealer.AI

15 марта 2025 13:58

По сообщению какого-то там портала ключевым разрабам DeepSeek ограничили выезд за границу.

Вот те и великий китайски фаервол...

Читать полностью…

Dealer.AI

10 марта 2025 11:44

Я твой кэш everything считал.😳

Рубрика мудрость дня от Дяди

Нет ничего бодрящего с утра, как увидеть в коде платформы пересборку faiss index'а при каждом вызове матчера...

Всем мамкиным рукожопам разрабам кидаю простую ссылку на хабр:

https://habr.com/ru/companies/okkamgroup/articles/509204/

И совет:

1. Делайте прекомпьют кеша при сборке кода перед раскаткой на стенды. Просто потом берешь index.save().

2. А при раскатке на прод не забывайте про хотя бы initial long. А тут делаешь index.load().

И, пожалуйста, ОДЫН раз!

Все по ссылочке выше есть в примерах. Да даже в доке faiss есть, но для людей кто любит по-русски специально хабропост приложил.

Читать полностью…

Dealer.AI

05 марта 2025 08:26

По следам reasoning и моих комментариев к посту выше. Паша подготовил краткий tldr статей,что я посоветовал прочитать.

/channel/evilfreelancer/1230

Читать полностью…

Dealer.AI

28 февраля 2025 20:06

📼 Вышел новый ролик от Андрея Карпаты — Как я использую LLM.

В прошлый раз он объяснял, как [устроены] модели ChatGPT, а теперь делится реальными кейсами из своей жизни.

Что в ролике:
• Разбор популярных моделей и их возможности
• Как выбирать модель под задачу (и не переплачивать)
• Инструменты: поиск, код, графики, работа с файлами
• Голос, изображения, видео и даже Custom GPTs

2 часа контента с таймкодами. Отличное времяпровождение на выходные 😬

🔘Ссылка [тут].

@tips_ai #news

Читать полностью…

Dealer.AI

27 февраля 2025 13:46

Everyday i shuffle you, MMLU.

Недавно вышла интересная работа про замер MMLU путем подмены варианта ответа.
Авторы предлагают в MMLU-like бенчах рандомно подменить один из неправильных ответов на «None of the above», и это рушит на ≈10-15 процентных пунктов перфоманс).

Также напомню,что ранее еще работал шаффл, замена индекса с abcd, на i,ii,iii и т.п. В целом давно пора подрайвить эти бенчи на leakage и format overfitting.

За наводку спасибо @walfry

Читать полностью…

Dealer.AI

26 февраля 2025 08:51

Удиви своим SVG. Нарисуй с LLM.

На kaggle вышло соревнование, где нужно тюнить LMку по промпту генерить svg'шку максимально близкую по clip score к референсу в тесте.

Дядя помимо прямого тюна, куче открытой датки и дистилляции моделек лидеров на рынке (кстати Sonnet3.7 круто могет), уже видит, также атаки на тестовый файл. Ведь CLIP скор можно взломать через OOV примеры, подобно взлому reward моделей. И мы видели соревнования,где атаковали модели скореры промптов. Цель однако соревнования в первую очередь сделать тюн генераций, но сопутствующие бонусы как уберечь от атак.

Ссылка: https://www.kaggle.com/competitions/drawing-with-LLMs

Читать полностью…

Подписаться на канал