dealerai | Неотсортированное

Telegram-канал dealerai - Dealer.AI

8212

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko

Подписаться на канал

Dealer.AI

Мы тут зацепились с @maharishiva в комментах. И это было полезно, советую почитать. Вынесу сюда дополнительно важную отсылку Федором чисто на ту же статью. Мне кажется, что однобоко была она выставлена в комментариях против моего пойнта.

Далее приведу ее перевод, сори, скопипастил с хабра.

Техника Chain-of-Thought (CoT), предложенная в работе "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022), стала важным инструментом в арсенале промпт-инженерии для повышения качества ответов LLM, особенно в задачах, требующих рассуждений. CoT возникла из наблюдения, что большие языковые модели, в отличие от моделей меньшего размера, демонстрируют эмерджентное свойство – способность значительно улучшать свои ответы при использовании подсказок, направляющих их на генерацию промежуточных шагов рассуждения. Это свойство становится заметным для моделей с количеством параметров от 100 миллиардов и выше.

Да для моделей PaLM 540B это работало помимо промпта еще и с фьюшотом. Но для уже GPT3 это работало чисто по просьбе "делай рассуждая", без дообучения на спец СОТ формат. Да еще надо отметить, что фьюшоты обращаются, как раз к тому, что уже было в модели в ее весах усвоено в рамках обучения, и если промптинг с фьюшотом и прочими хаками не сработал, то модель не усвоила что-то с этим на обучении. Она не может делать выводы. Является ли это паттерн матчем или логическим выводом? В комментариях считают, что это паттерн матч, или поиск, но не способность к логическому выводу по подсказкам.

Дядя считает иначе. Пример, мы можем спросить у модели: "кто правил раньше Петр 1 или Петр Великий"? Воспользоваться RAG, получив подсказки по личности и датам правления. И если модель с этими подсказками не может ответить это про что? Про не умение в поиск или паттерны или все же в логическое суждение? Если мы просим модель без дообучения на R like, отвечать рассуждая и получаем в сравнении с до и после лучше результат это про паттерны или поиск или про скрытые свойства к рассуждениям?

В общем, продолжаем бугурт.

Читать полностью…

Dealer.AI

И еще про корреляции с разными алгосами отбора. Видим около 0.5 (шума). 🤣

Читать полностью…

Dealer.AI

Робот unitree h1 решил показать свое кунг-фу и надавал леща кожаным мешкам.😠 А я говорил, не стоит постить видосы с насилием над роботсами. 😂

На самом деле, шутка. 🤨
В целом, инцидент произошёл из-за включения робота на подвесе, в результате чего его алгоритмы стали работать на стабилизацию положения. Отсюда и эти "па" в стиле кунгфу панды. Однако, ботса отключили. 😢

https://x.com/sentdefender/status/1918879138019946557

Читать полностью…

Dealer.AI

продолжение поста выше...

размотать обратным ходом:
1. А тупая ли LM?
2. Может просто не было кандидатов в топ5?
3. Или кандидатов в топ-5 не было потому, что не было кандидатов на реранкинг из выдачи поиска топ1000, которая пошла на реранк дальше.
4. А может вообще был запрос сложный, а на это без перефразы норм не ответить.

Все. Размотал, методом обратного шага, прям как следаки/детективы. И ml метрики вам в этом помогают. И сразу понятно, что не стоит или стоит тащить это на а/б. Ну выкатите вы сразу на а/б без промежуточных метрик, замерив на глазок. Вам или повезет и все ок или не повезет и чтобы клубок размотать почему не ок, вам придется заново систему метрик запилить или идти вслепую на глазок. "Не нада так" 🔨...


Делай, как Дядя сказал.

Читать полностью…

Dealer.AI

Прислали в чат с "манагеры больше не нужны". https://www.youtube.com/shorts/SmnHTBiB1u0

Если что:
А. Бригадир это низшее упр звено.
Б. Под капотом может быть так, что за апи сидят 1000 индусов спецы верификаторы.
В. Так можно проверить только внешне заметные огрехи (рисунок, трещины и тп), но еще есть допуски всякие по зазорам и щелям и тп. а вот это проверить сложно без спец вещей.

Читать полностью…

Dealer.AI

Бомба! Google прокачал NotebookLM — теперь он превращает любой документ в подкаст на русском. Раньше фишка работала только на английском, а теперь — ещё на 50 языках. Лучший способ вникать в материал: хоть учебник, хоть рецепт батиного супа. И всё это бесплатно.

Пробуем https://notebooklm.google/

Читать полностью…

Dealer.AI

Распределение по экспертам в статьях STMoE и блоге HF.

Читать полностью…

Dealer.AI

https://qwen3.org/

https://huggingface.co/docs/transformers/model_doc/qwen3

Читать полностью…

Dealer.AI

Шанхай выставка автомобилей и технологий.

Пока идёт ICLR 2025 и рядом NAACL2025, китайцы провели свой очередной автосалон. И сегодня это уже не про автомобили, очень много роботов. Самое интересное со своими core технологиями и конечно с LLM.

Считаю,что авто выставки уже давно не про тачки. Это в том числе флекс своим ИИ. Который уже стал привычен в виде автопилотов и ассистентов. Будущее и где-то уже настоящее в продвинутых роботах. Вот к примеру на фото робот с DeepSeek. И вскоре и до нас докатится,что в каждом продвинутом банке будут такие роботы ассистенты. А потом и дома.

К примеру, на выставке представили робота,который может выполнять обслуживание вашего авто: выходить в гараж или двор заряжать ваше авто, помогать в сканированнии тех.состояния и тп.


В общем, в невероятные времена живём.

Читать полностью…

Dealer.AI

Говорил ж Дядя, что не верь ушам своим, верь глазам и рукам. 🛑 И что сам можешь проверить и убедиться. А не то, что там они в своих тех. репортах пиарят. 😩

Мало иметь большой контекст, когда нужен эффективный. И дай бог он 128к будет. 🥲

Вот смотрите, ребятки разобрали NoLiMA об этом. 😘

Читаем, образовываемся.

Читать полностью…

Dealer.AI

Раскуривание полезных фреймворков НЕ вредит вашей нейропластичности(с)

Читать полностью…

Dealer.AI

AirFlow, MLFlow, DVC, ClearML?? Пффф. InstructPipe от Google!!!

Вот тебе шкет, к вайб кодингу еще и вайб пайпинг. Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию. 🤣🤣🤣
Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.


https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/

Читать полностью…

Dealer.AI

Agents - не Anthropic'ом едины.

OpenAI также выпустили свой гайд, считаем взгляд, на агентов.

Читаем, образовываемся, создаем свои стандарты или выбираем удобный (антропиков или опенов).

Upd. Гайды пополняются туть.

Читать полностью…

Dealer.AI

Ахаха, они такие: "чеел, мы крч модели принесли, но архитектуру и веса не дадим, на APIху". До кучи, наверное, закрываем скоро gpt4.5.

Ну не грусти, шкет. Садись на лицо промптинга модели gpt 4.1 и на тебе кукбук, как это сделать без лишней боли. Крч, шкет, переписывай свои промпты, власть сменилась.

Upd. Там есть swe промпты для агентов даж, прикольное.

Читать полностью…

Dealer.AI

Юмор в том же вижуал духе,что и /channel/denissexy/9929

Рубрика: улыбка в воскресенье.

Читать полностью…

Dealer.AI

AI Grammar Nation, destination(c) 🥳

Про то, как достали эти путаницы в терминологии в современном ai-community.

Крч, Дядя в nlp, считай с 2017 года (+/- год как выпустился с универа). И на моих глазах (и руках) было пройдено расстояние от classic tfidf/bow, через w2v, lstm+attention, к Elmo и трансформерам в nlp. Поэтому я видал всякое, пробовал тоже всякие вещи интересные в nlp: capsule CNN и tcnn и MoE, когда это не было мейнстримом (в ~2020) и тп.

Поэтому у меня вызывает вьетнамские флешбеки упоминание некоторых "новых" методов в современном genAI. Но еще больше триггерит, в последнее время, терминология reasoning модели. Почему-то, почти каждый шкет, считает, что ризонинг это про то, что вот есть модели с таким постфиксом в имени и до этого модели не были такими. Т.е. кругозор остается на уровне DeepSeek R1, gpt o-x версий и тп. На самом деле, если бы модели не умели в "логический" вывод на основе контекста, что в т.ч. подразумевается под словом reasoning, то не работал бы ни one-shot ни few-shot промптинг, и тем более RAG как следствие из этих возможностей. Более того, ризонинг, как general свойство языковых моделей был обнаружен в 2020 году на примере ранних версий GPT-3 В период с 2021 по 2022 мы уже имели несколько статей с примером аля "отвечай рассуждая". Тык и тык для примера.

А сегодня, мы видим после цепочки pretrain-instruct tuning-rlhf, что породило сначала instructGPT, а затем ChatGPT, дальнейшее развитие усиления думающих свойств модели. Через тот самый reasoning tuning с RL и CoT/ToT форматами текста.

Модели gpt-like уже умели следовать инструкции сделай выводы рассуждая еще до появления первых моделек с постфиксом ризонинг/qwq и тп. Почему? Да потому, что на претрейн или инстракт тюн итерации в сеты попали примеры с такими естественными форматами рассуждений: книги с алгоритмами, ответы со stackoverflow и пр. Места, где люди показывали решение той или иной проблемы в формате пошагового рассуждения. И поэтому уже в ChGPT и прочих моделях до o-серии уже работал промптинг "ответь рассуждая". Без специального тюнинга. И сейчас, мы просто видим усиление этих свойств, на тех доменах, в которых улучшается значительно качество ответов: кодинг, науки, медицина и тп.

В целом, весь путь развития текущих возможностей LLM моделей к логическому выводу лежит в плоскостях: скейлинг весов, форматы данных (инструкции, CoT/ToT и др), дизайн и архитектура экспериментов (в т.ч. activation, losses и RL темы). И то, что мы видим как qwq/reasoning модели - это усиление уже известных свойств LMок через форматы CoT/ToT со спец токенами и областями суждений + RL инструментарий. Но это усиление, не рождение с 0. В целом такие модели стоило назвать thinking, а не reasoning, ИМО.

Поэтому предлагается не путать думающие модели и понятие логического вывода/ризонинга in general, ну или хотя бы быть открытым широкому восприятию истории домена и тому, что под капотом и не спорить, что ризонинга не было ДО qwq/R моделек.

Кстати прикольный постик про то, как можно усилить думающие свойства моделей через лоу ресурс .

Читать полностью…

Dealer.AI

LLM4S, когда shap было мало.

Чуваки добавили в пайп работы с табличными данными LLM к shap в пару для feature selection и назвали это autoLM агентом. Шутка. На самом деле видал Дядя такие кейсы.

У меня остается вопрос "зачем?". Тк на мой взгляд теряется самая главная часть - интерпретируемость. К примеру, у shap, расщепления в лесах и boruta permutation были понятные механики отбора.

Конечно, можно попросить LMушку пояснить за выбор тех или иных фичей, дать возможность ей оправдать свой выбор и его логику.

В статье есть несколько стратегий, все вокруг промптинга естественно. При этом фичеселектор аля LASSO (l1 регуляризация) во многих тестах топ-1. Что все еще вычислительно дешевле и быстрее.

Хотя я бы брал и микстил быстрые селекторы фичей с LLM, где юзал последние для "придумывания" интерпретаций почему отобрали фичи именно так.

А какой опыт у вас?

Читать полностью…

Dealer.AI

ruCoIR 🚀

Перевели на русский некоторые задания из бенчмарка CoIR. Бенчмарк CoIR оценивает способности моделей эмбеддеров в задачу поиска text to code, code to text и code to code. Взяли задания там где есть текст. Переводили с помощью модели phi-4.

Перевели часть заданий. Этого достаточно чтобы ранжировать модели по способностям поиска кода по русскому тексту. В таблице замеры различных эмбеддеров, которые умеют работать с русским языком.

Модели multilingual-e5-large и multilingual-e5-large-instruct выглядят очень даже не плохо учитывая их размер.

HF dataset
GitHub

Читать полностью…

Dealer.AI

О метриках RAG домолвите слово.

В общем, уже накипело 😡, что многие команды/продукты ai-driven не думают о метриках ML, а сразу пытаются MVP катануть на a/b. 😐

А ведь можно было сэкономить и сберечь репутацию решения и только добившись минимально допустимых ML метрик отправлять на тесты решение в прод. Важно, что это касается тех продуктов и проектов, где в центре лежит ai-based технология.

Поговорим, снова, о метриках на примере RAG/поиска и продуктов/решений, которые строятся вокруг них.

Когда у вас решение строится на ML темах вы можете до выкатки на а/б понять, что будет провал. Если мы говорим о поиске или rag системе у нас ошибки размазаны по основным модулям:

1. Модуль генерации кандидатов. Место где вы получаете первый пулл топК кандидатов.

2. Модуль или модули реранжирования. Тут вы из топК можете породить топМ, где М<<K или же просто переранжировать искомое К (однако такое бывает реже).

3. Если у вас поиск+LLM, то у вас еще есть модуль ризонинга. Где может жить LLM+доп логика (даже агенты).

Еще бывают темы, когда LLM сама переписывает запрос. До кучи еще, когда есть преклассификация запросов на сложный и простой - т.е. мы решаем, можем ли так отдать в поиск запрос или лучше его переписать или породить из него N запросов. А дальше есть multihop, когда нам чтобы найти конечный ответ надо L раз с разными запросами от LLM сходить в разные БД, чтобы дать итоговый ответ. И т.п. и т.д. И к сожалению на каждый такой модуль нужно иметь метрику качества. Зачем? Разберем пример ниже.

Размотаем поиск товаров на каком-нибудь приложении. Мы вводим фразу: "хочу блюдо к новогоднему столу". На выходе логика приложения по тз от заказчика должна выдать нам, к примеру, топ-5 предложений из базы товаров.
Ага уже тут мы можем увидеть развилку:
А. Нам надо, чтобы как минимум в топ5 были релевантные предложения.
Б. Чтобы хотя бы один товар был релевантный в топе.
В. Чтобы все релевантные или нет предложения были отранжированны по системе "лучше хуже".
Все это регламентирует бизнес логика естественно. Конечно, в идеале, хочется, чтобы в топ5 (топ М) были только релевантные товары и отранжированые по "лучше/хуже". Тогда нам надо стараться выбивать или MAP@m повыше или вовсе NDCG@m и аналоги (m тут 5).
Но это ещё не все. Чтобы в топе было из чего искать, нужно чтобы на поиске (генератор кандидатов из п.1 выше) было хотя бы М из К релевантных примеров, а лучше больше. Иначе реранкить будет не из чего. Отсюда хорошо бы наложить требования на высокий recall@k на данном этапе, помимо prec@k. И к сожалению @k на данном этапе надо выбрать так, чтобы в конце, в топ5 была максимальная метрика (чтобы выдача на реранк обладала нужным числом релевантных кандидатов). Т.е. этапы е2е взаимосвязаны. Часто встречаю, когда это не понимают 😓. В целом для поиска это базово. 😐

Если у вас есть еще и переспросы или multihop запросы. Вам придется и тут замерять качество переспроса: следить за отсутствием глюков, логикой и релевантностью запроса.

Для задач маршрутизации (сложный запрос или простой) вы по классике можете использовать метрики классификации.

Это я еще не говорю о том, что там накрутить можно и фильтры разнообразия и бизнес требования на маржинальность. Тут это надо, чтобы не только интересное юзеру отдавать, но и играть вин-ивн, давая возможность себе заработать и увеличить рейт покупки.

А далее, когда вы получили запрос, его смаршрутизировали, далее переспросили или так отправили в поиск, получили выдачу реранк с LLM ризонингом или переписали под какой-то промпт доп. Вам уже нужно проверить, а ваша LMка в конце имела ли кандидатов релевантных в контексте или ответила сама, а ответила, может, не верно ибо кандидаты были, но она tupa9I, или ответила норм и тп. Как крч я тут писал.

Зато, когда увидите ошибку в выдачи в своем сервисе вы сможете обратным ходом размотать:

Читать полностью…

Dealer.AI

Для тех кто не читал, у меня было об этом тут.

Читать полностью…

Dealer.AI

В статье MoDULA про попытки выбить соло домен на эксперта.

Читать полностью…

Dealer.AI

Снова, про MoE. Expert's domain adaptation.

Китайцы выпустили очередной Qwen. Самое забавное, что еще совсем накануне релиз протек в сеть, но быстро был зачищен, чтобы совсем скоро официально уже выйти. В любом случае, привет, LlamaCon Чем будете удивлять?.

В числе обновлений, разумеется, не обошлось без MoE моделек. И сегодня я хочу, надеюсь, не в последний раз, но актуальный тлдр по MoE (in general) дать. НО с фокусом на адаптацию экспертов на домен.

Все чаще наталкиваюсь на заблуждения 🔨, что эксперты в МоЕ могут отвечать только за один домен. Виной этому наши китайские друзья 🪨, пара папиров на архиве и шутки Дяди в канале 🤣

Так вот, обратимся к статье ST MoE, которую hf использовал в своем блоге про MoE. В которой в тч исследовалось поведение экспертов по доменам. Представлена лаконичная, но показательная таблица (будет приложена ниже), о том, что доменная специфика распределена между слоями в разных долях, но смешанно. Т.е. в рамках слоя эксперта имеется смесь доменов, которые он на себя берет. Это же подтверждает статья про MoELoRA. Кстати вы нигде не найдете в открытом доступе норм кода, чтоб сделать lora tuning на MoE без боли.. Снова на красивом хитмапе различные задачи qa лежат в каждом эксперте в некотором распределении.

Но неужели нет попыток заставить модель раскидать домены четко по экспертам без подмешивания?
Конечно такая статья существует, но есть нюанс. MoDULA или как учить раздельно, ну или хотя бы попытаться. Тут снова нам подсобили китайцы. В общем, чтобы завести обучение с нужными свойствами авторам приходится делать трехстадийный тюнинг. Сначала модель обучается general свойствам с универсальными экспертами и роутингом, но с замороженным доменным роутером и экспертами. Далее размораживаются доменные эксперты и фризятся универсальные. При этом роутеры тоже зафрижены. В конце расфриживается доменный роутер, остальное все фриз: универсальные эксперты, доменные роутер и эксперты.

В чем сила идея, брат? 🤔 Идея такого подхода в том, чтобы сначала сохранить общую "картину мира" на универсальных экспертах и в роутер. Далее используют только доменную часть сообщить спец.инфо. После, заморозив обе части, адаптировать роутер уже затюненым универсалам и доменным экспертам, чтобы выровнять общий роутинг. Для примера взяли модели Yi 6B и Qwen 14b, а также использовали домены: медицина, математика, программирование/код.

В общем, попытка была интересная, в теории. На практике вышло, что при вытаскивании активаций экспертов на хитмап по доменам, эксперты хоть и имели явно бОльшую долю в рамках тематик сетов, но при этом все равно цепляли "чужие" тематики. Таким образом, абсолютного доминирования "один домен - один эксперт" не вышло. Хитмапу приложу также ниже.

Наши коллеги также выкладывали исследования вовлечённости экспертов в принятие решения на инференсе моделей и показали, что доменные паттерны распределены по экспертам/слоям неоднородно.

А что там про mixture of LM's? О котором так шутил (или нет) Дядя.😧

Для начала, делал уже обзор на leeroo тут. После решил еще покапать, вдруг что найдется.
И нашел, правда маловато 😐.

Не могЕм а MoDEM. В общем, помимо, leeroo архитектуры, нашелся еще один оркестратор domain LMs. Идея проста, обучили модельки под свой домен, а дальше накрутили в качестве роутер слоя BERT 📝. Далее зафризили экспертные LM и доучили роутер e2e с такой связкой на конечные задачи. В общем заэлайнили сезам. Но как по мне, это просто более сложный модуль intentRecognition. Можно было бы и по старинке, без мерджа энкодера в качестве роутера. Как и leeroo репортят 🌿 метрики, но вы должны понимать, что это набор максимально затюненных в домен lm'ок те вы тратитесь сразу на К+1 обучений и страданий на каждом домене выбить максимум. А так, мб кому и понравится.

Если кому-то хочется еще больше упороться, то вот вам еще вариант федеративного обучения. Но сюда не полезу. Сами. Потом расскажите.

Читать полностью…

Dealer.AI

GenAI в угоду юзеру.

Пару интересных и, если присмотреться, связанных исследований.

Первое. Снова мастер стандартизации в ИИ - Антропик опубликовали исследование об использовании копайлотов для кодирования. По результатам анализа фокус группы получаем цифры.
Code Claude используется для кодинга вместо юзера в 79% случаев, т.е. юзер делает минимум работы по проверке и правке и почти сразу переиспользует генерацию.

Тут же коллеги по цеху кекают, что мол, как скоро кожАные перестанут быть передаточным звеном в этой цепи.

И тут врубается второе исследование Стенфордского университета. В нем говорится о сикофантии - изменении мнения под давлением или в угоду ожиданиям юзера. При этом, там даже есть вышеупомянутый Claude.
А теперь представьте, что LLM будет генерить код с ошибками
специально, чтобы у человеков была возможность его править, и чувствовать себя нужными. 🧠Или человеки будут специально искать у генераций недочеты и склонять LLM в результате проверок отказываться от своего "мнения" и дискредитировать себя. 🧠 Крч снова, все, чтобы чсв хумана осталось непоколебимо. 😏

Это так, затравочки, исследования интересны, советую почитать. В этом-то и была цель такой связки 😐.

Читать полностью…

Dealer.AI

RuMTEB в составе  MMTEB на ICLR2025.

Мои тигриные львы и львухи (для олдов львицы) на ICLR2025. 💃🥳
Мы начали этот путь с работы по бенчмарку ruMTEB и вошли в состав авторов международного MMTEB (в части ру языка). 

Впереди нас ждет еще одна конференция по бенчмарку и ru-en-RoSBERTa. Но об этом позже.

Читать полностью…

Dealer.AI

26 сентября 2025 года у нас пройдет AiConf2025, в рамках подготовки конференции вас ждет серия интересных статей.

Сегодня расскажу о своем пути в профессию и поделюсь своим взглядом на то, как войти в IT AI. Также затрону вопросы связанные с работой в этой отрасли, с вызовами и нюансами. И конечно приглашаю Вас к участию в конференции, регистрируйтесь и подавайте свои доклады!

Читать полностью…

Dealer.AI

Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791

Читать полностью…

Dealer.AI

Какой-то там элаймент vs мониторы/цензор оценщики и пр.

Следом за Anthropic и OpenAI сдались с элайментом и перешли на гибрид с внешними цензор классификаторами, которых зовут мониторами. Дядя писал уже тут об этом, но про рассуждения. Это небольшие сетки обученные на детекцию запретных тем запросов и генераций. Говорят, 98.7% качество. Но на самом деле, следить над бы за FPR в тч.

Забавно, элайнят, элайнят, чтобы потом просто сверху и снизу классификаторы навесить. Дядя такое уже юзал лет 5 в обед.

Конечно в гибриде элайн+внешние оценщики лучше работает. Но и это можно взломать разными атаками, все-таки oov примеры никто не отменял,также как и атаки токенизацией.

Читать полностью…

Dealer.AI

Интересно, реально или вранье, чтобы нагнать классы? 🤔

https://lifehacker.ru/perplexity-v-telegram/

Читать полностью…

Dealer.AI

https://www.youtube.com/watch?v=kA-P9ood-cE

Глядите, потом расскажите.

Читать полностью…

Dealer.AI

Про ёмкость эмбеддингов.

Тут в комментах предыдущего поста про память мне скинули пост соседей по цеху. Про исследование сколько информации может закодировать эмбеддинг языковой модели.

Статья вот. Пост вот. А мысли Дяди вот далее.

Данное исследование дает очень интересные инсайты, которые полезны как для RAG так, и для памяти на базе него, и в т.ч. для всяких там RETRO/CAG и KV-caching, даже с лонг контекстом важное. Получается, чтобы кодировать текст для той же памяти через эмбеддинги нужно иметь ввиду размерность эмбеддинга, капасити модели кодировщика, и сложность текста. И тогда ко всему выше, мы добавляем еще метапараметры для настройки и выбора моделей кодировщиков.

А еще если посмотреть, что для прода сейчас пригодны эмбеддеры около 1-3b, а еще лучше до 1b ёмкостью, то в среднем это позволяет только 512 токенов эмбедить за один вектор эффективно. Вот и делаем выводы. Думаю исследования капасити эмбедов станет интересной вехой развития RAG, KV-caching и вещей вокруг аля CAG/RETRO.

От себя добавлю, что в наших экспериментах вокруг multitasking embedders, мы обнаружили ещё одну интересную закономерность по сжатию эмбедов или с учителя, когда с тушки еще есть пожимающий адаптер, или на ученика, когда учитель дистиллится учеником. И тут коэффициент пожатия размерности эмбеддера ~2.4-2.56. Чтобы пожать размерность эмба с 768 без потери downstream качества поиска, кластеризации или классификации, мы можем опуститься максимум до 300. А для 1024 максимум до 400. Потом качество уже будет значимо снижаться от 5% пунктов и выше.

Вот такие мутки, гульки(с).

Пишите в комментариях свои наблюдения вокруг этой темы, интересно.

Читать полностью…
Подписаться на канал