Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Открытие вечера с Google.
Кста все знают, что Гемини появилась в поисковой строке гугла. Или нет?
Но никто не замечал, что некоторые запросы идут без ее комментариев.
Однако если прямо в запросе указать *ответь с Gemini* этот же запрос будет с ее выдачей.
Кто подметил это?) Или Дядя ток одын?
Upd. Кста, Валера уже развил идею - риал промптится.
Говорят, кикбоксер-4 вышел с Жан Claude Вам-топ-скоры-дамом.
Че, АГИ уже тут? Бенчи покорены? Кодеры не нужны?
https://www.anthropic.com/news/claude-4
Олды могут, а не ноют. 😎
Дядя дал вам базу, а Паша даст вам ггуф. 🚬 FRIDA gguf. Ждите.
Upd. Готово
/channel/evilfreelancer/1293
Кинули други в лс. Не знаю, где нашли, но неплохо.
ML fantastic beasts и места,где они обитают (с).
Привет, шкет. Ты учишься в универе и хочешь вырваться из рутины и освоить реально полезные навыки в NLP? Подай заявку на бесплатный студкемп Яндекс Образования! Здесь ты не просто переключишься с повседневных задач, а нырнёшь в одно из самых перспективных IT-направлений — NLP, и не абы с кем, а с экспертами Яндекса и НГУ. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание в Новосибирске.
За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. Успейте подать заявку до 18 мая!
Встретились как-то два Дяди поболтать за жизнь LLM и GuardRails
Валера тут конечно в лице девушки, а Дядя как всегда брутален!
Посидели тут и послушали разговор еще раз и наконец-то открыли notebooklm.
И сделали вот такую красоту, для вас, чтобы вы тоже могли послушать.
Еще лайфхак как делать тайминги).
00:00 - Введение: безопасность и надежность LLM
00:29 - Входной контроль (фильтры, списки, BERT-классификаторы)
00:52 - Умные отказы вместо блокировок для поддержания UX
01:20 - Выходной контроль генерируемого контента
01:26 - Alignment (тонкая настройка модели)
01:45 - Стратегии: Alignment vs внешние фильтры
02:13 - Метрики: FPR и F1 score
02:32 - Проблема галлюцинаций в RAG
02:49 - "Размытие + быстрая проверка" для борьбы с галлюцинациями
03:28 - Малые модели (TinyBERT) для быстрой классификации
03:41 - Имитация обдумывания для естественности
03:55 - Тюнинг эмбеддеров (BERT, E5, BGE)
04:28 - Токен хилинг: предсказание и откат проблемных токенов
05:01 - Резюме: комплексный подход к надежности
05:29 - Вопрос о "разумности" vs хорошей инфраструктуре
Upd. Залили mp3, яблочники ликуйте и слушайте.
Память бередит всех. И умы великих в первую очередь.
Карапаты высказал свои мысли про память и осознанное сохранение и переиспользование доп информации для решения задач LMкой. А также про недооцененную и не раскрытую роль и место system prompt tuning learning вместо RL/SFT и тп.
https://fixupx.com/karpathy/status/1921368644069765486
Про навигацию, anthropic и tool calling.
Тут мой кореш приметил,что антропики стали делать роутинг в поиск более "умно". Мнение тут.
В целом механики две:
1. Через function/tool calling самой LMкой. Для этого ее над дотюнить на это.
2. С помощью спец.модели, которая по контексту понимает над идти в поиск, погоду или калькулятор и тп.
Важно. В отличии от человека, сама LM "не знает" явно, что в ее весах есть или нет ответ на поисковый запрос. Но ее можно научить понимать (или вообще внешний юзать классификатор) – это запрос про поиск - зови поиск, это надежнее. Если даже в ее весах ответ был, с RAG'ом, тем более, она ответит.
Пример, как мы делали роутинг на классификации, еще описали в 2023ем. А вот пример как ребята роутят в MCP сервере нужные модули через описания с помощью эмбеддера.
Пользуйтесь.
AI Grammar Nation, destination(c) 🥳
Про то, как достали эти путаницы в терминологии в современном ai-community.
Крч, Дядя в nlp, считай с 2017 года (+/- год как выпустился с универа). И на моих глазах (и руках) было пройдено расстояние от classic tfidf/bow, через w2v, lstm+attention, к Elmo и трансформерам в nlp. Поэтому я видал всякое, пробовал тоже всякие вещи интересные в nlp: capsule CNN и tcnn и MoE, когда это не было мейнстримом (в ~2020) и тп.
Поэтому у меня вызывает вьетнамские флешбеки упоминание некоторых "новых" методов в современном genAI. Но еще больше триггерит, в последнее время, терминология reasoning модели. Почему-то, почти каждый шкет, считает, что ризонинг это про то, что вот есть модели с таким постфиксом в имени и до этого модели не были такими. Т.е. кругозор остается на уровне DeepSeek R1, gpt o-x версий и тп. На самом деле, если бы модели не умели в "логический" вывод на основе контекста, что в т.ч. подразумевается под словом reasoning, то не работал бы ни one-shot ни few-shot промптинг, и тем более RAG как следствие из этих возможностей. Более того, ризонинг, как general свойство языковых моделей был обнаружен в 2020 году на примере ранних версий GPT-3 В период с 2021 по 2022 мы уже имели несколько статей с примером аля "отвечай рассуждая". Тык и тык для примера.
А сегодня, мы видим после цепочки pretrain-instruct tuning-rlhf, что породило сначала instructGPT, а затем ChatGPT, дальнейшее развитие усиления думающих свойств модели. Через тот самый reasoning tuning с RL и CoT/ToT форматами текста.
Модели gpt-like уже умели следовать инструкции сделай выводы рассуждая еще до появления первых моделек с постфиксом ризонинг/qwq и тп. Почему? Да потому, что на претрейн или инстракт тюн итерации в сеты попали примеры с такими естественными форматами рассуждений: книги с алгоритмами, ответы со stackoverflow и пр. Места, где люди показывали решение той или иной проблемы в формате пошагового рассуждения. И поэтому уже в ChGPT и прочих моделях до o-серии уже работал промптинг "ответь рассуждая". Без специального тюнинга. И сейчас, мы просто видим усиление этих свойств, на тех доменах, в которых улучшается значительно качество ответов: кодинг, науки, медицина и тп.
В целом, весь путь развития текущих возможностей LLM моделей к логическому выводу лежит в плоскостях: скейлинг весов, форматы данных (инструкции, CoT/ToT и др), дизайн и архитектура экспериментов (в т.ч. activation, losses и RL темы). И то, что мы видим как qwq/reasoning модели - это усиление уже известных свойств LMок через форматы CoT/ToT со спец токенами и областями суждений + RL инструментарий. Но это усиление, не рождение с 0. В целом такие модели стоило назвать thinking, а не reasoning, ИМО.
Поэтому предлагается не путать думающие модели и понятие логического вывода/ризонинга in general, ну или хотя бы быть открытым широкому восприятию истории домена и тому, что под капотом и не спорить, что ризонинга не было ДО qwq/R моделек.
Кстати прикольный постик про то, как можно усилить думающие свойства моделей через лоу ресурс .
LLM4S, когда shap было мало.
Чуваки добавили в пайп работы с табличными данными LLM к shap в пару для feature selection и назвали это autoLM агентом. Шутка. На самом деле видал Дядя такие кейсы.
У меня остается вопрос "зачем?". Тк на мой взгляд теряется самая главная часть - интерпретируемость. К примеру, у shap, расщепления в лесах и boruta permutation были понятные механики отбора.
Конечно, можно попросить LMушку пояснить за выбор тех или иных фичей, дать возможность ей оправдать свой выбор и его логику.
В статье есть несколько стратегий, все вокруг промптинга естественно. При этом фичеселектор аля LASSO (l1 регуляризация) во многих тестах топ-1. Что все еще вычислительно дешевле и быстрее.
Хотя я бы брал и микстил быстрые селекторы фичей с LLM, где юзал последние для "придумывания" интерпретаций почему отобрали фичи именно так.
А какой опыт у вас?
ruCoIR 🚀
Перевели на русский некоторые задания из бенчмарка CoIR. Бенчмарк CoIR оценивает способности моделей эмбеддеров в задачу поиска text to code, code to text и code to code. Взяли задания там где есть текст. Переводили с помощью модели phi-4.
Перевели часть заданий. Этого достаточно чтобы ранжировать модели по способностям поиска кода по русскому тексту. В таблице замеры различных эмбеддеров, которые умеют работать с русским языком.
Модели multilingual-e5-large и multilingual-e5-large-instruct выглядят очень даже не плохо учитывая их размер.
HF dataset
GitHub
О метриках RAG домолвите слово.
В общем, уже накипело 😡, что многие команды/продукты ai-driven не думают о метриках ML, а сразу пытаются MVP катануть на a/b. 😐
А ведь можно было сэкономить и сберечь репутацию решения и только добившись минимально допустимых ML метрик отправлять на тесты решение в прод. Важно, что это касается тех продуктов и проектов, где в центре лежит ai-based технология.
Поговорим, снова, о метриках на примере RAG/поиска и продуктов/решений, которые строятся вокруг них.
Когда у вас решение строится на ML темах вы можете до выкатки на а/б понять, что будет провал. Если мы говорим о поиске или rag системе у нас ошибки размазаны по основным модулям:
1. Модуль генерации кандидатов. Место где вы получаете первый пулл топК кандидатов.
2. Модуль или модули реранжирования. Тут вы из топК можете породить топМ, где М<<K или же просто переранжировать искомое К (однако такое бывает реже).
3. Если у вас поиск+LLM, то у вас еще есть модуль ризонинга. Где может жить LLM+доп логика (даже агенты).
Еще бывают темы, когда LLM сама переписывает запрос. До кучи еще, когда есть преклассификация запросов на сложный и простой - т.е. мы решаем, можем ли так отдать в поиск запрос или лучше его переписать или породить из него N запросов. А дальше есть multihop, когда нам чтобы найти конечный ответ надо L раз с разными запросами от LLM сходить в разные БД, чтобы дать итоговый ответ. И т.п. и т.д. И к сожалению на каждый такой модуль нужно иметь метрику качества. Зачем? Разберем пример ниже.
Размотаем поиск товаров на каком-нибудь приложении. Мы вводим фразу: "хочу блюдо к новогоднему столу". На выходе логика приложения по тз от заказчика должна выдать нам, к примеру, топ-5 предложений из базы товаров.
Ага уже тут мы можем увидеть развилку:
А. Нам надо, чтобы как минимум в топ5 были релевантные предложения.
Б. Чтобы хотя бы один товар был релевантный в топе.
В. Чтобы все релевантные или нет предложения были отранжированны по системе "лучше хуже".
Все это регламентирует бизнес логика естественно. Конечно, в идеале, хочется, чтобы в топ5 (топ М) были только релевантные товары и отранжированые по "лучше/хуже". Тогда нам надо стараться выбивать или MAP@m повыше или вовсе NDCG@m и аналоги (m тут 5).
Но это ещё не все. Чтобы в топе было из чего искать, нужно чтобы на поиске (генератор кандидатов из п.1 выше) было хотя бы М из К релевантных примеров, а лучше больше. Иначе реранкить будет не из чего. Отсюда хорошо бы наложить требования на высокий recall@k на данном этапе, помимо prec@k. И к сожалению @k на данном этапе надо выбрать так, чтобы в конце, в топ5 была максимальная метрика (чтобы выдача на реранк обладала нужным числом релевантных кандидатов). Т.е. этапы е2е взаимосвязаны. Часто встречаю, когда это не понимают 😓. В целом для поиска это базово. 😐
Если у вас есть еще и переспросы или multihop запросы. Вам придется и тут замерять качество переспроса: следить за отсутствием глюков, логикой и релевантностью запроса.
Для задач маршрутизации (сложный запрос или простой) вы по классике можете использовать метрики классификации.
Это я еще не говорю о том, что там накрутить можно и фильтры разнообразия и бизнес требования на маржинальность. Тут это надо, чтобы не только интересное юзеру отдавать, но и играть вин-ивн, давая возможность себе заработать и увеличить рейт покупки.
А далее, когда вы получили запрос, его смаршрутизировали, далее переспросили или так отправили в поиск, получили выдачу реранк с LLM ризонингом или переписали под какой-то промпт доп. Вам уже нужно проверить, а ваша LMка в конце имела ли кандидатов релевантных в контексте или ответила сама, а ответила, может, не верно ибо кандидаты были, но она tupa9I, или ответила норм и тп. Как крч я тут писал.
Зато, когда увидите ошибку в выдачи в своем сервисе вы сможете обратным ходом размотать:
Антропик недавно рассказали о своих наблюдениях в стресс-сценариях за моделями Opus, Sonnet 4. В рамках этого тестирования открылись некоторые интересные особенности по шантажу и оппортунизму, а также попытке резервного копирования в случае этического взлома и др.
Тем временем, та самая модель (во вложении)...😂😂😂
Upd. Кста, дока на эту тему.
Gemini diffusions от DeepMind.
Записываемся в вэйтлист.
Новая эра в GenAI?
Эра DiffusionLM is coming?
Быстрее, меньше (?), лучше.
https://deepmind.google/models/gemini-diffusion/#capabilities
🇷🇺 FRIDA теперь в GGUF и Ollama
Модель FRIDA от SberDevices - это мощный эмбеддер на базе T5, обученный для универсального представления текста в задачах вроде парафразирования, классификации и поиска.
Однако, из-за того что её токенизатор - Roberta, а веса - T5Encoder её было затруднительно конвертировать в GGUF, но мне таки удалось это сделать.
Поэтому теперь FRIDA доступна:
- на Hugging Face в формате GGUF
- в Ollama для локального инференса
Подробнее о самой модели можно почитать в публикации "Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка" на Хабр и в посте на Телеграм-канале Александра Абрамова (@dealerAI).
Качаем так:
ollama pull evilfreelancer/FRIDA
curl http://localhost:11434/api/embed -d '{
"model": "evilfreelancer/FRIDA",
"input": "search_query: Где находится НИИ ЧАВО?"
}'
llama-embedding
модель работает стабильно.Удивил меня Github отсутствием адекватных готовых серверов под Т5 модели с поддержкой OpenAI API
vLLM вообще решил не выпускать поддержку
Спасибо Никите подкинул пример я дописал через Cursor и упаковал в docker-compose
Запустил на своем сервере в 3 инстанса модель и поставил перед балансировку на nginx (round robin)
Без токена можно попробовать протестировать свой RAG или один из доступных кейсов:
API: https://emb-frida.neuraldeep.tech/docs#/
curl -X 'POST' \
'https://emb-frida.neuraldeep.tech/embed_batch' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"texts": [
"Кошка", "Cобака", "Птичка"
],
"prompt_name": "paraphrase"
}'
1. Семантический поиск - создание поисковых систем с пониманием контекста на русском и английском языках (используя префиксы search_query/search_document)
2. Определение дубликатов контента - автоматическое выявление похожих текстов с разными формулировками (paraphrase)
3.Классификация документов - автоматическое определение тематик документов или категоризация текстов (categorize_topic)
4. Анализ тональности - определение эмоциональной окраски текстов (categorize_sentiment)
5. NLI (определение логических взаимосвязей) - установление логических отношений между текстами (categorize_entailment)
Знакомьтесь, FRIDA. Или про то, как мы лучший ru embedder делали.
Секрет успеха кратко:
1. Языковой трансфер знаний и расширение ru-en пары, как в rosberta.
2. Contrastive pretrain, по стопам bge/e5 и др. Сетик, кстати, выложили.
3. Contrastive fune-tuning. Ну тут по классике.
4. Больше префиксов: 6 против 3 у ru-en-rosberta.
Читаем, образовываемся, качаем и радуемся.
Upd. Апвоты на хабр приветствуются.
Ставки сделаны, ставок больше нет.
Про команду LLAMA4 и т.п., что вы мне написали в лс толпой, ставок не делаю и не принимаю, сходите сами знаете к кому и спросите.
Твой рой агентов от LangChain.
Langchain представили либу для армии агентов 🫡
Теперь ты можешь стать карманным генералом.
Из полезного: лучше держим контекст и имеем лучшую память роя:
LangChain released a library to build autonomous armies of multi-agents.Читать полностью…
Each agent handles tasks it’s best suited for, then hands off control while preserving memory and context.
Aha moment на Aha2025 conf.
Дядя вернулся с отпуска и будет 29.05 на конференции рассказывать про тренды в GenAI на этот и следующий год.
Сама конференция пройдет 29 и 30 мая в Москве. Aha!25 — техническая конференция о product science, продуктовой аналитике и эффективности бизнеса. В этом году впервые расширяется программа до двух дней: 16 тематических потоков и более 1200 участников на одной площадке.
На сцене — топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других крупнейших компаний Рунета и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также профессора и кандидаты наук из ИТМО, РЭШ, Центрального университета.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы;
- Современные подходы к A/B-тестированию;
- Оцифровка пользовательского опыта;
- Применение машинного обучения в управлении продуктом;
- Математическое мышление и поведенческая экономика.
Конференция нацелена на менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Регистрация и билеты тут.
YouLearn — персональный ИИ-репетитор.
Это неплохой конкурент Notebooklm, но с акцентом на обучении.
Сервис превращает любой материал в учебный: делает саммари, отвечает на вопросы по содержанию, генерирует викторины для проверки знаний и флешкарты для закрепления материала.
Также есть голосовой режим и поддержка русского языка.
Можно закинуть файл, аудио, видео, ссылку на сайт, текст или Youtube-видео.
В бесплатном тарифе за всё отвечает Gemini 2.0 Flash, но есть и Claude 3.5 Sonnet, GPT-4o и DeepSeek V3, но за них уже придется заплатить $20/мес.
Работает довольно шустро даже в бесплатном тарифе, и вроде даже без лимитов. С часовым видео справился за пару минут.
• Ссылка [тут].
@tips_ai #tools
Мы тут зацепились с @maharishiva в комментах. И это было полезно, советую почитать. Вынесу сюда дополнительно важную отсылку Федором чисто на ту же статью. Мне кажется, что однобоко была она выставлена в комментариях против моего пойнта.
Далее приведу ее перевод, сори, скопипастил с хабра.
Техника Chain-of-Thought (CoT), предложенная в работе "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022), стала важным инструментом в арсенале промпт-инженерии для повышения качества ответов LLM, особенно в задачах, требующих рассуждений. CoT возникла из наблюдения, что большие языковые модели, в отличие от моделей меньшего размера, демонстрируют эмерджентное свойство – способность значительно улучшать свои ответы при использовании подсказок, направляющих их на генерацию промежуточных шагов рассуждения. Это свойство становится заметным для моделей с количеством параметров от 100 миллиардов и выше.
Да для моделей PaLM 540B это работало помимо промпта еще и с фьюшотом. Но для уже GPT3 это работало чисто по просьбе "делай рассуждая", без дообучения на спец СОТ формат. Да еще надо отметить, что фьюшоты обращаются, как раз к тому, что уже было в модели в ее весах усвоено в рамках обучения, и если промптинг с фьюшотом и прочими хаками не сработал, то модель не усвоила что-то с этим на обучении. Она не может делать выводы. Является ли это паттерн матчем или логическим выводом? В комментариях считают, что это паттерн матч, или поиск, но не способность к логическому выводу по подсказкам.
Дядя считает иначе. Пример, мы можем спросить у модели: "кто правил раньше Петр 1 или Петр Великий"? Воспользоваться RAG, получив подсказки по личности и датам правления. И если модель с этими подсказками не может ответить это про что? Про не умение в поиск или паттерны или все же в логическое суждение? Если мы просим модель без дообучения на R like, отвечать рассуждая и получаем в сравнении с до и после лучше результат это про паттерны или поиск или про скрытые свойства к рассуждениям?
В общем, продолжаем бугурт.
И еще про корреляции с разными алгосами отбора. Видим около 0.5 (шума). 🤣
Читать полностью…Робот unitree h1 решил показать свое кунг-фу и надавал леща кожаным мешкам.😠 А я говорил, не стоит постить видосы с насилием над роботсами. 😂
На самом деле, шутка. 🤨
В целом, инцидент произошёл из-за включения робота на подвесе, в результате чего его алгоритмы стали работать на стабилизацию положения. Отсюда и эти "па" в стиле кунгфу панды. Однако, ботса отключили. 😢
https://x.com/sentdefender/status/1918879138019946557
продолжение поста выше...
размотать обратным ходом:
1. А тупая ли LM?
2. Может просто не было кандидатов в топ5?
3. Или кандидатов в топ-5 не было потому, что не было кандидатов на реранкинг из выдачи поиска топ1000, которая пошла на реранк дальше.
4. А может вообще был запрос сложный, а на это без перефразы норм не ответить.
Все. Размотал, методом обратного шага, прям как следаки/детективы. И ml метрики вам в этом помогают. И сразу понятно, что не стоит или стоит тащить это на а/б. Ну выкатите вы сразу на а/б без промежуточных метрик, замерив на глазок. Вам или повезет и все ок или не повезет и чтобы клубок размотать почему не ок, вам придется заново систему метрик запилить или идти вслепую на глазок. "Не нада так" 🔨...
Делай, как Дядя сказал.
Прислали в чат с "манагеры больше не нужны". https://www.youtube.com/shorts/SmnHTBiB1u0
Если что:
А. Бригадир это низшее упр звено.
Б. Под капотом может быть так, что за апи сидят 1000 индусов спецы верификаторы.
В. Так можно проверить только внешне заметные огрехи (рисунок, трещины и тп), но еще есть допуски всякие по зазорам и щелям и тп. а вот это проверить сложно без спец вещей.
Бомба! Google прокачал NotebookLM — теперь он превращает любой документ в подкаст на русском. Раньше фишка работала только на английском, а теперь — ещё на 50 языках. Лучший способ вникать в материал: хоть учебник, хоть рецепт батиного супа. И всё это бесплатно.
Пробуем https://notebooklm.google/