Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
RAS, два, три — поиск LLM утри?
Дядя тут прочитал обзорчик коллег про новый метод улучшения фактологической релевантности и обоснованности решений для LLM.
Метод зовут RAS и заключается он в том,что запрос пользователя отправляется в различные внешние системы: поиск, базы знаний и тп. Далее ответы оттуда используются для верификации качества генерации LLM— содержит ли ее ответ фрагменты текста из внешних систем. Если содержит, то модель помимо выдачи генерации, дает оценку уверенности в своем ответе от "сомнительно", до "надежно".
Тут у дяди правда возникает вопрос, зачем вам отвечать из весов модели в такой системе, когда можно просто переписать выдачу из поиска и пр.систем знаний с этой LLM (те это все еще RAG)?
Пока это патент, ждем статьи, которая прольет свет на недомолвки.
SimPO'л Сама. Или че там за зверь такой Simple Preference Optimization.
В общем, вижу, что из каждого утюга вещают за очередную трансформацию DPO в новый метод через лось — ака SimPO. А Дядя напомнит,что за DPO уже вещал туть. К радости моей и вашей, тут будет все кратенько. Когда только появился log-sigmoid loss для этих всех ваших pair rank выравниваний текстов, мы уже пытались в него вкорячить идеи из metric learning. Тем более корнями log-sigmoid лось уходит как раз таки в pair-rank/multiple-choise лоссы, просто с отображением на сигмоиде. А далее отсюда рождался и MarginRankLoss.
Так вот, мы давно подметили,что если добавить в этот log-sigmoid лосс еще и зазор,то мы можем улучшить как сходимость так и свойства упорядочивания по рангу объектов, тк в дефолтном случае ранги могли идти чуть ли не в тысячную подряд. Зазор дает вам не менее, чем его значение отступа между порядками по рангу скоров. В методе SimPO, авторы также добавили margin под кодовым именем гамма.
Но это еще не все, также был убран штраф за отклонение от референс модели. Однако, чтобы компенсировать это, была добавлена нормализация по длине токенов обоих частей лосса. Причем, авторы показали,что такая эвристика работает, да еще и уберегает от биаса по предпочтению более длинных генераций. Просто ранее наблюдалось,что награда порой была выше для более длинных текстов, а вот норма на длину генерации дает дисконтирование и уравнивание в правах по смыслу, а не длине.
Таким образом, simPO откинул все лишнее в своем лоссе, став тем самым "простым".
В результате экспериментов, simPO показал при своей простоте, улучшение скорости обучения, а также (думаю засчет введения margin и дисконта по длине) улучшение метрик на различных бенчах в тч ArenaHard.
Да и наше комьюнити подхватило реализацию simPO для своих экспов. Те же ребята из Saiga и Vikhr.
Итого учите базу, часто комбинация кубиков из базовых концептов, а в данном случае: metric learning идеи с зазором, логсигмоида и dpo, — порождает новые простые и эффективные методы.
Наконец-то закончил работу над большим пет-проектом.
Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.
Можно потестить демо здесь
видео
А вот и хабр пост подъехал, но кратенько.
https://habr.com/ru/companies/yandex/articles/852968/?erid=2VSb5z8rQA4
Жаль,что волк LLM их в цирке на некоторых аренах не выступает.
А это,что тут у нас? Не просто поиск, но и агенты?
Читать полностью…Середина рабочей недели, время выдохнуть и пошутить.
Осторожно, громко.
🌸GPT-4o system card🌸
#nlp #про_nlp #nlp_papers
Вышла статья с оценками модели GPT-4o, с мультимодальностью, оценкой рисков, оценкой автономности.
Пока впервые вижу, что по публикуемым замерам OpenAI иногда Claude 3.5 лучше 🫢
🟣https://arxiv.org/abs/2410.21276
Orion близко,раз уже по gpt-4o систем репорт кинули на архив
https://arxiv.org/abs/2410.21276
Гляньте дату перезалива
а вы говорите, ML, DS, LLM...
Вот чего оказывается в моде 💸📈
Учи матан блеат 💪🚶♂️
Че там так все возбудились на Orion?
В жизни Жоского Дяди был ток один четкий Orion — это чокопай 💳
🙂 Представляем четвёртое поколение YandexGPT
Новые нейросети уже доступны в Yandex Cloud, попробовать их можно в AI Playground. Скоро YandexGPT 4 появится и в сервисах Яндекса — первым из них станет Алиса с опцией «Про».
Подписывайтесь ✨ @yandex
Сегодня жоский Дядя разбудил меня под ночь, сказал одевайся, бери годовой набор флешек по 2гб и загран паспорт "будем драйвера Nvidia ввозить".
Наверное это конец...
Конец нашей бедности. 🤣
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp
Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!
Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.
🟣Что это значит для нас?
Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.
Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.
По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.
🟣Internet Archive: на контрасте
Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.
Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.
🟣Критическое окно возможности для открытого знания и открытых данных
Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент
Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.
Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.
Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.
Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.
🟣А ты записался добровольцем?
Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.
🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Привет всем новоприбывшим!
Раз нас стало в очередной раз ещё больше, для новеньких расскажу о чем данный канал и кто я, а также оставлю ссылки на пару интересных постов.
Тут автор говорит о всяком вокруг data science, что ему мило и любимо: анализе текстов aka NLP, поиске, соревнованиях, об RL, меньше о CV.
Немного о себе:
Руковожу ML,AI командами в RnD b2c, мы ведем исследования и разработку в областях:
- эмбеддер модели и в частности оунеры бенчмарка ruMTEB для них;
- потенциальный приклад LLM моделек в production задачи (RAG, персонализация и память);
- работа с этикой и эмпатией;
- немножко работаем в мультимодальности (clip like);
- атаки на модели и др.
Автор моделей ru_sbert_large, ru_sbert_large_multitask, ruElectra, а также первой открытой ru_ bert_reward модели. Kaggle competitions master, призёр и победитель хакатонов по Data science. Читаю лекции, веду мастер классы по NLP, ML и выступаю на конференциях.
Несколько интересных постов с канала:
1. Instructor. Обучение мультитаск модели на инструкциях .
2. Как "заметки на полях" с LLM помогают в RAG сетапе.
3. Почему и как DPO работает для выравнивания поведения моделей.
4. Хайповое. Plan GPT. Или до Q* было слово А*.
Пару приземленных статей:
- Бизнес завтрак по ИИ для малого и среднего бизнеса от ForbesClub.
- Интервью про будущее и настоящее ИИ.
Добро пожаловать на канал! 🤖🦾
Лежит, Дядя, отдыхает и думает: вот есть ж prefix/instruct text embedders, а есть ли instruct/prefix CLIP like модельки? 🤔
Накидайте статей в комменты, знатоки.⏹
Ребятки из T-Bank AI Research запилили нового лидера в мире методов распознавания out of domain объектов. 🧑🎓
Команда AI Research совместно со студентами МИСИС и МФТИ разработали новый 🌿 метод по обнаружению ранее неизвестных объектов на фото с помощью ИИ.
Значимость открытия в том, что теперь риск ошибки при обработке и анализе изображений снизился более чем на 20%, что уменьшает необходимость перепроверки и исправления неверных решений человеком.
Метод получил название SDDE (Saliency-Diversified Deep Ensembles) и будет особенно востребован в сферах, требующих высокой точности анализа. В перспективе он поможет развить сферу беспилотных транспортных средств и медицинской диагностики, где важно различать неопознанные элементы и графические артефакты.
Открытие было признано мировым научным сообществом и представлено на Международной конференции по обработке изображений (IEEE ICIP) в Абу-Даби, ОАЭ. Это одна из крупнейших научных конференций, посвященных обработке изображений и видео, а также компьютерному зрению.
Суть метода.
Рассматривается проблема диверсификации поведения моделей для распознавания объектов. В частности, метод глубокого ансамблирования, который объединяет несколько нейронных сетей для решения данной задачи. Это похоже на сбор мнений разных экспертов для получения лучшего решения.
Предыдущие разработки в области CV сталкивались с проблемой однородности ансамблей, то есть они были слишком похожи друг на друга, что снижало качество и разнообразие их оценок. Это возможно в тч потому, что используются или одни и те же данные для обучения или же схожие архитектуры.
Ребятки из лаборатории T-Bank AI Research нашли решение этой проблемы с помощью нового метода SDDE, который использует карты внимания, фокусирующиеся на разных аспектах данных. Чет мне это напоминает ViT.
Говорят, такое уменьшает схожесть моделей и повышает их общую точность, благодаря чему идентификация объектов становится более надежной и диверсифицированной.
Также исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию. Такой подход значительно улучшил работу модели в области обнаружения ранее неизвестных ей объектов и точности их идентификации.
Как видите, обозначенные мной проблемы с данными и архитектурой, решают авторы комплексно. Молодцы.
Как оценивали?
Для оценки эффективности метода ученые провели испытания на популярных базах данных: CIFAR10, CIFAR100 и ImageNet-1K. Метод SDDE продемонстрировал наилучшие результаты по сравнению со схожими алгоритмами, такими как Negative Correlation Learning и Adaptive Diversity Promoting.
Интересны подробности этой SoTA? Читаем в статье туть.
P.S. Чего добру пропадать. Просто и нативно, без глубины, оставлю тех детали описать эбенных идей админу.
Гугл делает АИ
OpenAI делает гугл perplexity.
Часть 2-я. Завершенная.
https://openai.com/index/introducing-chatgpt-search/
Upd. Думаю в тч поэтому вышло такое на днях https://openai.com/index/introducing-simpleqa/. Замерять ж надо qa свойства.
А раз метрики важны, ребзя давайте навалимся на https://llmarena.ru/ и сделаем оценки по интервалам надежнее
Читать полностью…Оп, коллеги подхватили,как и говорил в комментариях — ценность в метриках и методе оценки👇
Читать полностью…Полная JEST: Data curation via joint example selection further accelerates multimodal learning by DeepMind
Статья посвящена использованию Hard Negative Mining-а для задач, обучаемых с contrastive loss-ом в сетапе мультимодальных моделей (cv & nlp домены). А мы помним, что чем больше мы в контрастиве видим хардов, тем лучше ranking метрики.
Авторы показывают, что фильтрация данных на уровне сэмпла (independent filtering) не так оптимальна для contrastive-задач, где сэмплы притягиваются и отталкиваются друг от друга.
Более же предпочтительным вариантом является JEST — Joint Example SelecTion, в котором батч для backproping-а сформируется умнее и фильтрация будет на уровне батча, а не сэмпла.
Импакт:
Получают модель, перформящую на уровне SigLIP, но тратят на обучение в 4-10 раз меньше FLOPs (зависит от конфигураций) и "видят" в 10-13 раз меньше тренировочных сэмплов.
Узкое место: для генерации хардов на батче используется референсная модель. Т. е. мы используем внешний энкодер, и это накладывает ограничения: над выбрать модельку, наследуется ошибка и еще появляется доп звено в пайпе.
P.S. для обучения SigLIP-а в 2023 затратили в 10-20 раз меньше FLOPs чем CLIP @ OpenAI в 2021.
Пост подготовлен в гараже совместно с AI-машинистом.
Generative Reward Modeling на пути к Q-STaR или как подружить RLHF и RLAIF.
В этом обзоре мы рассмотрим уже известные многим механизмы дообучения моделей предпочтениям: RLHF , RLAIF. Данный пост основан на работе создателей спасительного DPO.
Немного предыстории. Когда мы говорим про обучение с обратной связью кожаных, ака RLHF — мы держим в уме процесс, в котором на основе предпочтений людей обучается или reward модель и ppo или же DPO прямой тюн LLM.
При этом, также, было позже предложено использовать RLAIF, на основе self-rewarding/critic свойств моделей. В т.ч. эти свойства позволяют вам заводить LLM-as-Judge оценки моделей. В результате RLAIF подхода, модель награды/dpo учится предпочтениям на основе иной LLM или даже их комитета.
Однако в каждой из методологий, есть свои недостатки:
1. Reward модели обученные на rlhf подходе плохо срабатывают на out-of-domain примерах, т.е. на контекстах, которые не попали в обучающую выборку.
2. Reward модели на основе rlaif имеют недостаточную корреляцию с предпочтениями человека.
3. Использование только DPO моделей в последних исследованиях может не дать нужного результата. Та же Llama3 была обучена на гибридном подходе DPO и Reward.
Авторами DPO, предлагается новый метод микста обоих подходов AI and Human feedback. Вместо обучения модели Bradley-Terry, ака reward модель дающая оценку генерации в виде ранга, учится GenRM модель. GenRM учится, непосредственно, сравнивать вероятности next tokens между двумя потенциальными ответами y1,y2 для промпта x (в работе это зовут индикатор токенами).
Примечание авторов, что LLM, на самом деле, тут учится как классификатор в сетапе next-token-prediction.
Вы думаете, ребяты на этом остановились? Нет. Далее авторы вводят новый концепт CoT-GenRM с рацио. Т. е. по сути добавляют цепочку рассуждений, прежде чем выбрать индикатор токен.
Но и это еще не все. Далее уже включается мифический Self taught reasoner, кодовое имя STaR (ага да ничего не напоминает?) Тут конечно у людей совсем выпал снег и они делают просеивание human feedback сета через CoT-GenRM. Цель в том, чтобы получить рассуждения модели и отсеить те из них, что не приводят к предпочтительным ответам из данного сета. Далее на таких фильтрованных рассуждениях происходит сессия из К итераций SFT. После чего получают CoT-GenRM-STaR (черт они скоро начнут как в китайских авто расширять имена моделек).
Думаете это уже конец? А фиг вам, снег не только выпал, но уже и в голову ударил. Тк. мы не использовали плохие рассуждения, авторы предлагают два хака взять их в оборот:
1. Подложить модели подсказку в виде правильного ответа и попросить обосновать его. Тогда они получат CoT-GenRM-STaR-ratio модель. Тьфу на вас нечистыя...
2. Или же использовать неверные рассуждения как негативы в DPO. И че вы думаете? Да будет CoT-GenRM-STaR-DPO.
Фух, но вот теперь точно все. В качестве замеров предлагается reward-bench на котором показаны: reward Бредли-Терри, GenRM, LLm as a judge, STaR SfT, STaR DPO, STaR-ratio. Где почти все подходы опережают классик reward, однако в чит-чат оси разница не значима.
В заключении.
На самом деле у Дяди главный вопрос. Зачем городить столько этапов? Ведь каждый этап это $ на доп эксперимент. Плюс видно, что для некоторых осей reward-bench и во все можно остановиться или на Бредли Терри или на первых этапах GenRM, не идя в STaR. С другой стороны если разрыв в сумме по бенчу отбивает все затраченные усилия. Why not. Но это уже решать Вам, юзерам.
Лан, че там у нас с deep fake detection...
За скрин спс @FutorioFranklin
Так, народ требует хлеба и зрелищ на ruArenahard, Mera, llm-arena и в Колезее! 💪🇨🇩
Читать полностью…Папочка от папочки Дяди.
Делюсь папочкой с подборкой развивающихся каналов, которые ведут профи своего дела и раскрывают важные в сфере : IT, ИИ, Технологии.
Не нужно больше искать тематические каналы и тратить на это кучу времени — уже всё тут
Нажимай на ссылку ниже:
💻 /channel/addlist/npS_-Zi0-AxmMjYy
и следи за каналами, чтобы держать руку на пульсе и первым получать самую актуальную информацию. Стань частью будущего развивающихся комьюнити!
Понравилось и хочешь в подборку?
Тк основным топливом для foundation моделей являются публичные корпуса, то в текущих реалиях обладание источниками этих данных теперь уже вопрос конкурентного преимущества. Тенденция на закрытие лицензий понятна, но удручающая. Имеют ли такие сокрытия обратную силу для уже обученных моделек, тоже больной вопрос. Также для создания спасительной синтетики, нужно использовать плоды тех же моделей, обученных на теперь уже закрытых данных.
Вопросы. Вопросы. Вопросы.
👇👇👇👇👇