Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Неделя была полна публикаций, мы закатили кое-какой препринт, вышла текстовка к AIConf2024, а еще до меня добежал ForbesClub.
Получилось как-то так. Интересный опыт, надеюсь, в следующий раз попаду уже в Клуб ;)
Ору, в августе все арбузы спелые - сезон жи... 🧠
Главное сделать генерацию на фото по убедительнее на вопрос "why спелое?" Далее tupoy uzer словит хайпу в любимой соц.сети.
А вообще кейсов и попыток сделать не инвазивное определение спелости (эт когда чисто по виду шкурки) было куча и показывают они себя оч плохо, все-таки инвазивное с замером состава гораздо точнее.
👇👇👇👇👇👇👇👇👇
Говорят flux.1 хорош, кто юзал уже?
Источник: https://x.com/ai_for_success/status/1822572477031080202
Наконец-то оцифровали наше выступление со старого HighLoad++, приурочено к AIConf2024.
Приходи на конфу и будь в курсе туть
З. Ы. Много хак еще актуальны.
https://habr.com/ru/companies/oleg-bunin/articles/834728/
"Орлица" Mamba 7b от Falcon. 🦅
К нам тут птичка подлетела на 7 ярдов параметров, да еще и на архитектуре Мамба.
Данная архитектура позволяет не иметь ограничения памяти по длине входного sequence. Обучена на разных языках программирования и тех доках. Глянуть бы SWE бенч.
Правда лицензия там какая-то своя, над глянуть насколько free. А то может даже на заниженной приоре к орлице не подкатишь. 🤣
Есть версии HF базовая и instruct.
Пробуем крч.
Your big 1T mama llama. 🦙
BigLlama-3.1 1T модель, не знаю шутка ли, но над потрогать.
https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct
UPD. Как так вышло? Просто настакали merge'ей и доучили.
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Konstantin Yakovlev: "Combining A^*-algorithm and machine learning methods"
⌚️ Monday 5 August , 18.00 (Moscow time)
Talk will be in English
Add to Google Calendar
"Интеграция методов эвристического поиска (A*) и машинного обучения для решения задач планирования траектории (собственный опыт)"
Аннотация: Алгоритм A* достаточно часто применяется для решения задач со сложной комбинаторной структурой. Его эффективность на практике зависит от того, насколько эвристическая функция (являющаяся по сути входным параметром алгоритма) хорошо оценивает стоимость пути от произвольного состояния до целевого. В задачах планирования траектории обычно используются инстанс-независимые эвристики, такие как, например, Манхэттенская дистанция и др. Они не учитывают особенности конкретной задачи, а именно - расположение препятствий и старта/цели на карте, поэтому часто оказывается, что их использование не ведет к сокращению числа итераций поиска и повышению практической вычислительной эффективности алгоритма. Возникает разумная идея - не можем ли мы применять современные методы машинного обучения, чтобы выучить информативную эвристическую функцию, которая бы учитывала особенности конкретной задачи планирования траектории, и потом применять эту эвристику на практике для повышения вычислительной эффективности поиска. Именно на методах и способах интеграции поиска и машинного обучения и будет сделан акцент в докладе.
О докладчике: Konstantin Yakovlev (PhD): http://kyakovlev.me/
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
The Platonic Representation Hypothesis
репрезентации-репрезентации, эмбеддинги-эмбеддинги, мультимодальные эмбеддинги-эмбеддинги
все больше работ появляется на тот счет, что происходит совместное обучение на данных разной природы/модальности и получается прирост. и мы даже успели упомянуть некоторые такие работы (в основном про рл)
- /channel/rizzearch/217
- /channel/rizzearch/201
- /channel/rizzearch/95
и авторы решили глубже изучить этот вопрос на стыке картинок и текста - ставят вполне естественные гипотезы, которые свойственны человеческой способности к нахождениям все более общих абстракций
- чем больше задач мы одновременно желаем решать на оптимальном уровне, тем меньше осмысленных репрезентаций подходят под это ( The Multitask Scaling Hypothesis)
- большие модели натрененные на очень больших мульти-таск данных вероятнее сходятся к общим репрезентациям, чем маленькие и узконаправленные ( The Capacity Hypothesis )
- с увеличением размера модели пространство осмысленных эмбеддингов становится все “проще” ( The Simplicity Bias Hypothesis, который мы упоминали здесь)
еще мне понравилось, как авторы приводят аналогию с Principe d'Anna Karénine
Все репрезентативные эмбеддинги похожи друг на друга, каждый нерепрезентативный эмбед нерепрезентативен по-своему
Твоя мультимодальная MoMa на экспертах.
Крч зачем нам кидать embeddings projection во входной sequence, когда можно раскидать тексты и картинки по модальным экспертам.
Подробнее в работе про твою MoMa: https://arxiv.org/abs/2407.21770v1
🔺 RuBLiMP
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Завтра Олег починит модель и она начнет работать.
Завтра Олег починил модель и она начнет работать.
🧿 От QuIP до AQLM с PV-Tuning: как развивалась технология экстремального сжатия LLM
Исследователи Yandex Research совместно с коллегами из IST Austria и KAUST предложили новый способ сжатия моделей в 8 раз. Добиться такой степени сжатия (и одновременно не сильно проиграть в качестве работы нейросети) позволяет комбинация методов AQLM и PV-Tuning.
🔳 Как исследователи пришли к сегодняшним результатам, рассказываем на примере двух «конкурирующих» команд и их state-of-the-art-алгоритмов сжатия — QuIP и AQLM: короткую, но увлекательную историю «противостояния» исследователей, полную плоттвистов, читайте на Хабре.
🌠 Код обоих методов ищите в GitHub-репозитории: попробуйте оптимизировать LLM самостоятельно или скачайте уже сжатые опенсорс-модели. Кроме того, мы выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.
Подписывайтесь:
💬 @Yandex4ML
📹 YandexforML">@YandexforML
Годных 3 часа лайвкода. Конечно не gpt2 туториал, но для начала пойдет.
https://youtu.be/ISNdQcPhsts?si=gFpZZoXdEO0g-WqJ
ICML постер сессия: все инфлюенсеры нужны, все инфлюенсеры важны (с) SantaBarbara university 🤣
Спасибо @arsenyinfo
Зумеры даже арбузы покупают через ChatGPT. Судя по всему, лайфхак реально рабочий: арбуз по совету чат-бота действительно вкусный и спелый.
😎— если у тебя есть такой же знакомый, который вообще всё спрашивает у ChatGPT
Рубрика отдыхаем за ретро-играми.
Фанаты запилили diablo в браузере и оно даже пашет на мобилке. 😳
Можно сыграть либо в Shareware, либо перекинуть DIABDAT.MPQ-файл, если у вас есть лицензия.
Олдскулы свело..
https://d07riv.github.io/diabloweb/
Подписчики удивляют и радуют. ❤️
Записали — RAG годное🦾🕺🤖
А у вас есть такое?;)
Ток я тут про SWE bench упомянул, как @codegorka принес инфоповод:
- ребята, которые организовали swe-bench, обвиняют слегка CosineAI в "train on test is all you need" 🍿
А тут cosineAI еще и техрепорт подкатили . 🇨🇩
Karpathy: RLHF is just barely RL
Karpathy выкатил длинный твит с размышлениями о RLHF:
• RL - мощно, RLHF - не так мощно
• он приводит в пример AlphaGo - модель тренировалась с RL, и в итоге научилась обыгрывать людей. Если бы её тренировали на RLHF, то люди бы оценивали какое состояние доски или какая последовательность действий лучше - по факту модель, аппроксимировала бы среднее поведение людей. И это не смогло бы привести к модели, которая превосходила бы людей
• Причины две - "какой вариант тебе больше нравится" не всегда коррелирует с вариантом, который ведёт к победе в игре; и модель может поломаться на ранее невиданных вариантах
• Его в целом удивляет/впечатляет то, что RLHF работает - ибо по факту оптимизируется на правильное/лучшее решение, а которое больше нравится асессорам. И в целом модель может быстро научиться эксплойтить.
• При всем при этом, RLHF работает и является полезным. Как минимум потому, что людям не надо создавать вариант с нуля - они выбивают что-то из предложенного.
• И есть большой аргумент в пользу RLHF - использовать его для оценочных задач типа "хорошая ли шутка, хорошо ли суммаризирован текст" легко. А вот для RL не понятно, как дизайнить reward function.
И в целом он называет RLHF "vibe check" :)
Tweet
#datascience
Russian часть теперь на MTEB LB.
Обожаю наше community.
Спасибо @SamoedR, что закинул в web ui замеры по нашей системе бенча.
https://huggingface.co/spaces/mteb/leaderboard
https://us02web.zoom.us/j/88950387137?pwd=Tl05fC5IFKHfE9oF3u135yzAnUw8OT.1
Читать полностью…Интересное про эмбеддинги, да еще и мультимодальные👇
Читать полностью…Google дропнул гемму2 на 2 ярда.
2b модель c 5-shot MMLU 50, интересные времена или дистилляция или fit on the test is all you need? 🤣
https://huggingface.co/google/gemma-2-2b-it
Интересно, но не хватило в замерах моделей electra, тк они учились на replaced token detection могут вполне показать интересный результат. Да и наших sbert моделей которые учились с augmentex бы тоже глянуть. Но тут уже думаю сами.
Читать полностью…Рассказываем о нашей работе принятой на ICML 2024. В деталях.
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём n
задач в среде и для каждой из них обучим своего RL-ного агента. Во время обучения будем сохранять их полную историю обучения, то есть все состояния, действия и награды. Таким образом мы соберём n
историй обучения, в начале которых агент не умеет ничего, а в конце уже успешно решает задачу. На них и будем обучать трансформер предсказывать следующее действие.
Но что это за число n
? Какого оно порядка? Оказывается, для успешного обучения на весьма простой задаче нужно обучить около тысячи (sic!) RL агентов. Понятно, что такой подход недёшев в плане вычислений и времени.
🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью ε
будем делать действие по политике, а с вероятностью 1 - ε
делаем случайное действие. При этом с каждым шагом мы увеличиваем ε
вплоть до единицы. Получается, что когда ε = 1
агент не умеет ничего, а при ε = 0
успешно решает задачу. Вот мы и восстановили историю (на самом деле, получили прокси историю) обучения.
🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
Гугл: делает аи
Опенаи: делает гугл
https://openai.com/index/searchgpt-prototype/
спасибо @EvgeniyZh
Не enkodechka'й едины – ruMTEB бенчмарк для оценки эмбеддеров на ру языке.
Тут конечно не техрепорт на 71 страницу, но тоже интересное.
Мы завезли превью русского бенчмарка эмбеддеров ruMTEB.