Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
🏆 Наши слоны с AutoML побеждают на международной арене
Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!
🚀 LightAutoML - бесплатный и открытый инструмент.
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.
🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.
🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.
p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.
Дядя всех дядь, мой друк и крутой Kaggle Grand Maestro (дада именно так и не иначе) запилил свой канал про соревнования.👇
Читать полностью…Вот еще прикольное, но я думад во втором случае будет рука главная.
Читать полностью…Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей.
Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке.
О чем это я? Да вот есть новый концепт Nested experts. Работа опирается на следующее.
На разном уровне вложенности в слоях модели, мы получаем разный details описываемого. Загнул дядя? Ща поясню. Для задач с картинками, как в примере к статье (а тут берут ViT) на входе в модель мы имеем векторное представление картинки, которое представляет весь объект в целом,но чем глубже мы проносим это представление от входа по слоям к выходу, тем более сложные детали изображения мы кодируем. По этому поводу есть разные исследования и для текстовых моделей в тч. Таким образом, чем дальше от начала мы берем эмб объекта, тем более тонкие материи он кодирует.
При чем тут эксперты спросите вы? А вот тут как раз вступает процедура нарезки модели на такие вот части разной глубины кодирования. Вся модель e2e — это первый эксперт. Далее, мы берем, допустим вырезаем середину модели,но берем не полную размерность от эмба — это эксперт два и в конце режем совсем малую подсетку от конца к некотором слою -L и при этом еще и также режем размерноть на -М. Для примера, авторы делают нарезку в К раз, где К =2 , те второй эксперт меньше модели по числу слоев и размеру эмбов в х2 раз, а третий в 4 раза. Тут мы имеем сразу два гиперпараметра и размер нарезки и стратегию нарезки (какие слои брать в эксперта).
Далее авторы берут ViT нарезают image на токены и кормят экспертам их по стратегии: сначала себе выбирает топN токенов вся модель, далее из тех что остались разыгрывается топN для второй серединной модельки и оставшиеся остаются "малышу" на розыгрыш.
MHA магия. Все это далее шизо-образом идет в MultiHead (картинка ниже прилагается). Для фулл модели токены имеют фулл размерность, и идут по классике в MHA. А вот для "урезанных" представлений эмбов идут в урезанные до их же размера QKV веса модуля внимания. Для того чтобы взаимодействовать с другими токенами в MHA с большим размером эмбов, их всех приводят к размеру исходной модели засчет доп. отображения. Пройдя интеракции и получив влияние от окружения такие токены идут в MLP приводящий их снова к размеру урезанного эмба и все повторяется снова.
Выводы:
Так и для чего эта вся магия была нужна? А для того, по мнению дяди, чтобы получить PCA (метод главных компонент) на максималках. Тк мы имеем экспертов с разным масштабом вложенности, да еще и с разными участками-токенами картинки, мы можем анализировать какой эксперт какую долю информации по участкам взял на себя для принятия решения. И это показано в статье в виде картинок: исходник и что на Ком эксперте. Выглядит во многом логично, но есть примеры, где модель аттендится не на те участки, что выбрал бы я сам как "главные компоненты".
Вот такая интересная статья, надо бы примериться к текстам с таким подходом. Остается незакрытым вопрос стратегии выбора подсеток (вот тут мб и Lottery tickets в помощь) ибо я сходу могу предложить несколько, но какая лучше тут еще есть место для ablation study и новой статьи.
P. S. Название красивое кстати MoNE.
NanoFlow, что-то про yet another vLLM.
Чет в последнее время везде любители микро, мини, нано займов неймингов стали.
NanoFlow очередная тема для сервинга LLM.
Крч, обещают ап скорости в ~1.9 раза vs TensorRT. Получается засчет бэка на c++. Интеграция с CUTLASS, MSCCL++, FlashInfer —присутствует.
Че есть еще?
- Nano-batching;
- Management KV-кэша;
- Оптимизация метапараметров инференса моделей.
Код туть. Станет ли это конкурентом vLLM— не знаю, но когда-то и в него дядя верил, а другие не раскусили потенциал. Но и к тому же на рынке уже куча решений, еще одно интересное LitServe у коллеги по цеху тут.
Круги записки на полях или могут ли заметки помочь вам с long-context RAG'ом.
Вот и лето прошло и день знаний, поэтому дядя решил начать новый учебный год с нового обзорчика.
Под конец лета 2024го, появилась интересная статья о том, как еще можно работать с длинными подсказками в RAG. Помимо интересной стратегии работы с чанками, рассказанно и об архитектурных хинтах с KV-cache в модели. Далее чуть подробнее.
Для начала, рассмотрим стратегию работы с длинным контекстом подсказки. Вам на вход приходит long-context и инструкция к нему. Далее следует нарезка контекста на чанки, но с доп инструкцией выделить LLM "заметки" из этих кусочков (возможно по аналогии с саммари). После, мы отбираем с LLM те заметки, которые полезны для изначальной целевой инструкции и клеим к ним ее, получая ответ.
Тут кажется, что это имеет computational overhead — крч оверкил по числу вызовов и времени работы. Вам не кажется. Сначала нарежь, потом LLM заметки напиши, далее выбери LLM полезные для цели заметки, сгенери ответ. Итого 3 вызова+нарезка. Но авторы не лыком шиты и предлагают использовать умное KV-кеширование. Когда ваша модель видит каждый чанк, она заполняет часть KV-кэша, который соответствует увиденным токенам. Таким образом, к концу обработки заметок и генерации ответа KV-кэш заполнен и готов. За счет этого происходит экономия вычислений. Схема будет ниже, подробности, включая псевдокод алгоритма, читаем в статье.
Немного про метрики:
В среднем +7-10% ап на multihop и summarization-like тасках. Но нет значимого апа по SQUAD.
Использовать ли это вместо classic RAG, решать Вам. Читаем статью, делаем выводы.
А вот и видео запись подоспела, если вы пропустили, ничего страшного, все записано;)
/channel/UseDataConfChannel/146
День рождения RUAccent
Сегодня день, когда была релизнута первая версия расстановщика ударений RUAccent, поэтому сегодня будет сравнимый по важности релиз.
1. RUAccent-encoders
RUAccent-encoder это специальная модель, для использования там, где другие модели не могут работать из-за BPE токенизации. Модель разработана для задач связанных с TTS и ударениями. Она интегрируется в качестве текстового энкодера в TTS моделях (например vits), при этом, штатный энкодер текстов удаляется из модели, в отличии от BERT-VITS, где используются два энкодера, поскольку duration predictor в VITS работает с отдельными символами. Также модель используется для расстановщиков ударений, фонемизаторов (а такой вероятно будет от меня) и т.д.
Модель обучалась в три этапа:
1. Претрейн модели на задачах AMLM (Autoregressive Masked Language Modelling, очень похожа на Fill In The Middle) и NSP (Next Sentence Prediction).
2. Дистилляция CDLM (старшей сестры RUAccent-encoder, обученной на бОльшем количестве данных) в модель
3. Обучение расстановке ударений в формате Token Classification.
На этом закончилось обучение RUAccent-encoder. Теперь надо обучить модель понимать ударения на входе. Поэтому модель доучена в режиме AMLM + NSP на текстах с размеченными ударениями и появился RUAccent-stressed-encoder.
2. RUAccent-turbo3 и RUAccent-tiny2
За лето появилась идея как сделать разметчик, который сможет бесконечно снабжать относительно высококачественными данными. Это аудио, в котором почти всегда говорят ударения правильно (как оказалось нет). В итоге, где-то за месяц создана такая модель и за +- две недели размечено 500ГБ аудио (из 6ТБ). На отфильтрованных данных обучен tiny2 и turbo3. Благодаря разметчику создан более качественный тест сет, в котором нет утечек.
На этом датасете замерены метрики предыдущих моделей и получены следующие метрики:
- big_poetry: 88.86%
- tiny: 90.63%
- turbo: 90.89%
- turbo2: 91.18%
- sber_proprietary: 91.91%
- tiny2 (NEW): 95.80%
- turbo3 (NEW): 96.37%
Отдельная благодарность @Sterling239 за помощь при замере метрик сберовской системы.
Также получены метрики систем расстановки ударений для обычных слов:
- StressRNN (Russtress): 0.673
- Ru Word Stress Deberta (Ilya Gusev): 0.931
- Silero: 0.952
- RUAccent: 0.972
При этом, модель RUAccent вторая по размеру после StressRNN (260KB) и весит всего 803 килобайта. Модель Silero весит ~2 мегабайта (информация отсюда), а Ru Word Stress Deberta 12.8 мегабайт
3. Планы на будущее
1. Поэкспериментировать с аттеншном в моделях и поправить случаи, когда модель в предложении одинаковыми омографами выдает одно предсказание для всех.
2. Улучшить Ёфикатор для краевых случаев.
3. Сделать фонемизатор с возможностью учитывания ударений, эфикацией.
RUAccent encoders: link
RUAccent 1.5.8: link
Донат: link
@den4ikresearch
Логичное завершение наших работ по ruMTEB и retrieval
Мы выпустили итоговый препринт, который попал в daily papers на HF. Внутри вас ждет один сюрприз, какой? Читайте статью;)
Поддержите нас upvote'ами на HF, поднимем нашу работу повыше.
Продолжаем.
А кто ты? Тварь дрожащая или LLM или право имеющий?(с)
https://joel.tools/smarter/
Найдено на Jovan.ru
Создай свою роборуку с LeRobot.
Ребятки тут анонсировали свой курс на huggingface по обучению роботов, в тч. манипуляторов. Теперь-то ты сможешь запрогать свои руки загребуки или облегчить жизу вон тому экскаваторщику за 300.
Гоу пробовать тут
O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳
Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?
Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.
Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.
Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.
UPD. И да ждем подробностей в следующих анонсах.
Иногда думать медленно, облекая мысли в слова, полезно и даже приятно.
Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.
Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.
Люблю смотреть как падает loss и спонтанность. Не люблю ждать.
На самом деле конечно это не PCA, ап метрик видим в тч задаче ImgNet CLF , что с таким подходом мы учимся быстрее.
Читать полностью…Почему стоит пойти на AiConf2024 26-27 сентября?
Во-первых, там буду я ;) И в зале на панельной дискуссии и в зоне дейтинга меня можно будет не только увидеть, но и пообщаться.
Во-вторых, мы постарались отобрать наиболее интересные доклады из разных областей: наука, индустрия, бизнес. А также разных доменов: NLP, CV, multimodality, classic ML, RecSys, Search и др.
В-третьих — это нетворкинг мы будем общаться с вами, а вы найдете себе единомышленников, кто-то даже сможет найти работу, а кто-то и вторую половинку ;) (да и такое бывает).
Промокод для моих подписчиков:
friends на скидку 15%.
Ищи билеты и инфо тут: https://aiconf.ru/2024/abstracts
На правах члена ПК и друга конфы, а не рекламы
Юмор начала рабочей недели.
Когда сказал бате, что дистиллируешь модели на работе, но он понял это по-своему.
Идем дальше с #ForbesClub в формате бизнес-завтраков. Спасибо за приглашение и интересную беседу.
Зовите ещё;)
https://club.forbes.ru/part_news/forbes-club-otkryl-delovoj-sezon-biznes-zavtrakom
Приглашаем экспертов в data science на закрытую встречу сообщества
Когда: 29 августа, онлайн, в 18:00 по Мск.
Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:
⚡️Как развиваться внутри data science?
⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?
⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие
⚡️Где получать практические навыки и обмениваться опытом и связями?
Участники встречи:
- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)
Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.
✅ Регистрируйтесь на встречу и зовите коллег!
На RuMTEB появилась новая лошадка ru-en-RoSBERTa.
Как мы это сделали? Читайте наш препринт.
Кратко: хороший сет, contrastive learning, ru-en выравнивание, prefix tuning и SLERP. И никакого дистиллята и мерджа с топ моделями ;) И без fit on the test is all you need
См. https://huggingface.co/spaces/mteb/leaderboard вкладку для Ru.
Для любителей карманных монстров и микрозаймов — MicroJax. 🌿
Тут челики запилили гайд в HF blogs, как сделать свой Jax на минималках. Прям все есть и определение функций/активаций и chain-rules и интерпретатор и красивые схемки... 😜
Крч, тем, кто любит всякое на низком уровне (но не тазы) — рекомендую. 🗒
https://huggingface.co/blog/joey00072/microjax
Че творится братья и сестры че творится ❤️🐶⭐️
ТГ RIP?
Наброс вечера за разного рода модельные LB.
Дядя уже не раз и в чатах и в работе и личных беседах затрагивал темы лидербордов.
Сегодня мое мнение такое (имхо), вот есть у вас куча вариантов LLM арены, с разными оунерами. Может быть биас по ним, что модели оунеров там в топе? Может. Но какую бы говноарену не видел дядя. Там в топе всегда openAI решения и их ближайшие конкуренты из риал мирового бигтеха.
Смекаете? Какой бы не был лб, чей бы он не был. Если модель вы сделали in general крутую, она будет крута во всех более менее адекватных лб, кроме мусорных и шумных. И сколько вы бы в чатах или на борде не обливали чужие лб грязью, сколько бы не говорили, а вот уж наши метрики православные, показатель стабильности gpt-like решений OpenAI — на этих бордах они в топе, это увы признак их мастерства, не вашего.
У меня все. Занавес. 😐
Тут мои знакомые открыли свою школу по ML, DS.
И это хорошая возможность узнать, кто такие аналитики данных, дата-сайентисты и ML-инженеры, и чем они отличаются от ребят с реальным опытом.
📆 21 августа в 19:00 (мск) наши друзья из @mathshubedu_ru проведут бесплатный вебинар, где подробно объяснят все нюансы этих профессий.
На вебинаре вы не только получите теоретическую базу, но и увидите реальные примеры задач, которые решают эти специалисты. Узнайте, какие навыки необходимы для старта в Data Science и на какую зарплату можно рассчитывать в начале карьеры.
Это отличный шанс, чтобы узнать:
✅ Как выбрать подходящую профессию в мире Data Science;
✅ Какие инструменты используют специалисты;
✅ Как получить свой первый оффер;
✅ Какие карьерные перспективы ждут в этой области.
Регистрируйтесь на вебинар по ссылке, и сделайте первый шаг к успешной карьере в Data Science! 👨🏻💻
на правах дружбы, а не рекламы