12835
Жоский ИИ Дядя Твой личный поставщик AI 🦾🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys и др. Для связи @dealer_ai (реклама и консультации) Руковожу ML, AI командами. Kaggle: https://www.kaggle.com/andrilko РКН: 6348592885
Подкаст про технологии ИИ
Многие из вас в курсе, что я в этом году публикую второй сезон подкаста ТехТок, и этот сезон посвящен технологиям искусственного интеллекта. Цель - рассказать про важные для современного мира технологии на более широкую аудиторию, чем те, кто уже работает в AI. До сих пор подкаст был доступен только на YouTube, а теперь появился канал и на VK Видео, чтобы вы могли скинуть подкаст вашим родственникам и друзьям не из IT :)
VKвидео: kantortechtalk" rel="nofollow">https://vkvideo.ru/@kantortechtalk
YouTube: www.youtube.com/@KantorTechTalk
‼️Обязательно подписывайтесь и следите за новыми выпусками! В этом сезоне их будет еще шесть.
🎬Также вышел тизер подкаста с нашим следующим гостем, которого я уже несколько раз упоминал в канале за последнее время - с Александром Абрамовым :) Тема выпуска: большие языковые модели
Ну, что вы так напряглись, ну не справился дядя, ща будет мем. Закроем день с улыбкой.
Читать полностью…
Вот пример специфичного запроса от подписчиков.
Для русского языка слово "отечество" специфично и поэтому генерация релевантна.
Но родное подвело... Да...
Запросы: История отечества и родная история.
Есть ли отечественные генеративные нейросети на самом деле?
В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное».
Первое, что думают люди, видя такое, это что отечественных нейросетей на самом деле нет и они просто перенаправляют запросы в апишку Midjourney и им подобных зарубежных оригиналов.
Те, кто более прошарен, думают, что наши компании просто берут зарубежный опенсорс, разворачивают у себя, а русские запросы обрабатывают после перевода на английский.
А кто еще более прошарен, знает, что опенсорс в целом поддерживает и русский язык. Остается вопрос: так как же все-таки работают отечественные нейросети?
Зачем гадать, если можно спросить эксперта в области технологий AI, который сам имеет отношение к теме генеративного ИИ — Александра Абрамова. См. ответ у него в канале или репост ниже 👇
Поддержу канал нашей исследовательницы. Мысли интересные, вопросы тоже. Контент картиночный)👇
Upd. Оригинал отсюда
Cohere 3.5 с обновой Reranker.
Конкуренты антропика в домене RAG не дремлют. Cohere 3.5 новый базированный пайп e2e RAG. Тут всё, как мы любим: и преранк на эмбедах и реранк на кросс-энкодере. При этом ребята обновили механизм внимания для улучшения работы с контекстом намерений пользователя. Как утверждают авторы — цель закрыть эксплицитную и имплицитную часть запросов кожАнных. Помимо этого, добавлены новые сеты для 100+ языков по различным доменным запросам (наука,финансы и тп.). Все это дало значимый бОльший прирост к метрикам поиска. Также,напоминаю,что у ребят есть и мультимодальный эмбеддер.
Cohere прекрасный пример того,как можно зарабатывать на сервисе вокруг <your favourite LLM>. Помним,еще подобное и у perplexity.
Радуемся, следим, юзаем.
Создавай игры с GenAI и LLM.
Дядечка Ын продолжает радовать образовательным контентом. Курс про создание игр с ИИ.
Длительность курса 1 час. Можно использовать, кстати, как старт для вката в игровых агентов.
Псс, ребятки, не хотите погрузиться в мир audio и speech?
Тут мои знакомые из ШВМ (@shvmxyz) открывают набор на курс.
Что предлагают ребятки:
- Учим искусственный интеллект слушать (ASR) и говорить (TTS)
- Сильная команда преподавателей:
✅ Павел Северилов (NLP Team Lead Data Scientist в ecom.tech)
✅ Даниэль Князев (Ведущий разработчик в XLabs-AI)
- ориентируемся на практику
- Старт курса 9 декабря 2024
Записавшись до конца недели (01.12.24 включительно) можно получить скидку 50% на курс по промокоду DEALER50 (о, за это спасибо от Дяди).
Крч, шкет, скиллы сейчас работы со звуком на вес золота, спецы редкие, спрос есть. Дерзайте.
Крч, ребяты, покекали мы над резюме и хватит, Дядя, кстати, еще таких +2 нашел.
Выводы:
1. Проверяйте,что сделали,если с LLM.
2. Если берёте чужие шаблоны, менторов и тп. тем более проверяйте за ними.
3. Лучше вообще под себя,под реальный опыт и места работы переделать.
Всем привет! 👋
⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.
Фокусом выступлений были большие языковые модели и мультимодальность:
🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;
Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.
🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.
Будем рады вашей обратной связи! 💙
#news
Наши на EMNLP. Спасибо нашим девочкам,за интересную работу и прикладное применение.💃🦾💅
З.Ы. Рад,что такие исследователи у меня в команде.
👇👇👇👇👇👇
На днях разлетелась новость, что тут Gemini кожАному желала стать строчкой в death note.
Потом Гугл сказал, мол у них все на этик фильтрах и чики-пуки.
Ребяты, ни bert классификаторы,ни regexp, ни золотые погоны, ни галуны и лампасы не спасут вас на 100% от черных лебедей от LLM в виде хейт спича или глюков. Это все вопрос рисков, той доли % которую Вы и ваша шарага компания готовы на себя принять.
С любовью Ваш, Дядя.
Хорошо поговорили с Виктором Кантором и командой ТехТок про Deep learning, NLP, и конечно GenAI. 🦾🤖🕺
Спасибо за приглашение 👇
Следите за новостями;)
Откроем новую неделю с мемного поста. Картинка от друже @Erlemar.
Вывод. Не стрессуй. Действуй.
Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney. Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.
На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.). Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане". После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.
Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.
Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.
Как гиперрост вызывает войны внутри компании
Картинки выглядит угрожающе, но на самом деле она лишь иллюстрирует, кто из первоначальной команды Open AI остался работать в компании. И добрые люди с Reddit сделали ее после внезапного заявления об уходе из компании главного технического директора Миры Мурати. Ее нет на картинке с первоначальной командой, она присоединилась к стартапу в 2018 году.
И говоря о проблема гиперроста, пример Open AI как нельзя лучше подходит в качестве иллюстрации. Именно головокружительный успех их продукта Chat GPT породил многочисленные проблемы, которые мы наблюдали весь прошлый год. После увольнения и возвращения Сэма Альтмана, казалось, что компания уладила внутренние противоречия и готова продолжать завоевывать рынок. Который, справедливости ради, не стоит на месте и выпускает все новых и новых конкурентов.
Компания рассматривает возможность перехода от некоммерческой организации с ограниченной прибылью к новой структуре, в которой инвесторы получат большую долю прибыли. При этом OpenAI обсуждает возможность передачи мистеру Альтману 7% акций в рамках усилий по реструктуризации в коммерческую компанию.
Однако, несмотря на то, что эксперты ожидают, что инвесторы в следующем раунде финансирования оценят компанию в 150 млрд долларов, неспособность Альтмана удержать топ-менеджеров также может стать для них тревожным сигналом. Один давний наблюдатель из Кремниевой долины говорит, что ощущение переворота похоже на то, что было в Uber в те дни, когда ее возглавлял Трэвис Каланик. «Феноменальный продукт, прогнившая культура», — так он описал ситуацию.
Как думаете, какие ошибки были допущены в период гиперроста? Мы видим, как минимум, несовпадение в ценностях компании.
Говорят, что выходит GPT-4o1 pro super star plus mode (вспомнил нейминг китайских авто). Но есть один нюанс. Цена 200$, Карл!!!
Читать полностью…
Microsoft (не)учит нейросети пока вы тапаете хомяка макросы в Excel.
Забавная новость дня.
Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft.
Юзеры заметили,что в Word и Excel по умолчанию активна функция отправки в Microsoft информации. Данная информация в дальнейшем будет использоваться для обучения нейросетей.
Ну в целом, как бэ не удивительно, зачем отказываться от такого источника данных для дообучения своих LLM и тп. Тем более для автоматизации аналитики и вычислений при помощи ИИ. Однако, если учесть,что в Excel работают с NDA информацией, становится неприятненько.
Ранее Excel держал фиансовый мир, теперь видать будет AI 🧠 (ща заделаю мем).
Distillation is all you need? Или опыт репликации знаний из O1.
Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным и не очень.
При этом выводы не новы, еще со времен BERTов было известно,что ученик может превзойти учителя, причем иметь гораздо ниже ёмкость. Важнее тут,как отметили мои коллеги, инволюция исследований. Проще взять топ модель по апи, вложиться в ее обстрел, а далее обучить меньшую модель на это синте, дистильнув знания учителя. Таким образом, возможно, по мнению авторов, снижение фундаментальных исследований и перекладывание этого на плечи атлантов в виде OpenAI, Meta, Google и тп.
Однако, я хотел бы поговорить еще про инволюцию архитектур. На примере Qwen (а я напомню,что он llama like) мы можем увидеть форки известных архитектур (с небольшими доработками) + хороший pretrain. Те порой компаниям проще форкнуть код условной llama2 или mistral и на этом с 0, со своими претрейн сетом и сфт сетом сделать решение, не тратя средства на свой research архитектуры. Конечно, не всем удается, конечно, при том же форке завести достойные Mistral/Qwen уровня модели.
Является ли это проблемой? Не знаю. Решать Вам, читатели. В целом, снова поймал себя на мысли, сколько крутого Цукерберг с их public Llama арихтектурой сделали для демократизации ИИ. Да еще срезали косты на исследования своих архитектур некоторым командам, оставив только вопросы сбора/чистки сетов, и затрат на обучение. Так и живем.
Mamba, Jamba, Ху...Hymba!🤣
NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал).
Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность от длины входной последовательности. При этом SSM модели имеют проблемы с "запоминанием" контекста при большой длине последовательности и не смогли показать иных плюсов кроме сложности.
В новой работе авторы показывают гибридизацию внимания и SSM модели (фото архитектуры будет ниже). Однако, в отличие от предыдущих работ, мы не имеем последовательно блок SSM, далее блок внимания, а их использование происходит параллельно. В таком сетапе, мы к сожалению не уходим полностью от квадратичной сложности по длине последовательности, в отличии от последовательного гибрида.
Однако,авторы уповают на иные "сильные" стороны. Во-первых, используется аналогия с работой мозга. Для запоминания четких образов/мгновенных снимков событий в модели работает SSM блок, в то же время для контекстной связности и длинной памяти используется full attention блок. Также авторы добавили в архитектуру мета-токены, которые используются, по мнению авторов,как навигаторы какие области архитектуры активировать. Интересное замечание,что масштаб векторов вложений после SSM блока на порядки выше, векторов после блоков внимания. Для их выравнивания используется gating norm— привет, нормализация, в классик трансформере после конкатенации multi-head attention.
Кстати, тут же рождается идея у Дяди. И тебе шкет советую положить руки на стол 🔫, а не бежать делать по ней папиру.
Почему, бы вдобавок к gating norm, не использовать gating routing как в MoE. В итоге получаем умную маршрутизацию экспертов SSM блоки или full attention в зависимости от того,что нужно хранить/обработать.🫥
Ладно,помечтали и хватит, вернёмся к статье. Там есть еще пару хак. Связка ssm+mha представляет собой hymba block, такой блок чередуется с SWA блоком (аля как в longformer было). В таком блоке скользящее внимание юзает не все токены, а работает с окном внимания,которое идет "внахлёст". Так, видимо, хотят сократить сложность O(N^2) до условно O(N*logN). Далее еще также используется KV-caching,НО с обобщёнными KV-матрицами между блоками.
В статье есть блок с ablation study,советую глянуть. Ну и конечно метрики, где сравниваются small-LM, кажется, до 3b параметров (метрики ниже). Как видим, модель с таким комбо вниманием, проявляет себя лучше на задачах,где важны знания о мире,фактология и тп.
Так, вроде, всё. Читаем статью, модельки лежат тут, git. Дядя пошел папиру про MoE Hymba писать (но это не точно).😏
Подписчик @Orzhan таки собрал первый прототип.
Красивое...
Смотреть со звуком.
Новый вид мошенничества: 84-летняя пенсионерка prompt-engineer (ветеран AI труда)
из Реутова наняла двух несуществующих джунов в крупную компанию. Код пишут тоже LLM,как и резюме.
Или.... Псс, чувак, не списывай точь в точь....
Кто найдет в резюме ошибки по теме, пишем в комменты.
Ну и вопрос: сам писал или LLM?)
Наши сказки в Майами 🌟
Этим летом мы решили написать статью о пайплайне генерации и оценке качества текстов, который используем в #сочинисказку
По ходу работы ещё начали погружаться в LLM as a judge - добавили оценку не только людьми, но и языковой моделью - так что теперь продолжаем глубже уходить в эту тему.
Но, возвращаясь к статье, - работали быстро, где-то параллельно с продовыми задачами, где-то в выходные (в том числе наши разметчики - за что большое спасибо!), но всё вышло отлично ☀️ и мы прошли на воркшоп EMNLP! С первой идеи и попытки 🤩
Это ведущая конференция в области обработки естественного языка и искусственного интеллекта.
У коллеги получилось поехать и показывать постер гостям конференции лично ☀️
Такие новости к утру субботы.
Передаём большой привет в Майами 💞
Всем доброго утра. Время учиться.
Тут Евгений Разинков — автор канала по ML на razinkov">YouTube (причем Дядя следит за его ростом чуть ли не с основания), запускает второй поток AI-школы:
“AI: от основ до языковых моделей”
Старт 18 ноября!
Курсы проведут вас от основ до самых последних алгоритмов ML, а именно до больших языковых моделей.
Акцент на понимании алгоритмов и архитектур, а также на реализации всего с нуля.
Тк Дядя давно подписан на канал и знаком с материалом, рекомендую тем, кто всерьез хочет стать специалистом в этой области.
Специальный стрим о курсах
Регистрация
Доп инфо тут:
Подробности по ценам, количеству материалов и отзывы здесь:
https://razinkov.ai/school/about
А еще у Жени есть свой канал в тг @razinkov_ai
Неделя мемов с китайскими моделями продолжается
Спасибо @walfry