📚 LlaVa Demo with LlamaIndex
In this example, we illustrate how we use LlaVa for belowing tasks:
▪Retrieval Augmented Image Captioning
▪Pydantic Structured Output
▪Multi-Modal Retrieval-Augmented Generation (RAG) using Llava-13b
Совершенно новая книга рецептов 🧑🍳, в которой рассказывается о трех способах создания приложений LLM
путем интеграции мультимодальных моделей (LLaVa
) в остальной рабочий процесс:
1️⃣ Retrieval Augmented Image Captioning: Генерация подписей к изображению с помощью LLaVa, а затем дополнение ответа из вашей базы знаний.
2️⃣ Извлечение структурированных данных из изображений: Получив входную инструкцию и изображение, извлекаем из него структурированный объект Pydantic.
3️⃣ Multi-modal RAG: задаем вопросы по изображениям и тексту из собственной базы знаний.
🖥 Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🔍 Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩 Paper: https://arxiv.org/abs/2304.08485
💻 Website: https://llava-vl.github.io/
🔥 YouTube: https://youtube.com/watch?v=k7i2BpeLUss
@ai_machinelearning_big_data
🖥 Self-conditioned Image Generation via Generating Representations
A new benchmark in class-unconditional image generation.
RCG - новый простой, но эффективный фреймворк для генерации изображений, который устанавливает новую планку для unconditional генераций (без учета класса генерации объекта).
RCG не зависит от аннотаций человека. Вместо этого он опирается на самоконтролируемое распределение, которое сопоставляется с распределением изображений с помощью предварительно обученного кодировщика.
Во время генерации RCG делает выборку из такого распределения представлений с помощью модели диффузии представлений (RDM) и использует генератор пикселей для создания пикселей изображения на основе выбранного представления.
Такая конструкцияприводит к созданию высококачественных изображений. Протестированная на ImageNet 256
256, RCG достигает Frechet Inception Distance (FID) 3,31 и Inception Score (IS) 253,4.
Эти результаты не только значительно превосхоядт современное состояние генерации изображений без учета классов, но и конкурируют с ведущими методами генерации изображений с учетом классов, преодолевая давний разрыв в производительности между этими двумя задачами.
🖥 Github: https://github.com/LTH14/rcg
📚 Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@ai_machinelearning_big_data
🚀 Optimized inference with NVIDIA and Hugging Face
Optimum-NVIDIA теперь доступен на Hugging Face!
28-кратное ускорение вычислений и 1 200 токенов в секунду на платформе NVIDIA с помощью всего 1 строки кода.
Optimum-NVIDIA обеспечивает лучшую производительность вычислений на платформе NVIDIA.
#LLM E https://huggingface.co/blog/optimum-nvidia
🖥 Github
@ai_machinelearning_big_data
🔍 Yandex Cloud открывает доступ к YandexGPT API в режиме превью для всех пользователей и запускает программу грантов
YandexGPT API может решать задачи разного уровня сложности: от поиска ответов на вопросы в режиме реального времени до аналитики аудиозаписей.
Сервис теперь доступен всем пользователям и тарифицируется, но при этом компании могут попробовать технологию бесплатно в рамках программы Yandex Cloud Boost AI. А также получить консультации архитекторов по работе с нейросетью, скидку на дальнейшее использование технологии и гранты в размере 1 млн рублей на использование YandexGPT API.
Кроме того, эксперты собрали библиотеку наиболее популярных сценариев использования нейросети. Так, например, компания Ralph Ringer уже использует решение Smart-Reply.AI со встроенным YandexGPT API для автоматизации ответов на отзывы и вопросы клиентов на маркетплейсах.
💬 Подробнее о запуске YandexGPT читайте по ссылке.
Первый очный ИТ-митап Сбера в Калининграде!
Приглашаем разработчиков и Data people, чтобы поговорить про новейшие разработки банка в области больших языковых моделей и обсудить, зачем нужен GigaChat.
Когда: 16 декабря, 11:00 – 17:00
Где: г. Калининград, ул. Гюго 1, отель Holiday Inn, зал ГОФМАН
Спикеры и темы:
1. Сысоев Дмитрий — исполнительный директор по исследованию данных — вместе с вами решит NLP-задачку и покажет, кто справится лучше: вы или GigaChat.
2. Ефремов Владислав — Development Team Lead — расскажет о платформе аналитики коммуникаций банка с клиентами Voice360 и покажет кейсы применения GigaChat для аналитики коммуникаций.
3. Марченков Антон — исполнительный директор по исследованию данных в Департаменте данных и рекомендательных систем Сбера — поделится тем, как Сбер использует современные генеративные модели и как это помогает соответствовать ожиданиям рынка.
4. Резвых Алексей — Team Lead Data Scientist — и Кулин Никита — Data Scientist —применят большие языковые модели для автоматического извлечения знаний из диалогов.
5. Дмитрий Бугайченко — управляющий директор в Департаменте данных и рекомендательных систем Сбера — расскажет о том, как искусственный интеллект работает на службе компаний-партнёров Сбера.
Помимо новых знаний, вас ждут One Day Solo Hackathon и много призов. Скорее регистрируйтесь по ссылке
Скажите что-то на карьерном
Тинькофф в поиске крутых ИТ-спецов. С компании — профессиональный рост, интересные финтех-задачи, решение бытовых забот и работа там, где вы живете. С вас — выбрать вакансию и откликнуться тут
АО «Тинькофф Банк», ИНН 7710140679
🦾 Помогать углубляться в ML будет новая площадка яндексовского ШАДа
Школа анализа данных, откуда выходят сильные дата-сайентисты и ML-щики, открыла пространство в Петербурге. Будет интересно всем, кто занимается ИИ: на площадке впервые в истории ШАДа начнут проводить открытые мероприятия. В планах — лектории и интенсивы по ИИ от топовых преподавателей Школы и экспертов Яндекса, соревнования по ML и алгоритмам, хакатоны по разработке. А ещё — коллаборации со студентами Школы: будет возможность работать над учебными проектами, направленными на внедрение технологий ИИ в бизнес и прикладную науку.
@ai_machinelearning_big_data
🪄 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model
Высокоточная временно-согласованная анимация изображений человека с использованием диффузионной модели.
🖥 Github: https://github.com/magic-research/magic-animate
🔥HF: https://huggingface.co/spaces/zcxu-eric/magicanimate
📚 Paper: arxiv.org/abs/2311.16498
🌟 Colab: https://colab.research.google.com/github/camenduru/MagicAnimate-colab/blob/main/MagicAnimate_colab.ipynb
🥩 Page: https://showlab.github.io/magicanimate/
@ai_machinelearning_big_data
🔥 Seamless: Multilingual Expressive and Streaming Speech Translation
Модели Seamless получили обновления и доступны для использования.
Новая веха в исследованиях в области бесшовной коммуникации и пеервода - семейство моделей перевода на основе искусственного интеллекта, которые сохраняют выразительность и обеспечивают потоковый перевод практически в режиме реального времени.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️ BLog: https://ai.meta.com/blog/seamless-communication/
📚 Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥 Github: https://github.com/facebookresearch/seamless_communication
@ai_machinelearning_big_data
Приглашаем на главное BI-событие декабря — Yandex DataLens Festival!
В этом году будет ещё интереснее! Вас ждут 2 недели полезного контента от экспертов:
⭐️ Yandex Cloud. Как построить аналитику в облаке
⭐️ MAXIMUM Education. Как переезд с Power BI расширил число пользователей аналитики
⭐️ Ренессанс Страхование. Как построить систему знаний и обучения BI
⭐️ CARCADE. Как организовать работу 1000 пользователей BI в финсекторе
⭐️ YCLIENTS. Как анализировать работу команды разработки
⭐️ Reveal the Data aka Роман Бунин. Сколько живёт дашборд и как увеличить время его жизни
Помимо этого, ведущие разработчики DataLens и YTsaurus поделятся рецептами, как готовить опенсорс, а именно:
🛠 как развернуть у себя
🛠 как кастомизировать UI
🛠 как настроить базовую аутентификацию
🛠 как интегрировать с YTsaurus
Будет много нетворкинга — разберём вопросы на Q&A-сессии и пообщаемся вживую на афтерпати. Ну и какой фестиваль без конкурсов и сюрпризов 🎁
Участие бесплатное, нужно только ➡️ зарегистрироваться
Нейросетевой мир уже победил, большой брат следит за вами
ChatGPT и MidJourney сделали нейросети популярными и известными. Но на деле ИИ начали активно использовать для слежки за людьми еще в 2000-x годах. Вы ведь слышали про машинное зрение?
Нейросети внимательно смотрят, как мы работаем, что покупаем в магазине по акции и где паркуем авто. Они анализируют, подсчитывают и каталогизируют нас и все, что мы производим.
Мы с командой начали осваивать машинное зрение еще в далекие досанкционные. И теперь знаем, как бизнесу грамотно применить нейросети в рознице и сократить затраты на персонал и рутинные операции.
Давайте будем знакомы. Мы Destech — системный интегратор. Поставляем оборудование и ПО, связываем технические системы между собой и устанавливаем на объекты — от Шереметьево и до колледжей РЖД.
Собираем в одно комьюнити всех, у кого душа болит за российский айти. Делимся кейсами, закидываем интересные мероприятия для технарей, болтаем о нейросетях. Подписывайтесь
Реклама. ООО “Проектные технологии” ИНН 7718654563 erid: 2SDnjcknxCp
Салют, GigaChat!
Речевые технологии и большие языковые модели.
Приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшен GigaChat и речевых технологий.
📍 Онлайн / Офлайн в Москве
🗓 4 декабря в 18:00 (МСК, GMT+3)
В программе:
✔ Григорий Лелейтнер — «Что мы улучшили в процессе pre-training LLM»
✔ Эмиль Шакиров и Никита Сидоров — «Наш путь в процессе Alignment для совершенства моделей глубокого обучения»
✔ Александр Максименко — «Speech-only Pre-training: обучение универсального аудиоэнкодера»
✔ Григорий Федоров — «Intended Query Detection: распознаем только нужные запросы»
✔ Гриша Стерлинг — «Как мы заставили модель синтеза речи 2023 года говорить лучше модели 2018 года»
Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.
Количество мест в офлайне ограничено. Для участия необходимо зарегистрироваться на сайте.
Реклама. ПАО Сбербанк. ИНН 7707083893.
9 практик, которые улучшат ваш ML-проект
💬"Я лучше в DL буду развиваться, инженерную часть обойду стороной" — в 2023 году такое не могут себе позволить даже ресерчеры)
Любой исследователь обойдет коллег, если будет проверять больше гипотез, не будет путаться в данных и экспериментах, умеет обучать большие модели и облегчать их с минимальными потерями качества. Поэтому даже в ресерче приходится разбираться с автоматизацией, версионированием, логгированием, ускорением, паралелльными вычислениями, ... — что уж говорить про инженеров, работающих в продуктовых компаниях.
Ребята из школы DeepSchool решили помочь ML-специалистам перенять инженерные практики в свои проекты и подготовили мастер-класс где расскажут, как за 9 шагов придти к репозиторию, за который не стыдно перед коллегами.
А именно обсудят:
1️⃣ как сделать эксперименты воспроизводимыми
2️⃣ какие инструменты помогут повысить качество кода
3️⃣ как ускорить и облегчить свою работу
А также представят программу курса “Computer Vision Rocket” и подарят скидки на обучение!🎁
🙋♂️Спикер лекции — Егор Осинкин, Lead CV Engineer, EPAM
Регистрируйтесь по ссылке. В телеграм-боте ребята также поделились анализом вакансий из slack ods и singularis📊 показали связь между грейдами, требованиями и окладами, динамику зарплат в USD и RUB по грейдам, а также поделились размеченными данными и ноутбуком!
Зарегистрироваться
erid: LjN8Kaf4x
✔️ Хочешь видеть реальные результаты от ML?
Учить правильно их внедрять и сопровождать
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
👉 Пройдите тестирование и получите список полезных инструментов MLOPS
➡️Получить список инструментов
https://otus.pw/D5re/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
👩💻 Запустили Программу грантов Yandex Open Source. Каждый год будем вознаграждать независимых разработчиков, которые создают и поддерживают проекты с открытым исходным кодом.
🔗 Подавайте заявки уже сегодня, все подробности про программу — в карточках.
👀 А если хотите разобраться, в чём смысл проектов с отрытым исходным кодом, смотрите yet another podcast про опенсорс.
Подписывайтесь 👉 @yandex
⚠️Как создавать эффективные AI чат-боты?
Узнайте на бесплатном открытом уроке «Langchain - делаем AI chat bot поверх ваших документов» от OTUS и Александра Брут-Бруляко специалиста по машинному обучению из Сбера.
🔹На вебинаре вы узнате что такое эмбеддинги, векторизация текстов
🔹Рассмотрим задачу векторного поиска и векторные базы данных
✅ Результат урока:
Вы установите и запустите проект AI чат-бота на фреймворке Langhain
👉 Регистрация
https://otus.pw/pkbM/?erid=LjN8JuzL7
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
⚡️8 free courses to master large language models:
8 бесплатных топ курсов по большим языковым моделям:
1. Университет LLM
Курс дает представление о том, как работают LLM
, их практическом применении, и направляет учащихся на использование LLM для создания и развертывания приложений.
https://docs.cohere.com/docs/llmu
2. huggingface NLP course
Этот курс дает исчерпывающие знания о тарнсформерах Hugging Face, датасетах, токенизаторах и инструменте Accelerate в области обработки естественного языка (NLP).
https://huggingface.co/learn/nlp-course/chapter1/1
3. DeepLearningAI
Коллекция бесплатных курсов, созданных в сотрудничестве со многими компаниями, такими как LangChain, OpenAI, Google, Weights & Biases, Microsoft и другими.
https://www.deeplearning.ai/short-courses/
4. Weights_biases course
Этот курс показывает, как создавать приложения на базе LLM, используя API, Langchain и W&B Prompts
. Он рассказывает про разработку, экспериментирование и оценку приложений, ориентированных на LLM.
https://www.wandb.courses/courses/building-llm-powered-apps
5. Introduction to LLMs course by google cloud
Курс вводного уровня, в котором рассказывается о том, что такое LLM, о случаях их использования и о том, как повысить производительность LLM с помощью промпт-тюнинга.
https://www.cloudskillsboost.google/course_templates/539
6. Databricks курсы
Программа включает в себя два курса: "LLMs: Application through Production
" и "LLMs: Foundation Models from the Ground Up
".
https://www.databricks.com/blog/enroll-our-new-expert-led-large-language-models-llms-courses-edx
7. Курс "LangChain & Vector Databases in Production" от activeloopai, towards_AI и Intel
Серия из трех курсов познакомит слушателей со знаниями и навыками для обучения, тонкой настройки и интеграции LLM в продакшен.
https://learn.activeloop.ai/courses/langchain
8 ) LLM Bootcamp
Охватывает такие темы, как Prompt Engineering, LLMOps, UX
для языковых пользовательских интерфейсов, дополненные языковые модели, быстрая разработка LLM-приложений, будущие тенденции в LLM, фундаментальные концепции и прохождение askFSDL.
https://fullstackdeeplearning.com/llm-bootcamp/
@ai_machinelearning_big_data
✅ Fine-tuning Stable Diffusion
В этом руководстве подробно показано, как произвести файнтюнинг модели Stable Diffusion на собсвенном датасете из пар {изображение, подпись
}.
https://keras.io/examples/generative/finetune_stable_diffusion/
@ai_machinelearning_big_data
🥇 TokenCompose, a text-to-image latent diffusion model trained with fine-grained grounding objectivesTokenCompose
, модель латентной диффузии текста в изображение, которая достигает высокого фотореализма.
🖥 Code: https://github.com/mlpc-ucsd/TokenCompose
🏆 Website: https://mlpc-ucsd.github.io/TokenCompose/
📚 Paper: https://huggingface.co/papers/2312.03626
@ai_machinelearning_big_data
💡DemoFusion: High-resolution generation
DemoFusion: Паплайн для генерации с высоким разрешением с использованием только SDXL
и графического процессора RTX 3090!
Код доступен в 🧨diffusers в качестве пайплайна!
#DemoFusion
🖥 Попробовать: https://github.com/huggingface/diffusers/blob/main/examples/community/pipeline_demofusion_sdxl.py
🥩 Страница проекта: https://ruoyidu.github.io/demofusion/demofusion.html
@ai_machinelearning_big_data
⚡️⚡️⚡️ Introducing Gemini: largest and most capable AI model by Google.
Google представил Gemini — новое семейство мультимодальных моделей.
Это самая большая и самая способная модель искусственного интеллекта.
Созданная на основе мультимодальных технологий, она способна понимать и работать с текстом, кодом, аудио, изображениями и видео и достигает самой высокой производительности во многих задачах.
Это единственный ИИ, который справился с экзаменами из 57 категорий разных уровней лучше, чем человек.
🧵 https://blog.google/technology/ai/google-gemini-ai/
@ai_machinelearning_big_data
🔥🔥🔥 LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models
Vchitect новые модели с открытым исходным кодом для генерации видео.
📽️LaVie (Text2Video Model)
- Code: https://github.com/Vchitect/LaVie
- https://huggingface.co/spaces/Vchitect/LaVie
📽️SEINE (Image2Video Model)
- Code: https://github.com/Vchitect/SEINE
- https://huggingface.co/spaces/Vchitect/SEINE
@ai_machinelearning_big_data
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Новая модель StyleTTS 2
для преобразования текста в речь (TTS
), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM
) для достижения синтеза речь на человеческом уровне.
StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
🖥 Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️ Demo: https://huggingface.co/spaces/styletts2/styletts2
📚 Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩 Page: styletts2.github.io
@ai_machinelearning_big_data
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
🖥 Code: https://github.com/dangeng/visual_anagrams
🌟 Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥 Project: https://dangeng.github.io/visual_anagrams/
📚 Paper: https://arxiv.org/abs/2311.17919
@ai_machinelearning_big_data
⭐️ LEDITS++: Limitless Image Editing using Text-to-Image Models
LEDITS++ модель, которая выводит редактирование изображений текcтом на новый уровень.
LEDITS++:
- быстрый 🚀
- универсальный 🎨
- привязывает изменения к соответствующим областям 🎑
- не зависит от архитектуры ⚙️
🖥 Code: https://huggingface.co/spaces/editing-images/leditsplusplus/tree/main
🔥 Project: https://leditsplusplus-project.static.hf.space/index.html
🦾 Demo: https://huggingface.co/spaces/editing-images/leditsplusplus
📚 Paper: https://arxiv.org/abs/2311.16711
@ai_machinelearning_big_data
🔥Building and Evaluating Advanced RAG Applications
Вышел новый бесплатный курс от deeplearning.ai по сложным техникам RAG (Retrieval Augmented Generation
).🦾
В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.
deeplearning.ai/short-courses/building-evaluating-advanced-rag/
@ai_machinelearning_big_data
🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond
Это репозиторий призван предоставить список научных работ, в которых исследуются промпты для работы с графами.
🖥 Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚 Paper: https://arxiv.org/abs/2311.16534v1
@ai_machinelearning_big_data
🪄 Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL Turbo достигает высочайшей производительности благодаря новой технологии дистилляции, позволяющей создавать изображения за 1 шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.
Доступны: код, статья, веса.
Вы можете протестировать SDXL Turbo на платформе для редактирования изображений Stability AI. с бета-версией демонстрации возможностей генерации текста в изображение в режиме реального времени.
🖥 Code: https://stability.ai/news/stability-ai-sdxl-turbo
🦾 Demo: https://clipdrop.co/stable-diffusion-turbo
🔥 Model weights → https://huggingface.co/stabilityai/sdxl-turbo
📚 Paper:https://stability.ai/research/adversarial-diffusion-distillation
@ai_machinelearning_big_data
📐 Sketch Video Synthesis
Новая модель для создания скетчей из видео, представленных покадровыми кривыми Безье.
🖥 Code: https://github.com/yudianzheng/sketchvideo
🦾 Project: https://sketchvideo.github.io/
📚 Paper: https://arxiv.org/abs/2311.15306v1
@ai_machinelearning_big_data