ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

⚠️ Как получить вакансию в машинном обучении в Европе, Азии и США?

⬆️   Расскажет Валентин Шкулов – Data Scientist в Meson Capital Partners на бесплатном вебинаре.

🔹 На занятии вы познакомитесь с различными этапами собеседований для разных локаций и изучите подходы к подготовке и прохождению интервью

🔹 Узнаете особенности в получении офферов в разных локациях. 

🔥 Урок идеально подойдет продвинутым IT-специалистам, практикующим ML и желающим выйти на другие рынки или релоцироваться. 

👉  Встречаемся 26 декабря в 19:00 мск в рамках курса «Machine Learning. Advanced». 

➡️ Регистрация
https://otus.pw/DWOk/?erid=LjN8K8QYH

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963

Читать полностью…

Machinelearning

Критерии выбора инструментов в MLOps и возможности Open Source

Вышла третья часть подкаста «Деньги любят техно» про MLOps. На этот раз — максимально практическая: про платформы, инструменты и требования к ним, а также как всё это применять в больших проектах.

🎧Слушать на любой удобной платформе

Читать полностью…

Machinelearning

Как выпустить ML-сервис в прод малыми силами с помощью Cloud ML Platform

Создание ML-модели — сложный процесс, а выкатка сервиса на основе модели в прод ещё сложнее.

Упростит жизнь работа с облаками. Точнее, с ними можно сделать простую, но эффективную модель, дающую высокую точность предсказаний, и быстро развернуть её в проде, используя предварительно настроенную среду и инструменты, например, Cloud ML Platform. Более того, ML-модель будет иметь потенциал для улучшения.

https://habr.com/ru/companies/vk/articles/780632/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📲 CogAgent: A Visual Language Model for GUI Agents

A state-of-the-art-level open visual language model.


Люди проводят огромное количество времени на цифровых устройствах, используя графические пользовательские интерфейсы (GUI), например, экраны компьютеров или смартфонов.

Большие языковые модели, такие как ChatGPT, могут помочь людям в решении таких задач, как написание электронных писем и ответов на вопросы, но они не способны понимать и взаимодействовать с графическими интерфейсами, что ограничивает их потенциал в плане повышения уровня автоматизации.

CogAgent - новая визуальная языковая модель (VLM) с 18 миллиардами параметров, которая специализируется на работе и навигации в графических интерфейсах.

Используя кодировщики изображений как низкого, так и высокого разрешения, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ему распознавать мельчайшие элементы страниц и текст.

Будучи универсальной моделью визуального языка, CogAgent достигает передовых результатов в пяти тестах VQA с большим количеством текста и четырех тестах VQA общего назначения, включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующий в качестве входных данных только скриншоты, превосходит методы на основе LLM, которые принимают извлеченный HTML-текст, в задачах навигации по графическому интерфейсу на ПК и смартфонах.

🖥 code: https://github.com/thudm/cogvlm

📚 paper: https://arxiv.org/abs/2312.08914v1

🔥dataset: https://paperswithcode.com/dataset/ok-vqa

ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Deep dive into 4 NeurIPS 2023 best paper award winners

NeurIPS 2023 обзор лучших работ:
https://youtu.be/LkED9wKI1TY

- Является ли эмерджентность больших языковых моделей миражом? https://arxiv.org/abs/2304.15004
- Масштабирование языковых моделей с ограничениями по данным. https://arxiv.org/abs/2305.16264
- Прямая оптимизация предпочтений: Your Language Model is Secretly a Reward Model. https://arxiv.org/abs/2305.18290
- DecodingTrust: Всесторонняя оценка достоверности в GPT-моделях. https://arxiv.org/abs/2306.11698

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как строится работа полного цикла ML-разработки и как в ней использовать готовые платформенные решения

Ведущий программист VK Cloud Станислав Кипрюшин показывает пример работы с Cloud ML Platform для создания сервиса распознавания лиц.

В машинном обучении (Machine Learning, ML) можно использовать два подхода: задействовать различные технологии на каждом этапе или работать с готовыми инфраструктурными решениями, которые позволяют создать MLOps-конвейер на одной платформе. Какой путь принесет больше профита — узнайте в статье.

Читать полностью…

Machinelearning

💡 TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering

Выпущен TextDiffuser-2 с кодом и демо.

📚 Paper: https://arxiv.org/abs/2311.16465

🖥 Code: https://github.com/microsoft/unilm/tree/master/textdiffuser-2

⚡️ Demo: https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🎨The Art of Prompt Engineering with Stable Diffusion Models!

Искусство разработки подсказок с помощью моделей стабильной диффузии!

От создания убедительных промптов до доработки результатов - это руководство обязательно к прочтению для всех, кто изучает потенциал искусственного интеллекта в создании изображений.

🔗Guide: https://wandb.ai/geekyrakshit/diffusers-prompt-engineering/reports/A-Guide-to-Prompt-Engineering-for-Diffusion-Models--Vmlldzo1NzY4NzQ3

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🧠 EasyVolcap: Accelerating Neural Volumetric Video Research

EasyVolcap, библиотека на Pytorch для упрощения процесса захвата, реконструкции и рендеринга объемного видео, с целью унификации процесса обработки многоракурсных видео, реконструкции 4D-сцен и динамического рендеринга .

🖥 Code: https://github.com/zju3dv/easyvolcap

🖌Metrics: https://short.llm360.ai/amber-metrics

📚 Paper: https://arxiv.org/abs/2312.06575v1

⚡️ Dataset: https://paperswithcode.com/dataset/nerf

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ LLM360 - framework for open-source LLMs to foster transparency, trust, and collaborative research


Новый LLM360 фреймворк, который расширяет границы открытых LLM!

Совершенно новые предварительно обученные LLM со обучающим полным кодом, данными и 360 контрольными точками модели.

🖥Code: https://short.llm360.ai/amber-code

⚡️ Model: https://short.llm360.ai/amber-model

🖌Metrics: https://short.llm360.ai/amber-metrics

📚Data: https://short.llm360.ai/amber-data

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🏆 DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

DynamiCrafter новая, мощная модель, которая может анимировать неподвижные изображения с открытым доменом на основе промптов.

🌐page: https://doubiiu.github.io/projects/DynamiCrafter
📄paper: https://arxiv.org/abs/2310.12190
🧬code: https://github.com/Doubiiu/DynamiCrafter
🕸replicate: https://replicate.com/camenduru/dynami-crafter

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌍 BioCLIP: A Vision Foundation Model for the Tree of Life

Фундаментальная модель, которая обобщает древо жизни (более 2 миллионов видов фауны и флоры), превосходя OpenAI CLIP на 18% в классификации zero-shot и поддерживает открытую классификацию почти по всему живому на земле.

Что внутри?
> Данные: TreeOfLife-10M - самый большой и разнообразный набор данных изображений организмов на сегодняшний день. Он содержит 10,4 млн изображений для более чем 450 таксонов. тем, взятых из iNaturalist, BIOSCAN и Encyclopedia of Life.
> Моделирование: Авторы применили мультимодальную модель контрастного обучения CLIP для иерархической классификации изображений.

Основные результаты
> Классификация животных/растений/грибов, включая редкие виды, с нулевым/малым числом снимков, превосходящая CLIP на 16-18 % в абсолютном выражении.
> Визуализация T-sne показывает, что кодировщик зрения BioCLIP уловил тонкую иерархическую структуру древа жизни.
> BioCLIP - это своего рода универсальный классификатор для древа жизни. Просто дайте ему изображение любого организма, и он, скорее всего, найдет правильный вид.

- paper: https://arxiv.org/abs/2311.18803
- project: https://imageomics.github.io/bioclip/
- demo: https://huggingface.co/spaces/imageomics/bioclip-demo
- model: https://huggingface.co/imageomics/bioclip

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Всероссийские соревнования по спортивному программированию «Фонкод»

Дисциплина - «Программирование алгоритмическое».
Общий призовой фонд составит – 2 000 000 рублей!

К участию приглашаются учащиеся средних образовательных учреждений и лицеев России в возрасте от 14 до 17 лет, а так же обучающиеся высших и средне-специальных учебных заведений, работники организаций сферы ИТ России и т.д. (18+) Соревнования предполагают индивидуальный зачет.

Регистрация участников осуществляется на платформе проведения соревнований – https://foncode.ru/

Важно! Для допуска к участию в соревнованиях необходимо в личном кабинете указать достоверную и полную информацию.

Соревнования пройдут в несколько этапов.
Подробная информация и регистрация на сайте https://foncode.ru/

Читать полностью…

Machinelearning

⚠️Как создавать эффективные AI чат-боты? 

Узнайте на бесплатном открытом уроке «Langchain - делаем AI chat bot поверх ваших документов» от OTUS и Александра Брут-Бруляко специалиста по машинному обучению из Сбера. 

🔹На вебинаре вы узнате что такое эмбеддинги, векторизация текстов 

🔹Рассмотрим задачу векторного поиска и векторные базы данных

✅ Результат урока:
Вы установите и запустите проект AI чат-бота на фреймворке Langhain

👉 Регистрация
https://otus.pw/pkbM/?erid=LjN8JuzL7

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

⚡️8 free courses to master large language models:

8 бесплатных топ курсов по большим языковым моделям:

1. Университет LLM

Курс дает представление о том, как работают LLM, их практическом применении, и направляет учащихся на использование LLM для создания и развертывания приложений.
https://docs.cohere.com/docs/llmu

2. huggingface NLP course

Этот курс дает исчерпывающие знания о тарнсформерах Hugging Face, датасетах, токенизаторах и инструменте Accelerate в области обработки естественного языка (NLP).
https://huggingface.co/learn/nlp-course/chapter1/1

3. DeepLearningAI

Коллекция бесплатных курсов, созданных в сотрудничестве со многими компаниями, такими как LangChain, OpenAI, Google, Weights & Biases, Microsoft и другими.
https://www.deeplearning.ai/short-courses/

4. Weights_biases course

Этот курс показывает, как создавать приложения на базе LLM, используя API, Langchain и W&B Prompts. Он рассказывает про разработку, экспериментирование и оценку приложений, ориентированных на LLM.
https://www.wandb.courses/courses/building-llm-powered-apps

5. Introduction to LLMs course by google cloud

Курс вводного уровня, в котором рассказывается о том, что такое LLM, о случаях их использования и о том, как повысить производительность LLM с помощью промпт-тюнинга.
https://www.cloudskillsboost.google/course_templates/539

6. Databricks курсы

Программа включает в себя два курса: "LLMs: Application through Production" и "LLMs: Foundation Models from the Ground Up".
https://www.databricks.com/blog/enroll-our-new-expert-led-large-language-models-llms-courses-edx

7. Курс "LangChain & Vector Databases in Production" от activeloopai, towards_AI и Intel

Серия из трех курсов познакомит слушателей со знаниями и навыками для обучения, тонкой настройки и интеграции LLM в продакшен.
https://learn.activeloop.ai/courses/langchain

8 ) LLM Bootcamp

Охватывает такие темы, как Prompt Engineering, LLMOps, UX для языковых пользовательских интерфейсов, дополненные языковые модели, быстрая разработка LLM-приложений, будущие тенденции в LLM, фундаментальные концепции и прохождение askFSDL.
https://fullstackdeeplearning.com/llm-bootcamp/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖼 ImageDream: Image-Prompt Multi-view Diffusion for 3D Generation

ImageDream - новый набор диффузионных моделей многоракурсной генерации, разработанный для решения сложной задачи создания 3D-объектов из изображения.

🖥 GitHub: https://github.com/bytedance/ImageDream

📚 Paper: https://arxiv.org/abs/2312.02201

🥩 Demo: https://github.com/bytedance/ImageDream/blob/main

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🪩 DiffusionLight: Light Probes for Free by Painting a Chrome Ball

Диффузионная модель, обучена на миллиардах изображений, для визуализации хромированного шара на изображениях с разным освещением.

Несмотря на простоту, эта задача остается сложной: диффузионные модели часто вставляют неправильные или непоследовательные объекты и не могут правильно генерировать изображения со светом в формате HDR.

Для входного изображения, оценивается освещение сцены в виде карты окружения HDR. Идея заключается в том, чтобы нарисовать на изображении хромированный шар с помощью диффузионной модели и развернуть его в окружении. Таким образом решаются задачи: (1) как последовательно генерировать хромированные шары и (2) как использовать модель диффузии LDR для создания хромированных шаров HDR.

Данный метод позволяет генерировать освещение высокого качества в различных условиях и демонстрирует превосходный результат для изображений в дикой природе.

🖥 GitHub: https://github.com/DiffusionLight/DiffusionLight

🔮 Colab: https://colab.research.google.com/drive/15pC4qb9mEtRYsW3utXkk-jnaeVxUy-0S?usp=sharing&sandboxMode=true

📚 Paper: https://arxiv.org/abs/2312.09168

🥩 Score Measurement: https://vistec-my.sharepoint.com/:f:/g/personal/pakkapon_p_s19_vistec_ac_th/EvBHbnLrVnZArhQTcboh6qkBGcSqUqzdgx13iZ2IsLPzOw

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔊 Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit

Amphion - это новый инструмент с открытым исходным кодом, позволяющий создавать речь, звуки и песни.

Он разработан для поддержки исследований в области аудио, музыки и генерации речи.

С его помощью Тейлор Свифт демонстрирует свой талант, исполняя песни на китайском. 😊🎵

🖥 GitHub: https://github.com/open-mmlab/Amphion

📚 Paper: arxiv.org/abs/2312.09911

🥩 HF: https://huggingface.co/amphion

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 𝗧𝗵𝗲 𝘀𝘁𝗮𝘁𝗲 𝗼𝗳 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲 𝗶𝗻 𝟮𝟬𝟮𝟯 by GitHub

GitHub только что опубликовал свой последний отчет о состоянии открых проектов. Авторы отметили тренд на использование разработчиками технологий искусственного интеллекта и тренд на создание приложений на основе искусственного интеллекта.

Они выделили основные тенденции:

🔹 Разработчики все чаще используют генеративный ИИ: Все больше разработчиков работают с моделями OpenAI ( 92% ) и с моделями других ИИ-компаний; в 2023 году проекты генеративного ИИ с открытым исходным кодом входят в десятку самых популярных проектов по количеству контрибьюторов.

🔹 Наблюдается тренд на работу с облачными приложениями:
Развертывание облаков становится стандартом; резко возросло количество использования разработчиками Docker контейнеров, IaC и других облачных нативных технологий.

🔹 В 2023 году на GitHub было создано 98 млн новых проектов (за 2022 год - 85.7 млн, за 2021 - 61 млн, за 2020 - 60 млн). Общее число проектов достигло отметки в 420 млн (+27%), а число публично доступных репозиториев - 284 млн (+22%).

🔸 За год добавлено около 65 тысяч новых проектов, связанных с машинным обучением, это на 248% больше, чем в прошлом году. Число AI-проектов за год выросло на 148%.

🔸 Аудитория GitHub за год выросла на 20.2 млн пользователей (+26%) и теперь достигает 114 млн (в прошлом году было 20.5 млн, позапрошлом - 73 млн, три года назад - 56 млн). На первом месте по числу разработчиков находится США, на втором - Индия, на третьем - Китай, на четвёртом Бразилия, на пятом - Великобритания, на шестом - РФ, на седьмом Германия. К 2027 году Индия обгонит США как крупнейшее сообщество разработчиков на GitHub

🔸Javascript остается самым популярным язком. Второе место сохраняет за собой Python.Популярность TypeScript выросла на 37 %. и он вытеснил на четвёртое место язык Java. 5, 6 и 7 места удержали за собой языки С#, C++ и PHP. На восьмое место поднялся язык С, который вытеснил на девятое место Shell. Десятое место занял Go.

🔸 𝗥𝘂𝘀𝘁 растет быстрее всех остальных языков в этом году (рост на 40 % по сравнению с предыдущим годом).

🔸 𝟰.𝟯 миллиона открытых и приватных репозиториев используют 𝗗𝗼𝗰𝗸𝗲𝗿𝗳𝗶𝗹𝗲𝘀. Это является следcтвием роста использования Terraform и других облачных нативных технологий, который мы наблюдали в течение последних нескольких лет.

🔸 Сингапур занял первое место по количеству новых разработчиков на душу населения.

📌 Полный отчет
📌 Видео

ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models ✒ Colab 🥳

UDiffText: Единая платформа для высококачественной генерации текста на изображениях с помощью моделей диффузии.

UDiffText способен синтезировать точный текст на синтетических или реальных изображениях, поэтому может применяться для решения таких задач, как редактирование текста на картинке (a), генерация произвольного текста и генерация точного текста.

🖥 code: https://github.com/ZYM-PKU/UDiffText

⚡️page: https://udifftext.github.io

📚 paper: https://arxiv.org/abs/2312.04884

🔥colab: https://github.com/camenduru/UDiffText-colab

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Только что были выпущены Animate Diff v3 и Sparse Ctrl, модели которые позволяют качественно анимировать и стилизовать видео, генерировать переходы между кадрами.

🖥 Github: https://github.com/guoyww/animatediff/

💻 Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

📚 Paper: https://arxiv.org/abs/2307.04725

📁 Project: https://animatediff.github.io/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс вручил ученым премию Yandex ML Prize

Лауреатами международной премии, которую присуждают за значимый вклад в развитие науки в области машинного обучения, стали в этом году 11 человек. Работы лауреатов расширяют возможности для прикладного применения ML-технологий: например, научный сотрудник AIRI и Центра глубинного обучения и байесовских методов НИУ ВШЭ Айбек Аланов исследует генеративные модели для компьютерного зрения и синтеза речи.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📈 PromptBench: A Unified Library for Evaluating and Understanding Large Language Models.

PromptBench
- это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥 Code: https://github.com/microsoft/promptbench

🌟 Docs: https://promptbench.readthedocs.io/en/latest/

📚 Paper: https://arxiv.org/abs/2312.07910v1

⚡️ Dataset: https://paperswithcode.com/dataset/mmlu

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

#ds #ml #ai #career #meetup 
Митап для начинающих IT-специалистов

Будет большой блок Data Science-лекций, а еще расскажут, как прокачать IT-карьеру и многое другое.

Участников ждут:
🔹  лекции, мастер-классы и воркшопы по DS, ML, AI и др.;
🔹  лайфхаки быстрого роста от джуна до сеньора и прожарка резюме;
🔹  оживление цифрового аватара при помощи нейросети;
🔹  демонстрация квантового компьютера;
🔹  after-party и 🎁 мерч в подарок каждому участнику.

Участие бесплатное, но нужно зарегистрироваться! 

📅 16 декабря
📍 Москва, ЦДП 

🔗 Зарегистрироваться

Реклама. БАНК ГПБ (АО). ИНН 7744001497.

Читать полностью…

Machinelearning

19 декабря приглашаем на вебинар «BI в мессенджере с ИИ: Кейс застройщика ГК Самолет»📣

Руководители, менеджеры продаж, торговые представители часто не имеют времени и навыков для того, чтобы разбираться в сложных интерфейсах BI-систем. А данные нужны им здесь и сейчас: на совещании, по пути на встречу с клиентом, по дороге на объект и т.д.
 
Содержание вебинара:
1. Easy Report: BI в мессенджере. Обзор системы и кейсы применения.
2. Быстрый доступ к данным для коммерческого блока через BI в мессенджере: кейс ГК Самолет.
3. Демонстрация работы решения.

На вебинаре поговорим о том, как сделать бизнес-аналитику доступной для сотрудников буквально в несколько касаний с Easy Report, российским BI-решением, присылающим отчеты в мессенджер. Расскажем, как с помощью AI сократить путь к данным до 15 секунд и уменьшить время на работу с отчетами на 1 час в день.

Зарегистрироваться и узнать подробности

Реклама. ООО "ТСР ТЕХ". ИНН 9729307967.

Читать полностью…

Machinelearning

От идеи до коммерциализации всего один шаг — правильный CustDev!

Как обеспечить уверенный рост проекта? Как адаптировать свой цифровой продукт под потребности будущих потребителей?

📆Обсудим это в четверг, 14 декабря, в 13:00 на вебинаре!

Спикеры вебинара: София Болквадзе, руководитель бизнес-группы «Промышленный маркетинг» и эксперт по бизнес-моделированию и стратегии, а также Михаил Рудов, исполнительный директор ООО «ИТ-Лидер», компании-выпускника программы Tech Explorer.

Мы разберем:
Как компания «ИТ-Лидер» прошла путь от диагностики проекта до пилота в рамках программы Развития;
Что является ключевым при разработке стратегии продвижения на рынке;
Как найти стратегически важные отрасли для роста проекта и его коммерциализации.

Узнайте на реальном примере, как изменение концепции с продуктовой на пользовательскую может кардинально изменить вектор развития продукта и вывести компанию на пилотный запуск!

📌Регистрируйтесь на вебинар по ссылке и присоединяйтесь к нашему сообществу Tech Explorer Skolkovo!

Реклама. Фонд «Сколково». ИНН 7701058410. Erid:LdtCKXmDC

Читать полностью…

Machinelearning

📈 Анонс Mistral 8x7B-*Chat*!

Очень мощная модель, построенная на основе новой модели Mistral MoE и обученная на наборе данных SlimOrca.

- Свободно используется по лицензии Apache 2.0
- превосходит Llama 2 70B и работает в 6 раз быстрее.
- Превосходит GPT3.5
- seq_len = 32K

Скачать можно здесь: https://huggingface.co/mattshumer/mistral-8x7b-chat

Почитать: https://mistral.ai/news/mixtral-of-experts/

Что такое "Mixture of Experts"?
❓ Чем МЭ отличаются от обычных трансформеров
🏋️‍♀️ Как их обучают
🏎️ Тонкости работы с выводами

Объяснение на тему: https://huggingface.co/blog/moe

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📚 LlaVa Demo with LlamaIndex

In this example, we illustrate how we use LlaVa for belowing tasks:
▪Retrieval Augmented Image Captioning
▪Pydantic Structured Output
▪Multi-Modal Retrieval-Augmented Generation (RAG) using Llava-13b


Совершенно новая книга рецептов 🧑‍🍳, в которой рассказывается о трех способах создания приложений LLM путем интеграции мультимодальных моделей (LLaVa) в остальной рабочий процесс:

1️⃣ Retrieval Augmented Image Captioning: Генерация подписей к изображению с помощью LLaVa, а затем дополнение ответа из вашей базы знаний.
2️⃣ Извлечение структурированных данных из изображений: Получив входную инструкцию и изображение, извлекаем из него структурированный объект Pydantic.
3️⃣ Multi-modal RAG: задаем вопросы по изображениям и тексту из собственной базы знаний.

🖥 Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🔍 Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🪩 Paper: https://arxiv.org/abs/2304.08485

💻 Website: https://llava-vl.github.io/

🔥 YouTube: https://youtube.com/watch?v=k7i2BpeLUss

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 Self-conditioned Image Generation via Generating Representations

A new benchmark in class-unconditional image generation.

RCG - новый простой, но эффективный фреймворк для генерации изображений, который устанавливает новую планку для unconditional генераций (без учета класса генерации объекта).

RCG не зависит от аннотаций человека. Вместо этого он опирается на самоконтролируемое распределение, которое сопоставляется с распределением изображений с помощью предварительно обученного кодировщика.

Во время генерации RCG делает выборку из такого распределения представлений с помощью модели диффузии представлений (RDM) и использует генератор пикселей для создания пикселей изображения на основе выбранного представления.

Такая конструкцияприводит к созданию высококачественных изображений. Протестированная на ImageNet 256
256, RCG достигает Frechet Inception Distance (FID) 3,31 и Inception Score (IS) 253,4.

Эти результаты не только значительно превосхоядт современное состояние генерации изображений без учета классов, но и конкурируют с ведущими методами генерации изображений с учетом классов, преодолевая давний разрыв в производительности между этими двумя задачами.

🖥 Github: https://github.com/LTH14/rcg

📚 Paper: https://arxiv.org/abs/2312.03701

🌟 Dataset: https://paperswithcode.com/dataset/imagenet

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🚀 Optimized inference with NVIDIA and Hugging Face

Optimum-NVIDIA теперь доступен на Hugging Face!

28-кратное ускорение вычислений и 1 200 токенов в секунду на платформе NVIDIA с помощью всего 1 строки кода.

Optimum-NVIDIA обеспечивает лучшую производительность вычислений на платформе NVIDIA.

#LLM E https://huggingface.co/blog/optimum-nvidia

🖥 Github

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал