Telegram-канал ai_machinelearning_big_data - Machinelearning: Технологии - каталог телеграмм

ai_machinelearning_big_data | Технологии

Подписаться на канал

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

20 июля 2024 19:48

🏆 Ozon Tech запускает E-CUP — масштабное соревнование для ML-разработчиков в сфере e-com! Реши реальную бизнес-задачу и поборись за призовой фонд в 1 200 000 рублей!

Смотри подробности и регистрируйся до 18 августа

Приглашаем специалистов по Data Science, ML-инженеров, разработчиков. Твои суперсилы:
🔸 гуру машинного обучения и работы с ML-фреймворками;
🔸 мастер ETL-процессов, SQL, Spark и подобных систем;
🔸 ас в компьютерном зрении.

Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как максимально эффективно применять этот подход в своей работе.

🚀 На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech:
1️⃣ Создать ML-модель для улучшения пользовательского опыта клиентов, которая с помощью названий, атрибутов и картинок определит, одинаковые ли товары на изображении.
2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки. Модель должна распознавать сигарету на любых изображениях: от фотографий до аниме-фреймов.

Ключевые этапы E-CUP:
🔹 1 июля — старт регистрации
🔹 19 августа — публикация задач
🔹 8 сентября — окончание приёма решений
🔹 13 сентября — оглашение победителей

Призовой фонд — 1 200 000 рублей. Зарегистрируйся и узнай первым про секретный подарок от команды Ozon Tech, который поможет лучшим участникам прокачать навыки и построить карьеру в e-com-бигтехе!

Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

Читать полностью…

Machinelearning

20 июля 2024 13:17

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0

🟡Страница проекта
🟡Модель на HF
🟡Сообщество и поддержка
🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B

Читать полностью…

Machinelearning

19 июля 2024 16:21

🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀

TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers

▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794

@ai_machinelearning_big_data

#LLM #ML #Apple

Читать полностью…

Machinelearning

18 июля 2024 22:00

⚡️ Новостной дайджест

✔️ LangChain обновила инструменты, позволяющие создавать LLM-приложения

Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev

✔️ В MIT разработали алгоритм, который строго проверяет функции Ляпунова в сложных системах, управляемых искусственным интеллектом.

Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu

✔️ Mistral AI и NVIDIA представили Mistral NeMo: 12B LLM с 128К контекстным окном, многоязычными возможностями и токенизатором Tekken.

Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co

✔️ NVIDIA представила Flextron: cетевую архитектуру и фреймворк для оптимизации моделей после обучения, поддерживающий гибкое развертывание моделей.

FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com

@ai_machinelearning_big_data

#news #digest

Читать полностью…

Machinelearning

18 июля 2024 19:03

🌟 Локальный GraphRAG с Gradio UI

Адаптация GraphRAG (Microsoft) с поддержкой локальных моделей через Ollama и с UI- интерфейсом на базе Gradio.
На сегодняшний день этот проект - единственный, предлагающий простой UI для локального запуска GrafRAG.

GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

Реализация из этого репозитория имеет ключевые особенности:

🟢Поддержка локальных моделей: Использование локальных моделей с помощью Ollama;
🟢Удобный интерфейс для управления данными, выполнения запросов и визуализации результатов.;
🟢Визуализация графиков в реальном времени в 3D с помощью Plotly;
🟢Загрузка, просмотр, редактирование и удаление входных файлы прямо из UI;
🟢Просмотр результатов индексирования и артефактов;
🟢Логгирование в реальном времени для мониторинга и отладки.

Локальная установка:

conda create -n graphrag-ollama -y
conda activate graphrag-ollama

pip install -r requirements.txt

python app.py

Настройка подключения к Ollama в settings.yaml по пути:

ragtest/settings.yaml

⚠️ Проект активно поддерживается разработчиком и довольно оперативно обновляется с учетом найденных ошибок и репортов из issue.

🖥 Github [Stars: 453 | Issues: 8 | Forks: 33]

@ai_machinelearning_big_data

#GrafRAG #LLM #ML #Ollama

Читать полностью…

Machinelearning

18 июля 2024 15:19

🌟 PowerPaint v2: обновление универсального инструмента для inpaint и outpaint изображений.

PowerPaint - это универсальный инструмент, который поддерживает удаление объектов с помощью текста, вставку объектов с помощью маски и расширение границ изображения при помощи дорисовки.
Эти техники очень схожи с проприетарной технологией "Генеративная заливка", реализованной в Adobe Photoshop.

Основной функционал PowerPaint:
🟢вставка и удаление объектов на изображении естественным и бесшовным образом;
🟢добавление объектов путем заполнения указанной области на изображении по текстовому промпту сохраняя общую целостность композиции;
🟢изменение формы и положения объектов, соблюдая гармоничное смешивание с фоном;
🟢расширение изображения по границам за счет генерации на основе анализа соседних существующих областей.

Изменения в версии v2:
🟠обновлены веса моделей с учетом issues первой версии;
🟠проект (код, веса) теперь полностью доступны в открытом доступе;
🟠доработан пользовательский UI-интерфейс (Gradio)

Локальный запуск v2 с использованием GradioUI:

# Clone the Repository
git clone https://github.com/zhuang2002/PowerPaint.git

# Navigate to the Repository
cd projects/powerpaint

# Create Virtual Environment with Conda
conda create --name PowerPaint python=3.9
conda activate PowerPaint

# Install Dependencies
pip install -r requirements.txt

# Run PowerPaint v2 
python gradio_PowerPaint_BrushNet.py

Для использования в составе ComfyUI - реализация BrushNet (включает в себя обновление PowerPaint v2)

⚖️ Лицензирование кода: MIT license

🟡Страница проекта
🟡Arxiv
🟡Модели на HF
🖥 Github [Stars: 415 | Issues: 36 | Forks: 22]

@ai_machinelearning_big_data

#Text2Image #Diffusers #ControlNet #ML

Читать полностью…

Machinelearning

18 июля 2024 10:00

🔥В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.

Студенты курса выбирают самостоятельно темы выпускных работ, поэтому все выпускные проекты на курсе–это ценные исследования для ML.

⚡24 июля в 18.00 мск приглашаем на открытый урок курса "Популярные ML-методы для поиска выбросов в данных".

На занятии:

- разберем задачу поиска аномалий;
- изучим как с помощью методов ML можно очищать данные от выбросов;
- в теории разберем несколько алгоритмов и применим их на практике.

👉Регистрация https://otus.pw/omwF/?erid=LjN8K8pJ6

При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа

Читать полностью…

Machinelearning

17 июля 2024 20:03

CV-шница пройдет уже в этот четверг! 🍳

Делимся подробным расписанием онлайн-митапа:

▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI

▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI

▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI

▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI

▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries

▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub

Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾

Читать полностью…

Machinelearning

17 июля 2024 16:48

🌟 LongVA: VLM для больших видео на основе Qwen-2-7B

LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.

В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.

Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.

👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G

⚖️ Лицензирование кода: Apache-2.0 license

⚖️ Лицензирование моделей: Qwen2 license

🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]

@ai_machinelearning_big_data

#ML #VLM #VQA

Читать полностью…

Machinelearning

17 июля 2024 12:03

🌟 SEED-Story: Мультимодальная генерация иллюстрированных историй.

SEED-Story - это инструмент на базе проекта SEED-Х для создания истории из изображений и текстов в заранее определенном стиле. Такая история может содержать до 25 эпизодов.

Методика, используемая в SEED-Story основана на комбинации из предварительно обученных моделей, которые помогают создавать реалистичные изображения и текст, специальной адаптации, чтобы обеспечивать согласованность персонажей и стилей в изображениях и мультимодальном механизме внимания, для сохранения важных деталей текста и изображений.

SEED-Story обучалась на специальном детализированном датасете StoryStream, который основан на нескольких мультипликационных сериалах.

⚠️ Для использования SEED-Story потребуется 40GB VRAM (с учетом возможности самостоятельной тренировки) м набор дополнительных моделей:
🟢SDXL Base 1.0
🟢QwenVL-Chat

⚠️ GradioUI к SEED-Story находится в разработке, и, по словам разработчиков будет представлен в ближайшее время (сроки не сообщаются).

⚖️ Лицензирование кода: Apache-2.0 license

🟡 Модель на HF
🟡 Demo Video
🟡 Arxiv
🖥 Github [Stars: 382 | Issues: 9 | Forks: 24]

@ai_machinelearning_big_data

#MLLM #VisualStorytelling #ML

Читать полностью…

Machinelearning

16 июля 2024 19:04

🌟 Simplicits: революционный подход к симуляции эластичности 3D объектов, независимый от сетки и геометрии.

Существующие инструменты для симуляции эластичных объектов часто ограничены в использовании и могут работать только с определенными типами 3D-моделей. Это создает трудности при моделировании деформации объектов разной геометрии и упругости.

Проект Simplicits предлагает сделать 3D-моделирование еще проще и универсальнее. Его главная особенность в том, что он может работать с любыми типами 3D-геометрии, выполняя моделирование изменяющихся во времени эластодинамических свойств объектов.
На вход подается 3D-модель в состоянии покоя, а на выходе получается набор данных, описывающих, как эта модель будет двигаться и деформироваться.

Метод, заложенный в Simplicits использует "функцию занятости" - математическое описание того, какие точки находятся внутри 3D-объекта, а какие снаружи. Такую функцию можно построить практически для любой 3D-модели.
Далее Simplicits применяет алгоритм линейного смешивания скиннинга (LBS). Это позволяет описать, как будет деформироваться поверхность объекта при движении. Важно, что все вычисления производятся без использования сетки из треугольников, как, например, в традиционных методах симуляции.
Вместо этого применяются спрогнозированные на основе карт деформации нейронные поля, обрабатывающие веса скиннинга для симуляции динамического движения, что делает процесс более гибким и управляемым.

Разработчики провели множество тестов Simplicits на самых разных 3D-объектах - от простых лент до сложных сцен с использованием Gaussian Splatting и NeRFs. Результаты показали, что система успешно справляется даже с объемными деформациями и множеством видов контакта поверхностей при движении, например - столкновениями объектов.

Simplicits - это важный шаг вперед в области 3D-моделирования. Он делает создание реалистичных трехмерных анимаций более доступным как для профессионалов, так и для начинающих пользователей, что предоставляет новые горизонты в таких сферах, как компьютерная графика, виртуальная реальность и компьютерные игры.

🟡 Страница проекта
🟡 Статья
🟡 Demo Видео

@ai_machinelearning_big_data

#Paper #3D #Simulation #ML

Читать полностью…

Machinelearning

16 июля 2024 11:02

💫 Яндекс устраивает технологический Код-хоппинг 8 августа!

Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка!

✉️ Заполняйте форму и регистрируйтесь уже сейчас! А если хотите рассказать о проекте или увлечении, приложите к форме тему и тезисы.

До встречи на Код-хоппинге! 🎉

Читать полностью…

Machinelearning

15 июля 2024 19:07

🌟 RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени.

RTMW (набор моделей оценки позы всего тела нескольких человек в реальном времени), - это серия моделей, предназначенных для решения тонкостей оценки позы всего тела.
RTMW основан на исследованиях RTMPose и включает в себя новые методы обработки информации о позе и различных частей тела.

Для решения ключевой проблемы оценки локальных областей низкого разрешения (например, стопы, кисти рук) были применены техники:
- PAFPN - пирамидальная сеть функций частичного агрегирования;
- HEM - модуль иерархического кодирования для повышения разрешения локальных участков;
- FPN - метод, улучшающий разрешение отдельных объектов за счет агрегирования функций с разных уровней сетевой пирамиды.

Таким образом, архитектура моделей RTMW состоит из принципов RTMPose и объединяет модули PAFPN и HEM и FPN. Одновременное использование этих модулей значительно повышает точность оценки позы всего тела.

Для оценки 3D позы всего тела была разработана модель RTMW3D, которая использует прогнозирование оси Z для головы декодера и устанавливает новую корневую точку для человеческого скелета.
Применение техники смещения оси упрощает процесс обучения модели и позволяет применять ее в задачах, связанных с высокой интенсивностью динамики объекта оценки, например, спортивное состязательное видео.

RTMW и RTMW3D тестировались на общедоступных наборах данных (COCO-WholeBody и H3WB) и показали хорошие результаты производительности и точности, в том числе в задаче оценки 3D поз всего тела.

🟢Модели RTMW c описанием различий, вариантами форматов и прямой загрузкой на странице проекта rtmpose
🟢Модели RTMW3D на странице проекта rtmpose3d

⚠️ Внимательно ознакомьтесь с материалами общего репозитория mmpose в ветках соответствующих проектов и документацией перед началом использования.

⚖️ Лицензирование: Apache-2.0 license

🟡Arxiv
🖥Open-Mmlab [Stars: 5.3K | Issues: 189 | Forks:1.2K ]

@ai_machinelearning_big_data

#3D #Posetracking #ML #MMPose

Читать полностью…

Machinelearning

15 июля 2024 12:03

🌟 BigVGAN — универсальный нейросетевой вокодер от NVIDIA

Прежде всего, вокодер — это метод синтеза речи, основанный на знании механизмов ее образования и восприятия; с помощью вокодера, например, можно сжимать запись речи в 2-3 раза с сохранением разборчивости.

Несмотря на недавний прогресс в области вокодеров на основе GAN, в которых модель генерирует нужную форму волны на основе акустических особенностей, синтезировать звук высокой точности для разных дикторов в различных условиях записи всё ещё сложно.

Чтобы это исправить, NVIDIA на днях опубликовала BigVGAN, универсальный вокодер, который из коробки подходит для использования в различных сценариях.
Весь сопутствующий код выложен на GitHub под MIT лицензией

🖥 GitHub
🟡 Пример полученных ауди о
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

14 июля 2024 22:54

🔥Дайджест новостей

🔷 Исследовательская группа из Microsoft и МiT предложила новую парадигму «Аксиоматического обучения», позволяющую трансформер-моделям с 67 миллионами параметров достигать возможностей вывода, сравнимых с GPT-4.

Исследование включает в себя создание набора данных на основе причинно-следственных моделей и непосредственное обучение LLM изучению аксиом, а не полагаться на большие объемы данных.
В ходе практического эксперимента обучили модель Transformer всего с 67 миллионами параметров, используя простые причинно-следственные цепочки в качестве обучающих данных. По результатам проведенных оценок, эта модель превзошла более крупные языковые модели в выводе сложных причинно-следственных связей, соперничая с GPT-4. Arxiv.org

👀 Вышел релиз Supervision-0.22.0 от Roboflow с инструментом визуализации ключевых точек лица и тела и поддержкой Florence 2.

Новая версия Supervision интегрирует Mediapipe (поддерживаются как устаревшие, так и современные конвейеры), предоставляя разработчикам более удобный инструмент для визуализации и анализа данных ключевых точек лица и тела.
Добавлена поддержка результатов анализа модели Florence 2. Сюда входит детальное обнаружение объектов, распознавание текста с предложениями регионов, сегментация и многое другое. Supervision changelog

🔍 Superposition Prompting: улучшение и ускорение поиска RAG

Superposition Prompting - это новая методология, которая устраняет ограничения LLM при работе с длинными контекстами. Она позволяет LLM обрабатывать несколько входных документов параллельно, отбрасывая ненужные пути, что приводит к повышению эффективности и точности.
Метод совместим с предварительно обученными LLM и повышает производительность в различных тестах ответов на вопросы.
Superposition Prompting сокращает время вычислений в 93 раза и одновременно повышают точность на 43% в наборе данных NaturalQuestions-Open с использованием модели MPT-7B, настроенной с помощью инструкций, по сравнению с традиционным RAG. Apple Machine Learning Research

@ai_machinelearning_big_data

#digest #news #ai

Читать полностью…

Machinelearning

20 июля 2024 16:35

⚡️T-lite: AI-Центр Т-Банка открывает доступ к собственной LLM в весовой категории 7—8 млрд параметров

Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML.

Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.

С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста.

Модель

@ai_machinelearning_big_data

#opensource #LLM #ML

Читать полностью…

Machinelearning

19 июля 2024 20:21

Новостной дайджест

✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use

Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.

Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com

✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.

Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai

✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.

YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com

✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.

Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org

@ai_machinelearning_big_data

#news #digest

Читать полностью…

Machinelearning

19 июля 2024 10:03

⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2

DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.

Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.

Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.

💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens

⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.

⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2

🟡Страница проекта
🟡Arxiv
🟡Модель на HF

@ai_machinelearning_big_data

#LLM #DeepSeekV2 #ML

Читать полностью…

Machinelearning

18 июля 2024 20:04

AI Talent Hub впервые запустит LLM-трек в рамках нового набора в магистратуру.
>> Актуализация содержания курсов – каждый месяц! Подробнее в Notion.

🍩 Кейс-лекции про LLM от экспертов сообщества AI Talent Hub:
▫️ AGI: Multi-Agent LLM for anything — Илья Макаров
▫️ Безопасность LLM — Евгений Кокуйкин
▫️ Краткая история NLP — Валентин Малых
▫️ State of the LLM Landscape — Игорь Котенков
▫️ Как выбрать языковую модель — Татьяна Шаврина

📢 Набор на 200 бюджетных мест в онлайн-магистратуру «Искусственный Интеллект» — AI Talent Hub, продолжается!Успей на вторую волну вступительных до 22 июля!

Подай заявку* и учись бесплатно в проектной онлайн-магистратуре по ИИ от ИТМО х Napoleon IT.
*для участия в конкурсе на бюджетные места, рекомендуется подать заявку до 22 июля на ai.itmo.ru

Реклама. Университет ИТМО ИНН:7813045547 erid:2VfnxvsVmJQ

Читать полностью…

Machinelearning

18 июля 2024 17:03

25 июля, 16:00
Как построить MLOps-конвейер для CV-проекта в облаке

Коллеги из @Selectel и Neoflex проводят совместный вебинар, где обсудят особенности запуска в продакшен ML-проектов. Разберут вопрос с разных сторон: с точки зрения провайдера инфраструктуры для ML, MLOps-инженера и Data Scientist. Покажут демо, как развернуть и задеплоить CV-проект в облаке Selectel на платформе Neoflex Dognauts. Расскажут, как подобрать инфраструктуру для вашего проекта и обеспечить безопасность CV в облаке.

Мероприятие бесплатное. Задайте вопрос в форме регистрации, и мы ответим на него во время трансляции.

Посмотреть программу вебинара и зарегистрироваться можно по ссылке: https://slc.tl/f8d6c

Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzqvMVFm3

Читать полностью…

Machinelearning

18 июля 2024 11:06

⚡️ xlam-function-calling-60k — датасет для обучения LLM, способных взаимодействовать с внешними API

Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.

Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.

from

datasets

import

load_dataset datasets

=

load_dataset

(

"Salesforce/xlam-function-calling-60k"

)

🟡Страница ApiGen
🟡Hugging Face

@ai_machinelearning_big_data

#Dataset #LLM #ML

Читать полностью…

Machinelearning

17 июля 2024 22:04

⚡️ Новостной дайждест

🙏 Anthropic объявила, что удвоила лимит output-токенов для API Sonnet и Claude 3.5 до 8000.

Обновление лимитов уже доступно пользователям, использующим API. Чтобы получить доступ к обновлению, необходимо включить в свои вызовы API специальный бета-заголовок к параметру extra_headers : "anthropic-beta": “max-tokens-3-5-sonnet-2024-07-15”. Analyticsindiamag.com

💰Стартап Vectara получил $25 млн в 1 раунде венчурного финансирования на дальнейшую разработку модели Mockingbird, оптимизированную для RAG поиска.

Vectara Inc., системный интегратор, внедряющий в корпоративные системы и приложения LLM с RAG поиском, одновременно с премьерой собственной LLM Mockingbird закрыл 1 раунд привлечения инвесторов. Среди инвесторов фонды FPV Ventures, Race Capital и Samsung Next. Siliconangle.com

🧩 Google объявила о начале реализации платформы искусственного интеллекта Project Oscar для разработчиков.

Проект Oscar, анонсированный во время Google I/O, представляет собой платформу с открытым исходным кодом, которая может помочь командам разработчиков программного обеспечения отслеживать проблемы и ошибки. Сейчас Oscar ориентирован на проекты с открытым исходным кодом, но в будущем он может быть выпущен и для управления проектами с закрытым исходным кодом.
В рамках проекта Project Oscar разработчики могут создавать агентов ИИ, которые функционируют на протяжении всего жизненного цикла разработки программного обеспечения. Эти агенты могут варьироваться от агента-разработчика до агента планирования, агента времени выполнения или агента поддержки. Агенты могут взаимодействовать с помощью естественного языка, поэтому пользователи могут давать им инструкции без необходимости переделывать код. Venturebeat.com

📊 Группа университетских команд (York University, MILA, NTU) при поддержке Salesforce Research представили ChartGemma MLLM.

ChartGemma - мультимодальную instuct-модель, обученная на основе данных, полученных из изображений реальных графиков.
Построенная на базе PaliGemma, ChartGemma использует кодер зрения SigLIP и языковую модель Gemma-2B.
ChartGemma достигла самых высоких результатов в тестах обобщения графиков, ответах на вопросы и проверке фактов по пяти контрольным показателям. Мarktechpost.com

💬 DeepL запускает новый LLM, который "превосходит" Google Translate.

Переводы с новой LLM доступны для пользователей DeepL Pro на четырех языках: английском, немецком, японском и упрощенном китайском.
Пользователи могут активировать LLM в веб-переводчике, выбрав "модель нового поколения".
По словам DeepL, в отличие от моделей общего назначения, LLM обучалась на собственных данных DeepL. В обучении новой модели принимали участие эксперты-лингвисты, которые корректировали ее в вопросах качества перевода.
DeepL утверждает, что новая модель перевода превосходит модели конкурентов, таких как Google, OpenAI и Microsoft.
В ходе слепых тестов профессиональные переводчики отметили, что для достижения того же качества перевода, что и в новой LLM от DeepL, Google Translate требуется в 2 раза больше правок, а GPT-4 - в 3 раза больше. Thenextweb.com

☎️ Anthropic выпустила приложение Claude для Android.

Приложение для Android предоставляет доступ к Claude 3.5 Sonnet. Как и в приложении для iOS, чат с Claude можно продолжить в браузерной версии или на iPhone.
Все, что нужно, - это убедиться, что используемая учетная запись одинакова на всех устройствах. Techradar.com

@ai_machinelearning_big_data

#news #digest

Читать полностью…

Machinelearning

17 июля 2024 19:04

🌟 StyleSplat: стилизация 3D-объектов с помощью Gaussian Splatting

С помощью StyleSplat пользователи могут стилизовать несколько объектов в одной сцене, применяя к каждому объекту разные стили с большой точностью.
StyleSplat спроектирован так, чтобы быть легким и эффективным, при этом давая возможность контролировать масштаб шаблонов стиля, регулируя такие параметры, как размер изображения стиля или слои, используемые для извлечения объектов.

В основе проекта применяется техника, которая использует гауссово пятно для передачи стиля трехмерных объектов. Такой подход устраняет ограничения других существующих методов, предоставляя улучшенный контроль и настройку при создании 3D.

StyleSplat выполняется в три основных этапа:

1. Сегментации видео DEVA (DEVA) и Segment Anything (SAM) для получения согласованных 2D-масок по всей сцене. Эти маски обеспечивают точный выбор объекта и служат основой для последующих шагов.
2. Гауссовская группировка, в которой каждому 3D-гауссову вектору присваивается уникальный и обучаемый компактный вектор признаков.
Оптимизируя эти векторы вместе с коэффициентами сферических гармоник, выполняется уточняющая сегментация трехмерных гауссиан, что позволяет более точно выбирать объекты.
3. Перенос 3D-стиля. Это этап тонкой настройки совмещает коэффициенты сферических гармоник выбранных гауссиан с изображением эталонного стиля. Этот этап гарантирует, что будут стилизованы только выбранные объекты, а остальная часть сцены останется нетронутой.

По сравнению с аналогичным решением S2RF, StyleSplat превосходит его по точности и визуальной достоверности.
S2RF часто приводит к обесцвечиванию нецелевых областей, тогда как использование сегментированных 3D-гауссиан в StyleSplat обеспечивает точную и изолированную передачу стиля.

🟡 Страница проекта StyleSplat
🟡 Arxiv
🖥 Coming soon...

@ai_machinelearning_big_data

#3D #Gaussian #ML #Styletransfer

Читать полностью…

Machinelearning

17 июля 2024 14:48

🚀 Мир AI в 2024 году бьет все рекорды! По последним данным, рынок компьютерного зрения достиг $17,25 млрд, а спрос на CV-специалистов вырос на 40% за год.

Ведущие компании активно внедряют AI-решения, создавая огромный спрос на экспертов в этой области.

ТГУ и Skillfactory запускают новую онлайн-магистратуру "Компьютерное зрение и нейронные сети"! Программа учитывает последние тренды индустрии и создана при участии Rubius - лидера AI-разработки в России.

Решите реальные задачи от Rubius, ПЭК, Эксмо, Forecast NOW и выберите специализацию — AR, генеративный дизайн или робототехнику. Научитесь самостоятельно решать задачи Computer Vision с помощью библиотеки OpenCV и нейросетей.

Обучение онлайн и все студенческие льготы сохраняются. Стоимость первый год – от 240 р/мес.

Получите бесплатный подготовительный курс и записаться тут: https://go.skillfactory.ru/c1pxHg

Реклама. ООО «Скилфэктори»
erid: LjN8KVEwd

Читать полностью…

Machinelearning

17 июля 2024 09:02

Дайждест новостей:

📱 YouTube Music тестирует радио, созданное ИИ и запустит звуковой поиск

YouTube Music представляет две новые функции, которые помогут пользователям находить новую музыку.
Функция «разговорного радио», созданная ИИ, которая поможет пользователям создавать собственные радиостанции, описывая тип музыки, которую они хотят слушать. Эта функция уже доступна некоторым пользователям с подпиской Premium в США.
Новая функция распознавания песен, которая дает возможность пользователям искать в каталоге приложения, напевая или проигрывая части песни.
Эта функция доступна всем пользователям YouTube Music на iOS и Android. Techcrunch.com

💠 Google тестирует сервис создания видеопрезентаций, где помощником выступает Gemini

Google запустил новое приложение Vids, которое использует Gemini AI для автоматического создания видеоконтента, сценариев и озвучки на основе вводимых пользователем данных. Это позволяет каждому создавать профессионально выглядящие видеопрезентации без особых навыков редактирования.Theverge.com

🖥 Microsoft представила AI для электронных таблиц

Исследователи Microsoft опубликовали новое исследование, представляющее SpreadsheetLLM и SheetCompressor.
Это новые платформы, разработанные, чтобы помочь специалистам по LLM лучше понимать и обрабатывать информацию в электронных таблицах.
SpreadsheetLLM может обрабатывать как структурированные, так и неструктурированные данные в таблицах, включая несколько таблиц одновременно с различными форматами данных.
SheetCompressor — это платформа, которая сжимает электронные таблицы для сокращения количества токенов до 25 раз при сохранении важной информации.
Используя электронные таблицы в качестве «источника знаний », SpreadsheetLLM может значительно уменьшить галлюцинации ИИ, повысив надежность выдачи языковых моделей. Arxiv.org

🖥 Запустилась бета-версия LlamaCloud, сервиса Llamaindex.ai, предназначенного для улучшения рабочих процессов RAG.

LlamaCloud призван помочь разработчикам тратить меньше времени на настройку конвейеров обработки данных, позволяя им быстрее итерировать над разработкой приложений на основе LLM.
Возможности LlamaCloud:
- LlamaParse: продвинутый инструмент анализа документов, поддерживающий множество форматов;
- Управляемая загрузка данных: простое подключение к источникам данных и системам хранения
- Продвинутый поиск: семантический поиск, переранжирование, фильтрация по метаданным;
- Интерактивная платформа для тестирования и настройки стратегий загрузки и поиска
- Масштабируемость и безопасность для промышленных нагрузок.
llamaindex.ai

ℹ️ Исследователи из MIT и лаборатории Watson MIT-IBM представили методику оценки надежности базовых моделей перед их развертыванием.

Эта методика включает обучение ансамбля немного отличающихся базовых моделей и использование алгоритма для оценки согласованности представлений, которые каждая модель изучает на основе одной и той же точки тестовых данных.
Методику можно использовать для принятия решения о том, следует ли применять модель в определенных условиях без необходимости проведения реальных испытаний, что особенно полезно в сценариях, где наборы данных недоступны из-за проблем с конфиденциальностью. News.mit.edu

@ai_machinelearning_big_data

#news #digest

Читать полностью…

Machinelearning

16 июля 2024 13:00

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:

🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;
🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.

Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.

В репозитории выложены Instruct FP8 версии моделей:

🟢Llama-3 (8B,70B);
🟢Mixtral (7B, 22B);
🟢Qwen2 (1,5B, 7b, 72B);
🟢Mistral 7B
🟢Llama-2 7B
🟢Phi-3 (mini-128K, medium-128K)
🟢Gemma-2 9b-it

⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:

🟢nm-vllm: форк vLLM от сервиса Neuralmagic.com;
🟢DeepSparse: среда выполнения для CPU-only систем;
🟢SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат.

vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта

🟡Страница проекта Neuralmagic
🟡Модели на HF
🟡Arxiv Page Attention
🖥GitHub vLLm
🖥GitHub nm-vllm

@ai_machinelearning_big_data

#FP8 #LLM #vLLM #ML

Читать полностью…

Machinelearning

16 июля 2024 09:03

🌟 Дайджест новостей

👨🏻‍💻 Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.

Команда MetaFAIR разработала метод "System 2 distillation", позволяющий обучать языковые модели решению сложных задач без промежуточных шагов. Этот подход улучшает способности ИИ к рассуждению и планированию, сохраняя при этом скорость и эффективность. Результаты показывают значительное повышение производительности моделей на сложных задачах, сравнимое или превосходящее точность исходных методов System 2, но с меньшими вычислительными затратами. Venturebeat.com

💪 Разарботчики LLamы готовится представить самую мощную на сегодняшний день модель Llama-3 23 июля

Модель будет флагманской в линейке Llama-3: 405 миллиардов параметров.
Ожидается, что новая модель превзойдет GPT-4 по производительности и будет обладать мультимодальными возможностями, включая обработку текста и изображений. Llama-3 разрабатывается с использованием конституционного ИИ для повышения безопасности и этичности. Theinformation.com

🖥 Microsoft анонсировала систему RUBICON, которая оценивает качество общения между людьми и системами искусственного интеллекта, улучшая взаимодействие в конкретных областях, таких как разработка программного обеспечения.

RUBICON - специально разработанная система для обсуждения конкретных предметных областей в средах разработки программного обеспечения. Она устраняет ограничения существующих механизмов обратной связи и направлен на то, чтобы обновления ИИ-помощников существенно улучшали взаимодействие с пользователем.
Структура системы основана на SPUR, а новый алгоритм выбора определяет высококачественные рубрики, повышая точность прогнозирования в практических приложениях. Microsoft.com

📱NEXA AI разработала Octoplanner, высокоэффективную среду оптимизации агентов искусственного интеллекта для периферийных устройств.

Структура платформы Octoplanner разделяет планирование и выполнение действий, применяя методы точной настройки модели, в частности методы LoRA и Multi-LoRA, чтобы значительно снизить вычислительные затраты и потребление энергии. Octoplanner имеет модульная конструкцию, что делает ее подходящим для периферийных устройств с ограниченными ресурсами. такими как мобильные телефоны. Nexa4ai.com

🚥 Исследователи из Института науки о свете (MPISL, Эрланген, Германия) предложили новый оптический подход к созданию более эффективных нейронных сетей.

Метод позволяет реализовать нейронную сеть с помощью оптической системы, что может сделать машинное обучение более энергоэффективным и экономичным . Ключевая особенность подхода заключается в том, что входной сигнал изменяет передачу света, а не просто накладывается на световое поле. Это позволяет избежать сложных физических взаимодействий и высоких мощностей лазера, необходимых для реализации математических функций.
Авторы предполагают, что их подход может использоваться для классификации изображений с той же точностью, что и цифровые нейронные сети. Заявленный метод значительно упрощает экспериментальные требования и может быть применен к различным физическим системам, открывая новые возможности для нейроморфных устройств. Optics.org

@ai_machinelearning_big_data

#news #digest

Читать полностью…

Machinelearning

15 июля 2024 14:56

🌟 WizardLM-2 8x22B — большая производительная модель семейства WizardLM второго поколения.

WizardLM-2 - набор моделей от Microsoft AI, построенный на базе Mixtral с улучшенной по сравнению с первым поколением производительностью, расширенными возможности и более глубоким пониманием сложных задач.

WizardLM-2 8x22B: флагманская модель.
Благодаря сочетанию экспертной архитектуры (MoE) и 141 миллиарду параметров модель показывает конкурентную производительность в сравнении с лидирующими проприетарными аналогами.
По оценкам бенчмарка MT-Bench 8x22B превосходит существующие современные модели с открытым исходным кодом.

⚠️ Внимание! Модель имеет размер около 300Gb

WizardLM-2 использует формат системных промптов Vicuna и поддерживает композитные диалоги.
Пример системного промпта:

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful,
detailed, and polite answers to the user's questions.
USER: Hi ASSISTANT: Hello.</s>
USER: Who are you?
ASSISTANT: I am WizardLM.</s>

⚖️ Лицензирование: Apache-2.0 license

🟡 Модель на Huggingface
🖥 Код для демо инференса

@ai_machinelearning_big_data

#LLM #WizardLM-2 #ML

Читать полностью…

Machinelearning

15 июля 2024 10:02

5 причин, по которым ВСК, Альфа Капитал, УРАЛХИМ и Инвитро выбирают Loginom для анализа данных 🔽

Loginom – платформа, позволяющая бизнес-экспертам самостоятельно, без программирования, выполнять все работы по интеграции, очистке и подготовке данных. Она приходит на помощь, когда аналитики используют несколько источников информации: файлы, БД, web-сервисы, 1С и т. д.

🕯Интуитивный интерфейс: легко создавайте сложные процессы ETL благодаря графическому конструктору и интуитивно понятному пользовательскому интерфейсу в стиле low-code.

💥Мощная трансформация данных: независимо от сложности задачи, Loginom предлагает широкий спектр инструментов для эффективной обработки информации — связывание, очистка и предобработка данных, трансформация, обогащение данных и загрузка результатов в приемники.

🔗Безопасность: данные защищены благодаря возможностям контроля доступа и шифрования.

💯Эффективность: не теряйте время на рутинные процессы обработки данных — доверьте это дело Loginom и сосредоточьтесь на анализе результатов и более интересных стратегических задачах.

📊Гибкость и масштабируемость: масштабируйте решения в соответствии с потребностями, независимо от того, работаете ли вы с небольшими данными или огромными массивами информации.

Если вы ищете современный и удобный ETL-инструмент, то Loginom — ваш идеальный выбор! Узнать подробнее о продукте можно по ссылке ☄️

Читать полностью…

Machinelearning

14 июля 2024 16:21

🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.

EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.

Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.

Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.

🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).

⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).

⚖️ Лицензирование: Apache-2.0

🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv

@ai_machinelearning_big_data

#Image2Animate #LipSync #ML #Diffusers #EchoMimic

Читать полностью…

Подписаться на канал