Telegram-канал ai_machinelearning_big_data - Machinelearning: Технологии - каталог телеграмм

ai_machinelearning_big_data | Технологии

Подписаться на канал

Telegram-канал ai_machinelearning_big_data - Machinelearning

27345

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

04 июля 2024 11:44

⚡️ Long-CLIP — набор моделей на основе CLIP для работы с длинными текстовыми описаниями.

Long-CLIP — это модифицированная вариация классического CLIP, поддерживающая обработку до 248 текстовых токенов и позволяющая генерировать точные изображения на основе длинного промпта.

Тестирование Long-CLIP на 1 миллионе пар "текст - изображение" показало превосходство над CLIP на 20% при работе с длинным текстовым описанием и на 6% при работе с обычным.

🟡Models
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

03 июля 2024 15:37

🌟 DragAnything — метод анимирования чего угодно на изображении

По сравнению с аналогичными методами, DragAnything обладает рядом преимуществ. Во-первых, DragAnything, позволяет явно указать траекторию движения объекта.

Во-вторых, DragAnything позволяет управлять движением любых объектов, включая фон.

Ну и наконец, DragAnything позволяет одновременно управлять движением нескольких объектов.

🟡 Страничка DragAnything
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

02 июля 2024 15:32

🔥 Microsoft незаметно обновила Phi-3 Mini

— значительно улучшено понимание кода на Python, C++, Rust и Typescript
— улучшен вывод, теперь он более структурированный
— улучшено понимание сложных предложений
— добавлена поддержка тега <|system|>.
— улучшена способность к рассуждению и понимание длинного контекста

Это обновление коснулось контрольных точек 4K и 128K

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

02 июля 2024 11:12

🌟 Paint by Inpaint — высокоточный Instruct pix2pix по текстовому запросу.

Navve Wasserman с коллегами представили улучшенный вариант Instruct pix2pix - "Paint by Inpaint". Методика улучшения:

— был создан конвейер обработки изображений, который с помощью модели inpaint добавлял объекты на изображения. Затем, сравнивая исходное изображение с полученным, вычиталась разница — так получился датасет PIPE

— датасет PIPE был аннотирован большой моделью VLM и обработан для устранения артефактов маскированя объектов — так получился набор высокодетализированных объектов для вычитания

— эти два противоположных процесса: удаление и добавление объектов совместили, примменя контроль большей точностью (аналогично GAN), в результате чего была получена модель, очень точно добавляющая объекты на изображения по текстовому запросу.

Предобученные модели Paint-By-Inpaint:

- addition-base-model - базовое добавление объектов
- addition-finetuned-model - файнтюн на датасете MagicBrush
- general-base-model - удаление и добавление объектов
- general-finetuned-model - файнтюн на датасете MagicBrush

Датасет PIPE для обучения и тестирования на HuggingFace

Пример загрузки тестового набора:


from datasets import load_dataset
from torch.utils.data import DataLoader
from dataset.dataset import PIPE_Dataset

data_files = {"train": "data/train-*", "test": "data/test-*"}
pipe_dataset  = load_dataset('paint-by-inpaint/PIPE',data_files=data_files)

train_dataset = PIPE_Dataset(pipe_dataset, split='train')
train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)

test_dataset = PIPE_Dataset(pipe_dataset, split='test')
test_dataloader = DataLoader(test_dataset, batch_size=1, shuffle=True)

▪ Страница проекта Paint by Inpaint
▪ Paper
▪ Demo
▪ GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

01 июля 2024 12:01

🔥 Depth Anything v2: Новый уровень построение карты глубины

Версия 2 значительно улучшена за счет комбинации уточненных синтетических данных и hi-res набора реальных изображений в датасете обучения. Диапазон параметров моделей - от 25М до 1.3B. 💙

👉 Линейка моделей:
- Depth-Anything-V2-Small (24.8М) Apache-2.0
- Depth-Anything-V2-Base (97.5М) CC-BY-NC-4.0
- Depth-Anything-V2-Large (335М) CC-BY-NC-4.0
- Depth-Anything-V2-Giant (1.3В) CC-BY-NC-4.0 Coming soon

👉 Реализовано использование V2:
- TensorRT
- ONNX
- ComfyUI
- Transformers.js (real-time depth in web)
- Android

▪Paper
▪Project
▪Repo
▪Demo

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

30 июня 2024 11:26

⚡️ Microsoft обновила собственный бесплатный курс по генеративному ИИ

В курсе видео, практика (код) и дополнительные материалы.
Пргорамма курса состоит из изучения структуры и работы LLM, тонкостям промптинга, созданию собственного приложения для генерации изображений, функционалу RAG для LLM и принципам файнтюна.
Для прохождения курса нужны:
- учетная запись на Azure
- доступ к api OpenAI

Разумеется, все методики и манипуляции предлагается выполнять обучающимся в экосистеме Microsoft, на их мощностях и с использованием их сервисов.

Бэкенд учебного приложения для генерации картинок - DALLE и Midjourney.

Большие надежды строить относительно курса не стоит - экосисистема Microsoft требует отдельных компетенций, но в качестве базового структурированного курса для новичков - вполне подойдет.

🖥 Курс полностью выложен на Github: https://github.com/microsoft/generative-ai-for-beginners

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

29 июня 2024 11:38

⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2

Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет

Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (стилистика, словарный запас, обсуждения), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.
- Модель не поддерживает системные промты

🤗 Hugging Face
🟡 Неквантизованная Gemma 2

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

28 июня 2024 20:05

Лето в самом разгаре, а это значит, что пора на фестиваль!

“ЛЦТ.Фест” – событие, которое нельзя пропустить. Сегодня отгремел первый день феста, где гости могли посетить вдохновляющие лекции от топовых экспертов, инновационную выставку с современными решениями, астрошатер с тарологом, а также погрузиться в мир виртуальной реальности в киберпространстве.

Завтра будет не менее насыщенный день. А вечером отметим окончание самого масштабного хакатона страны “Лидеры цифровой трансформации” концертом ANNA, группы ХЛЕБ и диджей-сеты от BARBARA и организаторов.

Фестиваль проходит в кластере “Ломоносов” по адресу: Раменский бульвар, дом 1.

Участие в фестивале бесплатное. У вас еще есть шанс попасть на фест, для этого надо зарегистрироваться на сайте. В поле промокода введите “Machinelearning”. Вход осуществляется строго по билетам.

Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjcN9xkS

Читать полностью…

Machinelearning

28 июня 2024 16:08

В нейросети GigaChat появился новый персонаж - Контент-мейкер.

Теперь большинство ваших задач вы можете поручить ему — он подробно расспросит о деталях задачи, уточнит, какая ЦА креатива, поможет с генерацией разного рода контента - и многое другое.

Контент-мейкер может:

🔹Помочь с написанием SMM-стратегии
🔹Решить проблему "белого листа" и нагенерить креативов
🔹Разработать контент-план
🔹Разработать УТП для вашего бренда
🔹Сформировать тональность коммуникации для вашего сообщества

Персонаж Контент-мейкер в GigaChat отлично справится с каждой из этих задач. Попробуй пообщаться с ним уже сейчас!

🖥 доступен в веб-версии и в боте Telegram
🖥 находится в разделе «Персонажи» или «Выбрать персонажа GigaChat»

🆘 — Контент-мейкер, придумай смешную подпись к этому посту
📝 — надо было попросить Контент-мейкера придумать смешную подпись к посту

Читать полностью…

Machinelearning

28 июня 2024 13:03

🌟 SPPO — инструмент оптимизации предпочтений языковой моделью.

LLM показывают впечатляющие возможности, однако довольно сложно добиться соблюдения ими этических норм. Эту проблему можно частично решить при помощи обучения с подкреплением на основе человеческой обратной связи (RLHF), или обучения с подкреплением на основе предпочтений (PbRL). Оба метода имеют недостатки, и приводят к заметному снижению показателей моделей.

В этой свежей работе Yue Wu с коллегами предлагает новый способ обеспечения этичности LLM — SPPO (Self-Play Preference Optimization).
Как видно на графиках SPPO не снижает производительность моделей так сильно, как RLHF и PbRL, что позволяет повысить точность ответов, не рискуя допустить неэтичные ответы LLM.

🖥 GitHub
🤗 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 21:04

🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 18:11

⚡️ Выпущена Gemma 2!

Google только что выпустил новую версию своего открытого LLM!

Gemma 2 выпущен в двух размерах, 9B и 27B, модели тренировались на 8T и 13T токенов.

Модель Gemma 2 приближается к производительности Llama 3 70B, Claude 3 Sonnet и GPT-4!

▪HF: huggingface.co/collections/google/g-667d6600fd5220e7b967f315
▪Blog: https://blog.google/technology/developers/google-gemma-2/
▪Kaggle: kaggle.com/models/google/gemma-2/keras

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 16:01

✅ GPTCache : A Library for Creating Semantic Cache for LLM Queries

GPTCache - инструмент, который позволяет ускорить работу и повысить масштабируемость вашего приложения, за счет кэширования ответов от LLM.

GPTCache может помочь значительно сократить расходы на работу с LLM (до 10 раз)💰 и увеличить скорость вывода моделями( до 100 раз) ⚡ при работе с API OpenAI/HuggingFace Hub/Bard/Anthropic.
В инструменте используется семантическое кэширование, для поиска и хранения похожих или взаимосвязанных запросов, что позволяет увеличить вероятность попадания данных в кэш и повысить эффективность кэширования.

❗️ После получения результатов поиска модель выполняет оценку сходства и возвращает результаты при достижении установленного порога.

Вы можете настроить порог, который изменит точность результатов нечеткого поиска.

Подробнее в документации.

pip install gptcache

▪Github: https://github.com/zilliztech/GPTCache
▪Docs: gptcache.readthedocs.io

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 12:25

💥 Масштабное обновление получила платформа для работы с исходным кодом GitVerse

Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.

На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 10:20

🔹 Как усилить технический анализ финансовых рынков методами машинного обучения?

Рассмотрим, как современные технологии машинного обучения могут усилить и расширить классические подходы технического анализа на финансовых рынках на открытом уроке от Otus, посвященный курсу «ML для финансового анализа», 3 июля в 20:00.

✅ В течении часа рассмотрим реальные примеры и кейсы, демонстрирующие использование машинного обучения для улучшения торговых стратегий на основе технического анализа.

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/BYD9T/?erid=LjN8KPtzA

Читать полностью…

Machinelearning

03 июля 2024 18:04

🌟 MoMA — open-source модель от ByteDance для генерации изображений по референсу.

MoMA не требует обучения и позволяет быстро генерировать изображения изображения с высокой точностью детализации и сохранением идентичности.
Скорость MoMA обеспечивается оптимизацией механизма внимания, который передает признаки исходного изображения в диффузионную модель.
Модель является универсальным адаптером и может быть применена к различным моделям без изменений.
На сегодняшний день MoMA превосходит в синтетических тестах аналогичные существующие методы и позволяет создавать изображения с высоким уровнем соответствия промпту максимально сохраняя стиль референсного изображения.

✍️ Рекомендованые параметры оптимизации потребления VRAM :

22 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, False

18 GB or more GPU memory:

args.load_8bit, args.load_4bit = True, False

14 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, True

🟡 Страничка MoMA
🖥 GitHub
🤗 Hugging Face
🟡 Demo

Читать полностью…

Machinelearning

03 июля 2024 00:08

🔥ESPNet XEUS - новая SoTA распознавания речи.

Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам! 🔥

> Лицензия MIT
> 577 миллионов параметров.
> Превосходит MMS 1B и w2v-BERT v2 2.0
> Архитектура E-Branchformer
> Датасет 8900 часов аудиозаписей на более чем 4023 языках

git lfs install git clone https://huggingface.co/espnet/XEUS
▪ HF: https://huggingface.co/espnet/xeus
▪ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

02 июля 2024 13:33

СберТех представил замену IntelliJ IDEA – среду разработки GIGA IDE

1 июля JetBrains отключила россиянам возможность скачивать одну из самых известных сред разработки на Java – IntelliJ IDEA, что заставило многих разработчиков побеспокоиться. Но СберТех представил решение - российскую среду разработки GIGA IDE, которая может стать заменой ушедшей среде.

GIGA IDE позволяет вести разработку на популярных языках программирования, обеспечивает совместимость с востребованными плагинами, а встроенный в среду AI-ассистент GIGA CODE позволяет писать код до 25% быстрее.

- GIGA IDE Desktop – это интегрированная среда разработки, которая включает 70 инструментов для облегчения задач разработки, автоматизации тестирования и администрирования приложений. Разработчики уже могут скачать GIGA IDE Desktop на платформе GitVerse.

- GIGA IDE Cloud позволит вести разработку в облаке, расширив возможности устройства дополнительными облачными ресурсами. Чтобы первыми получить доступ к GIGA IDE Cloud – регистрируйтесь на платформе GitVerse на раннее тестирование.

*AI (Artificial Intelligence) - «искусственный интеллект»

Читать полностью…

Machinelearning

01 июля 2024 15:04

🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.

Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель

Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU

🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

01 июля 2024 10:02

Станьте профессионалом в области Data Science и машинного обучения в магистратуре от Центрального университета!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.

Получите диплом магистра в области математики и компьютерных наук и обучайтесь на основе реальных кейсов ведущих ИТ-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии. Хорошая новость для тех, кто уже имеет опыт в Data Science и машинном обучении — вы можете пропустить базовое обучение и закончить магистратуру за 3 семестра.

У каждого студента будет:
- личный ментор по траектории обучения;
- доступ к карьерному центру с коучами и консультантами;
- опыт работы в проектах партнеров уже во время обучения.

Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей. Больше подробностей про университет и конкурс грантов по ссылке!
erid:2Vtzqw3oacG
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Machinelearning

29 июня 2024 15:40

🌟 CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT

Вчера OpenAI выкатили CriticGPT, которая пишет критические замечания к ответам ChatGPT для нахождения ошибок в ответе, что особенно полезно для RLHF (обучения с подкреплением на основе человеческой обратной связи).

А вот статья от OpenAi - "LLM Critics Help Catch LLM Bugs - для технарей, о том, как создавался CriticGPT.

Из нее следует, что:
- аннотаторам-людям в 63 % случаев больше нравились критические заметки CriticGCO, сделанные CriticGPT, чем заметки, сделанные людьми, особенно когда речь шла о поиске ошибок, связанных с LLM ( это к пункту поста про 60%), как видите - формулировка отличается, смысл совершенно другой.

- новая техника под названием "Force Sampling Beam Search" используется в CriticGPT, чтобы помочь критикам писать более качественные и подробные рецензии.Этот метод также снижает вероятность "галлюцинаций", которые возникают, когда ИИ делает или предлагает ошибки, которых нет или которые не имеют значения. В CriticGPT одним из важнейших преимуществ является то, что пользователи могут изменять степень тщательности поиска ошибок.
То есть процесс не автоматический, вовлеченность человека важна на ранних этапах
- CriticGPT не справляется с длинными и сложными заданиями по кодированию, поскольку обучался на коротких ответах ChatGPT

- CriticGPT не всегда находит ошибки, которые распространяются на несколько участков кода

Плюсы:
- Безусловно, это большой шаг вперед в области рецензирования кода с помощью ИИ.

- Он улучшит прикладной подход рецензирования кода, позволит сочетать возможности GPT-4 с продвинутым обучением и новыми методами контроля качества ответов.

🟡 Б лог-пост OpenAI
🟡Статья

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

28 июня 2024 22:02

🖥 Unstructured — библиотека Python для предобработки сырых данных

— pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

28 июня 2024 18:07

🌟 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP

— pip install scikit-llm

Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).

Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д. Для сложных сценариев можно объединить несколько задач в конвейер scikit-learn.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

28 июня 2024 15:03

🌟 EAGLE — метод, позволяющий ускорить генерацию ответов от LLM

Можно ли генерировать ответ от LLM на двух RTX 3060 быстрее, чем на A100 (которая дороже в 16+ раз)?
Да, это возможно с алгоритмом EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), точность ответов при этом сохраняется.

EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации.

EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B).
И да, EAGLE можно комбинировать с другими методами ускорения, такими как vLLM, DeepSpeed, Mamba, FlashAttention, квантование и аппаратная оптимизация.

🤗 Hugging Face
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

28 июня 2024 11:03

Deep Learning — суперсила, работающая подобно человеческому мозгу.

Специалисты в этой области разрабатывают нейросети, объединяя анализ данных и программирование. Рекомендации фильмов, переводчики или генерация ответов на вопросы как от Siri - это все их работа.
Deep Learning Инженеров нанимают крупные компании, а начальная зарплата в среднем 120 000 рублей в месяц.

Создавать и обучать такие нейросети вы научитесь в онлайн-школе Data Science KARPOV.COURSES.

Учиться вы будете у практикующих специалистов — поэтому за 4 месяца вы получите все знания и навыки, которые пригодятся в реальной работе. Школа поможет вам с трудоустройством — 89% студентов находят работу в первые 3 месяца благодаря карьерному сопровождению.

Присоединяйтесь к курсу со скидкой 5% по промокоду AIMLBDD: https://clc.to/erid_LjN8KVWmd

Читать полностью…

Machinelearning

27 июня 2024 18:30

⚡️ Еще один интересный анонс, Meta LLM Compiler - новое семейство моделей (7B и 13B), на базе Meta Code Llama, для задач оптимизации и генерации кода.

LLVM Compiler - это новая SOTA в области оптимизации кода и дизассемблирования.

Модели доступны под лицензией как для научных исследований, так и для коммерческого использования.

Эти модели могут эмулировать компилятор, прогнозировать оптимальные проходы для создания кода и дизассемблировать код.

▪HF
▪Статья

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 17:04

🔥В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.

Студенты курса выбирают самостоятельно темы выпускных работ, поэтому все выпускные проекты на курсе–это ценные исследования для ML.

⚡08 июля в 18.00 мск приглашаем на открытый урок курса "Дерево решений - простой и интерпретируемый ML-алгоритм", на котором мы:

- разберем алгоритм решающего дерева (дерева решений), который широко применяется для решения задач машинного обучения;

- применим полученные знания на практике для решения задачи классификации.

👉Регистрация https://otus.pw/b6sE/?erid=LjN8KCQW9

Читать полностью…

Machinelearning

27 июня 2024 14:04

🌟 Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени

PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.

PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.

Поскольку метод PAB не требует дополнительного обучения, он может обеспечить любые будущие модели генерации видео на основе DiT возможностями генерации в режиме реального времени

🟡 Страничка Pyramid Attention Broadcast
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

27 июня 2024 11:27

🌟 Text-Animator — метод генерации видео с текстом в кадрах

С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами. Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
С генерацией текста в видео всё было ещё печальнее, но буквально вчера Tencent и Huawei выкатили Text-Animator — метод, который позволяет создавать видео с текстом в кадрах.

🟡 Страничка Text-Animator
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

26 июня 2024 18:28

🌟 Тонкая настройка VLM модели Florence-2

Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже

🟡 Fine-tuning Florence-2
🟡 Google Colab
🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Подписаться на канал