🌟 SageAttention: метод квантования механизма внимания в архитектурах трансформеров.
Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.
SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.
Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".
Ключевые особенности метода:
🟢Для уменьшения ошибки квантования используется сглаживания матртицы К (среднее значение K вычитается по всем токенам);
🟢Квантование Q и K в INT8;
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.
🟢Matmul PV выполняется с FP16-накопителем;
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.
🟢Адаптивное квантование;
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.
SageAttention реализован с использованием Triton
и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.
Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.
⚠️ Использование SageAttention рекомендуется с версиями:
🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.
⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.
▶️Пример использования:
# Install sageattention
pip install sageattention
# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)
# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F
F.scaled_dot_product_attention = sageattn
# Specifically
cd example
python sageattn_cogvideo.py
📌Учебное пособие по диффузионным моделям для обработки изображений и СV.
Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.
Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.
▶️ Содержание:
Вариационный автоэнкодер (VAE)
🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения
Вероятностная модель диффузионного денойза (DDPM)
🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM
Динамика сопоставления баллов Ланжевена (SMLD)
🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD
Стохастическое дифференциальное уравнение (SDE)
🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE
Уравнения Ланжевена и Фоккера-Планка
🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #Tutorial #Duffusion
🌟 DuoAttention: эффективный метод для работы с длинными контекстами в LLM.
DuoAttention - метод, который решает проблему LLM при работе с длинными текстами. Эта неэффективность проявляется в большом потреблении памяти и замедлении работы модели. DuoAttention позволяет сократить использование памяти и ускорить обработку длинных текстов без ущерба для точности модели.
Он основан на разделении attention heads в LLM на два типа: «Retrieval Heads» и «Streaming Heads»:
🟢 Retrieval Heads - это небольшая часть attention heads, критически важная для обработки длинных контекстов, которым требуется полное внимание ко всем токенам.
🟢 Streaming Heads, напротив, составляют большинство attention heads и фокусируются преимущественно на последних токенах и так называемых "точках притяжения" внимания (attention sinks).
DuoAttention использует эту дихотомию, применяя полный KV-кэш только к Retrieval Heads, а для Streaming Heads использует облегченный KV-кэш постоянной длины, который хранит только "точки притяжения" и последние токены.
Проведенные эксперименты показывают, что DuoAttention может снижать использование памяти до 2,55 раз для моделей MHA и 1,67 для моделей GQA, а также ускоряет декодирование в 2,18 раз для моделей MHA и 1,50 для моделей GQA.
В сочетании с квантованием DuoAttention позволяет модели Llama-3-8B декодировать текст с длиной контекста 3,3 млн. токенов на одном GPU A100, это примерно 6,4-кратное увеличение емкости по сравнению со стандартным развертыванием FP16 с полным вниманием.
▶️ Модели, которые поддерживают инференс с патчем DuoAttention:
🟢Llama-2-7B-32K-Instruct;
🟢Llama-3-8B-Instruct-Gradient-1048k;
🟢Llama-3-8B-Instruct-Gradient-4194k;
🟠Mistral-7B-Instruct-v0.2;
🟠Mistral-7B-Instruct-v0.3;
🟠Meta-Llama-3.1-8B-Instruct.
▶️ Установка окружения для запуска инференса с DuoAttention :
conda create -yn duo_demo python=3.10
conda activate duo_demo
# Install DuoAttention
pip install -e .
conda install -y git
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit
conda install -y nvidia::cuda-cudart-dev
# Install QServe
git clone git@github.com:mit-han-lab/qserve.git
cd qserve
pip install -e .
pip install ninja packaging
pip install flash-attn==2.4.1 --no-build-isolation
cd kernels
python setup.py install
# Install FlashInfer
pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.3/
pip install tensor_parallel
🌟 Mochi 1: открытая text-to-video модель генерации видео.
Mochi 1 - модель от компании Genmo для генерации видео на новой архитектуре Asymmetric Diffusion Transformer (AsymmDiT).
Mochi 1 была обучена с нуля и получила 10 млрд. параметров. Это самая большая генеративная модель видео, когда-либо выпущенная в открытый доступ.
Модель способна генерировать видео с разрешением 480p длительностью до 5,4 секунд со скоростью 30 кадров в секунду. AsymmDiT обрабатывает текстовые запросы используя одну языковую модель T5-XXL.
Вместе с Mochi 1 Genmo выпустила в открытый доступ свой видеокодер AsymmVAE, который сжимает видео до 128-кратного размера, с пространственным 8x8 и временным 6x сжатием до 12-канального латентного пространства.
Genmo планирует выпустить улучшенную вервию - Mochi 1 HD до конца года, которая будет поддерживать разрешение 720p.
⚠️ Для работы модели требуется не менее 4 GPU H100.
⚠️ В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения.
⚠️ Mochi оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом.
▶️ Локальная установка и инференс c Gradio UI или в CLI:
# Clone repo
git clone https://github.com/genmoai/models
cd models
# Install using uv
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
# Inference with Gradio UI
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"
# Inference with CLI
python3 -m mochi_preview.infer --prompt "%prompt%" --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"
🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.
Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.
Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.
Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.
Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:
🟢Aya Expanse 32B
🟢Aya Expanse 8B
Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:
🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF
Блокноты на Google Collab от сообщества Cohere For AI:
🟢Инференс ассистента по составлению текстов на разных языках;
🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;
🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;
🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.
▶️Пример инференса Aya Expanse 8B на Transformers :
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
🌟 Pangea: открытая мультиязычная МLLM для 39 языков и инструктивный датасет .
PANGEA - это модель с 7.94 млрд. параметров на архитектуре LLaVA-Next и с Qwen2-7B-Instruct в качестве LLM-основы, которая была обученная на инструктивном датасете PANGEAINS.
PANGEA предназначена для "преодоления" культурных и языковых барьеров в задачах визуального понимания в задачах мультимодального чата, создания аннотаций к изображениям, понимания контекста культурных особенностей, обработке многоязычных VQA и рассуждений на разные темы.
Инструктивный датасет PANGEAINS состоит из 6 млн. мультимодальных инструкций на 39 языках. Перевод инструкций с английского языка на другие выполнялся с помощью Gemini 1.5 Pro.
Оценка PANGEA проводилась с использованием набора тестов PANGEABENCH(14 наборов данных на 47 языках) .
PANGEA продемонстрировала значительные улучшения в кросс-лингвистическом и кросс-культурном понимании.
Репозиторий PANGEA на Github содержит подробные инструкции и скрипты по установке, тонкой настройке, оценке результатов обучения и примеры разметки данных для файнтюна.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Arxiv
🟡Датасет
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Pangea
✔️ Дания запускает суперкомпьютер с суверенным ИИ для решения научных задач.
Дания представила свой суперкомпьютер Gefion, созданный в партнерстве с NVIDIA и оснащенный 1528 GPU NVIDIA H100 Tensor Core.
Gefion управляется Датским центром инноваций в области искусственного интеллекта (DCAI) и будет использоваться для исследований в области квантовых вычислений, чистой энергии, биотехнологий и других областях, важных для датского общества и всего мира.
Gefion, первый в Дании суперкомпьютер с ИИ, основан на NVIDIA DGX SuperPOD и использует сетевые технологии NVIDIA Quantum-2 InfiniBand.
blogs.nvidia.com
✔️ Canva запускает свой генератор изображений Dream Lab.
Dream Lab, часть пакета инструментов Canva Magic Studio, использует базовую модель Phoenix от Leonardo.Ai.
Новый инструмент позволяет создавать изображения в более чем 15 стилях на основе текстовых запросов. Пользователи могут генерировать изображения с несколькими объектами, фотореалистичные портреты, а также использовать существующие изображения в качестве образцов стиля.
Dream Lab дополняет существующий генератор изображений Canva, основанный на Stable Diffusion.
gadgets360.com
✔️ Cohere представляет Embed 3, MMLM для поиска, объединяющую текст и изображения.
Cohere анонсировала Embed 3, новую MMLM, которая объединяет эмбединги текста и изображений в единое латентное пространство, что позволит предприятиям извлекать информацию из огромных массивов данных разной модальности.
Embed 3 поддерживает более 100 языков. Модель доступна на платформе Cohere, Amazon SageMaker, а также через отдел продаж Cohere для частного развертывания в любой облачной среде или локально.
cohere.com
✔️ Google DeepMind разработала систему водяных знаков SynthID для идентификации текста, созданного ИИ.
Google DeepMind представила SynthID-Text, систему водяных знаков для маркировки текста, сгенерированного ИИ, которая позволяет определить его происхождение без ущерба для качества и скорости генерации текста.
Система работает путем незаметного для человека изменения некоторых слов в выводе чат-бота, создавая "статистическую подпись", которую может обнаружить детектор SynthID. SynthID-Text уже интегрирована в чат-бот Google Gemini и доступна разработчикам и компаниям в открытом доступе.
Система не является панацеей: значительное редактирование текста или его перефразирование другим чат-ботом может скрыть водяной знак.
deepmind.google
✔️ Arm отзывает лицензию у Qualcomm.
Arm Holdings plc, разрабатывающая архитектуру процессоров Arm, отзывает лицензию у Qualcomm. Qualcomm получила 60-дневное уведомление об отзыве, что дает компаниям два месяца на достижение соглашения. В противном случае Qualcomm будет вынуждена прекратить производство и продажу своих чипов Arm.
Qualcomm считает действия Arm необоснованными и антиконкурентными, утверждая, что обладает широкими правами на использование архитектуры. Судебное заседание состоится в декабре.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
🚀 Главные анонсы технологической конференции Cloud․ru
На конференции GoCloud Tech провайдер представил значительные обновления своей облачной платформы Cloud․ru Evolution!
За последние шесть месяцев количество доступных на платформе сервисов для разработчиков выросло в 1,5 раза:
🌐 Запущена новая зона доступности для отказоустойчивых приложений
🐘 Управляемые базы данных PostgreSQL для развертывания кластеров
📦 Container Apps для запуска контейнеров на основе Docker
💻 Аренда выделенных серверов через личный кабинет: Evolution Bare Metal
🖥️ GPU-виртуальные машины в режиме Preview для высокопроизводительных задач
📊 Новый Managed Trino и Managed Metastore для работы с большими объемами данных
Cloud․ru продолжают развивать платформу для ваших pet-проектов и бизнес-задач.
➡️ Протестить новые сервисы.
🔥 Видео от университета Стэнфорда о создании больших языковых моделей!
💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).
В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.
🕞 Продолжительность: 1:44:30
🔗 Ссылка: *клик*
@data_analysis_ml
🌟 Яндекс представил YandexGPT 4
🟢 Две версии модели — YandexGPT 4 Pro и YandexGPT 4 Lite — стали доступны через API в Yandex Cloud. Первым сервисом с новым семейством моделей станет Алиса с опцией «Про».
🟢 Специалисты Яндекса рассказали на Хабре про функции модели и их разработку. Например, YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии.
🟢 Также команда в 4 раза, до 32 тысяч, увеличила количество токенов, которое YandexGPT 4 Pro может обрабатывать в промте. Это позволило модели лучше работать с длинными сложными запросами и анализировать большие объемы данных.
🟡 Хабр
@ai_machinelearning_big_data
#AI #ML #LLM
Поговорим про деньги в IT?
Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.
Пройти опрос можно здесь
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
▶️ Ключевые особенности версии 1.3.0:
🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
📌Лицензирование: MIT License.
🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
✔️ Anthropic выпускает обновленные модели Claude 3.5 Sonnet и Claude 3.5 Haiku и представляет функцию "использование компьютера".
Обновленная Claude 3.5 Sonnet улучшена по сравнению с предыдущей версией, особенно в области программирования. Модель превосходит все публично доступные LLM по показателям SWE-bench Verified, с значением в 49.0%.
Claude 3.5 Sonnet показала улучшения в агентных задачах на TAU-bench, достигнув 69.2% в задачах розничной торговле и 46.0% в области авиаперевозок. Обновление уже доступно для всех пользователей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud.
Claude 3.5 Haiku по производительности на многих тестах соответствует Claude 3 Opus, при той же стоимости и аналогичной скорости, что и у предыдущего поколения Haiku. Claude 3.5 Haiku будет выпущена позже в этом месяце.
Claude 3.5 Sonnet - первая модель ИИ, предлагающая использование компьютера в публичной бета-версии. Эта функция позволяет разработчикам давать Claude инструкции по использованию компьютеров так же, как это делают люди: смотреть на экран, перемещать курсор, нажимать кнопки и вводить текст.
anthropic.com
✔️ Wall Street Journal и New York Post подали в суд на Perplexity.
News Corp. подал в суд на Perplexity, обвиняя в копировании защищенного авторским правом новостного контента. Издатели утверждают, что Perplexity использует их контент для генерации ответов на запросы пользователей, перехватывая трафик, который в противном случае шел бы на сайты издателей.
Издатели требуют от суда обязать Perplexity прекратить использование и копирование их контента без разрешения, уничтожить любые базы данных, содержащие их материалы, и присудить им компенсацию в размере до 150 000 долларов за каждый случай нарушения авторских прав.
wsj.com
✔️ Bambu Lab запускает новый генератор 3D-моделей на основе ИИ.
Bambu Lab, производитель 3D-принтеров, выпустила PrintMon Maker, новый генератор 3D-моделей на базе ИИ. Инструмент доступен через MakerWorld и позволяет пользователям создавать 3D-печатные модели, используя текстовые или графические промпты.
Платформа генеративного ИИ создает модели, оптимизированные для многоцветной 3D-печати. Созданные проекты можно импортировать непосредственно в ПО для 3D-печати и изготавливать на 3D-принтерах Bambu Lab без дополнительных настроек.
3dprintingindustry.com
✔️ Mitsubishi Electric представила промышленный робот RV-12CRL с увеличенным радиусом действия.
Вертикально-шарнирный робот RV-12CRL имеет радиус действия 1504 мм и грузоподъемность 12 кг, что делает его идеальным для обслуживания станков, упаковки и задач "pick-and-place".
Встроенные функции обеспечивают повышенную безопасность, упрощенное внедрение и общее сокращение времени простоя. RV-12CRL оснащен внутренними кабелями и воздушными шлангами для инструментов на конце манипулятора и 30-контактную сигнальную кабельную систему.
Использование серводвигателей MELSERVO-J5 с бесконтактными энкодерами исключает необходимость в батареях, что снижает затраты на эксплуатацию.
roboticstomorrow.com
✔️ Google DeepMind и MIT создали модель для генерации изображений "Fluid", превосходящую диффузионные модели.
Fluid — авторегрессионная модель text-to-image c возможностью масштабирования до 10.5 млрд. параметров.
Опубликованное исследование показывает, что этот класс моделей может иметь потенциал масштабирования, аналогичный большим языковым моделям. Ключевыми факторами Fluid являются использование непрерывных, а не дискретных токенов, и случайный, а не фиксированный порядок генерации, улучшающий понимание глобальной структуры изображения.
Fluid превосходит как диффузионные модели (Stable Diffusion 3), так и предыдущие авторегрессионные модели (Parti от Google). Базовая Fluid с 369 млн. параметров достигает того же показателя FID, что и Parti с 20 млрд параметров.
Веса и код Fluid пока не анонсированы.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее мероприятие:
• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.
Зарегистрироваться
🌟 LayerSkip: метод ускорения инференса в LLM.
LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.
Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.
В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.
Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).
Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.
LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.
Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:
🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.
⚠️ Для локального запуска будет нужен Huggingface API KEY.
▶️Локальный запуск:
# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip
# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip
# Install requirements
$ pip install -r requirements.txt
#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6
--model
: имя модели на HuggingFace;--sample
: включение/выключение семплирования (по умолчанию: True);--max_steps
: максимальное количество генерируемых токенов;--generation_strategy
: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');--exit_layer
: номер слоя для раннего выхода;--num_speculations
: количество спекулятивных токенов;ML-инженер или специалист по Data science?
Прими участие в Авито ML Cup – турнире по машинному обучению с призовым фондом.
Задача: создать модель, которая будет передавать пользователю наиболее релевантную рекламу, основываясь на его выборе и характеристиках. Победит модель, которая лучше всего предсказывает вероятность клика.
🔴 Старт соревнования: 5 ноября
🔴 Команды до 4 человек
🔴 Призовой фонд: 600 000 рублей!
Регистрация уже открыта, детали и анкета ➡️ по ссылке.
Участвуй и докажи, что твои модели лучшие!
📎 ML в медицине: дайджест за 21 - 27 октября 2024 г.
▶️Модели машинного обучения и бенчмарки
🔘BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.
🔘MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.
🔘PanDerm: базовая MMLM для дерматологии.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.
🔘MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.
▶️Фреймворки и методологии
🔘Метод "Обратной диффузия во времени" для обнаружения дипфейков в медицинских изображениях.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).
🔘REFLECTOOL: агент для решения клинических задач.
Система для решения сложных медицинских задач с использованием специализированных инструментов.
🔘GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.
🔘VISAGE: синтез видео лапароскопических операций с использованием графов действий.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.
🔘MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.
🔘SleepCoT: алгоритм для персонализированного управления здоровьем сна.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.
🔘ALCD: Противодействие галлюцинациям в LLM.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.
▶️Медицинские LLM-приложения
🔘LMLPA: инструмент для лингвистической оценки личности LLM.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.
🔘Cистема обратной связи для обучения медицинским процедурам.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.
▶️Исследования и обзоры
*️⃣Storytelling XAI: повышение доверия к ИИ в медицине.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.
*️⃣Оценка объяснимого ИИ (XAI) с помощью LLM.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер - LLM лучше, дешевле и эффективней.
*️⃣ Выявление и устранение предвзятости в LLM для клинических решений.
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер - устранить предвзятость не получается.
🔜 Читать полный дайджест
@ai_machinelearning_big_data
🌟 PocketPal AI: локальный запуск LLM на IOS и Android.
PocketPal AI - проект Ai-ассистента на базе SLM, которые запускаются локально на iOS и Android без необходимости подключения к Интернету:
🟢PocketPal AI для iOS в App Store
🟢PocketPal AI для Android в Google Play
Приложения на обеих платформах позволяет выбирать модели, настраивать параметры инференса (системный промпт, температура, шаблоны чата и BOS), следить за показателями производительности в реальном времени и имеют функцию автоматической выгрузки моделей из памяти устройства, когда приложение в фоновом режиме.
Список моделей в приложении (загружаются вручную из меню):
🟠H2O Danube 2 and 3;
🟠Microsoft Phi;
🟠Google Gemma 2;
🟠Qwen.
Помимо этих моделей, можно загрузить любую модель в формате GGUF через опцию "Add Local Model" в меню моделей приложения на устройстве.
В планах проекта расширение списка поддерживаемых моделей, улучшение функций пользовательского интерфейса и поддержка большего количества версий Android/
⚠️ Требования для локальная разработки проекта PocketPal:
🟢Xcode для iOS или Android Studio;
🟢Node.js версии 18 или выше;
🟢Yarn;
🟢React Native CLI.
▶️ Локальная установка и запуск для самостоятельной разработки :
# Clone repository
git clone https://github.com/a-ghorbani/pocketpal-ai
cd pocketpal-ai
# Install dependencies
yarn install
# Install dependencies iOS only
cd ios
pod install
cd ..
# Run App via iOS Simulator
yarn ios
# Run App via Android Simulator
yarn android
✔️ Релиз библиотеки Transformers.js v3.
Hugging Face выпустила Transformers.js v3, с улучшенной поддержкой WebGPU, новых форматов квантования и 120 поддерживаемых архитектур.
WebGPU обеспечивает вычисления на GPU непосредственно в браузере, что делает Transformers.js v3 до 100 раз быстрее по сравнению с WASM.
Новые форматы квантования позволяют выбирать уровень точности модели: fp32, fp16, q8 и q4. Среди поддерживаемых архитектур - Phi-3, Gemma, LLaVa, Florence-2 и MusicGen.
Transformers.js v3 совместима с Node.js, Deno и Bun, а также доступна на NPM - @huggingface/transformers.
huggingface.co
✔️ Британский регулятор начал расследование партнерства Alphabet и Anthropic.
Британское управление по конкуренции и рынкам (CMA) начало расследование партнерства Alphabet, материнской компании Google, с Anthropic.
Alphabet инвестировала 500 миллионов долларов в Anthropic в 2023 году с обещанием дополнительных 1,5 миллиарда долларов в будущем.
CMA изучает, не приведет ли партнерство к ограничению конкуренции на рынке. Регулятор должен принять решение о дальнейших действиях к 19 декабря 2024 года. Alphabet и Anthropic пока не прокомментировали ситуацию.
cityam.com
✔️ Fujitsu представила динамический распределитель ресурсов для ИИ-серверов и HPC-систем.
Fujitsu разработала программное обеспечение, для оптимизации использования GPU -"Сomputing broker".
Computing broker способен перераспределять процессы даже во время их работы, отдавая приоритет задачам с более высокой эффективностью выполнения. В ходе предварительного тестирования Fujitsu удалось достичь увеличения производительности обработки GPU до 2,25 раз.
Технология также эффективно управляет памятью, обрабатывая рабочие нагрузки ИИ объемом до 150 ГБ, что примерно в пять раз превышает физическую емкость протестированных GPU. Fujitsu планирует расширить возможности технологии для поддержки нескольких GPU, установленных на нескольких серверах.
techspot.com
✔️ CEO OpenAI опроверг сообщение о GPT-5 Orion.
В статье The Verge утверждалось, что Orion будет ориентирован на корпоративных клиентов и будет доступен через API. В публикации также говорилось о планах Microsoft разместить Orion в Azure уже в ноябре.
Сэм Альтман назвал эту информацию "фейковыми новостями", не уточнив, какие именно детали публикации не соответствуют действительности. OpenAI недавно выпустила модели o1 и o1-mini, но их восприятие было сдержанным из-за высокой стоимости эксплуатации и ограниченных возможностей по сравнению с GPT.
venturebeat.com
✔️ В Китае построили дорогу длиной 157 километров без участия людей.
10 беспилотных машин распределяли смесь из утрамбованных камней и песка, а затем нанесли битумное связующее для формирования дорожного полотна. Автономные катки выравнивали поверхность и обеспечивали необходимую твердость. Дроны контролировали ход строительства и проводили топографические измерения, гарантируя соблюдение заданных параметров. Несколько сотрудников удаленно контролировали работу техники.
Новая технология позволила выполнить укладку дороги за один проход, исключив необходимость в дополнительных работах. Разработчики алгоритмов проекта отмечают, что роботизированная укладка дороги обеспечивает миллиметровую точность и более высокую скорость по сравнению с традиционными методами.
Проект является продолжением скоростной автомагистрали Пекин-Гонконг, общая протяженность которой составляет 664 километра. Построенный участок соединяет Пекин с Хэбэем.
xatakaon.com
@ai_machinelearning_big_data
#news #ai #ml
Как обучить и интегрировать ML-модель — расскажут спикеры конференции I’ML
— MLOps-конференция от JUG Ru Group — организаторов Joker, JPoint, Heisenbug, HolyJS и других крупных конференций.
— 8 ноября онлайн
— 10 докладов и онлайн-дискуссии
Как измерить полезность модели? Какую развернуть инфраструктуру? Нужно ли строить свою ML-платформу? Найдем ответы на эти вопросы вместе.
Сравним стеки AMD и Nvidia, поговорим о RecSys и мультимодальности, процессах и политиках ML-разработки. Также будут доклады про обеспечение качества и безопасности моделей.
Выступления будут транслироваться в 4K, записи останутся участникам навсегда, а после докладов вы сможете задать вопросы спикерам.
Полная программа — на сайте конференции.
Билет на I’ML 2024 Autumn можно купить за счет компании — читайте в статье на VC, почему это выгодно не только вам, но и вашему работодателю.
При покупке билета за свой счет («Для частных лиц») используйте промокод для скидки 15% — MACHINELEARNING
Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Что можно создать с помощью Python? Сервис знакомств, чат-бота с ИИ, систему по поиску данных — почти всё что угодно. Именно за универсальность и простоту разработки компании и профессионалы любят Python.
Как освоить этот язык программирования, рассказывают на расширенном курсе Нетологии «Python-разработчик». На нём вы:
- Освоите все инструменты и технологии, необходимые для работы.
- Научитесь разрабатывать веб-приложения и API, работать с базами данных, настраивать сервера и тестировать код.
- Добавите в портфолио 22 проекта, поработаете над реальными кейсами и примете участие в хакатоне.
Получите скидку по промокоду PRINT(45)
После курса вы сможете стать крепким backend-разработчиком и попасть на стажировку в «Самолёт». А если вдруг решите сменить направление, Python станет надёжной базой для аналитики и машинного обучения. Постройте карьеру в IT
Реклама. ООО "Нетология". Erid 2VSb5xSXLSC
🌟 SHORTCUT MODELS: метод обучение диффузионных моделей генерации в 1 шаг.
Shortcut models - метод обучения диффузионных моделей, который позволяет генерировать изображения высокого качества за один или несколько шагов.
В основе shortcut models - идея обучать сеть с учетом не только текущего уровня шума, но и желаемого размера шага. Это позволяет модели "перепрыгивать" через этапы генерации.
Ключевым преимуществом данного подхода является его простота: shortcut models обучаются за один этап, используя одну сеть, в отличие от других методов ускорения выборки, которые полагаются на сложные схемы обучения с несколькими фазами, сетями или точной настройкой шедулера.
В процессе обучения shortcut models используются два типа целей loss function:
🟢flow-matching при малом размере шага (d ≈ 0), аналогично стандартным диффузионным моделям.
🟢self-consistency при больших размерах шага (d > 0), где цель формируется путем конкатенации последовательности из двух шагов размером d/2.
Совместная оптимизация этих целей дает возможность модели научиться создавать изображения, сохраняя согласованность при любом размере шага, включая генерацию за один шаг.
Метод применим к flow-matching и transformer-based типам моделей и RNN/LSTM-сетям.
Эксперименты, проведенные с DiT на наборах данных CelebA-HQ и ImageNet-256, подтверждают эффективность метода.
Shortcut models превосходят методы "end-to-end" обучения одношаговых генеративных моделей и конкурируют с двухэтапными методами дистилляции.
Практическая реализация shortcut models написана на JAX. Для локального запуска следует установить зависимости conda из файлов environment.yml и requirements.txt репозитория.
⚠️ Код поддерживает --model.sharding fsdp
для полностью сегментированного параллелизма данных, если обучение проводится на multi-GPU или TPU.
⚠️ Чекпоинты и FID для тестовых датасетов CelebA и Imagenet доступны на Google-диске.
▶️ Пример запуска обучения на DiT-B с датасетом CelebA :
python train.py --model.hidden_size 768 --model.patch_size 2 --model.depth 12 --model.num_heads 12 --model.mlp_ratio 4
--dataset_name celebahq256 --fid_stats data/celeba256_fidstats_ours.npz --model.cfg_scale 0 --model.class_dropout_prob 1 --model.num_classes 1 --batch_size 64 --max_steps 410_000 --model.train_type shortcut
Улучшенная версия BPR
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов 😱
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
📌 Гайд по распределенному обучению.
Репозиторий Github облачного хостинг-провайдера Lambda Labs c исчерпывающим руководством по лучшим практикам распределенного обучения, диагностике часто возникающих ошибок, эффективном использовании доступных ресурсов и приемам логгирования в stdout/stderr и wandb.
Вопросы, на которые отвечает это руководство:
🟢Как обновить скрипт обучения/файнтюна на одном GPU для работы на нескольких GPU или нескольких нодах?
🟢Как диагностировать зависания/ошибки, возникающие во время обучения?
🟢Моя модель слишком велика для одного GPU - как мне обучить/настроить ее на кластере?
🟢Как запланировать и запустить обучение на кластере?
🟢Как масштабировать гиперпараметры при увеличении числа воркеров?
Руководство состоит из последовательных глав, каждая из которых содержит readme
и скрипт train_llm.py
.
В readme
содержатся описания глав, а каждый из обучающих скриптов нацелен на обучение каузальной языковой модели.
▶️ Структура:
🟠Один GPU;
🟠Несколько GPU на одной ноде;
🟠Несколько GPU на нескольких нодах;
🟠Запуск заданий;
🟠Шардинг между GPU (deepspeed);
🟠Шардинг между GPU (FSDP);
🟠Обучение 405B модели;
🟠Диагностика ошибок;
🟠Дополнительные темы (детерминизм, эффективность batch-size и LR, Gradient accumulation и др.).
▶️Локальное использование репозитория:
# Clone repo
git clone https://github.com/LambdaLabsML/distributed-training-guide.git
# Create venv
cd distributed-training-guide
python3 -m venv venv
source venv/bin/activate
python -m pip install -U pip
pip install -U setuptools wheel
pip install -r requirements.txt
⚡️ FatLlama-1.7T
Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?
Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.
Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.
И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...
Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?
FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".
И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.
Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.
Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.
К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.
Вызов принят? 😁
🟡Модель
🟡Набор GGUF
@ai_machinelearning_big_data
#AI #ML #LLM
✔️ Планы Microsoft в области ИИ: доклад Сатьи Наделлы на саммите по ИИ в Лондоне.
Стратегия Microsoft в области ИИ включает Copilot, пользовательский интерфейс, который поддерживает новые рабочие процессы и совместную работу, и Copilot Studio, который позволяет создавать ИИ-агентов с помощью инструментов low-code/no-code.
Конфиденциальность данных и безопасность ИИ занимают центральное место в видении Microsoft, направленном на создание надежного ИИ, при этом компания разрабатывает возможности для обеспечения доверия к ИИ и развития безопасной экосистемы.
geeky-gadgets.com
✔️ Gemini: голосовой помощник от Google сможет звонить и отправлять сообщения с заблокированного телефона.
Новая функция расширит возможности Gemini Live, который уже сейчас может отвечать на вопросы с заблокированного телефона.
Для активации функции пользователю нужно будет включить соответствующую настройку в меню Gemini на Android.
Просмотр ответов с личной информацией будет доступен только после разблокировки устройства..
techradar.com
✔️ Китайский стартап в области ИИ утверждает, что превзошел GPT-4o.
01AI, основанный специалистом по информатике Кай-Фу Ли, запустил новую модель Yi-Lightning, которая, как утверждается, превосходит GPT-4o-2024-05-13 от OpenAI и Claude 3.5 Sonnet от Anthropic в рейтинге LMSYS.
Несмотря на успех Yi-Lightning, 01AI переориентируется на корпоративные решения для китайских компаний из-за трудностей с монетизацией потребительских продуктов. 01AI по-прежнему будет поддерживать свои глобальные приложения - PopAI, Monoland и приложение для поиска на основе ИИ BeaGo.
Китайские технологические компании получают поддержку от правительства в продолжающейся битве за лидерство в области ИИ с США. Китайское правительство сделало ИИ национальным приоритетом, стремясь стать мировым лидером в этой области к 2030 году.
analyticsindiamag.com
✔️ Asana анонсирует AI Studio: no-code конструктор для разработки и развертывания ИИ-агентов рабочих процессов.
В отличие от других инструментов ИИ, которые просто синтезируют информацию и генерируют контент, ИИ-агенты Asana работают как участник команды. Они берут на себя рутинную работу, координируют проекты и организуют работу по критическим рабочим процессам - от приема до планирования, выполнения и отчетности.
Рабочие процессs на основе ИИ основаны на Asana Work Graph, который фиксирует критический контекст и исторические связи между всей работой внутри организации - кто, какую работу выполняет, к какому сроку, как и почему.
Ранний доступ был запущен 22 октября для уровней Enterprise и Enterprise+, а вскоре появятся годовые подписки для Advanced.
aithority.com
✔️ Keras Hub: универсальная библиотека для предобученных моделей.
Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.
Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.
Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub
. Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.
Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>
.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
📌Исчерпывающий гайд по методам тонкой настройки больших языковых моделей.
Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.
В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.
Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.
Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.
▶️Содержание:
🟢Введение
🟢Семиэтапный конвейер тонкой настройки LLM
🟢Этап 1: Подготовка данных
🟢Этап 2: Инициализация модели
🟢Этап 3: Настройка обучения
🟢Этап 4: Выбор методов тонкой настройки и соответствующих конфигураций модели
🟢Этап 5: Оценка и валидация
🟢Этап 6: Развертывание
🟢Этап 6: Мониторинг и обслуживание
🟢Платформы и фреймворки для тонкой настройки LLM
🟢Мультимодальные LLM и их тонкая настройка
🟢Частые проблемы, этика и ответственность
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #Guide #Finetune
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.
MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.
Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.
Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.
В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.
Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :
🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;
🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;
🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;
🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).
▶️ Локальное выполнение бенчмарка возможно 3 способами:
🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;
🟠путем запуска скриптов оценки MMSearch;
🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.
⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.
Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.
🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #Benchmark
⚡️ Stable Diffusion 3.5 Large.
Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.
В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:
🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.
OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.
⚠️ Инференс квантованной NF4-версии на ограниченных VRAM
⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.
▶️Локальный запуск инференса на Diffusers:
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях.
LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.
После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>
, <eot>
, <pad>
) и добавлением нового токена <pad*>
.
Чтобы достичь точности согласования, в LongAlign используется 3 техники:
🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика);
🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением;
🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением.
По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.
▶️ Подготовка к файнтюну с помощью LongAlign:
🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение"
🟠Stable Diffusion v1.5 (загрузится автоматически)
🟠T5-адаптер (положить в ./model/LaVi-Bridge
)
🟠Denscore (загрузится автоматически)
🟠longSD (положить в ./model/longSD
)
▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion
# Prepare environment
pip install -r requirements.txt
# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward test
# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test