Telegram-канал ai_machinelearning_big_data - Machinelearning: Технологии

Machinelearning

07 сентября 2024 13:04

Новостной дайджест

✔️ Groq запустила LLaVA v1.5 7B, мультимодальную модель, которая работает в 4 раза быстрее, чем GPT-4o от OpenAI.

LLaVA v1.5 7B может отвечать на вопросы по изображениям, генерировать подписи и вступать в диалог с использованием текста, голоса и картинок.
Это первый опыт Groq с мультимодальными моделями, и более высокая скорость инференса в задачах с изображениями, аудио и текста может привести к созданию более совершенных ассистентов ИИ.
Groq предлагает эту модель бесплатно в режиме "Preview Mode" для разработчиков.
groq.com

✔️ Deep Seek-V2.5: open-source модель, сочетающая функции чата и понимание кода.

DeepSeek выпустила DeepSeek-V2.5, мердж своих моделей DeepSeek-V2-Chat и DeepSeek-Coder-V2.
DeepSeek-V2.5 унаследовала способности от оригинальных моделей к общению и работе с кодом и улучшила производительность в задачах написания текстов и следования инструкциям за счет более точного следования предпочтениям человека.

Модель показала высокие результаты в нескольких бенчмарках, особенно в тестах на китайском и английском языках.

в DeepSeek-V2.5 были сделаны улучшения в области безопасности и генерации кода: уменьшено влияние политик безопасности на обычные вопросы и на 5,1 % улучшен результат в заданиях на завершение кода.
Модель доступна онлайн и на HuggingFace.
platform.deepseek.com

✔️ vLLM v0.6.0: 2,7-кратное повышение пропускной способности и 5-кратное сокращение задержки.

vLLM выпустила новую версию v0.6.0, которая значительно быстрее и эффективней по сравнению с предыдущей версией.
Это достигнуто благодаря серии оптимизаций: разделение API-сервера и движка инференса, пакетная планировка нескольких потоков вывода одновременно и асинхронная обработка инференса.
blog.vllm.ai

✔️ Релиз фреймворка SGLang v0.3: 7-кратное ускорение DeepSeek MLA, 1,5-кратное ускорение torch.compile, поддержка LLaVA-OneVision.

SGLang - это фреймворк для LLM и VLM. Он делает взаимодействие с моделями быстрым и контролируемым за счет совместной разработки бэкэндной среды и фронтэнда.

В версии SGLang v0.3 получил поддержку оптимизаций для MLA: поглощение весов, групповые ядра декодирования, FP8 batched MatMul и FP8 KV cache quantization.

Вторым важным обновлением является интеграция torch.compile для линейных/нормальных/активационных слоев и объединение его FlashInfer attention и sampling kernels.
Torch.compile включен для размеров пакетов от 1 до 32 и поддерживает непрерывную пакетную обработку, а так же RadixAttention для кэширования префиксов.
lmsys.org

✔️ Chatbot Arena, на которую опирается AI-сообщество, не самый лучший бенчмарк.

Бенчмарк, созданный LMSYS, стал популярным инструментом для сравнения производительности различных моделей ИИ, но его методология вызывает вопросы о репрезентативности и объективности результатов.

Основная проблема Chatbot Arena заключается в том, что он полагается на субъективные оценки пользователей, которые могут предпочитать определенный стиль ответов или не замечать галлюцинации модели.

LMSYS пытается смягчить эти предубеждения, используя автоматизированные системы оценки, такие как MT-Bench and Arena-Hard-Auto, которые используют модели OpenAI GPT-4 и GPT-4 Turbo для ранжирования качества ответов. Однако, эффективность этих систем в полной мере не доказана.

Растущие коммерческие связи LMSYS и спонсорство от венчурных фирм, инвестирующих в некоторые из тестируемых моделей, также вызывают вопросы о беспристрастности платформы.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml