🌟 MiniVLA: компактная Vision-Language-Action модель для робототехники.
AI-лаборатория Стенфордского университета представила модель MiniVLA — усовершенствованную версию Vision-Language-Action (VLA), компактную альтернативу OpenVLA.
Отличительная особенность MiniVLA - сокращенное в 7 раз количество параметров (1 млрд. против 7 миллиардов у OpenVLA), что дает значительное ускорение процессов обучения и инференса.
В архитектуре MiniVLA используется тот же ViT для обработки изображений, что и в OpenVLA, однако в качестве языковой модели используется Qwen 2.5 0.5B вместо Llama 2 7B.
Обучение языковой модели основано на датасете Llava-1.5-Instruct VQA, аналогично базовой модели Prismatic VLM в OpenVLA. Несмотря на уменьшение размера, MiniVLA демонстрирует сопоставимую с OpenVLA производительность в рамках бенчмарка Libero-90 (61.4% против 62%).
Одно главных усовершенствований MiniVLA - применение векторного квантования (VQ) для кластеризации действий (action chunking). Вместо дискретного представления действий, модель прогнозирует их последовательности, которые кодируются в виде M кодовых индексов с помощью VQ-BeT5. Это существенно повышает производительность на Libero-90.
Так, MiniVLA с VQ h8 (action chunks) достигает 77% успеха, в то время как базовая модель MiniVLA и OpenVLA демонстрируют 61.4% и 62% соответственно.
MiniVLA поддерживает подачу на вход нескольких изображений, что позволяет использовать "историю изображений" и серию снимков с носимых целевым роботом камер. Мульти-кадровая возможность способствует повышению производительности на Libero-90: модель MiniVLA с VQ h8 и историей изображений (history=2) достигает 82% успешности, а с кадрами с новимой камеры — 82.1%.
По сделанным замерам производительности, MiniVLA показывает в 2.5 раза более высокую скорость инференса, чем OpenVLA (12.5Hz против 5Hz) на одном GPU NVIDIA L40s.
▶️В репозитории на HF опубликованы несколько вариантов MiniVLA:
🟢Prism with Qwen 2.5 0.5B backbone
🟢MiniVLA 1B Wrist VQ
🟢MiniVLA VQ 1B
🟢MiniVLA Image History (T=2) VQ 1B
🟢MiniVLA 1B
🟢MiniVLA 1B VQ Trained on Bridge V2
📌Лицензирование: MIT License.
🟡Статья
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #VLA #MiniVLA
✔️ OCTAVE: модель для генерации голоса и личности от Hume AI
Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд.
Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера.
Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности.
hume.ai
✔️ Gaxos Labs расширяет возможности ИИ для 3D с помощью Meshy.
Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества.
Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения.
globenewswire.com
✔️ Olympian Motors и NVIDIA совместно разрабатывают первую ИИ-платформу для электромобилей.
Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей.
Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN.
msn.com
✔️ VoxelSensors представит инновационное решение контекстуального интеллекта на CES 2025.
Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях.
Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами.
voxelsensors.com
✔️ PIMIC анонсировал чип Clarity NC100 на базе ИИ для шумоподавления окружающей среды.
Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА.
PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek.
embedded.com
@ai_machinelearning_big_data
#news #ai #ml
✔️ NVIDIA LogitsProcessor — библиотека для управления генерацией текста с помощью модификации вероятностного распределения токенов.
NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.
Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например, GenLengthLogitsProcessor
позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor
- стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor
включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate
из Transformers
.
huggingface.co
✔️ Microsoft Research представила AIOpsLab, платформу разработки ИИ-агентов для автономных облачных систем.
AIOpsLab предоставляет стандартизированную среду для тестирования и сопоставления агентов в условиях, имитирующих реальные. Система имеет интерфейс "агент-облако", посредством которого агенты взаимодействуют с сервисами. AIOpsLab использует генераторы нагрузки и отказов для имитации как типичных, так и нештатных ситуаций.
AIOpsLab включает в себя средства для обнаружения инцидентов, определения их местоположения, диагностики причин и устранения последствий, при этом обеспечивается поддержка распространенных фреймворков для агентов. AIOpsLab доступен на GitHub.
microsoft.com
✔️ Энциклопедия Britannica стала AI-компанией.
Britannica полностью переориентирует свою деятельность на разработку и внедрение ИИ. Предполагается, что в ближайшем будущем компания может стать публичной с оценочной стоимостью в 1 млрд. долларов. До 2012 года Britannica занималась выпуском старейшего англоязычного энциклопедического издания, являясь источником знаний до появления Google и Wikipedia.
На сегодняшний день основным направлением деятельности Britannica является разработка и реализация ПО для онлайн-обучения, ориентированного на образовательные учреждения и библиотеки. В дополнение, компания предлагает чат-бот Britannica AI, предоставляющий доступ к обширной базе энциклопедических знаний, накопленных за два столетия.
gizmodo.com
✔️ Аэрокосмический двигатель, разработанный ИИ, успешно прошел горячую обкатку.
Компания LEAP 71 продемонстрировала потенциал современных инженерных систем ИИ на примере разработки ракетного двигателя аэроспайкового типа. Данный двигатель, функционирующий на топливной смеси из кислорода и керосина, спроектирован с использованием большой вычислительной инженерной модели и способен обеспечивать тягу до 5000 ньютонов.
Аэроспайковая конструкция отличается от традиционных ракетных двигателей способностью к автоматической адаптации к изменениям атмосферного давления. На проектирование с помощью ИИ у LEAP 71 ушло чуть больше трех недель. Изделие было изготовлено на 3D-принтере из цельного медного блока методом селективного лазерного плавления. Первое испытание, проведенное 18 декабря 2024 года, показало успешную работоспособность при температуре газа в 3500 °C.
newatlas.com
✔️ Tetsuwan Scientific разрабатывает роботизированных AI-ученых, способных самостоятельно проводить эксперименты.
AI-ученые от Tetsuwan Scientific представляют собой стеклянные робо-кубы, которые могут самостоятельно оценивать результаты и вносить изменения в эксперименты. Собственное ПО и датчики позволяют роботам понимать такие параметры, как калибровка и характеристики жидкостей.
Tetsuwan Scientific уже сотрудничает с La Jolla Labs для измерения эффективности дозировок РНК-терапевтических препаратов. Целью Tetsuwan Scientific является создание независимых AI-ученых, способных автоматизировать весь научный процесс.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Команда Яндекса подробно рассказала о том, как оценивала знания культурного кода у YandexGPT
Чтобы понять, насколько хорошо нейросеть понимает специфичные для нашей культуры явления, командой был разработан бенчмарк культурного кода — в этот процесс вошли классификации, промты с цитатами, отсылками, поговорками и сравнение ответов человека и LLM.
В начале работы была проведена оцифровка самого понятия “культурный код” и отбор главных верхнеуровневых категорий, по которым будет проводиться разработка запросов.
Запросы были составлены с целью выяснить, понимает ли Yandex GPT цитаты, фразеологизмы, факты о быте, социуме и других факторах, олицетворяющих нашу культуру. Промты скармливались модели, постепенно усложняясь в формулировках, добавлялись витиеватости.
Следующий этап — валидация, поэтому команда создала тестовый бенч на 200 вопросов и протестировала его на AI-тренерах. Выяснилось, что бенч нуждается в разбивке по возрасту, поскольку в каких-то темах более старшие респонденты разбирались лучше молодых ребят, а в каких-то — наоборот. Было решено выделить 3 категории: “30+”, “30-” и “все”.
Первые заходы проводились по схеме “выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем”. После того, как вопросы отладились по составу и смыслам, пришло время увеличивать полноту и размер бенча.
Итоговый бенчмарк составил 2000 самых разнообразных вопросов, на которые снова отвечали AI-тренеры. По результатам их ответов был сформирован средний скор, равный 78. Эта величина стала контрольной для оценки ответов Yandex GPT.
@ai_machinelearning_big_data
#news #ai #ml
Позаботился о подарках для родных и близких?
Позаботься и о лучшем подарке для себя — новая работа ждёт тебя в Сбере!✨
Заходи на сайт rabota.sber.ru — здесь сбываются амбициозные проекты, классные коллеги и крутые возможности. 🔥
В Новый год — с новой работой в Сбере.💚
📌Топ Python-проектов для ML 2024 года.
Эти проекты были выбраны на основе их актуальности на 2024 год. Каждый из них - смесь практической полезности, новизны и, честно говоря, крутости, будь то смелый и инновационный подход, элегантное решение сложных проблем или просто умная реализация.
🟢BAML - предметно-ориентированный язык для работы с LLM.
BAML превращает текстовые промпты в многократно используемые функции LLM с типизированными переменными и обеспечивают конкретный тип выходных данных. BAML превосходит другие методы получения структурированных данных от LLM и поддерживает VS Code и Cursor.
🟢marimo - Python notebooks геймчейджер.
Новый подход к notebook, который превращает их в мощную, реактивную среду для создания удобных для совместного использования рабочих процессов. Marimo готов заменить Jupyter и Streamlit, устраняя проблемы скрытого состояния и ручного выполнения ячеек.
🟢OpenHands - мощный агент для разработки.
Безопасная изолированная среда, где AI-агенты могут выполнять код, взаимодействовать с веб-браузерами, управлять файлами, отлаживать проблемы, рефакторить код и даже сотрудничать с другими агентами. Среда включает в себя Docker-песочницу с доступом к bash-оболочке, веб-браузингом и IPython-сервером.
🟢Crawl4AI - интеллектуальный веб-скрапинг.
Библиотека, которая обрабатывает динамический контент, обходит механизмы защиты от ботов, извлекает структурированные данные и масштабирует задачи сбора массивов информации. Асинхронная архитектура дает высокую скорость работы даже со сложным JavaScript. На выходе - форматы JSON, markdown и очищенный HTML, готовые для импорта в LLM. Crawl4AI поддерживает Chromium, Firefox и WebKit через Playwright.
🟢LitServe - универсальный движок для развертывания моделей.
Детище LightningAI - мощный инструмент для развертывания моделей и сложных AI-конвейеров. Построен на базе FastAPI, поддерживает PyTorch, TensorFlow, JAX и работает с GenAI, СV, ASR и эмбедингами. LitServe умеет в KV-кэширование для LLM, и подходит как для легких приложений, так и для тяжелых корпоративных нагрузок.
🟢Mirascope - унифицированный интерфейс LLM.
Python-инструмент для упрощения извлечения структурированных данных из LLM. Он предлагает удобный интерфейс, основанный на декораторах и декларативных схемах. Mirascope поддерживает OpenAI, Anthropic и Cohere и имеет свой поисковый агент WebSearchAgent, который может автономно собирать информацию из интернета.
🟢Surya - OCR с высокой точностью.
OCR-система на 90 языках. Surya извлекает текст из сканированных изображений, PDF-файлов и других визуальных форматов с точностью, сравнимой с Google Cloud Vision. Помимо OCR, Surya проводит расширенный анализ документа, определяя заголовки, изображения, таблицы и порядок чтения, что идеально для оцифровки книг, форм и научных документов.
🟢DataChain - конвейер данных для ИИ.
Платформа для управления версиями мультимодальных наборов изображений, видео, текста и PDF-файлов. Библиотека преобразует разрозненные файлы в централизованные датасеты, которые легко запрашивать и манипулировать с помощью Python без использования Spark или SQL. DataChain поддерживает PyTorch, TensorFlow, AI-генерацию метаданных, сериализацию инференса LLM и выполнение пакетных процедур.
🟢Narwhals - универсальный слой совместимости для DataFrame-библиотек.
Легковесный слой, который объединяет pandas, Polars, PyArrow, Modin и cuDF в Python. Он позволяет писать код, не зависящий от используемого бэкенда, используя подмножество API Polars в качестве интерфейса. Поддерживает как eager, так и lazy execution стили, включая Dask. Narwhals не имеет зависимостей и обеспечивает статическую типизацию для автозавершения и подсказок в IDE.
🟢PydanticAI - фреймворк для разработки AI-приложений.
Фреймворк агентов, которые управляют взаимодействием с LLM и проверкой их инференса. Имеет систему внедрения зависимостей, позволяющую динамически получать контекстные данные. PydanticAI поддерживает пользовательские функции Python, вызываемые агентами для доступа к информации и выполнения вычислений.
@ai_machinelearning_big_data
Cloud.ru и «Самокат» объединились и выпустили набор для перекуса айтишников
Провайдер облачных и AI-технологий Cloud.ru и сервис доставки «Самокат» создали лимитированные боксы для перекуса.
Внутри боксов — батончики с орехами и фруктовые чипсы, которые заряжают энергией и утоляют голод до полноценного обеда, а также эксклюзивные стикеры от компаний, которыми можно украсить рабочий ноутбук.
— Боксы приходят в подарок вместе с заказом IT-специалистам, кому придёт бокс, выбирает алгоритм приложения. Количество наборов ограничено.
⚡️ ModernBERT: новое и улучшенное поколение BERT.
ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.
Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs
, что упрощает ее использование.
ModernBERT доступна в двух вариантах:
🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ModernBERT
🌟 FlashRNN: оптимизация RNN на современном оборудовании.
FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.
В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.
FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.
🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.
🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.
За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT
, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
📌Топ 10 статей NVIDIA Developer Technical Blog за 2024 год.
NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.
🟢NVIDIA NIM - оптимизированные микросервисы инференса для мастшабного развертывания моделей ИИ
🟢Открытие бесплатного доступа к NVIDIA NIM для участников Developer Program
🟢NVIDIA GB200 NVL72 - обучение LLM с триллионами параметров и инференсом в реальном времени
🟢NVIDIA полностью переходит на GPU Kernel Modules с открытым исходным кодом
🟠Введение в мультимодальный RAG
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.
🟠Создание агента для анализа данных на основе LLM
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.
🟠StarCoder2 - раскройте свой потенциал в программировании
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.
🟠Как обрезать и дистиллировать Llama 3.1 8B в модель NVIDIA MiniTron 4B
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.
🟠Как за 4 шага перевести приложение RAG из пилотной версии в продакшен
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.
🟠RAPIDS cuDF ускоряет pandas почти в 150 раз без изменения кода
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.
🔜 Блогпост на developers.nvidia.com
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Digest
⚡️ Релиз IBM Granite 3.1.
IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.
В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.
Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.
MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.
Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.
Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.
▶️Вместе с моделями, IBM представила инструменты и фреймворки с открытым исходным кодом:
🟠Docling - инструмент для подготовки документов к RAG, предобучению и тонкой настройке ( извлечение информации из форматов PDF, DOCX, изображения, PPTX, XLSX, HTML и AsciiDoc).
🟠Bee - фреймфорк создания масштабируемых приложений на основе AI агентов.
⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.
📌Лицензирование: Apache 2.0 license.
🟡Статья
🟡Набор моделей
🟡Документация
@ai_machinelearning_big_data
#AI #ML #LLM #Embeddings #IBM #Granite
🔹 Cтроим графики для анализа финансовых данных на открытом уроке «Визуализация данных. Основные "финансовые" графики, работа с mplfinance»
Рассмотрим свечные графики, научимся строить дополнительные линии на графиках и доверительные интервалы.
✅ Практика: свечные графики с помощью библиотеки mplfinance
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/8X6H/?erid=LjN8Jx3TC
#реклама
О рекламодателе
⚡️ Новые разработки команды FAIR в области ИИ.
Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:
🟢Motivo - базовая модель для управления виртуальными воплощенными агентами.
Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
🟡Paper 🟡Demo 🟡Github
🟢Video Seal - система для нанесения водяных знаков на видео.
Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
🟡Paper 🟡Demo 🟡Github
🟢Flow Matching - генеративная парадигма для множества модальностей.
Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
🟡Paper 🟡Github
🟢Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.
Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
🟡Paper 🟡Github 🟡Dataset
🟢Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.
Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
🟡Paper 🟡Github
🟢Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.
DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
🟡Paper 🟡Github
🟢Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.
Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
🟡Paper 🟡Github
🟢EvalGym - библиотека для оценки text-to-image моделей.
Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
🟡Paper 🟡Github
🟢CLIP 1.2 - улучшенная версия vision-language энкодера.
🟡Paper 🟡Github 🟡Dataset 🟡Model
@ai_machinelearning_big_data
#AI #ML #FAIR #Digest
✔️ NVIDIA представила доступный "суперкомпьютер" для GenAI.
NVIDIA анонсировала Jetson Orin Nano Super Developer Kit, который предлагает повышенную производительность по сниженной цене. Цена устройства была снижена с 499 до 249 долларов США. Комплект предоставляет возможности в области генеративного ИИ и повышения производительности как коммерческим разработчикам ИИ, так и энтузиастам.
Jetson Orin Nano Super обещает 1,7-кратное увеличение производительности, достигая 67 INT8 TOPS, и 50-процентное увеличение пропускной способности памяти до 102 ГБ/с. Комплект разработчика состоит из системного модуля Jetson Orin Nano 8GB (SoM) и эталонной несущей платы. SoM включает в себя GPU на архитектуре NVIDIA Ampere с тензорными ядрами и 6-ядерный процессор Arm.
blogs.nvidia.com
✔️ Google DeepMind FACTS Grounding: бенчмарк для оценки фактологичности LLM.
FACTS Grounding создан для оценки способности LLM генерировать ответы, которые являются фактически точными и основаны на предоставленном исходном материале. Бенчмарк включает в себя 1719 примеров, требующих развернутых ответов, основанных на предоставленном контекстном документе.
Примеры включают различные области: финансы, технологии, розничную торговлю, медицину и право, и документы объемом до 32 000 токенов. Для оценки используются три LLM-судьи: Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые оценивают ответы на соответствие пользовательскому запросу и фактическую точность. Датасет и лидерборд доступны на Kaggle.
deepmind.google
✔️ Grammarly приобретает Coda и назначает нового CEO для создания платформы продуктивности c ИИ.
Компания Grammarly объявила о намерении приобрести платформу Coda, специализирующуюся на инструментах для повышения продуктивности. Генеральный директор и соучредитель Coda, Шишир Мехротра, станет новым CEO Grammarly. Это приобретение направлено на трансформацию Grammarly из простого ассистента в полноценную ИИ-платформу продуктивности для приложений и агентов.
Интеграция Coda Brain позволит Grammarly сделать своего ИИ-помощника более умным, контекстуально осведомленным и способным подключаться к различным системам и приложениям. Grammarly планирует объединить своего ассистента с Coda Docs, чтобы обеспечить пользователям платформу для работы с ИИ от начала и до конца.
businesswire.com
✔️ OpenAI анонсировала API o1, но для избранных разработчиков.
OpenAI начала предоставлять модель o1, способную к "рассуждению", через API, но пока только для разработчиков, входящих в категорию использования "tier 5". Для квалификации в эту категорию, разработчики должны потратить не менее 1000 долларов с OpenAI и иметь аккаунт старше 30 дней с момента первого успешного платежа. Модель o1 заменяет предыдущую модель o1-preview и способна проверять факты.
Использование o1 стоит значительно дороже — 15 долларов за ~750 000 input-токенов и 60 долларов за ~750 000 output, что в 6 раз дороже, чем GPT-4o. O1 в API более настраиваемая благодаря новым функциям^ вызов функций, сообщения разработчика и анализ изображений. OpenAI также выпустила новые версии моделей GPT-4o и GPT-4o mini в рамках Realtime API, предназначенного для приложений с низкой задержкой голосового ответа, с улучшенной эффективностью данных и надежностью.
openai.com
✔️ Предполагается выпуск 24 ГБ версии видеокарты Intel Arc B580 для профессиональных задач.
Согласно транспортной накладной, обнаруженной пользователем X Томашем Гавронским, Intel, возможно, готовит к выпуску версию своей видеокарты Arc B580 с 24 ГБ видеопамяти. Эта карта, известная как Battlemage G21, может быть оснащена памятью GDDR6, подключенной в "раскладном" режиме (clamshell), который позволяет удвоить объем видеопамяти. Возможно, 24 ГБ версия B580 будет предназначена для партнеров Intel, занимающихся ИИ и центрами обработки данных.
pcgamer.com
@ai_machinelearning_big_data
#news #ai #ml
✔️ Microsoft выпустила в опенсорс библиотеку MarkItDown на Python для преобразования файлов в Markdown
MarkItDown представляет собой эффективное средство для конвертации различных типов файлов и документов в формат Markdown. Эта библиотека идеально подходит для анализа, индексирования и систематизации данных.
Вот перечень поддерживаемых форматов:
— PDF, PowerPoint, Word, Excel.
— Изображения (в том числе EXIF-данные и распознавание текста с помощью OCR).
— Аудио (метаданные и расшифровка речи).
— HTML (включая специализированную обработку контента из Wikipedia).
— Текстовые форматы: CSV, JSON, XML и другие.
▪MarkItDown ▪Github
✔️ Не только математика и алгоритмы: что еще важно для ML и DS. Руководитель ШАДа Алексей Толстиков рассказал, какие ML-специалисты нужны рынку, можно ли освоить Data Science самостоятельно и почему технических навыков бывает недостаточно. Эти и многие другие вопросы он затронул в новом выпуске подкаста MLinside школы Виктора Кантора.
Смотреть выпуск
✔️Whisk: Google представил новую технологию создания изображений
Принцип работы прост: пользователь загружает три изображения — одно для объекта, другое для фона и третье для стиля. Модель Gemini анализирует каждое изображение и формирует подробное описание, после чего новая система генерации изображений Imagen 3 использует эти данные для создания уникального результата.
Главное преимущество Whisk перед другими генераторами заключается в том, что он не копирует исходные изображения полностью, а выделяет из них ключевые элементы.
blog.google
✔️ Google анонсировала обновленный генератор видео Veo 2 и начала формировать список ожидания для его тестирования.
Внутренние тесты компании показали, что пользователи предпочитают генерации Veo генерациям SORA в 58,8% случаев.
Подать заявку на тестирование модели можно через сервис VideoFX в Google Labs, однако доступ к нему закрыт для пользователей с российскими IP-адресами. Планируется, что в 2025 году Veo 2 будет интегрирован в YouTube Shorts и другие сервисы Google.
deepmind.google
@ai_machinelearning_big_data
#news #ai #ml
⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen.
QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.
Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.
⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:
🟠возможность смешения языков и переключения между ними;
🟠склонность к зацикливанию в логических рассуждениях;
🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям.
Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.
📌Лицензирование: Qwen License.
🟡Статья
🟡Модель
🟡Demo
🟡Набор GGUF
🟡Набор MLX
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #VLM #Qwen #Reasoning
🌟 ASAL: автоматизированный поиск искусственной жизни с использованием VLM для исследования открытых систем.
ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций.
Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска:
🟢контролируемый поиск целевых симуляций (Supervised Target);
🟢поиск открытых систем с временной новизной ( Open-Endedness);
🟢исследование всего разнообразия симуляций (Illumination).
ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata.
В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life.
Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению.
Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids.
▶️Локальная установка и запуск настроенного блокнота со всеми тремя алгоритмами:
# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal
# Create conda env
conda env create -f environment.yaml
# Install requirements
pip install -r requirements.txt
# Running ASAL
asal.ipynb
🌟 VidTok: Универсальный токенизатор видео от Microsoft.
VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.
Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.
В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.
Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.
VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.
При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.
▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга:
🟢vidtok
- базовое название;
🟢kl
или fsq
- тип регуляризации и квантования латентного пространства;
🟢causal
или noncausal
- тип обработки временной информации (покадрово или все кадры сразу);
🟢488
или 41616
- компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;
🟢4chn
, 8chn
или 16chn
- количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;
🟢262144
, 32768
или 4096
- размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.
▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:
# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok
# Create conda env
conda env create -f environment.yaml
conda activate vidtok
# Inference
import torch
from scripts.inference_evaluate import load_model_from_config
cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape
🌟 CAD-Recode: создание САПР-моделей из облаков точек.
CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей.
CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой.
Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR).
Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D.
CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o.
В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #CADRecode
📎 ML в медицине: дайджест за 16 - 22 декабря 2024 г.
▶️Модели, бенчмарки и датасеты
🔘MedMax: датасет для обучения мультимодальных медицинских моделей.
Большой набор медицинских изображений с текстовыми описаниями, на которой можно обучать и модели для работы с медицинскими данными.
🔘RadiologyLlama-70B: модель генерации отчетов в радиологии.
Модель, которая помогает врачам писать заключения, принимать решения и показывает лучшие результаты, чем обычные модели.
🔘Multi-OphthaLingua и CLARA: мультиязычный бенчмарк для оценки офтальмологических QA и RAG-система снижения предвзятости LLM.
Датасет на 1184 вопроса по офтальмологии, которые легли в основу RAG-системы CLARA.
🔘FactEHR: датасет для оценки способности LLM к декомпозиции фактов.
Набор из 2168 клинических записей 4 типов, который содержит 8665 декомпозиций фактов.
▶️Фреймворки и методологии
🔘ReflecTool: фреймворк для создания клинических агентов.
Фреймворк, который помогает лучше справляться с клиническими задачами за счет использования специальных инструментов.
🔘Process-Supervised Reward Model: улучшение качества генерации клинических заметок с помощью LLM.
Метод проверять качество медицинских заметок, созданных ИИ, оценивая их не целиком, а по шагам создания.
🔘LLM как эксперт: метод получения априорных знаний для прогностических моделей.
Методика использования LLM как "экспертов" для создания более точных начальных параметров в прогностических моделях с ограниченным количеством данных.
🔘ICS: сегментация медицинских изображений с контекстным обучением.
Улучшение сегментации последовательных медицинских изображений, используя предыдущие результаты для согласованности, без необходимости дополнительного обучения.
🔘HC-LLM: генерация радиологических отчетов с учетом исторической информации.
Система, которая использует историю рентгеновских снимков и отчетов для генерации более качественных радиологических отчетов с LLM.
▶️Медицинские LLM-приложения
🔘Система рекомендаций на основе MoE.
Система, объединяющая Mixture-of-Experts и языковые модели, для персонализированных рекомендаций здорового питания на основе текстовых и визуальных данных пользователя
🔘MCQG-SRefine: генерация медицинских тестов формата USMLE.
Система на базе GPT-4, которая автоматически генерирует сложные экзаменационные вопросы по медицинским темам.
🔘LookDeep Health: AI-платформа для непрерывного мониторинга пациентов.
Платформа, которая использует CV для непрерывного наблюдения за пациентами в больницах, отслеживая их перемещения и действия в реальном времени.
▶️Исследования и обзоры
*️⃣Влияние уровня объяснимости ИИ на доверие и точность диагностики рака молочной железы.
Исследование, которое показало, что чрезмерная детализация объяснений работы ИИ-систем поддержки врачебных решений может снижать доверие и точность диагностики среди врачей, и что более простые интерфейсы оказываются более эффективными.
*️⃣Исследование федеративного обучения с RAG для LLM в медицинской сфере
Сравнение нескольких подходов обучения для создания системы генерации медицинских текстов. Спойлер - LLM c RAG, лучше, чем без.
*️⃣Обзор методов агрегации эмбедингов для анализа гистопатологических изображений в клинической практике.
Сравнение, которое показало, что модели, обученные на медицинских данных, работают лучше, чем общие модели, и нет одного лучшего метода агрегации для всех задач.
🔜 Читать полный дайджест
🔜 Читать в Telegraph
@ai_machinelearning_big_data
📌Как линейная алгебра может помочь при разработке web-приложения.
Интересная и познавательная статья разработчика Ивана Шубина о том, как он использовал матрицы для создания интерактивного редактора диаграмм Schemio.
Изначально, редактор позволял создавать простые фигуры и манипулировать ими, но с введением иерархии объектов возникла необходимость в сложных преобразованиях координат. Матрицы стали ключом к решению этой проблемы, позволяя эффективно управлять перемещением, вращением и масштабированием объектов.
Для преобразования глобальных и локальных координат между собой использовались матричные преобразования. Умножение матриц дало возможность комбинировать преобразования, а инверсия матрицы помогает переводить координаты из глобальных в локальные.
Иван подробно описывает, как матрицы помогают управлять поворотом и масштабированием объектов относительно опорной точки и как они используются при монтировании и демонтировании объектов, чтобы избежать нежелательных коллизий.
Таким образом, матричная математика стала решением для расширения возможностей редакторе Schemio.
🔜 Читать полную версию статьи
#Math #LinearAlgebra #Webdev
✔️ OpenAI анонсировала новые модели o3 и o3 mini.
В последний день цикла 12 Days, OpenAI анонсировала новые модели "рассуждений" o3 и o3-mini, которые, со слов самой OpenAI, превосходят предыдущие поколения по производительности. Обе модели являются преемниками o1 и используют новый подход к "рассуждению", разбивая инструкции на более мелкие задачи.
o3 превзошла o1 в SWE-Bench Verified на 22,8 процента, а также продемонстрировала высокие результаты в математических и научных задачах в бенчмарках, проведенных самой компанией. Публичный релиз пока не запланирован, но OpenAI начала принимать заявки для тестирования новых моделей.
openai.com
✔️ Поиск Google получит режим "AI Mode" с интерфейсом, похожим на чат-бота Gemini.
Google планирует добавить в свою поисковую систему новый режим "AI Mode". Эта опция, расположенная в верхней части страницы результатов, позволит переключаться на интерфейс, аналогичный чат-боту Gemini. Вкладка "AI Mode" будет находиться слева от вкладок "Все", "Изображения", "Видео" и "Покупки".
При получении ответа в режиме "AI Mode" будут отображаться ссылки на соответствующие веб-страницы и строка поиска с подсказкой "Задать дополнительный вопрос...". Google, вероятно, испытывает давление из-за запуска поиска в ChatGPT и стремится объединить поиск и AI, уже отображая AI-сводки для некоторых поисковых запросов.
theinformation.com
✔️ Еврокомиссия одобрила сделку Nvidia по приобретению Run:ai
Европейская комиссия безоговорочно одобрила предложение Nvidia о приобретении компании Run:ai за 700 млн. долларов. Расследование ЕС по данной сделке было сосредоточено на практиках, которые могли бы усилить контроль Nvidia над GPU-рынком в ЕС.
Однако, комиссия пришла к выводу, что приобретение Run:ai не вызовет опасений относительно конкуренции. Таким образом, сделка получила одобрение, и Nvidia сможет продолжить свое развитие не опасаясь препятствий со стороны европейских регуляторов.
reuters.com
✔️ Cloudflare проставила Calls: бэкэнд для real-time AI-приложений.
Cloudflare Calls состоит из сессий и треков, позволяя подключать AI, например ChatGPT, в качестве трека к текущей сессии. В сочетании с Realtime API от OpenAI позволяет создавать приложения, поддерживающие мультипользовательское взаимодействие с голосовым и видео AI в реальном времени.
Cloudflare Calls использует WebRTC для передачи аудио и видеоданных и берет на себя сложность ее инфраструктуры, включая маршрутизацию медиа и TURN-серверы, предоставляя разработчикам готовую сеть для подключения пользователей к ближайшим серверам. Все видео и аудиопотоки шифруются по умолчанию, обеспечивая конфиденциальность и безопасность.
blog.cloudflare.com
✔️ ReDrafter: ускорение инференса LLM на NVIDIA GPU.
Apple в сотрудничестве с NVIDIA интегрировала новый метод спекулятивного декодирования ReDrafter в фреймворк NVIDIA TensorRT-LLM, что позволяет значительно ускорить инференс LLM на NVIDIA GPU. ReDrafter использует RNN в качестве черновой модели и динамический алгоритм древовидного внимания, повышая скорость генерации токенов до 3.5 раз за шаг по сравнению с другими методами.
Интеграция в TensorRT-LLM потребовала от NVIDIA добавления новых операторов, расширив возможности фреймворка. В результате, при тестировании на производственной модели с десятками миллиардов параметров, наблюдалось ускорение генерации токенов в секунду в 2.7 раз . ReDrafter доступен через TensorRT-LLM.
machinelearning.apple.com
@ai_machinelearning_big_data
#news #ai #ml
Российская LLM от MTS AI опережает иностранные в задачах на русском языке
В первом квартале 2025 года планируется релиз новой большой языковой модели от MTS AI. О выходе программы из бета-версии упомянул председатель совета директоров МТС Вячеслав Николаев в рамках Дня инвестора. Модель Cotype продемонстрировала лучшие результаты в этом году в области понимания текстов и работы с информацией.
В лидерборде бенчмарка MERA технология заняла второе место после ChatGPT, однако она лучше ответила на вопросы на русском языке из категорий:
• RWSD и RCB — понимание и интерпретация текста;
• MultiQ — рассуждение и связывание фактов;
• ruOpenBookQA — общие знания о мире.
Cotype можно будет интегрировать в любые системы благодаря встроенному API.
@ai_machinelearning_big_data
#news #AI #LLM #news
✔️ Gemini 2.0 Flash Thinking - модель "рассуждения" от Google.
Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.
Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com
✔️ Judge-модель Glider от Patronus AI превосходит GPT-4 в оценке ИИ.
Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.
Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai
✔️ Cineverse запускает Matchpoint Reel Visuals AI для монетизации контента в сфере ИИ.
Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.
Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com
✔️ Apptronik и Google DeepMind объединяют усилия для развития человекоподобных роботов c ИИ.
Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.
Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com
✔️ OpenAI показала новые возможности ChatGPT для Mac.
На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.
ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
🎉 18 декабря в Петровском путевом дворце состоялся Ed.Future — один из главных форумов России, посвященных будущему образования и HR!
На форуме прошла церемония награждения в рамках премии «Эффективное образование». Жюри, включающее ведущих экспертов отрасли (Плехановский университет, МГУ, Фонд социальных инвестиций, МГИМО и другие), определило лучшие проекты, ориентированные на развитие образования как внутри компаний, так и вовне.
Среди лауреатов — ИТ-чемпионат True Tech Champ от МТС, который стал победителем в номинации «Инновационный образовательный проект года»! Чемпионат был отмечен за свою важную роль в привлечении молодежи в IT-индустрию.
Кроме того, награды получили проекты от таких крупных игроков рынка, как Альфа-Банк, ВТБ, «Вкусно — и точка», Skillbox и Сбер 🏆
#EdFuture #ОбразованиеБудущего #HRФорум
@ai_machinelearning_big_data
🌟 Bamba-9B: эффективная Hybrid Mamba2 модель.
Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.
Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.
Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.
Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.
По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.
Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.
▶️ Планы разработчиков на дальнейшее развитие Bamba:
🟠увеличение длины контекста модели Bamba-9B (сейчас - 4096);
🟠улучшение модели путем обучения на дополнительных данных и точной настройки на наборах данных SFT.
▶️ Опубликованный набор моделей:
🟢Bamba 9B - финальная версия модели после 2-х этапов обучения
🟢Bamba 9B 2T - чекпоинт после 1 этапа трейна с датасетом Dolma v1.7
🟠Bamba 9B 1.8T - промежуточный чекпоинт 1 этапа обучения
🟢Bamba 9B FP8 - квантованная с помощью llm-compressor
версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor
версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor
версия Bamba 9B 1.8Т
▶️Пример инференса на Transformers с Bamba-9B:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
✔️ ChatGPT через телефонный звонок и в WhatsApp.
OpenAI представила еще один способ доступа к ChatGPT - через обычный телефонный звонок. Теперь пользователи в США могут просто набрать бесплатный номер 1-800-ChatGPT для доступа к AI-ассистенту. Сервис предоставляет 15 бесплатных минут разговора в месяц и работает на любом телефоне - от современных смартфонов до классических дисковых аппаратов.
Для пользователей за пределами США компания предлагает ChatGPT через WhatsApp, где общение происходит в формате текстовых сообщений. Нововведение является частью праздничной серии стримов "12 дней OpenAI".
openai.com
✔️ Microsoft приобрела почти полмиллиона чипов Nvidia Hopper в 2024 году.
В 2024 году Microsoft купила 485 000 чипов Nvidia Hopper, что более чем в 2 раза превышает закупки любого из ее конкурентов. Для сравнения, компания Марка Цукерберга купила 224 000 штук. Закупки Microsoft чипов Nvidia в 2024 году более чем втрое превысили количество, приобретенное компанией в 2023 году.
Помимо закупки ускорителей NVIDIA, Microsoft разрабатывает собственные специализированные AI - Maia, о которых было объявлено на конференции Ignite в конце 2023 года.
techcrunch.com
✔️ AI-стартап Odyssey разрабатывает инструмент Explorer для создания фотореалистичных 3D-миров.
Odyssey, основанный пионерами в области беспилотных автомобилей Оливером Кэмероном и Джеффом Хоком, разрабатывает инструмент на основе ИИ, способный преобразовывать текст или изображение в 3D-рендеринг.
Инструмент, под названием Explorer, может генерировать интерактивные сцены в реальном времени на основе текстового описания. Explorer обучен на реальных ландшафтах, снятых с помощью 360-градусной камерной системы компании. Odyssey утверждает, что их инструмент "особенно настроен" для создания фотореалистичных сцен. Сцены, сгенерированные Explorer, могут быть загружены в Unreal Engine, Blender и Adobe After Effects для редактирования.
odyssey.systems
✔️ Microsoft представляет SPARROW: AI-инструмент для измерения и защиты биоразнообразия в самых отдаленных уголках планеты.
SPARROW (Solar-Powered Acoustic and Remote Recording Observation Watch) - ИИ-комплекс для автономного сбора данных о биоразнообразии в удаленных регионах. Устройство на солнечной энергии оснащено датчиками, которые собирают данные с камерных ловушек, акустических мониторов и других детекторов. Эти данные обрабатываются с использованием моделей ИИ на энергоэффективных GPU.
Затем SPARROW передает информацию через низкоорбитальные спутники в облако, обеспечивая исследователям доступ к данным в реальном времени. Все компоненты SPARROW, включая программное обеспечение, аппаратное обеспечение и 3D-печатные чертежи, будут иметь открытый исходный код. В ближайшие три месяца SPARROW будет развернут в Северной и Южной Америке, а к концу 2025 года планируется внедрить SPARROW на всех континентах.
blogs.microsoft.com
✔️ Исследование выявило тревожные тенденции в данных для обучения ИИ.
Аудиторская группа Data Provenance опубликовала отчет, в котором констатировала, что более 90% наборов данных для ИИ поступают из Европы и Северной Америки и лишь 10% - из других регионов.
Источники данных для обучения ИИ существенно изменились за последнее десятилетие. Если раньше данные поступали из разных источников, то после 2018 года интернет-контент стал доминирующим для всех типов медиа. Синтетические данные также показывают стремительный рост: если в 2020 году их доля составляла менее 0.1% от веб-энциклопедических данных, то к 2024 году она достигла 10%. Основными генераторами синтетических данных стали модели OpenAI.
Это приводит к концентрации власти в руках крупных технологических компаний и затрудняет доступность данных для небольших организаций и исследователей. Недостаточное представление других культур и языков может искажать модели ИИ, отражая преимущественно западный взгляд на мир.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
Магистратура по искусственному интеллекту ИТМО × Napoleon IT запустила курс по практической ML-инженерии
Студенты курса изучат основы MLOps и разработку ML-сервисов на Python, а затем разработают собственный сервис на основе машинного обучения и упакуют его в MVP с поддержкой экспертов из Ozon, Skyeng, Газпромбанка.
В основе обучения — баланс между хард- и софт-навыками. За 5 месяцев предстоит освоить технологический стек ML-инженера уровня Middle — Apache Airflow, FastAPI, git, PostgreSQL, LightGBM, PyTorch, scikit-learn, CI/CD. А еще прокачать софты — от презентации продукта до понимания бизнес-задач, которые можно решать при помощи ML-инструментов.
На старте важно уметь программировать на Python, разбираться в основах машинного обучения и знать основы веб-разработки.
Узнать подробности о курсе и условиях оплаты можно по ссылке.
Реклама. Университет ИТМО ИНН:7813045547. erid:2VtzqwP6uGd
⚡️ Релиз Falcon 3
Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.
▶️В семейство входят 5 базовых моделей:
🟢Falcon3-1B-Base
🟢Falcon3-3B-Base
🟢Falcon3-Mamba-7B-Base
🟢Falcon3-7B-Base
🟢Falcon3-10B-Base
Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).
Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.
Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.
Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.
▶️ Семейство продемонстрировало высокую производительность на стандартных бенчмарках:
🟠Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;
🟠Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;
🟠Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;
🟠Falcon3-10B-Base - лучшие результаты в категории до 13 млрд. параметров.
В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.
Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.
▶️В репозитории на HuggingFace опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.
⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.
📌Лицензирование: Falcon 3 TII Falcon License.
🟡Статья
🟡Набор моделей
🟡Demo Falcon3
🟡Demo Falcon3-Mamba-7B-Instruct
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #ML #LLM #Falcon3
🌟 Apollo: семейство мультимодальных моделей для понимания медиаконтента.
Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.
Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.
Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.
▶️ Семейство состоит из трех моделей:
🟢Apollo 7B
🟢Apollo 3B
🟢Apollo 1.5B
⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.
📌Лицензирование кода : Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo Apollo-3B
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #Apollo