Рынок облаков за прошлый год вырос на 40%, а в одной только Москве реализуется как минимум 90 проектов с использованием ИИ. Все это говорит о мощном облачном тренде в культуре разработки и большом интересе сообщества к работе с AI.
24 октября крупнейший российский провайдер облачных и AI-технологий Cloud.ru проводит конференцию GoCloud Tech 2024, на которой соберутся ведущие IT-инженеры, разработчики и тимлиды.
4 параллельных трека, которые будут полезны всем, кто работает с облачными технологиями:
- «useCloud» — сценарии использования облачных решений;
- «Под капотом» — «внутренняя кухня» и тонкости разработки облачных сервисов;
- «Русский AI» — развитие AI/ML и тренды Data Science на российском рынке;
- «Cloud.ru Evolution» — обзор сервисов и обновлений платформы.
А еще обещают демо-зону, на которой будет доступна флагманская платформа Cloud Evolution, платформа для создания частного и гибридного облака Evolution Stack. Также вечером всех ждёт афтерпати.
Регистрация по ссылке.
🌟 NVLM-1.0-D-72B: MMLM от NVIDIA, сопоставимая с лучшими коммерческими аналогами .
NVLM-1.0-D-72B - первая модель семейства NVLM 1.0 производственного уровня, которое позиционируется как SOTA в задачах "vision-language".
Для достижения SOTA - цели в мультимодальное обучение был включен высококачественный набор данных, предназначенный только для текста, наряду со значительным объемом мультимодальных данных по математике и рассуждениям, что расширило математические и программные возможности во всех модальностях.
Архитектура NVLM 1.0 предполагает 3 варианта исполнения:
🟢только декодер NVLM-D,
🟢NVLM-X на основе перекрестного внимания;
🟢NVLM-H с гибридной архитектурой.
Все эти варианты NVLM используют общий визуальный кодер InternViT-6B-448px-V1-5.
Для обработки изображений с высоким разрешением используется динамический подход с высоким разрешением (DHR), при котором изображение разбивается на несколько плиток, каждая из которых кодируется отдельно.
Чтобы повысить эффективность обработки динамических изображений с высоким разрешением в NVLM-D и NVLM-X была разработана конструкция текстового тега плитки. Этот тег добавляется к входной последовательности, чтобы указать начало плитки и ее положение в структуре мозаики. Так генеративные модели лучше понимают структуру изображения.
Эксперименты показали, что добавление тегов плитки значительно улучшает производительность как в задачах, связанных с мультимодальным мышлением (например, MMMU и MathVista), так и в задачах, связанных с распознаванием текста (ChartQA, DocVQA и OCRBench).
Для оценки NVLM 1.0 использовались 9 эталонных тестов Vision language и четыре текстовых теста. Результаты NVLM 1.0 оказались сопоставимыми с результатами ведущих проприетарных и общедоступных моделей, как в задачах на взаимодействие зрения и языка, так и в задачах, ориентированных только на текст.
Разработчики подготовили файл сборки необходимого окружения в Dockerfile для запуска и примеры кода для инференса, использования нескольких GPU и загрузки модели.
📌Лицензирование : CC-BY-NC-4.0 License.
🟡Страница проекта
🟡Модель
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #MMLM #NVLM #NVIDIA
✔️ Nvidia выпускает плагины для повышения реалистичности Meta Human в Unreal Engine 5.
На конференции Unreal Fest Seattle 2024 NVIDIA представила новые плагины для Unreal Engine 5 на базе технологии NVIDIA Ace, облегчающие создание и развертывание персонажей MetaHuman с искусственным интеллектом на ПК с ОС Windows. Ace — это набор технологий для создания цифровых людей с речью, интеллектом и анимацией на основе генеративного ИИ.
Разработчики теперь имеют доступ к плагину Audio2Face-3D для создания лицевой анимации на базе ИИ, синхронизирующей движения губ и лица с речью. Плагин доступен в Autodesk Maya и имеет открытый исходный код для создания собственных расширений. Для работы с Maya разработчикам понадобится API-ключ или Audio2Face-3D NIM.
NVIDIA также выпустила пример проекта Unreal Engine 5 с использованием NVIDIA Ace, включающий плагины Audio2Face-3D, Nemotron-Mini 4B Instruct для генерации ответов и RAG для контекстной информации.
NVIDIA утверждает, что разработчики могут создавать базы данных с контекстной информацией для своих проектов, генерировать релевантные ответы с низкой задержкой и управлять лицевой анимацией MetaHuman в Unreal Engine 5.
venturebeat.com
✔️ Black Forest Labs представила FLUX1.1 [pro] и API.
FLUX1.1 [pro] — новая модель генерации изображений, в ней шестикратно ускорен инференс по сравнению с предыдущей FLUX [pro], она получила улучшенное качество генераций и более точное соответствие промптам.
Новая модель доступна в сервисах: Together.ai, Replicate, Fal.ai, Freepik.com
FLUX1.0 [pro] тоже был обновлен и получил с двукратным ускорение генерации.
Новый бета-интерфейс BFL API предоставляет разработчикам и компаниям возможности FLUX. API предлагает расширенные настройки для адаптации выходных данных к конкретным потребностям, включая выбор модели, разрешение изображения и модерацию контента. Документация API.
blackforestlabs.ai
✔️ Panasonic разработала модель "Diffusion Contact Model" для управления роботами, выполняющими действия с большим количеством контактов.
Поскольку нехватка рабочей силы становится серьезной социальной проблемой во многих частях мира, использование промышленных роботов прогрессирует. Однако в сфере услуг, существует множество задач, которые связаны с контактом с людьми и объектами, но движения и силы, возникающие при контакте робота с человеком или объектом, чрезвычайно сложны и их трудно моделировать в среде симуляции.
Для достижения точной работы в этих ситуациях необходимо заранее провести множество пробных испытаний с использованием реальных действий. Для решения этой проблемы Panasonic HD разработала Diffusion Contact Model, которая использует "диффузионную модель", часто используемую при генерации изображений, для обучения роботов.
Diffusion Contact Model моделирует поэтапно усилие, прилагаемое при прикосновении робота к объекту, и может с высокой точностью предсказать усилие, прилагаемое при прикосновении робота к объекту.
Технология Diffusion Contact Model будет представлена на конференции в Абу-Даби 14 октября 2024 года.
Технический отчет на arxiv.
news.panasonic.com
✔️ Студенты деанонимизируют незнакомцев с помощью смарт-очков Meta и Instagram streams.
Два студента из Гарварда разработали систему под названием I-XRAY, которая объединяет технологии распознавания лиц, LLM и общедоступные данные, чтобы автоматически получать информацию о людях: имя, профессию и адрес.
Facebook View, приложение, которое поставляется в комплекте с умными очками и подчеркивает ответственность пользователей за соблюдение законодательства о конфиденциальности является явно недостаточной мерой.
engadget.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 От LLM к VLM: как обучали новый Нейро.
🟢Яндекс добавил в Нейро новую мультимодальную нейросеть VLM для улучшения поиска по картинкам. Теперь пользователи смогут не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали.
🟢В своей статье на Хабре ML-разработчик Яндекса Роман Исаченко подробно рассказывает об обучении и внедрении VLM и сравнивает пайплайн для предыдущей LLM-версии Нейро с новой. Старая версия использовала отдельные LLM для рефразирования и генерации, в то время как новая интегрирует VLM-рефразер и VLM-captioner.
🟢Яндекс рассматривает VLM как новую стадию развития компьютерного зрения. Модель способна решать множество стандартных задач «из коробки», а с небольшим дообучением достигает state-of-the-art качества в различных сценариях.
🟡VLM в Нейро
@ai_machinelearning_big_data
#AI #ML #LLM
🌟 Малые языковые модели: обзор, измерения и выводы.
Исследование, проведенное Университетом Кембриджа, Пекинским университетом почты и телекоммуникаций о малых языковых моделях, опубликованных в открытом доступе в период с 2022-2024 гг.
Авторами были проанализированы 59 современных открытых SLM, их архитектуру, используемые наборы данных для обучения и алгоритмы. Целевая группа состояла из моделей с 100M–5B параметрами, построенных на архитектуре декодера-трансформера, которые подходят для устройств от носимых гаджетов до смартфонов и планшетов.
Выводы, к которым пришли авторы:
Архитектура SLM
🟢Наблюдается переход от Multi-Head Attention (MHA) к Group-Query Attention (GQA) для повышения эффективности.
🟢Gated FFN с активацией SiLU и промежуточным соотношением 2-8 становится все более популярным выбором.
🟢Большинство моделей используют RMS-нормализацию и размер словаря более 50 тыс. токенов.
🟢Инновации в архитектуре пока ограничены.
Наборы данных для обучения
🟢The Pile был наиболее часто используемым набором данных, но в последнее время выбор стал более разнообразным, все чаще используются RefinedWeb и RedPajama.
🟢Современные SLM обучаются на значительно большем количестве токенов (обычно >1.5T), чем предполагает закон Chinchilla, что указывает на их «переобучение» для повышения производительности на устройствах с ограниченными ресурсами.
Алгоритмы обучения
🟠Чаще используются новые методы: Maximal Update Parameterization (µP), Knowledge Distillation и Two Stage Pre-training Strategy для повышения стабильности обучения и эффективности переноса знаний.
Возможности SLM
🟠За период с 2022 по 2024 год SLM показали значительное повышение производительности в разных задачах обработки естественного языка, превзойдя серию LLM LLaMA-7B.
🟠Семейство моделей Phi имеет самые высокие показатели точности, соперничая с LLaMA 3.1 8B.
🟠SLM, обученные на общедоступных датасетах, сокращают разрыв с моделями, обученными на закрытых данных, в задачах, связанных со здравым смыслом.
Контекстное обучение
🟢Большинство SLM обладают способностью к контекстному обучению, хотя она зависит от задачи.
🟢Более крупные модели из SLM более восприимчивы к контекстному обучению.
Latency и потребление VRAM
🟢Помимо размера модели, на задержку влияет и архитектура: количество слоев, ширина FFN, размер словаря и совместное использование параметров.
🟢Влияние архитектуры модели на скорость вывода более значительно на этапе предварительной обработки (prefill), чем на этапе декодирования.
🟢Использование памяти во время выполнения обычно линейно коррелирует с количеством параметров модели.
Влияние квантования и оборудования
🟠Преимущества квантования на этапе декодирования больше, чем на этапе предварительной обработки.
🟠Графические процессоры демонстрируют еще большее преимущество перед центральными процессорами на этапе предварительной обработки.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SLM #Paper #Arxiv
✔️ OpenAI сделала 4 крупных анонса на DevDay 2024.
На конференции DevDay OpenAI представила четыре ключевых инновации: Vision Fine-Tuning, Realtime API, Model Distillation и Prompt Caching.
Prompt Caching : функция снижает затраты за счет применения 50% скидки на входные токены, которые модель недавно обработала.
Vision Fine-Tuning : позволит разработчикам настраивать возможности визуального восприятия GPT-4o, используя изображения и текст.
Realtime API : находится в стадии публичного бета-тестирования и предлагает мультимодальный доступ с низкой задержкой, особенно в задачах преобразования речи.
Model Distillation : упрощает тонкую настройку небольших моделей с использованием результатов более крупных, делая обучение более доступным.
openai.com
✔️ Google представила новые функции ИИ в ChromeOS и анонсировала две новые модели Chromebook.
С этого месяца все Chromebook будут оснащены функцией «чат с Gemini», а Chromebook Plus получат новые функции Google AI: «Помоги мне читать», «Живой перевод» и улучшения звука.
Samsung Galaxy Chromebook Plus — тонкий Chromebook, с 8 Гб RAM, Intel Core 3 100U, 256 Гб SSD и 15,6-дюймовый экран, 13 часов автономной работы.
Lenovo Chromebook Duet — 11-дюймовый Chromebook, который превращается в планшет для заметок с помощью встроенной подставки и пера USI Pen 2. Он оснащен процессором MediaTek Kompanio 838, до 8 Гб RAM и 128 Гб хранилищем.
siliconangle.com
✔️ Microsoft внедряет ИИ в Paint и приложение «Фотографии».
Microsoft добавит в Paint и «Фотографии» новые функции на базе ИИ для пользователей ПК с Copilot Plus - "генеративное заполнение" и "генеративное стирание".
Генеративное стирание удаляет ненужные фигуры и объекты аналогично функции «Волшебный ластик» на телефонах Google Pixel.
Генеративное заполнение позволяет добавлять сгенерированные ИИ объекты на изображение, используя текстовое описание.
В приложении «Фотографии» также появится генеративное стирание и новая функция сверхвысокого разрешения. Пользователи смогут увеличивать изображения до 8х с регулировкой уровня масштабирования, это больше чем в Adobe Lightroom (4x).
Функция бесплатна и работает быстро, масштабируя изображения «до 4K за считанные секунды» (с).
theverge.com
✔️ Ядерный микрореактор компании Westinghouse может стать источником энергии для будущих ЦОД с ИИ.
Westinghouse Electric представила Предварительный отчет по безопасности проекта для микрореактора eVinci в Национальный центр инноваций в области реакторов при Министерстве энергетики США, это стало важной вехой в процессе, начатом в октябре прошлого года. Америка в значительной степени отказалась от ядерной энергетики после аварии на Три-Майл-Айленде в 1979 году, но она возвращается благодаря астрономическим потребностям в энергии (и охлаждении) современных моделей ИИ.
eVinci работает «как аккумулятор», в нем используется очень мало движущихся частей, он полагается на «первую в мире 4-метровую тепловую трубу ядерного класса» для передачи тепла.
Помимо обеспечения электроэнергией объектов и установок, реактор может генерировать высокотемпературное тепло для производства водородного топлива. Каждый реакторный блок рассчитан на круглосуточную работу в течение восьми лет. Когда реактор выработает все свое топливо, Westinghouse заменит его на другой герметичный реактор.
digitaltrends.com
✔️ Суд в Германии вынес решение против фотографа, подавшего в суд на LAION за нарушение авторских прав.
В апреле 2023 года фотограф Роберт Кнешке обнаружил свои фотографии в датасете LAION, используемом для обучения ИИ. Кнешке потребовал удалить свои фотографии, но LAION отрицала хранение копий, утверждая, что ведет базу данных ссылок на открытые изображения.
Региональный суд Гамбурга постановил, что LAION воспользовалась исключением из нарушения авторских прав. Суд заявил, что набор данных LAION некоммерческий и предназначен для научных исследований. Тот факт, что данные могут быть использованы коммерческими компаниями для обучения систем ИИ, не имеет значения.
petapixel.com
@ai_machinelearning_big_data
#news #ai #ml
OpenCV: как начать работать с компьютерным зрением
Ждем вас на открытом вебинаре 10 октября в 20:00 мск, где мы разберем:
- как работать с библиотекой opencv-python;
- как осуществлять обработку изображений классическими алгоритмами;
- принципы работы с видеопотоком в OpenCV.
Урок для начинающих и продвинутых разработчиков компьютерного зрения.
Встречаемся в преддверии старта курса «Компьютерное зрение». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://otus.pw/gvN1/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
🌟 VPTQ: экстремальное квантование векторов LLM с низким битрейтом от Microsoft.
Vector Post-Training Quantization (VPTQ) - экспериментальный метод, который использует векторное квантование LLM c сохранением высокой точности при сверхнизкой битовой ширине (<2 бит).
🔥 VPTQ позволяет сжать 70B до 1-2 бит без переобучения и запустить ее на потребительской 4090.
VPTQ использует технику оптимизации второго порядка для векторного квантования в LLM. Ключевым алгоритмом VPTQ является "Channel-Independent Second-Order Optimization" - квантование каждого столбца матрицы весов независимо и использование взвешенной по матрице Гессе инициализации центроидов.
Оптимизация в VPTQ состоит из применения взвешенных К-средних для центроидов, остаточного векторного квантования (RVQ) в качестве балансировщика ошибки и исключения выбросов в весах для повышения точности .
Эксперименты на моделях LLaMA-2, LLaMA-3 и Mistral-7B показали, что в сравнении с существующими методами, VPTQ обеспечивает сопоставимую или более высокую точность при 2-битном квантовании, уменьшая перплексию
на 0.01-0.34, 0.38-0.68 и 4.41-7.34
соответственно.
🏸 VPTQ отличается низкими вычислительными затратами процесса квантования (10.4-18.6% от времени аналогичных алгоритмов) и высокой пропускной способностью при инференсе (в 1.6-1.8 раза выше, чем у SOTA)
В сообществе VPTQ на Huggingface выложена 41 модель в разрядностях VPTQ-квантования от 1.375 до 4 bits:
🟢Llama 3.1 Instruct (8B, 70B и 405B);
🟢Qwen 2.5 Instruct (7B, 14B и 72B) .
Посчитать битность и размер модели по названию на примере Meta-Llama-3.1-70B-Instruct-v8-k65536-256-woft
:
🟢v8 - длина вектора, равная 8
🟢k65536 - количество центроидов (2^16)
🟢256 - количество остаточных центроидов (2^8)
🟠woft - маркировка without finetune, в расчете не участвует.
Расчет итоговой битности: индекс: log2(65536) = 16 / 8 = 2 bits, остаточный индекс: log2(256) = 8 / 8 = 1 bit, итоговое значение 2 bits+1 bit, = 3 bits.
Расчет размера модели (без учета codebook): 70B * 3 bits / 8 bits = 26.25 GB.
▶️Локальная установка и примеры инференса в разных режимах:
# Set up CUDA PATH:
export PATH=/usr/local/cuda-12/bin/:$PATH
# Clone repo:
pip install git+https://github.com/microsoft/VPTQ.git --no-build-isolation
# Simple generation:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --prompt="..."
# Chatbot example:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --chat
# Gradio Web App
python -m vptq.app
-> Для расширения кругозора: подкаст про ML в компаниях разных направлений
Стартовал новый сезон подкаста «Деньги любят техно», посвященный актуальным вопросам Data Science. В этом сезоне ведущие приглашают в гости специалистов из разных компаний разных сфер и обсуждают с ними сходства и различия в задачах ML, построение команд, скиллы DS, необходимые в той или иной отрасли.
Первым гостем в сезоне стал старший директор по данным и аналитике «Авито» Андрей Рыбинцев, который уже 10 лет работает в компании над продуктами, связанными с машинным обучением. Сам Андрей говорит о своей работе так:
«Сказать, что вот есть какие-то два-три приоритетных направления сложно, потому что так или иначе ML есть везде»
Посмотреть подкаст
Послушать подкаст
‼️Тест по ИИ в медицине от OTUS
Задача на решение с помощью ИИ:
Что получится в результате выполнения кода?
import numpy as np
arr = np.arange(0, 20).reshape((5, 4))
— Ответьте на 8 вопросов и проверьте, насколько хорошо вы знаете тему ИИ в медицине. Сможете сдать — получите полезный файл со статьями о ИИ в медицине, его развитии и перспективах, а так же спец цену на курс и возможность окунуться в мир ИИ в медицине.
👉ПРОЙТИ ТЕСТ - https://otus.pw/LIkr/
Курс доступен в рассрочку.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.erid: LjN8KTY6T
🌟 Пространственно-временное прогнозирование с помощью Байесовских нейронных полей.
Байесовские нейронные поля (Bayes NF) - метод масштабируемого пространственно-временного прогнозирования, объединяющий архитектуру глубокой нейронной сети моделирования функций с иерархическим Байесовским моделированием для точной оценки неопределенности в сложных пространственно-временных полях.
Bayes NF строятся на основе Байесовской нейронной сети, отображающей многомерные пространственно-временные координаты в действительное поле.
Для получения высокой априорной вероятности для данных как с низко-, так и с высокочастотными вариациями, к исходным данным о времени и положении, подающимся в сеть, добавляются признаки Фурье, а чтобы учитывать априорные неопределенности, параметры сети получают априорное распределение.
Апостериорный вывод осуществляется с помощью стохастических ансамблей оценки максимального апостериори (MAP) или вариационно обученных суррогатов.
Метод Bayes NF относительно прост, он может обрабатывать пропущенные данные и обучаться по полному распределению вероятностей для произвольных пространственно-временных индексов.
Bayes NF универсален и применим к различным наборам данных без необходимости разработки новой модели для каждого случая или применения специфических для набора данных аппроксимаций вывода.
⚠️ Для локального запуска BayesNF на средних и больших объемах данных требуется GPU.
▶️ Практические туториалы с возможностью запуска на Google Coolab:
🟢анализ на основе пространственно-временного набора данных из 20 временных рядов еженедельных случаев заболевания ветряной оспой в Венгрии в период с 2005 по 2015 гг. Блокнот;
🟢анализ данных из об уровне загрязнения воздуха, измеряемом датчиками по всему Лондону каждый час. Блокнот.
▶️Локальная установка:
# Install bayesnf from PIP into venv:
$ python -m venv pyenv
$ source pyenv/bin/activate
$ python -m pip install -U bayesnf
# Install dependencies for Python 3.10
$ python -m pip install -r requirements.Python3.10.14.txt
🌟 Local File Organizer: менеджмент локальных файлов под управлением LLM и VLM.
Local File Organizer (LFO) - инструмент для управления локальными файлами и папками, который поможет навести порядок. Он использует квантованные в Q4 модели Google Gemma 2-2B и Llava v1.6 в сочетании с Nexa SDK чтобы выполнять заданные операции с локальным содержимым. Последовательность работы LFO выглядит упрощенно так:
🟢Сканирование: LFO сканирует целевой каталог поисках.
🟢Категоризация содержимого: LLM анализирует и обобщает содержимое найденных файлов и создает описания и имена файлам, VLM по такому же принципу обрабатывает графику.
🟢Организация: На основе сгенерированных метаданных, файлы упорядочиваются в новую структуру каталогов.
Весь процесс происходит на 100% на локальном устройстве. Не требуется подключение к Интернет, данные не покидают локальную машину, и не требуется никаких API — файлы остаются в полной конфиденциальности и безопасности.
LFO может работать на CPU и GPU в Windows, macOS и Linux, понимает графические форматы (.png, .jpg, .jpeg, .gif, .bmp), текстовые (.txt, .docx) и PDF-файлы. Системные промпты управления моделями кастомизируемы.
⚠️ Важно!
🟠Для установки с использованием GPU (CUDA, Metal, ROCm) ознакомьтесь с инструкцией по установке.
🟠Аргументы настройки инференса LLM и VLM можно найти тут.
🟠Предварительно скачайте модели Gemma 2-2B и Llava v1.6 и пропишите путь до них в конфигах.
🟠Предварительно установите Tesseract OCR;
🟠Кастомизация системных промптов - в файле data_processing.py
.
▶️ Установка и запуск для CPU:
# Clone the Repository
git clone https://github.com/QiuYannnn/Local-File-Organizer.git
#Create & activate Conda env
conda create --name local_file_organizer python=3.12
conda activate local_file_organizer
# Install the CPU version of Nexa SDK
pip install nexaai --prefer-binary --index-url https://nexaai.github.io/nexa-sdk/whl/cpu --extra-index-url https://pypi.org/simple --no-cache-dir
# Install the dependencies
pip install -r requirements.txt
# Running the Script
python main.py
🌟 vGPU NVIDIA на базе драйвера Nouveau для Linux.
NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.
Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.
Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.
Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.
Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.
🟡Страница релиза
🟡Документация
🟡Host Kernel
🟡Guest driver package
@ai_machinelearning_big_data
#AI #ML #vGPU #Linux #NVIDIA
🌟 Show-me: альтернатива ChatGPT-O1 на Сhat-Gpt-4o-mini.
Show-Me — это проект, который использует LangChain для связи с gpt-4o-mini и визуализирует процесс рассуждений в виде динамического графического интерфейса.
Ключевая особенность Show-Me - алгоритм «Reasoning, Refinement, and Update» (RRU), который обрабатывает запросы.
Этот алгоритм работает следующим образом: сначала LLM оценивает сложность задачи и, если это необходимо, разбивает её на подзадачи. Затем она генерирует ответы для каждой подзадачи, а система автоматически проверяет их. Если ответ не проходит проверку, LLM уточняет его, основываясь на результатах.
Этот процесс продолжается до тех пор, пока ответ не будет соответствовать всем критериям. Наконец, результаты подзадач объединяются для получения окончательного ответа.
Весь процесс отображается в реальном времени с помощью динамического графика, что делает процесс рассуждений LLM понятным и наглядным.
Show-Me имеет модульную архитектуру, состоящую из frontend на основе React и backend на базе Flask. Frontend отвечает за взаимодействие с пользователем, визуализацию графика рассуждений и отправку запросов на backend.
Backend обрабатывает взаимодействие сgpt-4o-mini, выполняет алгоритм RRU, управляет разбиением задач, агрегирует ответы и отправляет обновления на frontend через SocketIO.
В будущем разработчики планируют расширить возможности Show-Me, добавив поддержку большего количества языков программирования, улучшив визуализацию и позволив пользователям выбирать различные LLM.
▶️Установка и запуск:
# Clone the Repository
git clone https://github.com/marlaman/show-me.git
# Backend Setup
cd backend
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Create a .env file and add your OpenAI API Key:
# OPENAI_API_KEY=[your key]
# Frontend Setup:
cd .. # poject root
npm install # or yarn install
# Run Backend
python app.py #or flask run
# Run Frontend
npm start # or yarn start
⚡️ Molmo: семейство state-of-art MMLM.
Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:
🟢ответы на вопросы;
🟢обнаружение и сегментация по текстовому запросу;
🟢подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;
🟢расширение возможностей VR.
▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.
▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.
▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.
Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).
Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.
Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.
⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.
📌Лицензирование : Apache 2.0
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #ML #Molmo #MoE #MMLM
🌟 ASR и диаризация речи от RevAI.
RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb и набор моделей для построения конвейера speech-to-text.
Reverb включает в себя: модель ASR на базе WeNet и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU.
Reverb ASR обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом.
Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования.
Reverb ASR использует совместную архитектуру CTC/attention и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в recognize_wav.py
. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:
🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.
В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).
Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.
Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.
Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.
Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.
▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.
⚠️ Для локальной установки понадобится Huggingface API KEY
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #Diarization #REVAI
Игнорирование больших данных и нейросетей сегодня — почти гарантия провала. Именно поэтому стоит начать погружение в востребованную сферу Data Science и понять, чем занимаются специалисты по машинному обучению и анализу данных. За 5 дней вы узнаете, как работают нейросети, и создадите свою для поиска новостей.
📌 Зарегистрируйтесь прямо сейчас и получите эксклюзивный бонус — гайд «Как пользоваться ChatGPT и Midjourney + 25 полезных нейросетей»: https://epic.st/Frfie?erid=2Vtzqws7wUt
Что будем делать на мини-курсе:
— Узнаем, где востребована наука о данных, и разберёмся в различиях 3 основных направлений
— Освоим азы языка Python и визуализируем данные с его помощью
— Изучим базовые конструкции языка SQL
🎁 Вас ждут подарки:
— Год бесплатного изучения английского языка
— Персональная карьерная консультация
— 5 полезных чек-листов для старта карьеры
🎉 Все участники мини-курса получат сертификат на скидку 10 000 рублей на любой курс Skillbox.
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
🌟 Model2Vec: создание компактных и быстрых моделей на основе Sentence Transformer.
Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.
Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.
Отличительные особенности:
🟢быстрая дистилляция, процесс создания модели занимает несколько минут;
🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;
🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;
🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;
🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained
и push_to_hub
.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
Зачем тестировать торговую стратегию?
✅ Разберемся в теме на практическом уроке — Тестирование торговых стратегий с помощью инструмента Backtrading
Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска
Регистрация на урок 👇
https://otus.pw/zVM8/?erid=LjN8KEAnj
#реклама
О рекламодателе
Word2Vec — классика векторных представлений слов для решения задач текстовой обработки
Приглашаем на практический эфир с преподавателем ВШЭ Марией Тихоновой
✅ Изучение и практика: Векторные представления слов; алгоритм word2vec
Урок посвящен курсу «Machine Learning. Professional» по окончанию которого вы сможете претендовать на Junior+ и Middle позиции Data Scientist
👇 Регистрация на урок:
https://otus.pw/zjNx/?erid=LjN8KQawq
#реклама
О рекламодателе
🌟 SAM 2.1 Developer Suite: очень небольшое обновление.
Segment Anything Model (SAM) - это набор базовых моделей, которые позволяют автоматически сегментировать любые объекты, независимо от их формы, размера и расположения на изображении и видео.
Meta без официального пресс-релиза обновила модели SAM до версии 2.1. Обновление минорное :
🟢повышена точность идентификации на изображении (визуальное отделение от фона) ~ 1.5 % по сравнению с SAM2
🟢увеличена точность сегментации нескольких объектов на изображении ~ 2% от SAM2
🟢повышено качество сегментации объектов во времени для видео ~ 2% от SAM2.
Набор моделей: tiny, small, base_plus и large остался прежним, как и их размеры и производительность.
⚠️ Чтобы использовать новые модели SAM 2.1, необходима последняя версия кода из репозитория. Если установлена более ранняя версия, ее необходимо сначала удалить с помощью pip uninstall SAM-2
.
▶️ Набор кода для самостоятельного обучения базовой модели с подробной инструкцией можно найти в разделе training репозитория SAM2. Все необходимые изменения в связи с обновлением до версии 2.1 внесены.
▶️Подробная инструкция по запуску локальной установки с web-интерфейсом в разделе demo репозитория. Backend - Docker, frontend - yarn.
Демо-ноутбуки для запуска в Google Collab:
🟠автоматическое создание масок объектов;
🟠маскирование объектов по текстовому промпту;
🟠интерактивная сегментация на видео.
📌Лицензирование : Apache 2.0 License.
🟡Коллекция моделей на HF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SAM2 #META #Segmentation #CV
✔️ Microsoft предлагает новую систему категоризации для LLM-систем, которые используют внешние данные.
Система классифицирует задачи по типу необходимых внешних данных и сложности рассуждений и выделяет четыре уровня: явные факты, неявные факты, интерпретируемые обоснования и скрытые обоснования.
Явные факты — это когда нужно просто взять информацию из данных. Неявные — когда нужно подумать и сделать вывод. Интерпретируемые обоснования — это когда нужно понять суть и использовать правила или принципы из внешних источников. Скрытые обоснования — это когда нужно найти и использовать неявные способы рассуждения.
venturebeat.com
✔️ Еврокомиссия назначила 13 экспертов для разработки Кодекса в области ИИ.
Этот кодекс предоставит разработчикам GPAI четкие рекомендации по соблюдению требований Закона ЕС об ИИ, который вступил в силу в прошлом месяце и вводит строгие правила для поставщиков моделей GPAI в августе 2025 года.
Кодекс должен быть разработан к апрелю 2025 года и будет включать прозрачность, правила авторского права, таксономию системных рисков, оценку рисков и меры по их снижению.
Сегодня состоялось первое онлайн-заседание с участием около 1000 человек, включая поставщиков моделей GPAI, представителей промышленности, гражданского общества, научных кругов и независимых экспертов
euronews.com
✔️ Отчет об исследовании возможностей OpenAI o1-preview: 280-страничный PDF.
Международная группа ученых оценила производительность модели o1-preview от OpenAI на задачах, требующих сложных рассуждений в областях: информатика, математика, естественные науки, медицина, лингвистика и социальные науки. Модель продемонстрировала высокую эффективность, сравнимую с человеком, и в некоторых случаях превосходящую его.
o1-preview показала отличные результаты в генерации кода, составлении рентгенологических заключений, планировании команд для роботов, количественном инвестировании, переводе на малые языки, образовательных вопросах и ответах, улучшении студенческих работ, создании 3D-макетов, разработке чипов, логическом мышлении, анализе медицинских данных, анализе социальных сетей, аналогическом мышлении и других задачах.
arxiv.org
✔️ Microsoft Research представляет Data Formulator: инструмент на базе ИИ для создания визуализаций данных.
Data Formulator позволяет создавать диаграммы с нуля или выбирать из шаблонов, используя “нити данных”. LLM обрабатывает ввод, генерируя код для создания визуализации и обновляя “нити данных”. Они позволяют просматривать и изменять ранее созданные диаграммы, упрощая редактирование и уточнение благодаря адаптации кода к новым контекстам.
Архитектура Data Formulator отделяет преобразование данных от конфигурации диаграммы, улучшая пользовательский опыт и производительность ИИ. Система генерирует скрипт Vega-Lite на основе спецификаций пользователя, определяющий визуализацию, инструкции ИИ для преобразования данных и создание диаграммы.
microsoft.com
✔️ ИИ учится видеть лица там, где их нет.
Ученые из MIT (CSAIL) создали базу данных из 5000 изображений с парейдолическими лицами для изучения восприятия иллюзорных образов людьми и ИИ. База превосходит предыдущие коллекции по размеру и поможет глубже изучить феномен парейдолии — способности видеть лица и фигуры в случайных объектах.
Для создания "Faces in Things" отобрали около 20 000 изображений из набора данных LAION-5B, размеченных и оцененных людьми. Аннотаторы обводили воспринимаемые лица и отвечали на подробные вопросы о каждом лице: эмоция, возраст, случайность.
Анализ базы данных выявил "Goldilocks Zone of Pareidolia" — класс изображений с определенной визуальной сложностью, где вероятность увидеть лицо высока для людей и ИИ.
Модели ИИ не распознавали парейдолические лица как люди, пока их не обучили распознавать морды животных. Это подтверждает возможную эволюционную связь между способностью распознавать лица животных и склонностью видеть лица в неодушевленных предметах.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
➕ Machine Learning: Медицинский дайджест за период 22.09 - 29.09 2024 года
📌 Модели машинного обучения и бенчмарки
🟩 DREAMS: Фреймворк для создания моделей анализа ЭЭГ.
DREAMS(Deep REport for AI ModelS) - фреймворк для создания прозрачных и интерпретируемых моделей глубокого обучения для анализа ЭЭГ. Он написан на Python и использует модульную архитектуру, включающую этапы предварительной обработки данных, обучения модели, оценки ее производительности и генерации отчета (карточки модели).
🟩 Uni-Med: унифицированная базовая модель для многозадачного обучения с помощью Connector-MoЕ.
Uni-Med - основа для создания универсальных медицинских моделей, способных выполнять различные задачи на основе одного архитектурного решения. Модель успешно справляется с медицинскими задачами: ответы на вопросы, генерацию описаний медицинских изображений, анализ рентгеновских снимков и классификацию изображений.
Uni-Med состоит из трех ключевых модулей: универсального экстрактора признаков изображения, коннектора на основе смеси экспертов (CMoE) и LLM.
🟩 LLM для диагностики психических расстройств по текстам из социальных сетей.
Результаты показали, что GPT-4 и Llama 3 демонстрируют высокую точность в задачах бинарной классификации, достигая 85% на некоторых наборах данных. Важную роль играет prompt engineering, позволяющий существенно улучшить результаты Mixtral 8x22b и Gemma 7b.
В задаче проверки знаний в области психиатрии более современные модели в целом превосходили более старые и большие аналоги (Llama 3.1 405b достигла точности 91.2%).
🟩MEDICONFUSION: оценка надежности медицинских MMLM.
MediConfusion — набор данных для оценки медицинских мультимодальных больших языковых моделей (MLLM), который продемонстрировал их уязвимость к визуально различным, но похожим с точки зрения ИИ изображениям.
Результаты тестов оказались тревожными: все протестированные модели MLLM, включая как общедоступные, так и коммерческие, показали точность ниже случайных догадок. Более того, модели часто выбирали один и тот же вариант ответа для обоих изображений в паре, что свидетельствует об их неспособности различать эти изображения.
🟩 AMPLIFY: протеиновая языковая модель (pLM) для предсказания свойств разработки новых белков.
🟩 SLaVA-CXR: автоматизации рентгенологических отчетов грудной клетки.
🟦 Экосистема цифровых двойников в онкологии.
Авторы платформы предлагают использовать несколько специализированных цифровых двойников: "Двойник медицинской необходимости", "Двойник координатора медицинской помощи" и "Двойник истории болезни", для оптимизации рабочего процесса и персонализации лечения каждого пациента на основе его уникальных данных.
🟦 Повышение безопасности медицинских ИИ-систем: интеграция Llama Guard и NeMo Guardrails.
🟦 InterMind: интерактивная система оценки депрессии с участием врача, пациента и семьи на основе LLM.
🟦 openCHA:фреймворк для чат-агентов на базе LLM.
💉≈ Исследования и обзоры
🟫 Потенциал использования GPT-о1 в медицине.
🟫 Непрерывное дообучение LLM для задач клинической медицины.
🟫 ИИ в брахитерапии: обзор методов и архитектур.
🟫 Поиск информации в электронных медицинских картах: Сравнение эмбединг-моделей и стратегий объединения.
🟫 Обучение специализированных медицинских LLM на основе моделей общего назначения: обзор данных, методологий и способов оценки.
🔥Полный дайджест
@ai_machinelearning_big_data
🌟 Awesome-list советов по поступлению в аспирантуру и научной работе.
Репозиторий GitHub "advice", в котором содержится обширная коллекция ссылок на ресурсы, предлагающие советы по различным аспектам поступления в аспирантуру, проведения исследований и жизни в аспирантуре, в основном в области информатики, NLP и ML.
Автор репозитория - Shaily Bhatt, аспирант первого года обучения в Институте языковых технологий CMU и бывший сотрудник NLU Group в Google Research (Индия).
Содержание:
Заявки в аспирантуру:
🟢общие советы по заявкам;
🟢советы, специфичные для программ MS;
🟢советы по заявкам на предварительные докторские программы;
🟢советы о том, стоит ли получать докторскую степень;
🟢советы по выбору учебных заведений и научных руководителей.
Исследования:
🟠общие советы по исследованиям;
🟠советы для аспирантов;
🟠идеи для исследований;
🟠советы по написанию работ;
🟠советы по рецензированию;
🟠советы по чтению;
🟠советы по публикации и конференциям;
🟠советы по динамике отношений между научным руководителем и аспирантом;
🟠советы по научно-исследовательским стажировкам;
🟠советы по нетворкингу;
🟠советы по выступлениям и презентациям;
🟠советы по продуктивности;
🟠советы по борьбе с синдромом самозванца;
🟠советы по инструментам для исследований.
В репозитории также есть раздел "Список списков", в котором собраны ссылки на другие полезные ресурсы.
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Resources #Github #Awesome
✔️ ИИ может (в основном) превзойти человека-CEO.
Исследование, проведенное Strategize Inc, стартапом выпускников Кембриджа доказывает, что ИИ способен стать ценным инструментом для руководителей. ИИ "сегодняшнего дня" может автоматизировать анализ данных, моделировать сложные сценарии и помогать в принятии более эффективных решений.
Эксперимент проводился с использованием бизнес-симулятора автомобильной индустрии США, большая языковая модель GPT-4o соревновалась с 344 участниками, включая студентов и опытных руководителей. GPT-4o продемонстрировал неожиданные результаты, превзойдя человеческих конкурентов по ключевым показателям эффективности: разработке продукта, реакции на рыночные сигналы и росту прибыли.
AI-CEO был уволен виртуальным советом директоров быстрее, чем студенты. GPT-4o не удалось адаптироваться к непредвиденным обстоятельствам, в то время как студенты проявили большую гибкость и дальновидность в своих стратегиях. Интересно, что опытные руководители также проявили себя хуже студентов, что указывает на общую тенденцию к чрезмерной уверенности в успехе краткосрочных стратегий.
hbr.org
✔️ Рост популярности ChatGPT связан с сокращением обмена знаниями на онлайн-платформах вопросов и ответов.
Исследование, опубликованное в журнале PNAS Nexus показало, что широкое распространение LLM, таких как ChatGPT, привело к значительному снижению публичного обмена знаниями на платформах, подобных Stack Overflow.
Исследователи обнаружили, что после запуска ChatGPT количество публикаций на Stack Overflow сократилось на 25% за шесть месяцев. Это происходит потому, что люди предпочитают обращаться к ChatGPT за ответами на вопросы, а не публиковать их на открытых платформах, где их могли бы видеть и использовать другие люди.
techxplore.com
✔️ Raspberry Pi представила модуль камеры для ИИ-приложений.
Raspberry Pi AI Camera — это новый модуль камеры, который интегрирует в себя ускоритель ИИ Sony IMX500. Он умеет работает с моделями нейронных сетей, потребляя мало энергии и обеспечивая низкую задержку, освобождая процессор Raspberry Pi для выполнения других задач.
Камера совместима со всеми моделями Raspberry Pi, включая Raspberry Pi Zero. Ее производительность сопоставима с Raspberry Pi AI Kit, который был выпущен ранее, но AI Camera более компактна и доступна по цене - 70 $.
Она отлично интегрируется с программным обеспечением для камер Raspberry Pi, позволяя запускать модели машинного обучения с высокой скоростью.
raspberrypi.com
✔️ Apple отказывается от инвестиций в OpenAI.
Apple отказалась от планов по инвестированию в OpenAI. Как сообщает The Wall Street Journal, Apple вышла из переговоров об участии в раунде финансирования OpenAI, который должен был завершиться на следующей неделе и привлечь 6,5 млрд долларов.
Несмотря на отказ от прямого инвестирования, Apple продолжает сотрудничество с OpenAI в рамках интеграции ChatGPT в iOS 18. ChatGPT будет обрабатывать запросы, связанные с общими знаниями, дополняя функциональность голосового помощника Siri.
Примечательно, что, по данным Bloomberg, Apple не платит OpenAI за использование ChatGPT в iOS 18, и наоборот, OpenAI не платит Apple за доступ к платформе. Apple считает, что интеграция с iOS 18 обеспечит OpenAI рекламу и привлечение новых пользователей, что само по себе является ценным вкладом, сопоставимым с денежными инвестициями.
wsj.com
✔️ YOLO11: новая эра в компьютерном зрении.
Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения.
YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков.
YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m.
YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python.
ultralytics.com
@ai_machinelearning_big_data
#news #ai #ml
🔥 Memory pinning для ускорения обучения моделей
Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.
...изменив всего две строки кода.
DataLoader
надо установить pin_memory=True
и указать num_workers
(См Картинку 4)non_blocking=True
(См Картинку 5)Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!
🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена.
Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.
Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.
Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения).
Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).
▶️ Представлены 3 модели:
🟢Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;
🟢Emu3-Gen – модель для генерации изображений по текстовому описанию;
🟢Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены.
Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench.
Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.
Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта.
⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено.
▶️Локальная установка:
# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3
# Install requirements
pip install -r requirements.txt
✔️ FTC объявила о правоприменительных мерах против нескольких компаний за обман и недобросовестное использование ИИ.
Федеральная торговая комиссия (FTC) объявила о запуске операции «AI Comply» против компаний, использующих ажиотаж вокруг искусственного интеллекта для обмана потребителей. Уже возбуждено пять дел.
FTC отмечает участившиеся случаи использования ИИ для мошенничества. Компании, против которых возбуждены дела: Do Not Pay, обещавшая услуги «робота-юриста», Ascend Ecom, предлагавшая создать онлайн-магазины с помощью ИИ для пассивного дохода, Ecommerce Empire Builders, продававшая тренинги и готовые интернет-магазины для получения прибыли, и Rytr, предлагавшая сервис для написания отзывов на основе ИИ.
Комиссия продолжит пресекать подобные случаи мошенничества.
ftc.gov
✔️ Nebius, отделившись от Яндекса, планирует инвестировать в инфраструктуру ИИ 1 млрд. долларов.
Амстердамская группа Nebius, которая возникла после разделения активов российского технологического гиганта «Яндекс», планирует инвестировать более 1 млрд. долларов в инфраструктуру ИИ в Европе к середине 2025 года.
Компания планирует расширить собственные мощности GPU, построив новый кластер в Париже и расширить существующий центр обработки данных в Финляндии. Инвестиции позволят Nebius достичь общей мощности в десятки тысяч GPU.
kfgo.com
✔️ SoundExchange разрабатывает глобальный реестр звукозаписей для ИИ.
Компания SoundExchange, занимающаяся сбором и распределением гонораров за использование музыки, объявила о разработке глобального реестра звукозаписей, предназначенного для использования в сфере ИИ. Ожидается, что реестр будет запущен в первом квартале 2025 года и станет развитием уже существующих систем SoundExchange.
Этот реестр позволит создателям музыки и правообладателям указать, хотят ли они, чтобы их произведения использовались для обучения алгоритмов ИИ. База данных позволит компаниям, создающим модели ИИ, проверять наличие разрешений перед использованием записей для обучения своих алгоритмов.
SoundExchange видит в этом реестре возможность упростить музыкальную индустрию, защитить ценность музыки и предоставить создателям больший контроль над использованием их произведений в сфере ИИ. Несмотря на то, что реестр будет добровольным инструментом, правообладатели сохранят за собой все юридические права на свои записи, независимо от их присутствия в базе данных.
thatericalper.com
✔️ Браузер Brave добавил возможность использовать локальные LLM.
Brave представил новую функцию в версии браузера 1.69 и выше, которая позволяет пользователям использовать локальные LLM вместо облачных решений. Эта функция, получившая название «Bring Your Own Model» (BYOM), призвана обеспечить большую конфиденциальность, поскольку данные пользователей не покидают устройство.
Для использования локальных моделей пользователям потребуется Ollama. В настройках Brave Leo пользователи могут добавить свою модель, указав ее имя, эндпоинт сервера и, при необходимости, ключ API. Для локальных моделей ключ API не требуется. После добавления модели ее можно выбрать в качестве основной.
itsfoss.com
✔️ Google расширила возможности NotebookLM, добавив поддержку YouTube и аудиофайлов.
Теперь NotebookLM позволяет создавать краткие обзоры видео с YouTube и аудиофайлов. Новые функции помогают обобщать ключевые моменты видео и аудиозаписей генерировать из них подкасты и делиться ими по прямой ссылке.
Например, полная версия этой новости в формате подкаста на английском языке.
NotebookLM, изначально использовавшийся преподавателями и учащимися, привлекает все больше бизнес-пользователей. Райза Мартин, старший менеджер по продуктам ИИ в Google Labs, отметила, что теперь 50% пользователей - преподаватели и учащиеся, а 50% - бизнес-профессионалы.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 Как связать тяжелые процессинги и инференс моделей, даже если нагрузка в процессинге превышает возможности вашего сервиса
Разработчик из Яндекса рассказывает, как решали задачу генерации миллиардов рекламных объявлений на малом количестве GPU. Команда разработала сервис для инференса, причём как для моделей GPU‑intensive, так и для тех, которые считаются на ядре. Равномерное распределение нагрузки в момент обработки событий помогло утилизировать внутренние ресурсы полностью и экономить ресурсы во внешних сервисах, не получая даунтайм при наплыве новых клиентов или событий.
🟡 Habr
@ai_machinelearning_big_data
#ml #ai
🖥 CUDA Programming Course – High-Performance Computing with GPUs
Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12 -ти часовой видео курс научит вас программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.
Содержание:
🔜 (0:00:00) Вступление
🔜 (0:16:52) Глава 1 (Экосистема глубокого обучения)
🔜 (0:37:43) Глава 2 (Настройка CUDA)
🔜 (0:47:03) Глава 3 (Обзор C/C++)
🔜(1:35:47) Глава 4 (Введение в графические процессоры)
🔜 (1:51:40) Глава 5 (Написание ваших первых ядер)
🔜 (3:55:26) Глава 6 (CUDA API)
🔜 (5:35:22) Глава 7 (Быстрое умножение матриц)
🔜 (8:22:36) Глава 8 (Triton)
🔜 (9:04:43) Глава 9 (Расширения PyTorch)
🔜 (9:18:10) Глава 10 (Многослойный персептрон MNIST)
🔜 (11:41:13) Глава 11 (Что изучать дальше?)
🔜 (11:54:38) Заключение
▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4
▪Code: https://github.com/Infatoshi/cuda-course
▪Github https://github.com/Infatoshi/mnist-cuda
▪Nvidia CUDA in 100 Seconds: https://youtu.be/pPStdjuYzSI?si=WIUc--IpgN-Qi2AP
#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс
@ai_machinelearning_big_data