⚡12 сентября в 20.00 мск приглашаем на открытый урок курса Reinforcement Learning, где разберем продвинутые подходы к обучению нейросетей и узнаем как технологично разрабатываются чат-боты и контекстный поиск на примере кейсов open ai.
🎓Во время эфира рассмотрим:
- ключевые подходы обучения с подкреплением для нейросетей;
- кейсы современных RL архитектур для контекстных поисковых приложений и чат- ботов;
- практический пример решения задачи контекстного поиска.
👉Регистрация https://otus.pw/3UPS/?erid=LjN8JvMaV
Обучение на курсе позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем. При поступлении в группу возможны разные способы оплаты и рассрочка платежа.
⚡️Idefics3: обновление мультимодальной модели от Huggingface.
Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.
Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.
⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.
📌Лицензирование : Apache 2.0
🟡Модель
🟡Demo
@ai_machinelearning_big_data
#AI #MLLM #ML #Idefics3
🌟 ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена.
In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.
ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.
Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:
🟠Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment
🟠Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования
🟠Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.
Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.
Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.
▶️Установка:
# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt
# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg
# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt
# Install required packages
pip install -e .
# Install git-lfs
sudo apt install git-lfs
git lfs install
# Download checkpoints
git clone git@hf.co:mlfu7/ICRT checkpoints
Новостной дайджест
✔️ Чат-боты больших языковых моделей усиливают ложные воспоминания человека.
Воздействие ИИ на появление ложных воспоминаний человека - актуальное направление исследований, особенно в контексте потенциального применения ИИ в деликатных сферах, таких как полицейская работа. Эксперимент с 200 участниками показал: чат-бот на основе LLM вызывал в 3 раза больше ложных воспоминаний, чем у контрольной группы, которая не общалась с чат-ботами.
36,4% ответов участников, взаимодействовавших с LLM, содержали заблуждения. Через неделю уверенность в этих ложных воспоминаниях все еще оставалась высокой.
Исследование выявило факторы риска: меньший опыт общения с чат-ботами, знакомство с другими технологиями ИИ и интерес к расследованиям преступлений увеличивали вероятность формирования ложных воспоминаний. Результаты показывают необходимость этических политик при внедрении ИИ-технологий в реальных сферах деятельности.
media.mit.edu
✔️ Самообучающийся алгоритм AI делает прогнозы на результаты матчей NFL сезона 2024 года.
Алгоритм использовал исторические данные и текущие тенденции для определения наиболее вероятных исходов каждого матча. В результате он сделал прогнозы формата: "against the spread", "over-under", и "money line" для каждого матча первого тура сезона.
AI использовал математические модели для анализа данных и выявления закономерностей в результатах матчей. Он учитывал различные факторы - состав команд, тренерский опыт и текущие травмы игроков. Прогнозы алгоритма могут быть полезны для болельщиков и любителей спорта, которые хотят получить более точную информацию о результатах матчей.
cbssports.com
✔️ OpenAI планирует создавать собственные чипы на базе готовящегося к выпуску техпроцесса A16 от TSMC.
Создание собственных чипов позволит OpenAI оптимизировать свою архитектуру для работы с моделями AI, что приведет к увеличению производительности и снижению энергопотребления при эксплуатации.
Также, свое производство позволит компании иметь полный контроль над объемами и поставками оборудования и, как следствие, снизить риски в логистике. Планы OpenAI по созданию собственных чипов являются частью более широкой стратегии компании по развитию своих технологий AI.
yahoo.com
✔️ GenAI для редактирования ДНК.
Profluent Bio создали OpenCRISPR-1, улучшенную версию предыдущей системы CRISPR для редактирования генов. OpenCRISPR-1 использует LLM, обученную на более чем миллионе оперонов CRISPR и предназначен в первую очередь для понимания структур и создания новых белковых структур.
OpenCRISPR-1 показал такую же эффективность в декомпозиции ДНК, как и существующие модели, но при этом он допускал меньше ошибок. Разработчики выложили OpenCRISPR-1 в открытый доступ, чтобы способствовать развитию и использованию системы в будущих исследованиях.
OpenCRISPR-1 поможет лечить генетические заболевания наиболее безопасным, быстрым и персонализированным способом. Несмотря на то, что до практического применения еще далеко, подобные инструменты открывают возможности для создания индивидуальных генных редакторов.
crisprmedicinenews.com
✔️ Clearview AI оштрафована голландскими властями за базу данных распознавания лиц.
Голландское агентство по защите данных (Dutch DPA) оштрафовало компанию Clearview AI на 30,5 миллионов евро за создание незаконной базы данных лиц. База данных содержит миллиарды фотографий лиц, включая лица голландских граждан. Clearview AI предлагает услуги по распознаванию лиц и собирает данные из социальных сетей.
По мнению Dutch DPA, использование услуг Clearview AI также является незаконным и может привести к штрафам для организаций.
Компания Clearview AI уже получала штрафы от регулирующих органов Великобритании, Австралии, Франции и Италии. Апелляцию на штраф голландских властей компания пока не подавала.
euronews.com
@ai_machinelearning_big_data
#news #ai #ml
Курсы от Центрального университета для тех, кто уже многое видел в ML, DL и ИИ для углубленной прокачки навыков!
Университет открыл курсы дополнительного образования с интенсивной программой уровня второго курса магистратуры и большим количеством практики. Обучение проходит по вечерам или по субботам, занятия можно посещать как оффлайн в московском кампусе, так и онлайн.
Выбирайте от одного до четырех курсов из списка:
– Рекомендательные системы;
– компьютерное зрение;
– обработка естественного языка;
– прогнозирование временных рядов.
Подробнее о курсах и университете здесь.
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
Новостной дайджест
✔️ Laion перевыпустит датасет Laion 5B.
Laion 5B - крупнейший открытый набор данных изображений в интернете. Он был изъят из публичного доступа из-за претензий о содержавшихся в нем неуместных и неэтических изображениях.
Новый набор данных, Re-LAION-5B создан в сотрудничестве Laion с организациями Internet Watch Foundation (IWF) и Canadian Center for Child Protection (C3P).
В процессе обновления было удалено 2236 ссылок, которые были идентифицированы как потенциально ведущие к подозрительному контенту. Новый набор данных Re-LAION-5B содержит 5,5 миллиардов пар текст-ссылка-изображение и будет доступен для скачивания в двух версиях: Re-LAION-5B research и Re-LAION-5B research-safe под лицензией Apache 2.0.
laion.ai
✔️ Pixar следующего поколения: как искусственный интеллект объединит фильмы и игры.
Большая статья о будущем анимационной индустрии и её трансформации благодаря новым технологиям на сайте венчурного фонда Andreessen Horowitz.
Основное внимание статьи уделяется тому, как искусственный интеллект и другие цифровые инструменты меняют процесс создания анимации.
Авторы приводят примеры стартапов и компаний, которые уже используют технологии ИИ для создания высококачественной анимации с меньшими затратами времени и ресурсов. Предполагается, что такие изменения могут привести к появлению новых форматов контента и расширению возможностей для независимых аниматоров.
a16z.com
✔️ Sam Altman, Bill Gates и создатель Youtube примут участие в TВ-шоу на канале ABC.
Oprah Winfrey анонсировала новый спецвыпуск о будущем искусственного интеллекта "AI and the Future of Us". В шоу примут участие : генеральный директор OpenAI Sam Altman, Bill Gates, Директор ФБР Christopher Wray и создатель Youtube Marques Brownlee.
В программе будут обсуждаться основы ИИ, его влияние на образование, здравоохранение и другие отрасли, а также его потенциальное воздействие на правоохранительные органы и национальную безопасность. На шоу будут продемонстрированы существующие продукты со встроенным ИИ.
Шоу выйдет в эфир на канале ABC 12 сентября в 20:00 EST и будет доступна для просмотра на платформе Hulu на следующий день.
Участие в шоу Oprah Winfrey является признаком того, что ИИ становится все более популярной и важной темой в обществе.
techradar.com
✔️ Новая архитектура нейронных сетей может сделать ИИ более понятными.
Новая архитектура нейронных сетей, Kolmogorov-Arnold Networks (KANs), может сделать искусственный интеллект более интерпретируемым. KANs отличаются от традиционных нейронных сетей тем, что они используют более простые и понятные человеку функции для преобразования входных данных.
Эксперименты, проведенные в MIT и других институтах показали, что KANs могут быть более точными чем традиционные нейронные сети, но обучение KANs требует больше времени и вычислительных ресурсов, чем традиционные нейронные сети.
technologyreview.com
✔️ Новый метод непрерывного дообучения моделей компьютерного зрения и языка.
В опубликованном исследовании предложен новый подход к непрерывному дообучению зрительных и языковых моделей, который учитывает реальные требования их развертыванию в практических приложениях.
Исследование включает в себя четыре направления: влияния различных комбинаций данных и порядка их поступления на процесс дообучения, сравнение различных методов дообучения, изучение влияния мета-LR и планировщиков на процесс дообучения и анализ влияния масштабирования модели и вычислительных ресурсов на процесс дообучения.
Результаты исследования дают практические рекомендации для непрерывного дообучения моделей. Дополнительно, предложена концепция платформы FoMo-in-Flux, которая будет оценивать эффективность методов дообучения.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
🌟 Законы масштабирования нейросетей для рекомендательных систем
ML-специалисты Яндекса разобрались, есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров. Опираясь на опыт авторов из WeChat и Tencent, они подробно расписали, как решается эта задача и в каких сценариях работает закон.
🟡Arxiv
🟡Разбор
@ai_machinelearning_big_data
#ai #ml #tech
Попробуй написать свою имплементацию
🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем
✅ Практика: Построение рекомендательной системы с помощью библиотеки surprise.
Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus.
👉 Регистрация и подробности:
https://otus.pw/NCSg/?erid=LjN8JyJVt
🌟 NV-Embed-v2: Универсальная embedding-модель от Nvidia.
NVIDIA опубликовала в своем репозитории NV-Embed-v2, универсальную embedding-модель, которая занимает первое место в бенчмарке Massive Text Embedding Benchmark (MTEB benchmark, по состоянию на 30 августа 2024 года) с 56 задачами, включающими поиск, повторное ранжирование, классификацию, кластеризацию и задачи семантического сходства текстов.
Embedding модели позволяют преобразовать текстовые данные в плотные векторные представления, которые используются для задач NLP.
На практике embedding модели используются для векторизации исходного текста, например корпоративной информации, которой нет в основной LLM, и использования его для построения RAG-систем
torch=2.2.0, transformers=4.42.4, flash-attn=2.2.0, sentence-transformers=2.7.0
;import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task
task_name_to_instruct = {"example": "Given a question, retrieve passages that answer the question",}
query_prefix = "Instruct: "+task_name_to_instruct["example"]+"\nQuery: "
queries = [
'are judo throws allowed in wrestling?',
'how to become a radiology technician?'
]
# No instruction needed for retrieval passages
passage_prefix = ""
passages = [
"** LLM Answer about judo **",
"** LLM Answer about radiology **"
]
# load model with tokenizer
model = AutoModel.from_pretrained('nvidia/NV-Embed-v2', trust_remote_code=True)
# get the embeddings
max_length = 4096
query_embeddings = model.encode(queries, instruction=query_prefix, max_length=max_length)
passage_embeddings = model.encode(passages, instruction=passage_prefix, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
# get the embeddings with DataLoader
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
Новостной дайджест
✔️ Atlassian приобретает компанию Rewatch для интеграции с Loom
Компания Atlassian объявила о приобретении компании Rewatch, разработчика AI-инструментов для записи и анализа встреч. Rewatch будет интегрирован с платформой Loom, которую Atlassian приобрела в прошлом году за 975 миллионов долларов. Интеграция позволит автоматически создавать заметки и задачи на основе записей встреч и сделать их доступными для поиска в рамках бизнес-контекста.
В будущем, Loom сможет присоединяться к встречам в Zoom, Google Meet и Microsoft Teams, создавать полные транскрипты, заметки и задачи, которые можно автоматически связать с страницами Confluence, задачами Jira и тикетами службы поддержки.
techcrunch.com
✔️ OpenAI и Anthropic поделятся своими моделями с правительством США.
Компании OpenAI и Anthropic подписали соглашения с правительством США о сотрудничестве в области исследований, тестирования и оценки их моделей ИИ. Соглашения, заключенные с Институтом безопасности искусственного интеллекта США, предусматривают доступ института к новым моделям ИИ компаний до и после их публичного выпуска.
reuters.com
✔️ Magic представила новую модель со 100M контекстным окном и бенчмарк HashHop.
Компания Magic представила новую модель, способную обучаться на контексте длиной до 100 миллионов токенов. Эта модель, названная LTM (Long-Term Memory), позволяет обучаться на большом объеме данных и хранить информацию в долгосрочной памяти.
По словам разработчиков, модель имеет большой потенциал для применения в разработке ПО. Например, она может быть использована для синтеза кода, если модель имеет доступ ко всем массивам проекта, документации и библиотекам в контексте, включая те, которые не доступны в публичном интернете.
Также Magic представила новую методику оценки контекстных окон, HashHop. Этот бенчмарк оценивает способность модели хранить и извлекать информацию из контекста без использования явных семантических подсказок.
magic.dev
✔️ Stable Diffusion v1.5 был удален с Huggingface и Github.
Runway без предупреждения пользователей удалила содержимое своего репозитория с Huggingface и репозиторий, содержащий SD 1.5 c Github. Никаких публичных заывлений от компании на сегодняшний день не поступало.
Ранее компания Runway была участником исследований Stable Diffusion и занимала значимую позицию в соответствующих разработках. Однако публикация открытого кода Stable Diffusion 1.5 на Hugging Face вызвала споры из-за проблем с авторскими правами, что, по мнению представителей сообщества и привело к "тихому" удалению.
aibase.com
✔️ Jina AI представила "Late Chunking" - простой подход к внедрению коротких чанков за счет использования возможностей эмбеддинг-моделей с длинным контекстом.
Представленный метод позволяет создавать более эффективные и контекстно-зависимые векторные представления текста, тем самым улучшить результаты поиска и извлечения информации. "Late Chunking" сначала применяет слой трансформера ко всему тексту, а затем разделяет его на чанки и применяет эмбеддинг к каждому фрагменту, что позволяет сохранить контекстную информацию и улучшить результаты поиска.
Эксперименты на наборе данных BEIR, показали, что "Late Chunking" улучшает результаты поиска и извлечения информации по сравнению с традиционным подходом. Особенно заметное улучшение наблюдается при работе с длинными документами.
jina.ai
@ai_machinelearning_big_data
#news #ai #ml
🔥 Яндекс опубликовал программу конференции Practical ML Conf
Мероприятие, где компания ежегодно анонсирует свои крупные запуски, пройдет в этом году 14 сентября. В программе анонсированы выступления спикеров:
✔️ Ирина Барская, руководитель службы аналитики и исследований — «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
✔️ Екатерина Глазкова, тимлид команды алайнмента VLM службы компьютерного зрения — «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
✔️ Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
✔️ Степан Комков, старший разработчик службы синтеза речи — «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».
✔️ Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Мероприятие пройдет в Москве в пространстве «Суперметалл». Для участия нужно зарегистрироваться на сайте и получить приглашение. Доклады можно также послушать онлайн, трансляция будет доступна на сайте конференции.
Подробности и регистрация
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.
🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.
Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
🟢Eagle-X5-7B
🟢Eagle-X5-13B
🟠Eagle-X5-13B-Chat
Архитектура Eagle-X5:
🟠LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;
🟠Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях - CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);
🟠Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;
🟠Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.
Обучение модели Eagle-X5 проходит в три этапа:
🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;
🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;
🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
⚡️ Новостной дайджест.
✔️ NVIDIA запускает NIM Agent Blueprints для предприятий, чтобы помочь им создать свой корпоративный ИИ.
Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.
NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.
NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com
✔️ Claude.ai сделала доступной функцию Artifacts для всех пользователей.
Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com
✔️ Cerebras Inference: самый быстрый инференс для языковых моделей.
Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.
Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai
✔️ Закрыта студия дополненной реальности MetaSpark.
Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.
Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com
@ai_machinelearning_big_data
#news #ai #ml
Как увеличить производительность DBaaS в 10 раз?
Selectel запустил базы данных на выделенном облачном сервере — уникальный продукт, аналогов которому нет в России. Вы можете получите готовый к работе кластер облачных баз данных с изолированной на физическом уровне инфраструктурой. Новое решение позволит хранить и обрабатывать базы данных размером до 7 ТБ с производительностью до 1,5 млн IOPS.
Преимущества DBaaS на выделенном облачном сервере:
- Максимальная производительность. Увеличили производительность дисковой подсистемы DBaaS — до 1,5 млн IOPS, пропускную способность — до 7 000 МБ/с.
- Экономическая выгода. В зависимости от конфигурации стоимость нового решения до 47% ниже стандартного DBaaS-сервиса.
- Быстрый запуск. Не нужно самостоятельно подбирать железо, оптимизировать настройки и разворачивать CУБД.
- Безопасность. Изоляция базы данных на уровне физического сервера. Услуга соответствует закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018.
Разверните базу данных на выделенном облачном сервере: https://slc.tl/o74tm
Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqwjvKoT
Новостной дайджест
✔️ AMD назначает ветерана ИИ-индустрии на пост вице-президента.
AMD объявила о назначении Кита Стайера старшим вице-президентом глобального рынка ИИ. Стайер имеет более 30 лет опыта работы в технологическом бизнесе и развитии рынков, технической инженерии и обеспечения ответственной разработки ИИ. Ранее он занимал пост вице-президента международных инициатив в области ИИ в компании NVIDIA. Он будет работать под руководством генерального директора AMD, Лисы Су.
finance.yahoo.com
✔️ Intel выпускает серию процессоров Core Ultra 200V "Lunar Lake".
Серия "Lunar Lake" предназначена для конкуренции с процессорами Arm, используемыми в устройствах Apple и Microsoft. По словам производителя, это самые эффективные процессоры x86 на данный момент.
Процессоры Core Ultra 200V получили снижение энергопотребления до 50% по сравнению с предыдущими поколениями, повышение производительности до 120 TOPS за счет комбинации CPU, GPU и NPU.
Новинки оснащены четвертым поколением NPU, которое в 4 раза мощнее своего предшественника, а также новой графической архитектурой Xe2, на 30% более производительной предыдущей версии GPU.
Процессоры Core Ultra 200V будут использоваться в потребительских устройствах на базе Intel Evo от Acer, ASUS, Dell Technologies, HP, Lenovo, LG, MSI и Samsung.
Устройства с новыми процессорами будут доступны для предварительного заказа с сегодняшнего дня, а в продаже появятся 24 сентября. Все устройства с процессорами Core Ultra 200V и последней версией Windows будут иметь право на бесплатное обновление функций Copilot+ PC.
intel.com
✔️ Чеклист: Что нужно для достижения успеха в обеспечении безопасности ИИ?
Большая статья Sam Bowman, руководителя исследовательского подразделения Anthropic, в которой он высказывает предположение о том, чего должны добиться разработчики для обеспечения безопасности ИИ в процессе создания сверхчеловеческого AI.
sleepinyourhat.github.io
✔️ Hugging Face заключил сотрудничество с TruffleHog для поиска чувствительных данных.
Hugging Face интегрировала TruffleHog в свою экосистему для сканирования репозиториев на наличие секретов, таких как учетные данные, токены и ключи шифрования. Если обнаружен подтвержденный секрет, пользователь получает уведомление по электронной почте. Hugging Face создала собственный сканер TruffleHog, который дает возможность пользователям сканировать свои модели, наборы данных и Spaces на наличие секретов.
huggingface.co
✔️ Проект Graphiti: Графы темпоральных знаний на основе LLM.
Graphiti - инструмент создания и запроса графов знаний, которые развиваются с течением времени.
Граф знаний - это сеть взаимосвязанных фактов, они были широко изучены для поиска информации. Уникальность Graphiti заключается в ее способности автономно строить граф знаний, обрабатывая изменяющиеся отношения и сохраняя исторический контекст. Демо проекта
help.getzep.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 Яндекс представил бета-версию нейросети YandexART (Vi) для создания реалистичных видео с движущимися объектами.
Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создаёт и улучшает изображения и анимацию в ответ на текстовые запросы. В более ранних версиях модель обучили прорабатывать мелкие детали при генерации контента, а также работать в заданном художественном стиле и создавать фотореалистичные портреты.
YandexART (Vi) же научилась воссоздавать реалистичные движения, а также учитывать связь между кадрами — благодаря этому генерируемые видео получаются более цельными и плавными. Чтобы нейросеть могла справляться с этой задачей, её обучили на роликах с движущимися объектами, например, с едущим автомобилем или крадущимся котом.
▪️Хабр
@ai_machinelearning_big_data
#AI #ML
Событие для тех, кто хочет развиваться в робототехнике! 🤖
14 сентября центр робототехники Сбера проводит One Day Offer для DevOps- и MLOps-инженеров. Это возможность погрузиться в мир передовых технологий и получить заветный оффер всего за один день!
Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям манипуляции, роботизации логистики, мобильных и антропоморфных роботов.
Задачи DevOps:
✔️ конфигурация систем разработки, тестирования, средств автоматизации и ИТ-инфраструктуры
✔️ оборачивание кода в docker образы и развёртывание контейнеров в Kubernetes
✔️ обеспечение мониторинга и выявление узких мест в работе систем
Задачи MLOps:
✔️ создание и внедрение MLOps-практик для исследований в направлениях RL, инференса LLM
✔️ настройка инструментов отслеживания жизненного цикла моделей (ClearML, MLFlow, DVC и т. п.)
✔️ развитие LLMOps-практик (эффективный инференс LLM для ChatGPT-like решений)
Если для вас это не просто слова, откликайтесь по ссылке!
🌟 Mini-Omni : Мультимодальная речевая модель.
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;
🟢генерация текста и аудио одновременно;
🟢потоковое воспроизведение аудио;
🟢пакетное преобразование "speech-to-text" и "speech-to-speech".
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
▶️Установка:
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
🌟 MLR-Copilot : Генерация исследовательских идей в машинном обучении.
MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.
Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.
MLR-Copilot работает в три интегрированных этапа:
🟢Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.
🟢Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.
🟢Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.
⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.
🟡Arxiv
🟡Demo
🟡Google Collab (инференс)
🖥Github
@ai_machinelearning_big_data
#AI #Copilot #MLTool #LLM
🌟 GuideLLM: Оценка и анализ производительности LLM в реальных условиях.
GuideLLM - инструмент для оценки и оптимизации развертывания LLM. Моделируя рабочие нагрузки по инференсу в реальных условиях, GuideLLM помогает оценить производительность, потребности в ресурсах и принять решение по необходимой аппаратной конфигурации для запуска LLM.
Возможности :
🟢Оценка производительности: анализируйте инференс LLM при различных сценариях нагрузки;
🟢Оптимизация ресурсов: определите наиболее подходящие конфигурации оборудования для оптимальной работы целевой модели;
🟢Оценка затрат: понимание финансовых последствий различных стратегий развертывания и принятие обоснованных решений для минимизации затрат;
🟢Тестирование масштабируемости: имитация масштабирования с большим количеством одновременных пользователей.
Для использования GuideLLM требуется OpenAI-совместимый сервер, например, vLLM. Целевая модель для оценки может быть размещена как локально, так и в сети.
▶️ Установка и запуск на примере оценки квантованной Llama-3.1-8B :
# Установка из pip
pip install guidellm
# Запуск модели в vLLM
vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"
# Запуск GuideLLM
guidellm \
--target "http://localhost:8000/v1" \
--model "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16" \
--data-type emulated \
--data "prompt_tokens=512,generated_tokens=128"
guidellm --help
и guidellm-config
🌟 Microsoft Research AutoGen Studio: Low-Code интерфейс для быстрого прототипирования агентов LLM.
Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.
AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.
AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.
Возможности :
🟢Создание / настройка агентов (пока поддерживаются 2 рабочих процесса агентов на основе UserProxyAgent и AssistantAgent), изменение их конфигурации (например, навыки, температура, модель, системные сообщения агента, модель и т.д.) и объединение их в рабочие процессы;
🟢Чат с агентами по рабочим процессам и определение для них задач;
🟢Просмотр сообщений агента и выходных файлов в пользовательском интерфейсе после запуска агента;
🟢Поддержка сложных рабочих процессов агентов (например, групповой чат и последовательные рабочие процессы);
🟢Улучшение качества работы пользователей (например, потоковая передача промежуточных ответов LLM, лучшее обобщение ответов агентов и т. д.);
🟢AutoGen Studio использует SQLModel (Pydantic + SQLAlchemy). Это обеспечивает связь между сущностями (навыки, модели, агенты и рабочие процессы связаны через таблицы ассоциаций) и поддерживает несколько диалектов бэкенда базы данных, которые есть в SQLAlchemy (SQLite, PostgreSQL, MySQL, Oracle, Microsoft SQL Server).
Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.
⚠️ Примечания от разработчика:
🟠AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов.
🟠AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом.
🟠Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.
🌟 Command-r и Command-r-plus: Обновление 08-2024 мультиязычных LLM.
Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.
Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.
Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.
Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r
Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.
✔️ Отличия от предыдущей версии и особенности обновления:
🟢улучшение процесса принятия решений о том, какой инструмент использовать в том или ином контексте, а также о том, стоит ли использовать тот или иной инструмент;
🟢улучшенная инструкция, следующая в преамбуле;
🟢улучшен многоязычный поиск RAG на языке пользователя;
🟢улучшенный анализ структурированных данных для манипулирования;
🟢повышена устойчивость к несемантическим изменениям подсказки, таким как пробелы или новые строки;
🟢модели будут отказываться от вопросов, на которые невозможно ответить;
🟢моделям подняли уровень качества цитирования, добавили возможность отключать цитирование для RAG;
🟢в Command-r перенастроен контроль длины рассуждений и форматирования;
🟢новая функция "Режимы безопасности" - строгий и контекстный, оба режима доступны к ручному управлению пользователю (переключение или отключение). Этот режим не отключает встроенную в модель базовую цензуру, он работает как дополнительный цензор. Более подробно про новый режим безопасности можно почитать в документации.
Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.
▶️Стоимость API:
🟠Command-r-08-20240 : $0.15/1M Input Tokens | $0.60/1M Output Tokens.
🟠Command-r-plus-08-2024 : $2.50/1M Input Tokens | $10.00/1M Output Tokens.
📌Лицензирование : CC-BY-NC-SA-4.0 License + соблюдение C4AI's Acceptable Use Policy.
🟡Demo
🟡Документация
🟡Модель Command R
🟡Модель Command R+
@ai_machinelearning_big_data
#AI #CommandR #Cohere #LLM
🌟 Автоматическое проектирование агентов LLM
Развитие базовых языковых и иснтруктивных моделей , таких как GPT и Claude, дал возможность создания агентов общего назначения, способных к гибкому рассуждению и планированию. Но разработка этих агентов часто требует ручной настройки и значительных усилий со стороны инженеров и ресерчеров.
Для упрощения процесса проектирования агентов появилось новое направление исследований — автоматизированное проектирование агентных систем (Automated Design of Agentic Systems, ADAS).
Главное назначение методологии ADAS - автоматизация создания новых агентных блоков и их объединение в сложные системы.
Используя возможности LLM и гибкость языков программирования, ADAS обещает более эффективный и действенный подход к созданию комплексных агентных систем.
Поисковый алгоритм с помощью мета-агента является ярким примером ADAS в действии. Он использует мета-агента, который по сути является LLM, для итеративного проектирования новых агентов на основе постоянно растущего архива результатов предыдущих поисков.
ADAS позволяет исследовать обширное пространство кода, теоретически позволяя обнаружить любую возможную агентную систему. Мета-агент должен исследовать интересные проекты: новые промпты, использование инструментов, потоки управления и их комбинации.
Благодаря обширным экспериментам в областях программирования, науки и математики, алгоритм демонстрирует способность изобретать агентов с новыми проектами, которые превосходят современных агентов, разработанных вручную.
Один из реализованных проектов ADAS в практической среде - использование алгоритма Meta Agent Search в связке с GPT:
# Create Conda venv:
conda create -n adas python=3.11
# Activate venv:
conda activate adas
#Install Dependencies:
pip install -r requirements.txt
# Set OpenAI API Key:
export OPENAI_API_KEY="YOUR KEY HERE"
# Navigate to _arc folder:
cd _arc
# Run Meta Agent Search
python search.py
🌟 SkillMimic: Обучение человекоподобного объекта навыкам по их демонстрации на примере баскетбола.
SkillMimic - метод моделирования симуляции поведения 3D-объекта или физического человекоподобного робота для изучения различных баскетбольных навыков на примерах демонстрации этих навыков людьми.
Основная техника метода заключается в обучении движениям человека используя данные Human-Object Interaction (HOI). Обучаемый объект взаимодействует с окружающей средой на основе прогнозов действий, определяемых политикой и руководствуясь единым вознаграждением за имитацию HOI.
Функция вознаграждения состоит из двух компонентов:
🟢Contact Graph Reward, система оценки контакта объекта с предметом (мячом). вычисляется как экспонента от суммы взвешенных ошибок между смоделированным и эталонным (HOI) графом контактов.
🟢Kinematic rewards,, совокупность оценок за имитацию движений объекта (позиции, повороты, скорости), рассчитываемые методом среднеквадратичной ошибки и отрицательной экспоненциальной нормализации между эталоном (HOI) и движением объекта.
В результате обеспечивается точная имитация движений с мячом с предотвращением локальных оптимумов.
Приобретенные навыки могут быть повторно использованы, объединены и комбинированы целевым объектом для выполнения сложных задач с помощью высокоуровневого контроллера.
SkillMimic позволяет отказаться от традиционного трудоемкого планирования вознаграждений и вместо этого использовать данные HOI для определения и изучения навыков.
Программная интерпретация SkillMimic позволяет обучаться различным баскетбольным навыкам: бросок, подбор, бросок с разворота.
После приобретения этих навыков их можно комбинировать для выполнения сложных задач: непрерывный набор очков, дриблинг в сторону корзины, тайминг дриблинга и броска, поиск отскока и повторение всего процесса.
⚠️ Предобученные модели находятся в репозитории в директории /data/models/
▶️Установка с использованием среды Issac Gym:
# Create venv
conda create -n skillmimic python=3.8
conda activate skillmimic
pip install -r requirements.txt
# Install the Issac Gym
tar -xzvf /{your_source_dir}/IsaacGym_Preview_4_Package.tar.gz -C /{your_target_dir}/
cd /{your_target_dir}/isaacgym/python/
pip install -e .
python skillmimic/run.py --test --task SkillMimicBallPlay --num_envs 16 \
--cfg_env skillmimic/data/cfg/skillmimic.yaml \
--motion_file skillmimic/data/motions/BallPlay-M/layup \
--checkpoint skillmimic/data/models/mixedskills/nn/skillmimic_llc.pth
# Transform the images into a video
python skillmimic/utils/make_video.py --image_path skillmimic/data/images/test_images --fps 60
🌟 OmniRe: 3DGS-метод реконструкции и симуляции городской среды.
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
🟠метод не моделирует световые эффекты при различных условиях освещения;
🟠OmniRe еще не умеет генерировать отсутствующие или исправлять некорректные ракурсы, когда камера значительно отклоняется от траекторий съемки.
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
🟢гибкое обучение с использованием нескольких камер;
🟢использование ядра растеризации gsplat с расширенными функциями абсолютных градиентов, сглаживания и т.д;
🟢уточнение ракурса камеры;
🟢уточнение границ для Bounding Box объектов в режиме GT;
🟢афинное преобразование экспозиции съемки для выравнивания освещенности.
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
🟢разработка средство просмотра в режиме реального времени;
🟢инструменты для редактирования и симуляции сцен;
🟢поддержка 2DGS, Surfels и других представлений.
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
▶️Установка:
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
⚡️ Новостной МЛ дайджест
✔️ Google предлагает подписчикам Gemini Advanced новые функции: Gems и Imagen 3.
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
✔️ Суд признал Google монополией, окажет ли это влияние на рынок ИИ.
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
✔️ Microsoft разрабатывает новые подходы к ИИ, по примеру работы человеческого мозга.
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
✔️ Релиз Vectorlite v0.2.0: быстрый векторный поиск в процессе работы на любом языке с поддержкой SQL.
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
🌟LongVILA: Масштабирование VLM с длинным контекстом для обработки длинных видео.
LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.
Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.
Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.
MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.
Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).
Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:
🟢Llama-3-LongVILA-8B-128Frames;
🟢Llama-3-LongVILA-8B-256Frames;
🟢Llama-3-LongVILA-8B-512Frames.
Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.
📌Лицензирование кода : Apache 2.0 license.
📌Лицензирование моделей: CC-BY-NC-SA-4.0 license.
🟡Arxiv
🟡Набор моделей
🖥Github [ Stars: 1.2K | Issues: 33 | Forks: 92]
@ai_machinelearning_big_data
#AI #NVLab #VLM #ML
🌟Zamba2-mini: компактная и производительная модель с гибридной архитектурой.
Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.
Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:
🟢добавлены rotary position embeddings;
🟢чередующиеся трансформерные блоки заменены одним общим;
🟢вместо LoRA на блоке MLP добавлены проекторы LoRA в блоки внимания.
Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.
Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.
Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.
⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.
Реализацию Zamba2-1.2B для Pytorch можно найти здесь.
▶️Локальная установка и инференс:
# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git
#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate
#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)
input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
⚡️ CogVideoX: Модель CogVideoX-5B теперь в открытом доступе
Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.
Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github
Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.
📌Лицензирование кода : Apache 2.0 License.
📌Лицензирование модели CogVideoX-2B: Apache 2.0 License.
📌Лицензирование модели CogVideoX-5B: CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 5.9K | Issues: 19 | Forks: 543]
@ai_machinelearning_big_data
#AI #Text2Video #Cogvideo #ML