🌟EMO-Disentanger: Создание фортепианной музыки с помощью двухэтапного анализа и функционального представления c заданным эмоциональным тоном.
Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.
Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.
Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.
Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.
▶️Для локального запуска потребуются:
🟢python 3.8 + CUDA 10.2;
🟢pytorch fast-transformers или transformers, в зависимости от установленной версии CUDA;
🟢midi2audio для конвертации сгенерированного MIDI в audio (опционально);
🟢предварительно загруженные events и веса.
📌Лицензирование : MIT license
🟡Страница проекта
🟡Модели
🟡Arxiv
🖥Github [ Stars: 12 | Issues: 0 | Forks: 1]
@ai_machinelearning_big_data
#AI #Music #ML
🌟 Lynx v1.1: Модели c 8B и 70B параметрами для обнаружения галлюцинаций RAG.
LYNX - первая модель обнаружения галлюцинаций с открытым исходным кодом. Она представляет собой результат тонкой настройки Llama-3-70B-Instruct на комплексном датасете из разных областей, включая финансы и медицину, с акцентом на сложные сценарии реальных запросов и инференса.
Данные обучения включают примеры из RAGTruth, DROP, CovidQA и PubMedQA, с 300 образцами на источник, предварительно прошедшими perturbed-обработку для создания "галлюцинирующих" ответов.
Процесс обучения использовал цепочку мышления с GPT-4о для улучшения возможностей рассуждения.
Были обучены два варианта моделей: Lynx 70B и Lynx 8B.
Для использования в Ollama, llama.cpp и LM Studio были созданы квантированные 4-bit GGUF версии моделей Lynx 8B и 70B соответственно.
Чтобы облегчить оценку работы модели, разработчики предлагают HaluBench, бенчмарк галлюцинаций, содержащий 15 000 маркерных образцов, полученных из датасетов: DROP, FinanceBench, COVID-QA, PubMedQA, HaluEval и RAGTruth.
Для моделирования галлюцинации, HaluBench использует технику perturbed, при которой генерируются семантически измененные ответы, сохраняя минимальные отличия от первоначального ответа. Этот метод выполняет генерацию сложных примеров, которые могут быть неправильно истолкованы как верные, несмотря на несоответствия контексту.
⚠️ Lynx фокусируется исключительно на оценке внутренней галлюцинации, которая оценивает согласованность сгенерированного текста с предоставленным контекстом. Оценка внешних факторов галлюцинаций выходит за рамки функционала модели.
Lynx может быть запущен несколькими способами: с помощью Ollama, llama.cpp, LM Studio, в виде локального инференса или как интеграция с NVIDIA NeMo-Guardrails:
🟢инструкцию по запуску для llama.cpp можно найти на странице GGUF версии модели на HF;
🟢инструкция по запуску для Ollama - на странице проекта;
🟢инструкция по интеграции с NVIDIA NeMo-Guardrails в репозитории NeMo-Guardrails.
▶️Локальный запуск (инференс и тренировка):
# Install local environment:
python -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install poetry==1.8.1
poetry update
poetry install
# Install pre-commit in your teminal and run:
pre-commit install
#Copy .env.example to .env and replace values for environmental variables.
#Установки Inference и Finetuning на mcli и vLLM описаны в файлах:
# mcli/mcli_finetuning.md
# mcli/mcli_inference.md
# mcli/vllm_inference.md
⚡️ FLUX: SOTA Text-to-image модели от BlackForest.
Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.
Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:
🟠FLUX.1 pro. Старшая и лучшая модель в семействе, доступная только по подписке через API и на онлайн-сервисах Replicate и FalAI. Подписка доступна частным лицам и корпоративным пользователям. Стоимость подписки - 0.05USD за изображение 1024х1024 при 50 шагах генерации;
🟢FLUX.1 dev. Открытая модель для некоммерческого использования. Оптимизирована методом дистилляции из версии FLUX.1 pro, что сделало ее менее требовательной к потреблению VRAM, повысило скорость инференса при незначительной деградации качества и точности. Веса модели доступны на Huggingface. Для коммерческой эксплуатации нужно запрашивать лицензию у разработчика.
🟢FLUX.1 schnell. Младшая и самая быстрая модель, предназначенная для локальной разработки и личного использования. Версия schnell распространяется под лицензией Apache2.0 и опубликована в открытом доступе на Huugingface.
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.
Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.
Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:
# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'
# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>
# For cli interactive sampling run
python -m flux --name <name> --loop
# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"
# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py
⚡️ Новостной дайджест
✔️Thermometer: метод, не позволяющий модели искусственного интеллекта быть слишком уверенной в неправильных ответах.
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
✔️OpenAI анонсировала альфа-тестирование экспериментальной модели GPT-4o Long Output.
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
✔️GenSQL: Использование LLM для структурированных данных.
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
✔️AMD становится AI Chip компанией.
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
✔️StreamTinyNet: анализ многокадрового видео на устройствах Arduino-формата
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
✔️Полностью автоматизированный робот-стоматолог впервые в мире провел процедуру на человеке.
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 InstantSplat: реконструкция больших 3D-сцен без Structure from Motion (SfM).
InstantSplat - подход к реконструкции 3D-сцены по исходным изображениям с помощью Multi-View Stereo (MVS) и 3D Gaussian Splatting (3D-GS).
Методика InstantSplat использует выборку из самых дальних точек (FPS) в каждом вокселе, чтобы сохранить только самые надежные гауссианы для построения точного представления сцены.
Одновременное уточнение гауссовых атрибутов и параметров камеры с помощью фотометрических потерь позволяет добиться высокого качества рендеринга и точной оценки положения камеры без использования Adaptive Density Control (ADC). Для решения проблемы overparameterization, присущей 3D-GS, InstantSplat применяет confidence-aware point downsampler.
Алгоритм оптимизации в InstantSplat позволяет исправлять ошибки, накопленные на этапе MVS, в результате чего получается относительно точная и плотная 3D-модель.
По сравнению с релевантными современными методами (Nope-NeRF и CF-3DGS), InstantSplat предлагает более высокое качество рендеринга, более высокую точность оценки положения камеры при низких значениях Absolute Trajectory Error (ATE) и Relative Pose Error (RPE), при этом требует меньшего количества обучающих просмотров.
▶️Локальный запуск с автозагрузкой модели на тестовом подготовленном датасете (около 8Gb) :
# Clone InstantSplat and download pre-trained model
git clone --recursive https://github.com/NVlabs/InstantSplat.git
cd InstantSplat
git submodule update --init --recursive
cd submodules/dust3r/
mkdir -p checkpoints/
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth -P checkpoints/
# Install dependencies (modify CUDA version dep. of your system)
pip install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install submodules/simple-knn
pip install submodules/diff-gaussian-rasterization
# modify the rasterizer
vim submodules/diff-gaussian-rasterization/cuda_rasterizer/auxiliary.h
'p_view.z <= 0.2f' -> 'p_view.z <= 0.001f' # line 154
# Optional but highly suggested, compile the cuda kernels for RoPE
cd submodules/dust3r/croco/models/curope/
python setup.py build_ext --inplace
# Data preparation OR download test pre-processed sample.
cd <data_path>
# InstantSplat train and output video (no GT reference, render by interpolation)
bash scripts/run_train_infer.sh
# InstantSplat train and evaluate (with GT reference)
bash scripts/run_train_eval.sh
Соберём ансамбль — вместе веселее!
Приглашаем на открытый урок, где вы узнаете как усилить свои модели объединяя их сильные стороны.
🔹Расскажем в чем заключается "сила толпы" и когда оправдано ее использование
🔹Покажем методы объединения моделей в ансамбли, которые помогут добиться лучших результатов без существенного усложнения моделей
✅ Практика: Вместе построим ансамбль моделей для задачи классификации.
Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.
👉 Регистрация и подробности:
https://otus.pw/crz4/?erid=LjN8K8M8T
🌟 Сетка — соцсеть от hh ru, которая помогает ИТ, диджитал и креативному коммьюнити расширять сеть нужных знакомств
Что вы сможете с Сеткой?
👉 например, получить обратную связь на свой проект или резюме, как на примере на скрине
👉 развиваться внутри сильного комьюнити и вдохновляться опытом топовых экспертов
👉 найти партнёров для side-проектов и коллаб, быть в курсе новостей индустрии
👉 делиться своими кейсами и стать заметнее в индустрии
Важное преимущество соцсети — сетки. Это автоматически сгенерированные группы людей с общим опытом работы. С их помощью можно заводить новые профессиональные контакты и поддерживать связь с уже существующими. Благодаря этой фиче у вас будет больше шансов пересечься с теми, кто повлияет на ваш профессиональный путь.
Скачать приложение. Пересечёмся в Сетке!
⚡️ Gemma 2 2B: Релиз набора моделей и открытый набор автоэнкодеров к семейству Gemma
Спустя месяц после выхода Gemma 2 компания Google расширила набор моделей Gemma, добавив в него следующие новинки:
🟢Gemma-2-2B;
🟢Gemma-2-2b-it;
🟢Gemma-2-2b-pytorch;
🟢Gemma-2-2b-it-pytorch;
🟢Gemma-2-2b-GGUF;
🟢Gemma-2-2b-it-GGUF;
🟢ShieldGemma-2b;
🟢Shieldgemma-9b;
🟢Shieldgemma-27b;
🟠Gemma Scope для всех плотностей семейства Gemma.
✔️Gemma - это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Это большие языковые модели, работающие только с декодером, доступные на английском языке, с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных по инструкции.
В этом релизе представлена версия Gemma 2 с параметрами 2.6B (базовая и instruct, версии GGUF и pytorch), как дополнение к вариантам 9B и 27B.
Gemma 2 2B имеет ту же архитектуру, что и другие модели семейства Gemma 2, и использует такие технические возможности, как sliding attention и logit soft-capping.
*️⃣Модели Gemma-2-2B можно запускать с помощью библиотеки Transformers и llama.cpp. GGUF-версии совместимы с llama.cpp, Ollama и LM Studio.
Gemma 2 2B была оценена на ряде тестов: BBH, IFEval, MATH Hard, GPQA, MuSR и MMLU-Pro. Результаты показали, что Gemma 2 2B превосходит другие модели того же размера в задачах, связанных с знаниями и инструкциями.
Кроме того, модель Gemma 2 2B может быть использована для ассистировании генерации текста, что позволит ускорить генерацию текста в 3 раза без потери качества.
✔️ ShieldGemma - это серия моделей модерации безопасного контента, построенных на основе Gemma 2, которые нацелены на несколько категорий цензурирования (включая откровенно сексуальный, опасный контент, ненависть или преследование).
Это крупные модели, работающие по принципу "текст в текст", только с декодером, доступные на английском языке, с открытыми весами и в 3 вариантах:
с параметрами 2B, 9B и 27B.
ShieldGemma предназначена для обнаружения нецензурных запросов к LLM, а также предотвращения таких же ответов от LLM. Краткая инструкция про составлению промпта.
Вы можете использовать его в качестве инструмента модерации в публичных развертываниях LLM, независимо от того, какую LLM вы развертываете.
✔️Gemma Scope - это открытый набор sparse autoencoders (SAE), обученных на каждом слое моделей Gemma 2 2B и 9B.
SAE - это новая техника, направленная на поиск интерпретируемых направлений в больших языковых моделях. Набор можно рассматривать как своеобразный "микроскоп", помогающий нам разложить внутренние активации модели на основополагающие понятия, подобно тому, как биологи используют микроскопы для изучения отдельных клеток растений и животных. Этот подход был использован при создании Golden Gate Claude, популярной исследовательской демоверсии от Anthropic, которая изучала интерпретируемость и активацию функций в Claude.
Поскольку SAE - это инструмент с выученными весами для интерпретации языковых моделей, а не сами языковые модели, их можно запустить с помощью SAELens, популярной библиотеки для обучения, анализа и интерпретации sparse autoencoders .
Чтобы узнать больше об использовании, ознакомьтесь с подробным руководством по работе с блокнотом Google Colab.
🟡Страница релиза на HF
🟡Семейство Gemma Scope на HF
🟡Gemma Scope technical report
🟡Семейство Gemma 2 2B на HF
🟡Семейство ShieldGemma на HF
@ai_machinelearning_big_data
#AI #Gemma2 #ML #LLM #GGUF
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/dlaK
Реклама. ООО "Нетология". Erid 2VSb5woGCBz
Продолжается отбор научных статей по искусственному интеллекту и машинному обучению для публикации в журнале конференции AI Journey.
Конкурс проводят организаторы международной конференции AI Journey. Ключевые работы будут опубликованы в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Это научное издание выходит на площадках мировых электронных библиотек и индексируется в крупнейших библиографических базах данных научного цитирования.
Лучшая статья получит 1 млн рублей, а ее автор – возможность представить свое исследование перед научным сообществом.
Не упустите возможность презентовать свои исследования на площадке конференции и побороться за денежное вознаграждение! Прием статей продолжается до 20 августа, успейте подать заявку.
Исследователи из команды «Адаптивные агенты» AIRI при участии лаборатории T-Bank AI Research собрали датасет XLand-100B для обучения ИИ самостоятельному принятию решений 🌐
Самый большой open-source датасет для Reinforcement Learning уже доступен для всех ученых и разработчиков и насчитывает 100 миллиардов кортежей — фиксированных наборов данных.
Он может пригодиться не только для создания ИИ-систем, которые будет гораздо проще настраивать для решения новых задач без вовлечения узкопрофильных специалистов, но и стать источником полезных синтетических данных.
🔖Подробнее про исследование читайте в новом Хабре научного сотрудника AIRI Александра Никулина, а также в материале ТАСС Наука.
Научная статья | GitHub | Канал команды
⚡️ В России появился аналог LMSYS Chatbot Arena — LLM Arena
Платформу выкатил Роман Куцев в коллаборации с экспертами по нейросетям и бывшими разработчиками TrainingData.ru. В отличие от зарубежного бенчмарка, он дает возможность оценить и российские нейросети (YaGPT, GigaChat и другие).
В остальном принцип работы максимально схожий: пользователи бесплатно получают доступ к языковым моделям, взамен их просят оценивать ответы нейросетей, на основе которых формируется объективный независимый рейтинг. Сейчас для теста доступна 21 модель.
@ai_machinelearning_big_data
Новостной дайджест
✔️OpenAI может оказаться на грани банкротства через 12 месяцев, прогнозируя убытки в размере $5 млрд.
Несмотря на рост доходов, прогнозируемых до $1,3 млрд. в 2024 году, OpenAI ожидает убытки в размере $5 миллиардов. Это связано с высокими затратами на обучение и эксплуатацию моделей искусственного интеллекта.
Финансовое положение OpenAI вызывает беспокойство у аналитиков, учитывая, что компания уже привлекла $11,3 миллиарда инвестиций. Без дополнительного финансирования или значительного увеличения доходов OpenAI может столкнуться с банкротством в течение 12-16 месяцев.
theinformation.com
✔️ИИ определяет факторы риска рецидива гепатоцеллюлярной карциномы человека.
Опубликованное в AJMC исследование описывает разработку модели искусственного интеллекта, которая точно определяет факторы риска рецидива гепатоцеллюлярной карциномы (ГЦК). Эта модель была создана для улучшения прогнозирования рецидива заболевания у пациентов, уже перенесших лечение.
Модель анализирует множество клинических данных и биомаркеров, чтобы выявить ключевые факторы, влияющие на вероятность рецидива ГЦК. В результате, она позволяет врачам более точно оценивать риски и разрабатывать индивидуализированные планы лечения для пациентов и улучшить результаты терапии и выживаемость.
ajmc.com
✔️Anthropic работает над синхронизацией папок и функцией цитирования источников.
Компания Anthropic работает над новой функцией синхронизации папок для проектов Claude AI. Эта функция даст пользователям автоматически синхронизировать локальные папки с проектами Claude AI, что значительно упростит процесс загрузки и обновления файлов для взаимодействия с Сlaude.
Дополнительно, Anthropic анонсировала предварительную версию функции цитирования для Claude AI. Эта функция будет предоставлять точные ссылки на источники информации, используемые при генерации ответов.
testingcatalog.com
✔️Нейронная сеть, способная прогнозировать движение тепла в материалах в 1 млн раз быстрее, чем традиционные методы.
Команда под руководством инженеров Массачусетского технологического института (MIT) разработали графовую нейронную сеть с виртуальными узлами (VGNN), которая предсказывает PDR (Phonon Dispersion Relation) в 1000 раз быстрее, чем существующие методы искусственного интеллекта, и в 1 миллион раз быстрее, чем традиционные методы.
VGNN позволяет быстро оценить дисперсионные соотношения фононов и обеспечивает несколько большую точность при прогнозировании теплоемкости материала, утверждается в исследовании.
interestingengineering.com
✔️ZhiSquare представила встраиваемый интеллект, который потенциально сможет расширить AGI на физический мир.
Китайская компания ZhiSquare Technology создала фундаментальные технологии, основанные на больших моделях общего восприятия, сквозных операциях обобщения на основе генеративных моделей, и объединения данных из нескольких источников.
Четыре ее основополагающие метода заложили основу для разработки AGI- системы общего назначения AI2R Brain.
Новая категория интеллектуальных роботов общего назначения Alpha Bot, управляемых AI2R Brain, может точно воспринимать мир в различных сценариях, взаимодействовать естественно, как человек, и выполнять различные задачи.
jiqizhixin.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 MAR+DiffLoss: Autoregressive Image Generation without Vector Quantization
Основная идея метода заключается в применении процедуры диффузии для моделирования вероятностных распределений по токенам. Такой подход исключает традиционную категориальную кросс-энтропийную функцию потерь в пользу функции Diffusion Loss. Так устраняется необходимость в сложных и зачастую несовершенных токенизаторах с дискретными значениями, чувствительных к Gradient Approximation и субоптимальному качеству реконструкции.
В прикладной реализации используется сеть денойзинга, небольшая MLP-сеть, которая работает на основе вектора, производимого авторегрессивной моделью. Эта сеть обучена предсказывать распределение для каждого токена через функцию денойзинг-диффузии.
В результате MAR+DiffLoss модель может быстро генерировать изображения высокого качества , используя внутренние преимущества скорости моделирования последовательностей.
Одним из полученных достижений в ходе исследования стала способность модели генерировать изображения со скоростью менее 0,3 секунды на изображение при достижении впечатляющего показателя Fréchet Inception Distance (FID) менее 2,0 на наборе данных ImageNet.
Для тестирования демонстрации метода предлагается настроенный ноутбук для Google Collab. Помимо этого, в репозитории на Github размещены инструкции и код для самостоятельной тренировки моделей и запуску оценочного бенчмарка на датасете ImageNet.
⚠️ Внимание, тренировочный процесс крайне ресурсоемкий.
▶️Pre-trained модели выложены на Dropbox:
🟢MAR-B (280M)
🟢MAR-L (479M)
🟢MAR-H (943M)
📌Лицензирование : MIT license
🟡Arxiv
🟡Результаты бенчмарка
🟡Demo Collab
🖥Github [ Stars: 184 | Issues: 0 | Forks: 7]
@ai_machinelearning_big_data
#AI #ML #Diffusion #Pytorch
⚡️ FBI-LLM: семейство binary foundation моделей, обученных с нуля.
Лаборатория Университета MBZUAI (ОАЭ) и Университет Carnegie Melon опубликовали в открытом доступе набор моделей, созданных по методологии Fully Binarized Large Language Model (FBI-LLM).
При создании FBI-LLM была использована авторегрессионная дистилляция потерь при сохранении эквивалентной размерности модели (130M, 1.3B, 7B) для достижения производительности, сравнимой с FP16 / BF16.
Для обучения семейства был использован датасет Amber, который состоит из документов Arxiv, книг, С4, данных веб-страниц, StarCoder, StackExchage и Wikipedia.
Суммарный объем датасета - 1259 млрд токенов.
Структурные параметры представленных моделей :
🟢FBI-LLM 130M - 12 layers, 12 attention heads, 769 hidden size, 2048 intermediate size;
🟢FBI-LLM 1.3B - 24 layers, 32 attention heads, 2048 hidden size, 5632 intermediate size;
🟢FBI-LLM 7B - 32 layers, 32 attention heads, 4096 hidden size, 11008 intermediate size;
В FBI-LLM используется токенизатор Llama-2-7b-hf, поддерживается текстовый ввод и текстовый вывод на английском языке.
🟡Модели на HF
🟡Arxiv
🖥Github [ Stars: 29 | Issues: 0 | Forks: 1]
@ai_machinelearning_big_data
#AI #LLM #ML #Autoregression #MBZUAI
⭐️ Новостной дайджест
✔️Tora: Alibaba запустила проект генерации видео с контролем траектории.
Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.
✔️Tachyon: Одноплатный компьютер на Snapdragon с AI-ускорителем.
Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com
✔️Vimeo анонсировала AI-перевод видео для бизнес-клиентов.
Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com
✔️Индия и ОАЭ лидируют в мире по внедрению ИИ и Gen AI.
"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com
@ai_machinelearning_big_data
#news #ai #ml
🔥 Новостной дайджест
✔️В Google Cloud появился специальный кластер GPU Nvidia для стартапов Y Combinator.
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
✔️aiOla выпустила сверхбыструю модель распознавания речи.
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
✔️Mixture of Nested Experts (MoNE): фреймворк компьютерного зрения для адаптивной обработки визуальных маркеров путем динамического распределения.
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
✔️Vidu: крупномасштабный сервис генерации видео стал доступен за пределами Китая при поддержке Baidu.
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 rLLM: библиотека PyTorch для взаимодействия LLM с реляционными таблицами.
rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.
rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.
Библиотека включает в себя несколько слоев:
🟠Data Engine, для загрузки и предварительной обработки данных;
🟠Module, предлагающий стандартизированные строительные блоки из GNN, LLM и TNN;
🟠Model, облегчающий построение сложных RTL-архитектур.
Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.
▶️Рекомендации по LLM и LM:
🟠LLM - квантованная 4-bit Gemma 2b;
🟠LM - облегченная BERT-подобная all-MiniLM-L6-v2 для sentence embedding.
Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:
🟠Table-MovieLens1M (TML1M);
🟠Table-LastFm2K (TLF2K);
🟠Table-ACM12K (TACM12K).
🟡Arxiv
🖥Github [ Stars: 242 | Issues: 1 | Forks: 24]
@ai_machinelearning_big_data
#AI #ML #RTL #rLLM
⚡️ Stable Fast 3D: Image-to-3D от Stability AI
Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.
Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.
Локальный запуск:
# Update setuptools
pip install -U setuptools==69.5.1
# For CLI-version of inference install requirements
pip install -r requirements.txt
# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt
# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/
# run Gradio UI
python gradio_app.py
🌟 Нейросеть YandexART научилась восстанавливать архивные видеозаписи и кинохронику
Возможности нейросети были протестированы на материалах «Мосфильма» и Российского государственного архива кинофотодокументов при подготовке сериала «Игры» об Олимпиаде-80. YandexART улучшила качество изображения и восстановила некоторые утраченные детали, включая элементы одежды, архитектуры и транспортных средств.
Разработчики Яндекса научили модель не «галлюцинировать». Благодаря поэтапному обучению на материалах низкого качества, YandexART превращает размытые и сильно сжатые кадры в контент с высокой детализацией объектов и текстур.
@ai_machinelearning_big_data
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.
Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
▶️Локальный запуск :
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
🗞 Новостной дайджест
✔️Саморазвивающийся ИИ от Baidu: конец "галлюцинирующих" языковых моделей.
Baidu представила "self-reasoning" фреймворк, направленный на повышение надежности и прослеживаемости моделей с расширенным поиском (RALM), позволяя им самостоятельно критически оценивать свои знания и процессы принятия решений. Этот инструмент поможет решить распространенную проблему "галлюцинаций" в ИИ, когда модели уверенно генерируют неверную информацию.
Структура self-reasoning состоит из трех ключевых процессов: оценка релевантности, выбор на основе доказательств и анализ траектории.
Этот метод позволяет языковой модели различать релевантную информацию, цитировать источники и анализировать свой путь рассуждений, что в конечном итоге улучшает точность и прозрачность его выводов.
venturebeat.com
✔️AES запускает первого робота для установки солнечных батарей с искусственным интеллектом.
Компания AES Corporation представила "Maximo", первого в мире робота для установки солнечных панелей, оснащенного ИИ.
Maximo автоматизирует тяжелые работы, что ускоряет сроки реализации проектов. Ожидается, что Maximo установит панелей примерно на 100 МВт солнечной энергии к 2025 году и поможет в строительстве крупных проектов, таких как 2 ГВт Bellefield в Калифорнии.
Maximo использует функции компьютерного зрения для точного размещения панелей, а также технологии непрерывного обучения для повышения своей эффективности.
prnewswire.com
✔️Perplexity запускает партнерскую программу для крупных СМИ после обвинений в плагиате.
Perplexity запустила программу "Publishers' Program", направленную на разделение рекламных доходов с партнерами после обвинений в плагиате.
В числе первых участников программы — Time, Der Spiegel и Fortune. При использовании контента этих издателей в ответах на запросы пользователей, они будут получать долю от рекламных доходов.
Запуск программы последовал за обвинениями, когда редакторы Forbes обнаружили, что их платные материалы были использованы в продуктах Perplexity без должного атрибута.
theverge.com
✔️Новые AI-инструменты Autodesk ускоряют рабочие процессы 3D в Maya и Flame.
На выставке SIGGRAPH 2024 Autodesk представила новые AI-функции для своих 3D-программ Maya и Flame.
ML Deformer для Maya позволяет художникам работать с анимацией и визуальными эффектами, обрабатывая сложные системы деформации с использованием машинного обучения.
В Flame добавлен ML Timewarp, который генерирует промежуточные кадры между двумя существующими кадрами, оптимизируя процесс редактирования и минимизируя необходимость в переносе файлов между различными инструментами.
Autodesk также анонсировала инструмент Flow Generative Scheduling, который ускоряет создание производственных графиков, учитывая переменные, такие как сроки, бюджеты и доступность команды.
creativebloq.com
✔️UrbanGPT: Пространственно-временной прогноз для проектирования городской среды.
HKU-SUSTech разработали UrbanGPT, языковую модель, предназначенную для планирования городских пространств и решения проблемы точного пространственно-временного прогнозирования в городских условиях с нехваткой данных.
UrbanGPT демонстрирует исключительную производительность при прогнозировании по нулевым снимкам, особенно в условиях разреженных данных и в задачах сложного прогнозирования.
Pre-trained модель доступна на Huggingface, код проекта опубликован на Github
weixin.qq.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 MindSearch: Мультиагентная система веб-поиска под управлением языковой модели
MindSearch - фреймворк от InternLM, объединяющий сильные стороны больших языковых моделей (LLM) и поисковых систем для решения задач поиска и агрегации информации в Интернете.
Привлекательность фреймворка складывается из способности эффективно управлять контекстом поиска, распределяя когнитивную нагрузку между несколькими агентами, навыком сокращения длины контекста для каждого агента и способностью к построению иерархии поисковых запросов.
Архитектура MindSearch состоит из двух частей:
🟢WebPlanner. Этот агент имитирует человеческие рассуждения, декомпозируя запрос пользователя в направленный ациклический граф (DAG). Каждый узел графа представляет собой подвопрос, который может быть решен независимо. WebPlanner динамически строит DAG, генерируя код Python для добавления узлов и связей, тем самым итеративно решет последовательность задач и параллельно выполняет подзадачи.
🟢WebSearcher выполняет иерархический поиск информации для ответа на подвопросы, заданные WebPlanner. Он начинает с генерации нескольких семантически похожих запросов, чтобы расширить область поиска и улучшить запоминание. Затем он выбирает наиболее релевантные веб-страницы для детального прочтения и использует LLM для создания ответа на основе собранной информации.
Эксперименты на задачах с закрытыми (GPT) и открытыми (InternLM) языковыми моделями показали эффективность MindSearch. По сравнению с существующими решениями для поиска (ChatGPT-Web и Perplexity Pro), MindSearch генерирует ответы с большей глубиной и широтой.
Целевая группа людей-экспертов предпочитали ответы от MindSearch, нежели ответы от Perplexity/ChatGPT или поисковую выдачу классической поисковой системы.
Локальная установка может взаимодействовать как с онлайн-сервисами AI (GPT, Claude), так и локально запущенные LLM, с помощью FAST API. Настройка моделей и указание API ключей для онлайн-сервисов Ai производятся в файле models по пути /mindsearch/agent/
В репозитории MindSearch в качестве локального фронтэнда предлагается на выбор UI на Gradio, React или Streamlit.
▶️Локальный запуск на примере локальной LLM InternLM2.5-7b-chat и UI Gradio:
# Dependencies Installation
pip install -r requirements.txt
# Setup FastAPI Server
python -m mindsearch.app --lang en --model_format internlm_server
# Run with Gradio
python frontend/mindsearch_gradio.pyW
Lite-Oute-1: семейство компактных base и instruct моделей
Oute AI представила в открытом доступе модели на 300М, 150M и 65М параметров в base и instruct вариантах и в GGUF-формате. Список релиза:
🟠Lite-Oute-1-300M Base
🟠Lite-Oute-1-300M-Instruct
🟠Lite-Oute-1-300M Base GGUF
🟠Lite-Oute-1-300M-Instruct GGUF
🟠Lite-Mistral-150M-v2-Instruct
🟠Lite-Mistral-150M-v2-Instruct GGUF
🟠Lite-Oute-1-65M Base
🟠Lite-Oute-1-65M-Instruct
🟠Lite-Oute-1-65M Base GGUF
🟠Lite-Oute-1-65M-Instruct GGUF
Lite-Oute-1-300M: "старшая" модель семейства на архитектуре Mistral с 300М параметров и контекстом в 4096 токенов. Эта модель специально разработана в качестве отправной точки для тонкой настройки при выполнении различных задач. Она обеспечивает баланс между компактными размерами и возможностями.
Некоторые оценки 0-shot: MMLU - 24.87, Winogrande- 53.35, OpenBookQA - 30.80
Lite-Oute-1-300M Base GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K (176 MB), всего 15 вариаций.
Lite-Oute-1-300M-Instruct: instruct-версия 300М Base с теми же параметрами. Модель использует шаблон ChatML.
Некоторые оценки 0-shot: MMLU - 24.00, Winogrande- 53.75, OpenBookQA - 32.20
Lite-Oute-1-300M-Instruct GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K(176 MB), всего 15 вариаций.
Модель использует шаблон ChatML
Lite-Mistral-150M-v2-Instruct: модель на основе архитектуры Mistral, включающая около 157М параметров. Основной целью создания этой модели была разработка компактной и эффективной модели, способной работать на широком спектре устройств, сохраняя при этом разумный уровень функциональности и согласованности для своего небольшого размера. Модель была обучена на ~ 8 миллиардах токенов.
Некоторые оценки 0-shot: MMLU - 25.28, Winogrande- 51.78, OpenBookQA - 28.40
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.
Lite-Mistral-150M-v2-Instruct GGUF: диапазон квантования от FP16 (314 МВ) до Q2_K (68.5 MB), всего 15 вариаций.
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.
Lite-Oute-1-65M Base: экспериментальная ультракомпактная базовая модель, построенная на архитектуре LLaMA и содержащая около 65М параметров.
Эта модель предназначена в качестве отправной точки для тонкой настройки под узкоспециальные задачи. Из-за своего чрезвычайно малого размера эта модель имеет базовые возможности генерации текста, но испытывает трудности с инструкциями или поддержанием связности тем.
Некоторые оценки 0-shot: MMLU - 23.05, Winogrande- 51.70, OpenBookQA - 27.60
Lite-Oute-1-65M Base GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K (31.5 MB), всего 15 вариаций.
Lite-Oute-1-65M-Instruct: instruct-версия 65М Base с теми же параметрами.
Некоторые оценки 0-shot: MMLU - 23.45, Winogrande- 50.04, OpenBookQA - 28.60.
Модель использует шаблон ChatML.
Lite-Oute-1-65M-Instruct GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K(31.5 MB), всего 15 вариаций.
Модель использует шаблон ChatML
🟡Страница проекта
🟡Все модели на HF
@ai_machinelearning_big_data
#AI #TinyLM #ML #OuteAI #GGUF
Новостной дайджест
✔️Конкурент Neuralink интегрировал ChatGPT в мозговой имплантат человека.
Компания Synchron, конкурирующая с Neuralink, интегрировала ChatGPT от OpenAI в свой имплант с интерфейсом BCI, чтобы помочь людям с параличом легче управлять цифровыми устройствами.
BCI Synchron помогает больным с амиотрофическим склерозом предсказывать и предлагать ответы во время общения, которые они могут выбрать с помощью сигналов мозга. Стоимость имплантата Synchron оценивается в 50-100 тысяч долларов при среднем сроке ожидания в 6 месяцев.
newsbytesapp.com
✔️CRAM - новая технология памяти, позволяющая снизить потребление энергии при обработке данных ИИ в 1000 раз.
Исследователи из Университета Миннесоты разработали новую технологию Computational Random-Access Memory (CRAM) которая способна снизить энергопотребление при обработке данных. В отличие от традиционных решений, где данные перемещаются между памятью и процессором, CRAM позволяет обрабатывать данные непосредственно в ячейках памяти.
Это достигается за счет использования высокоплотной и перенастраиваемой спинтронной структуры, встроенной в ячейки памяти. Таким образом, данные не покидают память, что минимизирует задержки отклика и потребление энергии, связанные с передачей информации.
tomshardware.com
✔️AMD выпускает Fluid Motion Frames 2 с поддержкой искусственного интеллекта.
AMD представила техническое превью Fluid Motion Frames 2 (FMF2) в рамках обновления пакета драйверов Adrenalin. Эта новая версия включает "AI-оптимизированные улучшения", которые обеспечивают более плавную работу и сниженную задержку при генерации кадров.
FMF2 теперь совместима с режимами Vulkan и OpenGL, а также поддерживает полноэкранный режим без границ.
Fluid Motion Frames 2 доступен для видеокарт Radeon RX 7000 и 700M и совместим с RX 6000.
Пользователям доступно для скачивания превью версии 24.20.01.02 на сайте AMD.
pcworld.com
✔️Google DeepMind разработали JumpReLU Sparse Autoencoders с рекордной точностью восстановления.
Google DeepMind опубликовали исследование, в котором описали новую архитектуру нейронных сетей под названием JumpReLU Sparse Autoencoders (SAEs), которая значительно улучшает восстановление данных.
JumpReLU SAEs используют модифицированную активационную функцию JumpReLU, которая устраняет предактивации ниже определенного порога, что позволяет уменьшить количество активных нейронов и улучшить обобщающую способность модели. Это решение решает проблему компромисса между разреженностью и точностью восстановления, обеспечивая высокую эффективность в сравнении с традиционными Gated и TopK SAEs.
arxiv.org
✔️NVIDIA анонсирует генеративные AI модели и микросервисы NIM для OpenUSD, ускоряющие разработку цифровых двойников.
NVIDIA представила новые генеративные AI модели и микросервисы NIM для Universal Scene Description (OpenUSD), созданные для ускорения разработки приложений в области робототехники и промышленного дизайна. Они позволяют разработчикам генерировать OpenUSD-код, проводить поиск в библиотеках 3D и изображений с использованием естественного языка, а также проверять совместимость файлов с версиями OpenUSD. Микросервисы помогут создать высокоточные виртуальные миры и цифровые двойники, что откроет новые возможности для применения AI в различных отраслях.
Среди новых микросервисов, которые будут доступны в ближайшее время, — USD Layout для сборки сцен на основе текстовых подсказок и USD SmartMaterial для применения реалистичных материалов к CAD-объектам.
NVIDIA также анонсировала интеграцию OpenUSD с решениями Siemens для поддержки сложных симуляций и визуализации данных в реальном времени.
roboticstomorrow.com
@ai_machinelearning_big_data
#news #ai #ml
🌟Adam-mini: облегченная версия оптимизатора Adam.
Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.
Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.
Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.
Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:
Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.
SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.
Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.
Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.
▶️Текущая реализация Adam-mini поддерживает популярные фреймворки:
🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.
В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:
🟠GPT2 (125M-1.5B), NanoGPT codebase на фреймворке DDP
🟠Llama3-8B, Torchtitan code base на фреймворке FSDP
🟠SFT и RLHF Llama2-7B, ReMax codebase на фреймворке DeepSpeed
▶️Локальный запуск :
# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .
# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini
optimizer = Adam_mini(
named_parameters = model.named_parameters(),
lr = lr,
betas = (beta1,beta2),
eps = eps,
weight_decay = weight_decay,
model_sharding = True,
dim = model_config.dim,
n_heads = model_config.n_heads,
n_kv_heads = model_config.n_kv_heads,
)
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW
Привет, я Ярослав я окончил МФТИ и рассказываю в канале моей студии о хардкорном внедрении AI в корпорациях и производствах)
Я не выкладываю новости из мира AI и генерации Миджорни, только суровый ентерпрайз, рассказываем о технических и бизнесовых нюансах.
Контент будет интересен разработчикам и продукт-овнерам, которые что-то внедряют у себя. Например, мы рассказываем, как внедряли AI на сталелитейных производставах или как "буше" делали чат-бота на несколько тысяч сотрудников.
Подписывайтесь, если интересно реальное внедрение Ai в корпорации: @r77_ai
🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.
Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:
🟢Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟢Meta-Llama-3.1-405B-Instruct-FP8
Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.
Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.
Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.
В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).
🟡Модель FP8-dynamic на HF
🟡Модель FP8 на HF
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #FP8
Как писать поддерживаемый, воспроизводимый и повторно используемый код в ML/DS?
🔹Расскажем на открытом уроке «Рефакторинг ML-проекта с точки зрения продуктового кода» что такое хороший код и как его писать, и почему Jupyter мешает нам это делать
✅ Практика: Декомпозиция ML/DS-кода, работа с окружением, управление зависимостями
Урок приурочен курсу «MLOps» от Otus.
👉 Регистрация и подробности:
https://otus.pw/xhIN/?erid=LjN8KJAfF
Помнишь времена, когда интернет был медленным, а в шкафу стопкой лежали дискеты?
В новом ролике про IT-тусовку YACAMP не просто ностальгия, а целое путешествие во времени!
10 августа тусовка для middle+/senior-разработчиков снова пройдет в Москве!
В программе: IT-казино, квест по сервисам Яндекса, вечеринки, музыкальные хедлайнеры в лицах самих участников и многое другое.
Регистрируйся! Уверен, будет круто!
Реклама ООО "ЯНДЕКС", ИНН 7736207543, erid LjN8KZcHB