🌟 mental-diffusion — CLI для быстрой работы со Stable Diffusion
git clone https://github.com/nimadez/mental-diffusion
cd mental-diffusion
sudo apt install python3-pip python3-venv
sh install-venv.sh
sh install-bin.sh
AI will bring us back to the age of terminals.
" 🌟 EvTexture — новый метод апскейлинга видео
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
Быстрый старт с Docker:
docker pull registry.cn-hangzhou.aliyuncs.com/dachunkai/evtexture:latest
cd EvTexture && docker build -t evtexture ./docker
source activate evtexture && cd EvTexture && python setup.py develop
🌟 Hermes-2-Theta-Llama-3-70B — комбо на основе Hermes 2 Pro и Llama-3 Instruct
Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.
Судя по метрикам и ответам, модель получилась неплохой
🤗 Hugging Face
@ai_machinelearning_big_data
🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.
При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.
Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)
▪abs: https://arxiv.org/abs/2406.14491
▪models: https://huggingface.co/instruction-pretrain
@ai_machinelearning_big_data
⚡️ Anthropic только что представлии Claude 3.5 Sonnet, модель которая превосходит GPT-4 почти на всех тестах.
В Claude 3.5 Sonnet добавлена поддержка «артефактов», позволяющая выдавать результаты в различных форматах, таких как код, текстовые документы, изображения и другие.
Claude 3.5 Sonnet уже доступна бесплатно для всех пользователей.
До конца года Anthropic планируют выпустить Claude 3.5 Haiku (более компактная и быстрая модель) и Claude 3.5 Opus (самая мощная модель из семейства).
Sonnet превосходит Claude 3 Opus во всех стандартных vision-задачах.
📌 Попробуйте бесплатно: http://claude.ai
@ai_machinelearning_big_data
⚡️Как устроены ChatGPT, Siri, Алиса и Маруся — и какие навыки нужны, чтобы запускать такие продукты?
Приходите на бесплатный онлайн-практикум от ТГУ и Skillfactory 27 июня в 19:00 мск.
За 1,5 часа эксперт расскажет:
— что такое обработка естественного языка;
— как использовать ее для анализа текстов, проверки бизнес-идей и научных гипотез;
— какие технологии сейчас востребованы на рынке.
Регистрируйтесь бесплатно по ссылке: https://go.skillfactory.ru/&erid=2VtzqwadDRZ
Получите в подарок курс по математике.
Реклама ООО "Скилфэктори", ИНН 9702009530
🌟 GEB-1.3B — open-source облегченная LLM
GEB-1.3B — это лёгкая LLM, обученная на 550 миллиардах лексем.
При всей своей лёгкости модель превосходит Llama-7B и схожие LLM в 3 метриках из 4 (C-Eval, CMMLU, Average)
Для достижения такого впечатляющего результата были использованы новые методы обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности LLM. Кроме того, была произведена тонкая настройка модели при помощи 10 миллионов разных промптов и инструкций.
Кстати, квантизованная FP32-версия GEB-1.3B довольно быстро работает даже на CPU, при этом продолжаются работы по дальнейшему увеличению скорости с помощью квантования.
🟡 Arxiv
🤗 Hugging Face
@ai_machinelearning_big_data
🌟 Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
pip install open-interpreter
interpreter
🔥Хотите перейти в ML и построить успешную карьеру?
В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.
⚡25 июня в 20.00 мск приглашаем на открытое практическое занятие "Карьерные переходы в ML или старт в новой профессии", где мы разберем:
- стратегии перехода;
- правильное оформление резюме;
- прохождение интервью;
- реальные кейсы из опыта эксперта.
Условие участия - вступительное тестирование
👉Пройти тест и записаться на мероприятие https://otus.pw/Cnfe/?erid=LjN8K8nhJ
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа.
🔥 Meta анонсировали четыре новые открытые модели искусственного интеллекта!
🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818
🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.
🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal
📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In
Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/
@ai_machinelearning_big_data
🎙️StreamSpeech: Мощная модель синхронного перевода речи.
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@ai_machinelearning_big_data
⚡️ Runway AI только что анонсировали Gen-3 Alpha, которая генерирует видео из текста и изображений и будет доступна в ближайшие дни.
Что нас ждет
— Супер высокая детализация;
— Плавные переходы по кадрам;
— Длительность роликов до 10 секунд;
— Продвинутые инструменты контроля над видео;
— Нейронная сеть будет преобразовывать текст в видео, изображение в видео и текст в изображение;
— Возможность обучения на собственных стилях
На видео сравнение недавно-3 Alpha не и открытой Luma. Разница видна невооруженным взгялдом
Для этих генераций были использованы одни и те же промпты.
@ai_machinelearning_big_data
🌟 Mamba — семейство SSM-моделей
Селективные модели пространства состояний (SSM), такие как Mamba, не имеют некоторых недостатков трансформеров, таких как квадратичная вычислительная сложность при увеличении длины последовательности и большие требования к памяти. Более того, недавние исследования показали, что SSM могут соответствовать или превосходить возможности трансформеров, что делает их интересной альтернативой.
Однако до сих пор проводились лишь небольшие эксперименты по сравнению SSM с трансформерами.
Это исследование призвано исправить ситуацию, здесь проводится прямое сравнение 8B моделей Mamba, Mamba-2 и трансформера, обученных на одних и тех же наборах данных объемом до 3.5Т лексем. Также эти модели сравниваются с гибридной моделью (Mamba-2-Hybrid), состоящей из 43% слоев Mamba-2, 7% слоев Attention и 50% слоев MLP.
🤗 Mamba-2 и другие модели на Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
⚡️ VideoLLaMA 2 — набор open-source Video-LLM, предназначенных для генерации видео
git clone https://github.com/DAMO-NLP-SG/VideoLLaMA2
cd VideoLLaMA2
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
⚡️ Nemotron 4 340B!
Nvidia только что выпустила LLM размером 340B , модель близкую к производительности OpenAI GPT-4 🤯 NVIDIA не претендует на право собственности на какие-либо сгенерированные выходные данные. 💚
🧮 340 миллиардов параметров в контекстном окне 4k
🔢 Обучена на 9 триллионах токенов
🌎 Поддерживает более чем 50 языков и более чем 40 языков программирования
🧠 Трубует 16x H100 в bf16 и ~8x H100 в int4
🤗 Модель доступна на huggingface
▪Модель: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911
▪Технический отчет: https://research.nvidia.com/publication/2024-06_nemotron-4-340b
@ai_machinelearning_big_data
🌟 MorpheuS — реконструкция поверхности с обзором 360° по монокулярному RGB-D видео
MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Метод разработан Hengyi Wang и коллегами из Лондонского университета
Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели
🟡 Страничка MorpheuS
🟡 Arxiv
🖥 GitHub
@ai_machinelearning_big_data
🌟 ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
В частности при помощи ExVideo была улучшена модель Stable Video Diffusion, для генерации длинных видеороликов до 128 кадров.
Код, статья и модель — по ссылкам ниже.
🟡 Страничка ExVideo
🖥 GitHub
🟡 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
🌟 Modded-NanoGPT — позволяет добиться качества GPT-2 (124M) при обучении всего на 5B лексем
Modded-NanoGPT — это модификация того кода для обучения GPT-2 от Андрея Карпати.
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥 GitHub
@ai_machinelearning_big_data
🌟 Локальный голосовой помощник june-va: Ollama + HF transformers + Coqui TTS
git clone https://github.com/mezbaul-h/june.git
cd june
pip install .
🦜 Toucan — open-source TTS-модель с поддержкой 7000 языков и диалектов
Toucan — это модель преобразования текста в речь (TTS) + набор инструментов для обучения, тренировки и развертывания модели.
Модель создана в Институте обработки естественного языка (IMS) Штутгартского университета.
Всё написано на идиоматическом Python с использованием PyTorch, для максимально лёгкого изучения и тестирования.
🖥 GitHub
🤗 Затестить на HF
🤗 Датасет на HF
@ai_machinelearning_big_data
🌟 Magnum-72B-v1 — LLM, которая умеет в прозу и стихи (как Sonnet и Opus от Claude AI)
Magnum-72B-v1 создана на базе Qwen-2 72B.
Обучение проводилось на 55 миллионах токенов высококачественных данных. Для тонкой настройки всех параметров модели было использовано 8 ускорителей AMD Instinct MI300X.
🤗 Hugging Face
@ai_machinelearning_big_data
DataOps Platform от МТС получила награду от CNews в номинации “Инновация года: Self-Service платформа для работы с большими данными". Платформа предоставляет инструменты для хранения, обработки, контроля качества и виртуализации данных, а также построения отчётности и многое другое. Успешное замещение импортных сервисов на собственную платформу принесло экономию до 1,5 млрд рублей за год. Отличный шаг в развитии цифровой экосистемы.
@ai_machinelearning_big_data
⚡️ Florence-2 — open-source VLM от Microsoft
Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).
Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.
🤗 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
⚡️ MeshAnything: генерация качественной полигональной сетки с помощью авторегрессионных трансформеров
MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.
MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.
🖥 GitHub
🤗 Hugging Face
🟡 Страничка MeshAnything
@ai_machinelearning_big_data
🔥 Астрологи объявлили неделю моделей генерации видео!
После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.
На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.
Основные моменты:
Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.
▪Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
▪VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
▪Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
▪Demo: https://huggingface.co/spaces/hpcai-tech/open-sora
@ai_machinelearning_big_data
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике
> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 КБ.
> Полностью открытый исходный код двух размеров: 230B и 16 B
В таблице Arena-Hard-Auto DeepSeek-Coder-V2
превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.
#DeepSeekCoder
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@ai_machinelearning_big_data
🌟 OpenVLA 7B — OpenVLA — VLA-модель с 7B параметрами
OpenVLA 7B (vision-language-action) — это open-source модель, обученная на 970K эпизодах манипулирования роботами из набора данных Open X-Embodiment. Модель принимает на вход текстовый промпт и изображения с камеры и генерирует действия робота.
OpenVLA 7B из коробки поддерживает управление несколькими роботами и может быть быстро адаптирована к новым областям робототехники с помощью тонкой настройки.
🖥 GitHub
🟡 Модели на Hugging Face
🟡 Страничка OpenVLA
@ai_machinelearning_big_data
🌟 Hallo: новый подход в анимации портретных изображений на основе аудио
Hallo объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.
🖥 GitHub
🟡 Предобученные модели на Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
🌟 MusicGPT — приложение для локального запуска моделей, генерирующих музыку
— brew install gabotechs/taps/musicgpt
MusicGPT позволяет запускать новейшие модели для генерации музыки локально на любой платформе, без установки тяжелых зависимостей, таких как ML-фреймворки.
В данный момент MusicGPT поддерживает только MusicGen от Meta, но в планах — ещё больше различных моделей генерации музыки.
Быстрый старт с помощью Docker:docker run -it --gpus all -p 8642:8642 -v ~/.musicgpt:/root/.local/share/musicgpt gabotechs/musicgpt --gpu --ui-expose
или, используя cargo:cargo install musicgpt
🖥 GitHub
@ai_machinelearning_big_data
⚡️ Semantic Kernel — open-source SDK, который позволяет интегрировать LLM от OpenAI, с Hugging Face и другие, с обычными языками программирования типо C#, Python и Java
— pip install semantic-kernel
Таким образом при помощи Semantic Kernel можно создавать LLM-агентов, которые не просто отвечают на вопросы, а могут взаимодействовать с написанным кодом
🖥 GitHub
🟡 Доки
@ai_machinelearning_big_data