🌟 Тонкая настройка VLM модели Florence-2
Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже
🟡 Fine-tuning Florence-2
🟡 Google Colab
🤗 Hugging Face
@ai_machinelearning_big_data
🌟 MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.
🟡 Страничка MG-LLaVA
🖥 GitHub
@ai_machinelearning_big_data
🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
🌟 SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
— pip install see2sound
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.
Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
🟡 Страничка SEE-2-SOUND
🖥 GitHub
🟡 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
🗣 MARS 5 TTS: новая модель от компании Camb AI для преобразование текста в речь с открытым исходным кодом! 🔥
> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.
▪Github: https://github.com/Camb-ai/MARS5-TTS
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@ai_machinelearning_big_data
В современном мире, где данные – ключевой ресурс, Томский государственный университет (ТГУ) и Skillfactory представляют онлайн-магистратуру по компьютерному зрению и нейронным сетям! Эта программа создана для тех, кто стремится стать экспертом в области искусственного интеллекта и решать сложные инженерные задачи в медицине, экологии и не только.
Что вас ждет:
- Освоите онлайн Computer Vision и выберите специализацию: AR-технологии, генеративный дизайн, робототехника.
- Получите диплом ТГУ и все студенческие льготы.
Первый год обучения – от 240 рублей в месяц благодаря господдержке.
Программа создана совместно с лидерами отрасли: академический директор – ведущий инженер по машинному обучению в Samokat.tech, а индустриальный партнер – ведущий разработчик IT-решений Rubius, который является лидером в области IT-разработок в России.
Для поступления не нужны специализированные знания в машинном обучении или оптике – подготовка включает адаптационные модули по математике и Python.
Оставьте заявку сегодня и получите доступ к бесплатным подготовительным курсам и мероприятиям от ТГУ, которые помогут успешно пройти вступительные испытания. Подробности по ссылке ниже – присоединяйтесь к будущему уже сейчас! https://go.skillfactory.ru/0Z6EAg
Реклама. ООО «Скилфэктори»
erid: LjN8K3Lt5
🌟 mental-diffusion — CLI для быстрой работы со Stable Diffusion
git clone https://github.com/nimadez/mental-diffusion
cd mental-diffusion
sudo apt install python3-pip python3-venv
sh install-venv.sh
sh install-bin.sh
AI will bring us back to the age of terminals.
" 🌟 EvTexture — новый метод апскейлинга видео
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
Быстрый старт с Docker:
docker pull registry.cn-hangzhou.aliyuncs.com/dachunkai/evtexture:latest
cd EvTexture && docker build -t evtexture ./docker
source activate evtexture && cd EvTexture && python setup.py develop
🌟 Hermes-2-Theta-Llama-3-70B — комбо на основе Hermes 2 Pro и Llama-3 Instruct
Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.
Судя по метрикам и ответам, модель получилась неплохой
🤗 Hugging Face
@ai_machinelearning_big_data
🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.
При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.
Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)
▪abs: https://arxiv.org/abs/2406.14491
▪models: https://huggingface.co/instruction-pretrain
@ai_machinelearning_big_data
⚡️ Anthropic только что представлии Claude 3.5 Sonnet, модель которая превосходит GPT-4 почти на всех тестах.
В Claude 3.5 Sonnet добавлена поддержка «артефактов», позволяющая выдавать результаты в различных форматах, таких как код, текстовые документы, изображения и другие.
Claude 3.5 Sonnet уже доступна бесплатно для всех пользователей.
До конца года Anthropic планируют выпустить Claude 3.5 Haiku (более компактная и быстрая модель) и Claude 3.5 Opus (самая мощная модель из семейства).
Sonnet превосходит Claude 3 Opus во всех стандартных vision-задачах.
📌 Попробуйте бесплатно: http://claude.ai
@ai_machinelearning_big_data
⚡️Как устроены ChatGPT, Siri, Алиса и Маруся — и какие навыки нужны, чтобы запускать такие продукты?
Приходите на бесплатный онлайн-практикум от ТГУ и Skillfactory 27 июня в 19:00 мск.
За 1,5 часа эксперт расскажет:
— что такое обработка естественного языка;
— как использовать ее для анализа текстов, проверки бизнес-идей и научных гипотез;
— какие технологии сейчас востребованы на рынке.
Регистрируйтесь бесплатно по ссылке: https://go.skillfactory.ru/&erid=2VtzqwadDRZ
Получите в подарок курс по математике.
Реклама ООО "Скилфэктори", ИНН 9702009530
🌟 GEB-1.3B — open-source облегченная LLM
GEB-1.3B — это лёгкая LLM, обученная на 550 миллиардах лексем.
При всей своей лёгкости модель превосходит Llama-7B и схожие LLM в 3 метриках из 4 (C-Eval, CMMLU, Average)
Для достижения такого впечатляющего результата были использованы новые методы обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности LLM. Кроме того, была произведена тонкая настройка модели при помощи 10 миллионов разных промптов и инструкций.
Кстати, квантизованная FP32-версия GEB-1.3B довольно быстро работает даже на CPU, при этом продолжаются работы по дальнейшему увеличению скорости с помощью квантования.
🟡 Arxiv
🤗 Hugging Face
@ai_machinelearning_big_data
🌟 Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
pip install open-interpreter
interpreter
🔥Хотите перейти в ML и построить успешную карьеру?
В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.
⚡25 июня в 20.00 мск приглашаем на открытое практическое занятие "Карьерные переходы в ML или старт в новой профессии", где мы разберем:
- стратегии перехода;
- правильное оформление резюме;
- прохождение интервью;
- реальные кейсы из опыта эксперта.
Условие участия - вступительное тестирование
👉Пройти тест и записаться на мероприятие https://otus.pw/Cnfe/?erid=LjN8K8nhJ
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа.
🌟 Быстрый способ переводить экраны любых приложений на русский язык
Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.
▪️Статья: https://habr.com/ru/companies/yandex/posts/824706
@ai_machinelearning_big_data
🌟 Video-Infinity — быстрая генерация длинных видеороликов
conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt
python inference.py --config examples/config.json
👁🗨 LongVA: Long Context Transfer from Language to Vision
Vision модель с длинныи конетекстом , которая:
- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@ai_machinelearning_big_data
Митап для DS и ML-разработчиков от МТС
4 июля | 18:30
Офлайн в Москве | Онлайн
Что будет в программе:
— Эксперты из RnD расскажут, как как адаптировать Open Source-модели генеративного ИИ, чтобы с минимальными ресурсами получить приемлемое качество дообучения.
— Обсудим, что такое персональные ИИ-решения и как в МТС создавали персональных Аватара и Ассистента.
— Узнаем про LLM от экспертов MTS AI.
Очных участников ждут нетворкинг и ламповый вечер в пространстве летнего кинотеатра в парке «Музеон». Все желающие смогут присоединиться онлайн.
Регистрируйтесь по ссылке.
🌟 LongRAG — улучшение RAG при помощи LLM с большим контекстом
Традиционный RAG работает с небольшими фрагментами документов, т.е. нужно обработать огромное количество таких фрагментов, чтобы найти нужное.
В отличие от традиционного, LongRAG работает с большими фрагментами, что значительно улучшает результат.
LongRAG полностью использует возможности LLM с большим контекстом для достижения высокой производительности.
На графике — сравнение LongRAG с обычным RAG. Синие названия обозначают модели без тонкой настройки, а красные - модели с тонкой настройкой.
🟡 Страничка LongRAG
🟡 Датасет
🖥 GitHub
@ai_machinelearning_big_data
🖥 Maestro — это инструмент искусственного интеллекта, который использует возможности передовых нейронных сетей для выполнения ваших задач.
Этот Python-скрипт задействует до трех моделей ИИ для решения задач: Мощная связка из GPT-4o, Claude-3.5 и LlaMa 3, работающих вместе для решения ваших задач.
Роли моделей следующие:
▫️ ORCHESTRATOR MODEL — управляет всем процессом.Модель принимает ваш промпт, разбивает её на более мелкие задачи и передает их следующей модели.
▫️ SUB AGENT MODEL — выполняет ключевые функции проекта, такие как написание кода, генерация текста и многое другое.
▫️ REFINER MODEL — оптимизирует и улучшает результаты предыдущхи моделей, исправляет ошибки, делает текст более естественным и многое другое.
▪ Github: https://github.com/Doriandarko/maestro
#генеративныеии
@ai_machinelearning_big_data
🌟 MorpheuS — реконструкция поверхности с обзором 360° по монокулярному RGB-D видео
MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Метод разработан Hengyi Wang и коллегами из Лондонского университета
Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели
🟡 Страничка MorpheuS
🟡 Arxiv
🖥 GitHub
@ai_machinelearning_big_data
🌟 ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
В частности при помощи ExVideo была улучшена модель Stable Video Diffusion, для генерации длинных видеороликов до 128 кадров.
Код, статья и модель — по ссылкам ниже.
🟡 Страничка ExVideo
🖥 GitHub
🟡 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
🌟 Modded-NanoGPT — позволяет добиться качества GPT-2 (124M) при обучении всего на 5B лексем
Modded-NanoGPT — это модификация того кода для обучения GPT-2 от Андрея Карпати.
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥 GitHub
@ai_machinelearning_big_data
🌟 Локальный голосовой помощник june-va: Ollama + HF transformers + Coqui TTS
git clone https://github.com/mezbaul-h/june.git
cd june
pip install .
🦜 Toucan — open-source TTS-модель с поддержкой 7000 языков и диалектов
Toucan — это модель преобразования текста в речь (TTS) + набор инструментов для обучения, тренировки и развертывания модели.
Модель создана в Институте обработки естественного языка (IMS) Штутгартского университета.
Всё написано на идиоматическом Python с использованием PyTorch, для максимально лёгкого изучения и тестирования.
🖥 GitHub
🤗 Затестить на HF
🤗 Датасет на HF
@ai_machinelearning_big_data
🌟 Magnum-72B-v1 — LLM, которая умеет в прозу и стихи (как Sonnet и Opus от Claude AI)
Magnum-72B-v1 создана на базе Qwen-2 72B.
Обучение проводилось на 55 миллионах токенов высококачественных данных. Для тонкой настройки всех параметров модели было использовано 8 ускорителей AMD Instinct MI300X.
🤗 Hugging Face
@ai_machinelearning_big_data
DataOps Platform от МТС получила награду от CNews в номинации “Инновация года: Self-Service платформа для работы с большими данными". Платформа предоставляет инструменты для хранения, обработки, контроля качества и виртуализации данных, а также построения отчётности и многое другое. Успешное замещение импортных сервисов на собственную платформу принесло экономию до 1,5 млрд рублей за год. Отличный шаг в развитии цифровой экосистемы.
@ai_machinelearning_big_data
⚡️ Florence-2 — open-source VLM от Microsoft
Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).
Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.
🤗 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
⚡️ MeshAnything: генерация качественной полигональной сетки с помощью авторегрессионных трансформеров
MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.
MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.
🖥 GitHub
🤗 Hugging Face
🟡 Страничка MeshAnything
@ai_machinelearning_big_data