ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

🌟 LongRAG — улучшение RAG при помощи LLM с большим контекстом

Традиционный RAG работает с небольшими фрагментами документов, т.е. нужно обработать огромное количество таких фрагментов, чтобы найти нужное.
В отличие от традиционного, LongRAG работает с большими фрагментами, что значительно улучшает результат.

LongRAG полностью использует возможности LLM с большим контекстом для достижения высокой производительности.
На графике — сравнение LongRAG с обычным RAG. Синие названия обозначают модели без тонкой настройки, а красные - модели с тонкой настройкой.

🟡 Страничка LongRAG
🟡 Датасет
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 Maestro — это инструмент искусственного интеллекта, который использует возможности передовых нейронных сетей для выполнения ваших задач.

Этот Python-скрипт задействует до трех моделей ИИ для решения задач: Мощная связка из GPT-4o, Claude-3.5 и LlaMa 3, работающих вместе для решения ваших задач.

Роли моделей следующие:
▫️ ORCHESTRATOR MODEL — управляет всем процессом.Модель принимает ваш промпт, разбивает её на более мелкие задачи и передает их следующей модели.

▫️ SUB AGENT MODEL — выполняет ключевые функции проекта, такие как написание кода, генерация текста и многое другое.

▫️ REFINER MODEL — оптимизирует и улучшает результаты предыдущхи моделей, исправляет ошибки, делает текст более естественным и многое другое.

Github: https://github.com/Doriandarko/maestro

#генеративныеии

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MorpheuS — реконструкция поверхности с обзором 360° по монокулярному RGB-D видео

MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Метод разработан Hengyi Wang и коллегами из Лондонского университета

Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели

🟡 Страничка MorpheuS
🟡 Arxiv
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео

ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.

В частности при помощи ExVideo была улучшена модель Stable Video Diffusion, для генерации длинных видеороликов до 128 кадров.
Код, статья и модель — по ссылкам ниже.

🟡 Страничка ExVideo
🖥 GitHub
🟡 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Modded-NanoGPT — позволяет добиться качества GPT-2 (124M) при обучении всего на 5B лексем

Modded-NanoGPT — это модификация того кода для обучения GPT-2 от Андрея Карпати.

Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Локальный голосовой помощник june-va: Ollama + HF transformers + Coqui TTS

git clone https://github.com/mezbaul-h/june.git
cd june
pip install .


june-va — это локальный голосовой помощник, использующий возможности Ollama, Hugging Face transformers (для распознавания речи) и Coqui TTS (для преобразования текста в речь).

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🦜 Toucan — open-source TTS-модель с поддержкой 7000 языков и диалектов

Toucan — это модель преобразования текста в речь (TTS) + набор инструментов для обучения, тренировки и развертывания модели.

Модель создана в Институте обработки естественного языка (IMS) Штутгартского университета.

Всё написано на идиоматическом Python с использованием PyTorch, для максимально лёгкого изучения и тестирования.

🖥 GitHub
🤗 Затестить на HF
🤗 Датасет на HF

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Magnum-72B-v1 — LLM, которая умеет в прозу и стихи (как Sonnet и Opus от Claude AI)

Magnum-72B-v1 создана на базе Qwen-2 72B.
Обучение проводилось на 55 миллионах токенов высококачественных данных. Для тонкой настройки всех параметров модели было использовано 8 ускорителей AMD Instinct MI300X.

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

DataOps Platform от МТС получила награду от CNews в номинации “Инновация года: Self-Service платформа для работы с большими данными". Платформа предоставляет инструменты для хранения, обработки, контроля качества и виртуализации данных, а также построения отчётности и многое другое. Успешное замещение импортных сервисов на собственную платформу принесло экономию до 1,5 млрд рублей за год. Отличный шаг в развитии цифровой экосистемы.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Florence-2 — open-source VLM от Microsoft

Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).

Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.

🤗 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ MeshAnything: генерация качественной полигональной сетки с помощью авторегрессионных трансформеров

MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.

MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.

🖥 GitHub
🤗 Hugging Face
🟡 Страничка MeshAnything

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 Астрологи объявлили неделю моделей генерации видео!

После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.

На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.

Основные моменты:

Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.

Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
Demo: https://huggingface.co/spaces/hpcai-tech/open-sora

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике

> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 КБ.
> Полностью открытый исходный код двух размеров: 230B и 16 B

В таблице Arena-Hard-Auto DeepSeek-Coder-V2 превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.

#DeepSeekCoder

HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Попробовать: https://chat.deepseek.com/sign_in?from=coder

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 OpenVLA 7B — OpenVLA — VLA-модель с 7B параметрами

OpenVLA 7B (vision-language-action) — это open-source модель, обученная на 970K эпизодах манипулирования роботами из набора данных Open X-Embodiment. Модель принимает на вход текстовый промпт и изображения с камеры и генерирует действия робота.

OpenVLA 7B из коробки поддерживает управление несколькими роботами и может быть быстро адаптирована к новым областям робототехники с помощью тонкой настройки.

🖥 GitHub
🟡 Модели на Hugging Face
🟡 Страничка OpenVLA

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Hallo: новый подход в анимации портретных изображений на основе аудио

Hallo объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.

🖥 GitHub
🟡 Предобученные модели на Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

В современном мире, где данные – ключевой ресурс, Томский государственный университет (ТГУ) и Skillfactory представляют онлайн-магистратуру по компьютерному зрению и нейронным сетям! Эта программа создана для тех, кто стремится стать экспертом в области искусственного интеллекта и решать сложные инженерные задачи в медицине, экологии и не только.

Что вас ждет:
- Освоите онлайн Computer Vision и выберите специализацию: AR-технологии, генеративный дизайн, робототехника.
- Получите диплом ТГУ и все студенческие льготы.

Первый год обучения – от 240 рублей в месяц благодаря господдержке.

Программа создана совместно с лидерами отрасли: академический директор – ведущий инженер по машинному обучению в Samokat.tech, а индустриальный партнер – ведущий разработчик IT-решений Rubius, который является лидером в области IT-разработок в России.

Для поступления не нужны специализированные знания в машинном обучении или оптике – подготовка включает адаптационные модули по математике и Python.

Оставьте заявку сегодня и получите доступ к бесплатным подготовительным курсам и мероприятиям от ТГУ, которые помогут успешно пройти вступительные испытания. Подробности по ссылке ниже – присоединяйтесь к будущему уже сейчас! https://go.skillfactory.ru/0Z6EAg 

Реклама. ООО «Скилфэктори»
erid: LjN8K3Lt5

Читать полностью…

Machinelearning

🌟 mental-diffusion — CLI для быстрой работы со Stable Diffusion

git clone https://github.com/nimadez/mental-diffusion
cd mental-diffusion

sudo apt install python3-pip python3-venv
sh install-venv.sh
sh install-bin.sh


Особенности mental-diffusion:
— работает с CPU, с GPU
— SD, SDXL
— можно загружать веса VAE и LoRA
— режимы Txt2Img, Img2Img, Inpaint
— есть пакетная генерация изображений, несколько изображений за один запрос
— поддерживатся чтение/запись метаданных PNG, автоматическое переименование файлов
— есть режим низкого объема VRAM (автоматически при GPU < 4 ГБ)
— легкий CLI, написан всего в 300 строк

Кстати, промпт для 2 изображения, можно затестить: "AI will bring us back to the age of terminals."

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 EvTexture — новый метод апскейлинга видео

В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.

Быстрый старт с Docker:

docker pull registry.cn-hangzhou.aliyuncs.com/dachunkai/evtexture:latest
cd EvTexture && docker build -t evtexture ./docker
source activate evtexture && cd EvTexture && python setup.py develop


🟡 Страничка EvTexture
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Hermes-2-Theta-Llama-3-70B — комбо на основе Hermes 2 Pro и Llama-3 Instruct

Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.

Судя по метрикам и ответам, модель получилась неплохой

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.

При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.

Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)


abs: https://arxiv.org/abs/2406.14491
models: https://huggingface.co/instruction-pretrain

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Anthropic только что представлии Claude 3.5 Sonnet, модель которая превосходит GPT-4 почти на всех тестах.

В Claude 3.5 Sonnet добавлена поддержка «артефактов», позволяющая выдавать результаты в различных форматах, таких как код, текстовые документы, изображения и другие.

Claude 3.5 Sonnet уже доступна бесплатно для всех пользователей.

До конца года Anthropic планируют выпустить Claude 3.5 Haiku (более компактная и быстрая модель) и Claude 3.5 Opus (самая мощная модель из семейства).

Sonnet превосходит Claude 3 Opus во всех стандартных vision-задачах.

📌 Попробуйте бесплатно: http://claude.ai

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️Как устроены ChatGPT, Siri, Алиса и Маруся — и какие навыки нужны, чтобы запускать такие продукты?

Приходите на бесплатный онлайн-практикум от ТГУ и Skillfactory 27 июня в 19:00 мск.

За 1,5 часа эксперт расскажет:
— что такое обработка естественного языка;
— как использовать ее для анализа текстов, проверки бизнес-идей и научных гипотез;
— какие технологии сейчас востребованы на рынке.

Регистрируйтесь бесплатно по ссылке: https://go.skillfactory.ru/&amp;erid=2VtzqwadDRZ

Получите в подарок курс по математике.

Реклама ООО "Скилфэктори", ИНН 9702009530

Читать полностью…

Machinelearning

🌟 GEB-1.3B — open-source облегченная LLM

GEB-1.3B — это лёгкая LLM, обученная на 550 миллиардах лексем.
При всей своей лёгкости модель превосходит Llama-7B и схожие LLM в 3 метриках из 4 (C-Eval, CMMLU, Average)

Для достижения такого впечатляющего результата были использованы новые методы обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности LLM. Кроме того, была произведена тонкая настройка модели при помощи 10 миллионов разных промптов и инструкций.

Кстати, квантизованная FP32-версия GEB-1.3B довольно быстро работает даже на CPU, при этом продолжаются работы по дальнейшему увеличению скорости с помощью квантования.

🟡 Arxiv
🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Open Interpreter — полное управление компьютером при помощи запросов на естественном языке

pip install open-interpreter
interpreter


Open Interpreter предоставляет интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.

При помощи Open Interpreter можно на естественном языке выполнять такие действия как:
— создание и редактирование фотографий, видео, PDF-файлов и т. д.

— управление браузером

— анализ данных, построение графиков и т.д.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥Хотите перейти в ML и построить успешную карьеру? 

В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения. 

⚡25 июня в 20.00 мск приглашаем на открытое практическое занятие "Карьерные переходы в ML или старт в новой профессии", где мы разберем:

- стратегии перехода;
- правильное оформление резюме;
- прохождение интервью;
- реальные кейсы из опыта эксперта. 

Условие участия - вступительное тестирование 

👉Пройти тест и записаться на мероприятие https://otus.pw/Cnfe/?erid=LjN8K8nhJ

При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа. 

Читать полностью…

Machinelearning

🔥 Meta анонсировали четыре новые открытые модели искусственного интеллекта!

🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818

🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.

🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/

🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal

📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In

Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🎙️StreamSpeech: Мощная модель синхронного перевода речи.

StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.

💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.

page: https://ictnlp.github.io/StreamSpeech-site/
paper: https://arxiv.org/abs/2406.03049
code: https://github.com/ictnlp/streamspeech

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Runway AI только что анонсировали Gen-3 Alpha, которая генерирует видео из текста и изображений и будет доступна в ближайшие дни.

Что нас ждет
— Супер высокая детализация;
— Плавные переходы по кадрам;
— Длительность роликов до 10 секунд;
— Продвинутые инструменты контроля над видео;
— Нейронная сеть будет преобразовывать текст в видео, изображение в видео и текст в изображение;
— Возможность обучения на собственных стилях

На видео сравнение недавно-3 Alpha не и открытой Luma. Разница видна невооруженным взгялдом

Для этих генераций были использованы одни и те же промпты.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Mamba — семейство SSM-моделей

Селективные модели пространства состояний (SSM), такие как Mamba, не имеют некоторых недостатков трансформеров, таких как квадратичная вычислительная сложность при увеличении длины последовательности и большие требования к памяти. Более того, недавние исследования показали, что SSM могут соответствовать или превосходить возможности трансформеров, что делает их интересной альтернативой.

Однако до сих пор проводились лишь небольшие эксперименты по сравнению SSM с трансформерами.
Это исследование призвано исправить ситуацию, здесь проводится прямое сравнение 8B моделей Mamba, Mamba-2 и трансформера, обученных на одних и тех же наборах данных объемом до 3.5Т лексем. Также эти модели сравниваются с гибридной моделью (Mamba-2-Hybrid), состоящей из 43% слоев Mamba-2, 7% слоев Attention и 50% слоев MLP.

🤗 Mamba-2 и другие модели на Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ VideoLLaMA 2 — набор open-source Video-LLM, предназначенных для генерации видео

git clone https://github.com/DAMO-NLP-SG/VideoLLaMA2
cd VideoLLaMA2
pip install -r requirements.txt
pip install flash-attn --no-build-isolation


VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.

🖥 GitHub
🤗 Демо на HF
🤗 Модель VideoLLaMA 2 на HF

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал