ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

Новостной дайджест

✔️Xerox оптимизирует процесс обработки документов с помощью AI в новых МФУ серии AltaLink 8200.

Компания Xerox представила новую технологию AI-Assisted Document Processing.
Ключевым элементом новой системы является использование генеративного ИИ и машинного обучения для анализа и извлечения данных из различных типов документов.
AI-Assisted Document Processing может автоматически классифицировать документы, извлекать ключевую информацию и даже интерпретировать контекст.
Xerox интегрирует эту технологию в свои существующие решения для управления документооборотом, создавая комплексную экосистему для работы с информацией.
Первой линейкой устройств, которые получат технологию будет серия многофункциональных устройств AltaLink 8200.
investors.xerox.com

✔️Google Gemini получил масштабное обновление, появилась быстрая версия Flash 1.5.

Новый Flash 1.5 включает в себя усовершенствования в области скорости обработки данных и точности ответов.
Улучшения в Flash 1.5 включают оптимизацию алгоритмов машинного обучения и внедрение новых моделей обработки естественного языка (NLP).
С ними чат-бот быстрее анализирует запросы пользователей и дает более релевантные и точные ответы. Кроме того, обновление улучшает способность понимать контекст и нюансы разговоров.
Ключевым обновлением отмечается интеграция с другими сервисами Google, такими как Google Search и Google Assistant, это позволяет пользователям использовать чат-бота для выполнения различных задач, от поиска информации до управления устройствами умного дома.
blog.google

✔️Llama 3.1 405B стала доступна в Groq Chat и Groq Dev Console.

Компания Groq объявила о доступности модели Llama 3.1 405B, самой крупной и мощной открытой модели на сегодняшний день, через платформу GroqCloud Dev Console и GroqChat. Модель Llama 3.1 405B, наряду с версиями 70B и 8B.
Groq использует свою запатентованную технологию LPU (Language Processing Unit) для обеспечения высокоскоростной инференции, что позволяет эффективно работать с такой масштабной моделью.
wow.groq.com

✔️Microsoft представила возможность бессерверного файнтюна для своей модели Phi-3.

Эта возможность позволяет разработчикам адаптировать модель под конкретные задачи без необходимости управления сложной инфраструктурой.
Бессерверная тонкая настройка доступна для моделей Phi-3-mini (3,8В) и Phi-3-medium (7,3В) через Azure AI Studio.
Технология бессерверной тонкой настройки использует подход низкоранговой адаптации (LoRA), который позволяет обучать модель на небольших наборах данных, сохраняя при этом базовые знания модели.
Помимо бессерверной тонкой настройки, Microsoft представила обновленную версию Phi-3-mini с улучшенными характеристиками в области следования инструкциям, структурированного вывода и рассуждений.
azure.microsoft.com

✔️Intel AI Playground - бесплатное приложение для PC для Arc.

Intel анонсировала запуск Intel AI Playground, платформы, предназначенной для демонстрации возможностей искусственного интеллекта и предоставления инструментов для разработчиков.
Intel AI Playground включает в себя набор предобученных моделей и программного обеспечения, которые можно использовать для различных задач, таких как обработка естественного языка, компьютерное зрение и генеративные модели. Платформа поддерживает популярные фреймворки для разработки AI: TensorFlow и PyTorch.
AI Playground доступна для загрузки на сайте Intel
hothardware.com

Читать полностью…

Machinelearning

🚀 Заканчивается набор на курс "Компьютерное зрение Advanced"! Стартуем 30 июля. Успейте попасть в группу! 🚀

Присоединяйтесь к нашему продвинутому курсу по компьютерному зрению от OTUS, ведущего образовательного центра с более чем 130 авторскими курсами для IT-специалистов уровня.

Что Вас ждёт на курсе?

Вводная часть и настройка: Разберетесь с настройкой окружения, углубленным изучением PyTorch и дополнительных библиотек.

Нейронные сети и обучение: Изучите эволюцию сверточных сетей, Self-Supervised Learning и адаптивные методы. Рассмотрите современные архитектуры и методы обучения.

Стандартные задачи CV: Освоите методы детектирования, 3D сегментацию, трекинг и ReID.

Генеративные модели: Научитесь использовать VAE, GAN, диффузионные модели, генеративные видеомодели и мультимодальные нейросети.

Продвинутые методы CV: Изучите SAM, стереозрение, 3D реконструкцию, SLAM, модели для автономных ТС и детекцию действий.

Оптимизация инференса: Научитесь выполнять инференс на сервере и аннотацию данных в CVAT.

Проектная работа: Получите консультации по проектам и защитите свои проекты.

🤔Какие навыки Вы сможете отразить в своём резюме после прохождения курса?

Детектирование объектов: Разработка моделей для автономного вождения и других приложений с высокой точностью.

Сегментация изображений: Применение методов для медицинской диагностики и других областей, создание моделей с минимальным количеством размеченных данных.

Распознавание объектов: Разработка системы для автономных транспортных средств и роботов, способных ориентироваться в пространстве.

Оценка позы: Создание 3D модели объектов и сцен для медицины, архитектуры и робототехники.

Генеративные модели: Генерация изображений и видео, разработка мультимодальных моделей для создания контента.

Интеграция данных: Создание системы для обработки и интеграции текстов, изображений и видео, например, для визуального QA.

Пройдите вступительное тестирование и получите 15% скидку до 28 июля! Не упустите шанс! 🌟

👉Для регистрации и тестирования нажмите здесь.
👉Для более детального ознакомления с курсом здесь.

Места ограничены, торопитесь!

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

Всегда буду делать бэкапы vs подумаю об этом завтра...😈

✔️ Порассуждаем на вечную тему на онлайн-дискуссии от MTS Web Services 31 июля в 11.00 МСК!

➡️ Зарегистрироваться ⬅️

☁️☁️Резервное копирование помогает сформировать защищенный архив данных и обеспечивает их удобное восстановление.

☀️ Бэкапы минимизируют последствия внештатных ситуаций и снижают риск вероятности потери данных из-за сбоев, кибератак и человеческого фактора.

🗂 Для эфира мы собрали три кейса из разных сфер: логистики, промышленности и ИТ.

Вы узнаете:

🔴Как сервис резервного копирования выручает компании;

🔴Помогает избежать нарушений бизнес-процессов;

🔴Почему бэкапы нужно делать всем.

Спикеры онлайн-дискуссии:

Павел Брагин,
руководитель cтрима «‎Вычисление, хранение и кибербезопасность», MTS Web Services.

Сергей Шаров, менеджер по развитию облачного направления, Киберпротект.

Приходите!
✉️Всегда рады вашим вопросам и историям!

Читать полностью…

Machinelearning

⚡️ Stable Video 4D: Модель для динамической генерации видео с разных ракурсов.

Stable Video 4D - модель генерации видео от Stability AI, способная преобразовывать одиночное видео объекта в несколько новых видео с различных ракурсов с поддержкой согласованности внешнего вида объекта по пространственным и временным осям..

Модель использует комбинацию из четырех визуальных энкодеров (SigLIP, CLIP, DINOv2 и OpenCLIP ConvNeXt) и пространственный агрегатор зрения для создания 5 кадров для каждого из 8 ракурсов примерно за 40 секунд.

В Stable Video 4D пользователю доступны параметры:

🟢Входное видео: загрузка одиночного видео объекта, которое будет использоваться как основа для генерации новых ракурсов. Поддерживаемые форматы — .gif, .mp4 или секвенция кадров в формате .png\.jpeg\.jpg;

🟢3D-позиции камеры: указание конкретных ракурсов и углов обзора, с которых модель должна сгенерировать новые видео;

🟢Количество кадров: по умолчанию модель генерирует 5 кадров для каждого ракурса, но этот параметр может быть изменен;

🟢Количество ракурсов: стандартно модель создает 8 новых ракурсов, но пользователь может настроить это количество в зависимости от своих потребностей;

🟢Количество шагов оптимизации: регулировка количества шагов, затрачиваемое на 4D-оптимизацию, чем больше шагов - тем лучше результат.


▶️Технические рекомендации по запуску официально не публиковались, но в сообществе пользователей подтверждают о возможности запуска Stable Video 4D на 16 GB VRAM.

▶️Для локального запуска необходимы модели:

🟠Stable Video 3D_U
🟠Stable Video 3D_P
🟠Stable Video 4D

▶️Локальный запуск Stable Video 4D:

с автозагрузкой моделей и дефолтными параметрами

python scripts/sampling/simple_video_sample_4d.py --input_path assets/test_video1.mp4 --output_folder outputs/sv4d


с настраиваемыми параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video> --<sv3d_version> -- <elevations_deg> -- <num_steps> --output_folder_path <output/folder/path>



📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму


🟡Страница проекта
🟡Модель на HF
🟡Video на YT
🟡Сообщество в Discord
🟡Arxiv
🖥Github [ Stars: 25K | Issues: 239 | Forks: 2.6K]


@ai_machinelearning_big_data

#AI #StabilityAI #ML #Generative #SV4D

Читать полностью…

Machinelearning

Как начать карьеру в Data Science? Поступите в онлайн-магистратуру «Науки о данных» и учитесь у экспертов из экосистемы Сбера и НИТУ МИСИС 🤖

Получите качественное образование, погрузитесь в индустрию и приобретете первый практический опыт по специальности.

Вы сможете:

🔆 под руководством практикующих data-экспертов решать реальные бизнес-задачи,
🔆 освоить актуальный стек технологий для развития в аналитике данных или Data Science,
🔆 разработать собственный проект уже в ходе обучения,
🔆 развить мягкие навыки по модели Сбера,
🔆 применить полученные знания на практике в экосистеме Сбера или компаниях-партнерах,
🔆 подтвердить профессиональный уровень дипломом магистра НИТУ МИСИС гособразца.

Все обучение онлайн — не нужно ставить на паузу карьеру или переезжать. А еще вам будут доступны все студенческие льготы, включая отсрочку от военной службы.

Подайте заявку, сдайте экзамен — и начинайте учиться уже этой осенью!

Читать полностью…

Machinelearning

⚡️ Q-GaLore: алгоритм обучения и файнтюна LLM с экономией памяти.

Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:

🟢адаптивного обновления подпространств (увеличение интервала между операциями SVD и, как следствие, сокращение их числа на 60%);
🟢квантовании весов и матриц в проекции (хранение весов модели в INT8, использовании 4-битных матриц проекции и применение стохастического округления для аппроксимации траектории обучения с высокой точностью)
🟢применении метода fused backward operation в совокупности с 8-битным оптимизатором Adam.

Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.

▶️ Локальный запуск:


# # Install via conda
conda env create - f environment.yml

# or Install Q-GaLore optimizer and experiment dependencies

# install from pip
pip install q-galore-torch

# or install from source:
git clone https://github.com/VITA-Group/Q-GaLore.git
cd Q-GaLore
pip install -e

pip install -r exp_requirements.txt


Пример конфига для претрейга LLaMa на с4 датасете

Пример конфига для претрейна LLaMA-7B на 16 GB VRAM

▪Лицензирование: Apache-2.0


Arxiv
Video from Open AGI Summit
Github [ Stars: 3.4K | Issues: 122 | Forks: 274]


@ai_machinelearning_big_data

#AI #FineTuning #LLM #QGalore #ML

Читать полностью…

Machinelearning

Инфраструктура для ML и AI задач

Кластеры Kubernetes отлично подходят для запуска ML-проектов в продакшене. С их помощью можно изолировать проведение разных экспериментов, автоматизировать их запуск и управление, а также быстро масштабировать ресурсы под нагрузкой. Добавление нод с GPU в такие кластеры ускорит обучение ML-моделей и повысит их производительность в продакшене.

В сервисе Managed Kubernetes от Selectel, как раз есть все необходимое для работы с ML-проектами:

▪️ Большой запас видеокарт под любую задачу в наличии: NVIDIA А2, А30, А100, А2000, А5000, Tesla Т4, GTX 1080, GTX 2080
▪️ Отказоустойчивость и автомасштабирование нод c GPU. В зависимости от нагрузки Kubernetes автоматически создаст или удалит ноды в группе.
▪️ Простая настройка драйверов на GPU-нодах кластера. Используйте предустановленные драйверы или самостоятельно установите нужные с помощью GPU Operator

А сейчас новые клиенты Managed Kubernetes c GPU могут получить 100% кешбэк за первый месяц использования сервиса.

Развернуть свой ML-проект в кластерах Kubernetes c GPU и получить кешбэк можно по ссылке: https://slc.tl/3nec3

Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzqueYoW2

Читать полностью…

Machinelearning

Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект.

Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам:
- Использовать ChatGPT в вашей профессиональной сфере.
- Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу.
- Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT.

Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8JuvTo

Читать полностью…

Machinelearning

⚡️Я️ндекс выложил в опенсорс новые методы сжатия нейросетей

Решение разработано совместно с IST Austria и представляет собой двухэтапный метод сжатия, позволяющий уменьшать модели до 8 раз, при этом сохранив качество их ответов на 95%. Это позволит сэкономить потребляемые ресурсы и ускорить работу нейросетей.

Эффективность методов оценивали на популярных моделях с открытым исходным кодом: LLama 2, Mistral, Mixtral и других. На Хабре разработчики также могут скачать уже сжатые с помощью метода популярные опенсорс модели. Авторы выложили демо-материалы, которые помогут правильно дообучить уменьшенные нейросети под свои сценарии.

▪️Habr: https://habr.com/ru/companies/yandex/articles/830410/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 ZebraLogic: Комплексная оценка логического мышления крупных языковых моделей.

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

Головоломки разделены на два уровня по сложности:
1. Легкие (сетка менее 3x3)
2. Сложные (сетка размером 3x3) и более.

✔️ Результаты оценки популярных моделей, представленные в публичном лидерборде:

🟢лучшие результаты показала Claude 3.5 Sonnet, решившая 33,4% всех головоломок и 12,4% сложных задач
🟢лучший результат среди открытых моделей у DeepSeek-v2-Chat (0628)
🟢модели с 7-10B параметров продемонстрировали крайне низкую эффективность на сложных головоломках (менее 1% решенных задач)
🟢Gemini-1.5-Pro оказалась сопоставима с более легкой Gemini-1.5-Flash
🟢Greedy decoding в большинстве случаев дает лучшие результаты, чем сэмплирование.

✔️ Для сравнения, средняя время выполнение теста человеком:

2x2 ~ 15 секунд
3х3 ~ 1 минута 30 секунд
4х4 ~ от 10 до 15 минут


▶️ Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval

# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4


📌Лицензирование: Apache-2.0 license


🟡Страница проекта
🟡Датасет на HF
🟡Leaderboard
🖥Github [ Stars: 38 | Issues: 1 | Forks: 1]


@ai_machinelearning_big_data

#AI #Benchmark #LLM #Evaluation #ML

Читать полностью…

Machinelearning

⚡️ Arcee: Семейство merdge-моделей от сервиса arcee.ai

Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade,  Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов.

Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova.

✔️ Arcee-Scribe (7.74B) - это универсальная модель чата, ориентированная на рассуждения, решение творческих задач и написание текстов.
Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные.

Возможности и примеры использования:

🟢role-play диалоги с подтекстом и сложными эмоциями;
🟢объяснение сложных идей с помощью творческих аналогий;
🟢создание историй с нелинейным повествованием или уникальной перспективой и сложной повествовательной структурой;
🟢решение бизнес-задач: создание контента, описание продукции, коммуникация с потребителями, брейнстрорминг.

Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках.
Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех.

Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и
в Transformers


✔️ Arcee-Nova (72.7B) - высокопроизводительная мультиязычная модель с широким спектром языковых задач. Nova - это объединение Qwen2-72B-Instruct с собственной моделью, настроенной на смеси обобщенных данных.

Возможности и примеры использования:

🟠решение сложных задач, логические выводы и рассуждения;
🟠создание увлекательного и оригинального текстового контента в различных жанрах;
🟠помощь в решении задач программирования, от создания кода до его отладки;
🟠общее понимание языка, создание человекоподобных текстов в различных контекстах.
🟠решение бизнес-задач: создание контента, разработка программного обеспечения, коммуникация с потребителями, анализ данных и построение отчетов, исследования и гипотезы,  анализ документов и проверка соответствия нормативным требованиям, адаптивные системы обучения и интеллектуальные обучающие программы.

Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями.

Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и
в Transformers

📌Лицензирование Arcee-Scribe

Для некоммерческих проектов - Apache2.0
Для коммерческого использования: - через подачу заявки у InternLM

📌Лицензирование Arcee-Nova

Для некоммерческих проектов - свободно, тип не определен.
Для коммерческого использования: - симметрично  Qwen2-72B


🟡Страница проекта
🟡Модели Arcee-Scribe
🟡Модели Arcee-Nova
🟡Demo Arcee-Nova


@ai_machinelearning_big_data

#AI #LLM #GGUF #ML #ArceeNova #ArceeScribe

Читать полностью…

Machinelearning

Стоит ли вам начинать карьеру в аналитике и Date Science? Онлайн-встреча, которая поможет понять

Вокруг работы с данными много мифов: сложно начать карьеру — просто начать карьеру — нужно начинать с бизнес-аналитики — всем надо в системные аналитики.

День открытых дверей «Как начать карьеру в аналитике и Data Science» поможет разобраться, что из этого правда, а что нет. Продюсеры Нетологии ответят на волнующие вопросы:

— По-прежнему ли высок спрос на аналитиков?
— В какие компании устраиваться на работу в сфере данных, чтобы хорошо зарабатывать?
— С чего стартовать в аналитике и Data Science и сложно ли это?

Участники встречи получат в подарок гайд «Как войти в сферу данных и найти своё направление». Он поможет принять взвешенное решение о старте карьеры в новой для вас профессии.

Приоткройте для себя двери в аналитику: https://netolo.gy/djxH

Реклама. ООО "Нетология". Erid: 2VSb5xrRBLU

Читать полностью…

Machinelearning

🌟 FoleyCrafter: Генерация звуковых эффектов для беззвучных видео.

FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio). Система состоит из двух ключевых компонентов:

🟢Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
🟢Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.

Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.

Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.

▶️ Локальный запуск с использованием GradioUI:

# Clone the Repository
git clone https://github.com/open-mmlab/foleycrafter.git

# Navigate to the Repository
cd projects/foleycrafter

# Create Virtual Environment with Conda & Install Dependencies
conda create env create -f requirements/environment.yaml
conda activate foleycrafter

# Install GiT LFS
conda install git-lfs
git lfs install

# Download checkpoints
git clone https://huggingface.co/auffusion/auffusion-full-no-adapter checkpoints/auffusion
git clone https://huggingface.co/ymzhang319/FoleyCrafter checkpoints/

# Run Gradio
python app.py --share


📌 Лицензирование: Apache-2.0


🟡Страница проекта
🟡Arxiv
🟡Модели на HF
🟡Demo
🖥Github [ Stars: 272 | Issues: 4 | Forks: 15]

@ai_machinelearning_big_data

#AI #Text2Audio #FoleyCrafter #ML

Читать полностью…

Machinelearning

🏆 Ozon Tech запускает E-CUP — масштабное соревнование для ML-разработчиков в сфере e-com! Реши реальную бизнес-задачу и поборись за призовой фонд в 1 200 000 рублей!

Смотри подробности и регистрируйся до 18 августа

Приглашаем специалистов по Data Science, ML-инженеров, разработчиков. Твои суперсилы:
🔸 гуру машинного обучения и работы с ML-фреймворками;
🔸 мастер ETL-процессов, SQL, Spark и подобных систем;
🔸 ас в компьютерном зрении.

Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как максимально эффективно применять этот подход в своей работе.

🚀 На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech:
1️⃣ Создать ML-модель для улучшения пользовательского опыта клиентов, которая с помощью названий, атрибутов и картинок определит, одинаковые ли товары на изображении.
2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки. Модель должна распознавать сигарету на любых изображениях: от фотографий до аниме-фреймов.

Ключевые этапы E-CUP:
🔹 1 июля — старт регистрации
🔹 19 августа — публикация задач
🔹 8 сентября — окончание приёма решений
🔹 13 сентября — оглашение победителей

Призовой фонд — 1 200 000 рублей. Зарегистрируйся и узнай первым про секретный подарок от команды Ozon Tech, который поможет лучшим участникам прокачать навыки и построить карьеру в e-com-бигтехе!

Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

Читать полностью…

Machinelearning

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0


🟡Страница проекта
🟡Модель на HF
🟡Сообщество и поддержка
🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B

Читать полностью…

Machinelearning

⚡️Headless-AD: модель, которая умеет обобщаться на новые действия

На ICML 2024 исследователи из лаборатории Т-Bank AI Research и Института AIRI представили первую модель в In-Context Learning, которая умеет обобщаться на новые действия.

Ранее агенты умели адаптироваться только по State, Transition, Reward, а адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.

Для решения этой проблемы исследователи взяли за основу Algorithm Distillation), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что доступен на этапе обучения.

Headless-AD была создана на основе AD с помощью трех модификаций:

● Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда название Headless-AD.
● Кодировка действий случайными векторами - позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию.
● Внедрение контекста, который позволяет информировать модель о доступных действиях.

Arxiv

Github

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MINT-1T: мультимодальный датасет размером 1 триллионом токенов.

MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.

Состав и структура датасета :

🟢HTML-документы: 1029,4 миллиона шт.из дампов CommonCrawl WARC с 2017 по 2024 год;
🟢PDF-документы: 26,8 миллиона шт. из дампов CommonCrawl WAT за 2023-2024 годы;
🟢ArXiv-документы: 0,87 миллиона шт. были получены напрямую из S3-хранилищ ArXiv.

Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.

Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:

🟠Детекция NSFW контента - https://github.com/GantMan/nsfw_model
🟠Определение языка - https://fasttext.cc/
🟠Фильтр качества текста - https://github.com/huggingface/datatrove
🟠Дедупликация - https://github.com/allenai/bff
🟠Парсинг PDF-файлов - https://github.com/pymupdf/PyMuPDF
🟠Парсинг HTML - https://github.com/huggingface/OBELICS

Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.


📌Лицензирование : CC-BY-4.0


🟡Страница проекта
🟡Датасет на HF
🟡Arxiv
🖥Github [ Stars: 356 | Issues: 1 | Forks: 4]


@ai_machinelearning_big_data

#AI #Dataset #ML #MLLM

Читать полностью…

Machinelearning

🔥 Новостной дайджест

✔️Microsoft представляет Bing Generative Search, обновленную поисковую систему с AI

Анонсированный в феврале 2024 года, Bing AI Search сегодня был выпушен в ранний доступ.
Обновление сочетает в себе основу результатов поиска Bing и возможности больших и малых языковых моделей (LLM и SLM).
Он понимает поисковый запрос, изучает миллионы источников информации, динамически сопоставляет контент и формирует результаты поиска в новом макете, созданном искусственным интеллектом, для более эффективного выполнения намерений пользователя.
blogs.bing.com

✔️Все больше интернет-сервисов и сайтов блокируют доступ для AI к своим данным.

Data Provenance Initiative провела исследование, проанализировав 14 000 веб-доменов и обнаружив увеличение числа заблокированных токенов с 1 % до 7 % с апреля 2023 года по апрель 2024 года. Основными источниками таких ограничений являются новостные сайты, платформы социальных сетей и форумы, причем количество заблокированных токенов на новостных сайтах за год резко возросло с 3 до 45 %.
Специалисты видят риск в том, что дополнительные ограничения, предпринимаемые владельцами интернет-ресурсов в результате повлияет на качество и предвзятость будущих систем AI, которые будут вынуждены обучаться на манипулятивных данных.
the-decoder.com

✔️После успеха с AgentGPT компания Reworkd переключилась на создание ИИ-агентов для веб-скрапинга.

Компания Reworkd переориентировалась на разработку ИИ-агентов для веб-скрапинга. Новый подход Reworkd позволяет извлекать структурированные данные из публичных веб-сайтов с помощью мультимодальной генерации кода. Клиенты могут предоставить список сайтов и указать типы нужных данных, а ИИ-агенты Reworkd автоматически создают уникальный код для скрапинга каждого сайта и извлечения требуемой информации.
Сама Reworkd позиционирует себя как "универсальный API-слой для интернета", стремясь реализовать концепцию Семантической паутины, где компьютеры могут "читать" весь интернет.
techcrunch.com

✔️ИИ добился серебряной медали на решении заданий Международной математической олимпиады.

Системы искусственного интеллекта компании DeepMind (Google), AlphaProof и AlphaGeometry 2, успешно решили четыре из шести задач, получив оценку, эквивалентную серебряному призеру Международной математической олимпиады (IMO).
AlphaProof использует формальный язык Lean и алгоритм обучения с подкреплением AlphaZero для создания и проверки доказательств, AlphaGeometry 2 -- нейро-символическая гибридная система, обученная на большом наборе данных.
deepmind.google

✔️МLLM-модель Douchao компании ByteDance поставила рекорд производительности в 500 миллиардов токенов в сутки.

Достижению поспособствовали недавнее обновление семейства Douchao, которое добавило мультимодальность (text-to-image, speech synthesis, speech-to-text), востребованность среди корпоративных клиентов и низкая потребительская стоимость доступа.
Цена входного токена составляет всего 0,0008 юаня (это примерно 1 цент США) за тысячу токенов, что на 99,3% дешевле, чем в целом в отрасли.
jiqizhixin.com

✔️ OpenAI показала превью SearchGPT, свою новую поисковую систему!. Компания говорит, что это новый способ поиска, который перевернёт весь мир. Поисковик будет работать прямо в ChatGPT — он проверит ВСЕ доступные источники по теме, чтобы быстро выдать лучший ответ - https://chatgpt.com/search

@ai_machinelearning_big_data

#news #digest #ml #ai

Читать полностью…

Machinelearning

⚡️ Mistral Large 2: Новая большая модель 123В от MistralAI

Mistral AI
представила новую модель Mistral Large 2, которая имеет 128 тысяч токенов контекстного окна и содержит 123 миллиарда параметров.

Модель поддерживает десятки языков, включая русский и более 80 языков программирования. Mistral Large 2 набрала 84.0% на тесте MMLU и показывает результаты на уровне GPT-4 и Claude 3 Opus в задачах кодирования и рассуждений и улучшенные способности в многоязычных задачах.

Модель была обучена с акцентом на минимизацию "галлюцинаций" и расширение навыка следованию инструкциям.
Mistral Large 2 получила улучшение вызова функций и может выполнять как параллельные, так и последовательные задачи.

Модель доступна как чат через платформу Mistral AI под названием "mistral-large-2407" , по прямой ссылке для загрузки и в официальном репозитории Huggingface

Вместе с этим релизом MistralAi расширяет сотрудничество с крупными сервис-провайдерами и
с сегодняшнего для Mistral Large 2 доступна в сервисе Vertex AI (Google Cloud Platform), Azure AI Studio (Microsoft Azure), Amazon Bedrock (Amazon) и Watsonx Ai (IBM).



📌Лицензирование: Mistral Research License (для коммерческих проектов приобретение лицензии через форму)



🟡Страница проекта
🟡Модель 123B-Instruct на HF
🟡la Plateforme Chat


@ai_machinelearning_big_data

#AI #MistralLarge2 #ML #MistalAI #LLM

Читать полностью…

Machinelearning

⚡️ Новостной дайджест

✔️Accenture планирует запуск услуги по созданию собственных LLM для организаций на базе NVIDIA.

Accenture объявила о сотрудничестве с NVIDIA для разработки индивидуальных моделей искусственного интеллекта на базе Llama 2 с использованием платформы NVIDIA AI Foundry.
Ключевым аспектом сотрудничества является использование технологии NVIDIA NeMo, которая позволяет настраивать и оптимизировать модели Llama для конкретных приложений.
newsroom.accenture.com

✔️ServiceNow & Oxford Economics выпустили отчет "Индекс зрелости корпоративного искусственного интеллекта 2024"

Индекс исследует значение внедрения AI для организаций всех отраслей. В нем проведен глобальный опрос 4 470 руководителей и измерены показатели эффективности ИИ по пяти ключевым направлениям: стратегия и лидерство, интеграция рабочих процессов, таланты и кадры, управление и реализация ценности.
Результат показывает, что для многих организаций использование AI все еще находится на экспериментальной стадии, и только 18% используют возможности искусственного интеллекта.
oxfordeconomics.com
🔔 Полная версия отчета под этим новостным дайджестом


✔️Новая модель NVIDIA ChatQA-2 превосходит GPT-4 в задачах с длинным контекстом и RAG

NVIDIA представила новую модель ChatQA 2, основанную на архитектуре Llama 3
Модель способна эффективно работать с контекстом длиной до 128 000 токенов, что значительно больше стандартного параметра 8 000 токенов в Llama3-70B.
NVIDIA использовала дообучение, включающее расширение контекстного окна и трехэтапную инструктивную настройку. ChatQA 2 показывает результаты, сопоставимые с GPT-4-Turbo-2024-0409.
Кроме того, исследователи обнаружили, что использование длинноконтекстного ретривера может смягчить проблему фрагментации контекста top-k в RAG, что улучшает результаты для задач понимания длинного контекста.
analyticsindiamag.com

✔️Объединенное обучение с дифференциальной конфиденциальностью для сквозного распознавания речи

Apple опубликовала исследование в котором рассматривается пробел в изучении применения федеративного обучения (FL) с дифференциальной конфиденциальностью (DP) для автоматического распознавания речи (ASR).
Авторы обучили FL-модели, которые работают оптимально даже при использовании разнородных данных, начальной модели из другого домена или при отсутствии предварительно обученной начальной модели.
Также поднимается проблема применения DP к FL для ASR, которая осложняется сильным влиянием шума DP на обучение модели, особенно в больших моделях с сильно несбалансированными градиентами в блоке внимания. Исследование
machinelearning.apple.com

✔️MIT CSAIL разработал MAIA, автоматизированный интерпретируемый агент, который проводит эксперименты для понимания и уточнения поведения нейронных сетей.

MAIA (Multimodal Automated Interpretability Agent) - система, автоматизирующая различные задачи интерпретации нейронных сетей на основе модели "зрение-язык". MAIA может генерировать гипотезы, проводить эксперименты и уточнять свое понимание путем итеративного анализа. Она продемонстрировала эффективность в маркировке нейронных компонентов, очистке классификаторов изображений и обнаружении скрытых предубеждений. Гибкость MAIA позволяет ему отвечать на различные запросы по интерпретируемости и разрабатывать эксперименты "на лету".
news.mit.edu

✔️На Олимпийских играх в Париже будут применяться китайские разработки в AI.

В ходе проведения игр будут использоваться китайские технологии искусственного интеллекта, а компания Alibaba, разработчик языковой модели Qwen, станет первым поставщиком технологии применения AI на спортивных соревнованиях такого масштаба. Международный олимпийский комитет (МОК) сотрудничает с Alibaba и Intel по задачам:
360-градусные спецэффекты при прямой трансляции с помощью технологий Alibaba, AI-колоризацию черно-белых изображений и снижение углеродного следа, а LLM Qwen обеспечит техническую поддержку и будет доступна для использования официальными комментаторами, помогая в комментировании различных событий.
qbitai.com

@ai_machinelearning_big_data

#news #digest #ml #ai

Читать полностью…

Machinelearning

🌟 EfficientQAT: метод эффективного квантизационного обучения LLM

Efficient Quantization-Aware Training (EfficientQAT) предлагает новую технику для сжатия LLM, состоящую из двух этапов: блочное обучение всех параметров (Block-AP) и обучение параметров квантования (E2E-QP).
Block-AP последовательно проводит квантизационное обучение для всех параметров каждого блока трансформера с блочной реконструкцией.

Это позволяет избежать обучения всей модели и сохраняет эффективность памяти.

На втором этапе EfficientQAT фиксируются веса и обучаются только параметры квантования (шаги квантования) на целевых наборах данных. Это повышает производительность и позволяет проводить инструктаж моделей для выполнения специфических задач.

Эксперименты, проведенные в ходе исследования показывают, что EfficientQAT превосходит существующие методы квантования по производительности и эффективности потребления памяти.

Например, модель Llama-2-70B была квантована до 2 бит на одном GPU A100-80GB за 41 час с потерей точности менее 3%.
EfficientQAT также способен улучшать точность в сложных условиях 2-битной квантизации и позволяет эффективно проводить finetune моделей.

В репозитории проекта предоставлен большой список на предварительно квантованных Model Zoo моделей семейств Llama-2 и Llama-3 в форматах EQAT, GPTQ и BitBLAS.


🟡Arxiv
🟡Модели на на HF
🖥Github [ Stars: 62 | Issues: 1 | Forks: 3]


@ai_machinelearning_big_data

#AI #LLM #EQAT #ML #Quantization

Читать полностью…

Machinelearning

🔥 Новостной дайджест

✔️Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях.

Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.
Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели.
Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github
phys.org

✔️Lean-STaR - как неформальные рассуждения могут улучшить формальное доказательство теорем.

Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой.
Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI.
marktechpost.com

✔️Mosaic AI: Model Training и Fine Tune моделей GenAI.

Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие.
Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов - 11,440 USD
databricks.com

✔️LOTUS: Фреймворк для создания наукоемких LLM-приложениq, которые могут рассуждают над данными.

LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
stanford-futuredata

✔️Maestro: Оркестратор рабочих процессов от Netflix с открытым исходным кодом.

Maestro - это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github
netflixtechblog.com

✔️Климатическая модель от Google: генерация недельной симуляции атмосферы всего за 9,2 секунды.

Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub.

✔️Kling теперь доступна для всех.

@ai_machinelearning_big_data

#news #digest #ml

Читать полностью…

Machinelearning

⚡️ Llama-3.1: Обновление семейства моделей

Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.

Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.

▶️Доступные для скачивания модели LLaMa 3.1( полный список)

Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8

Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M



▶️ Комментарии к версии 405B:

🟢MP16 (Model Parallel 16) - полная версия весов BF16.
Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.

🟢MP8 - полная версия весов BF16, но может быть развернута на одной ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8).

🟢FP8 (Floating Point 8) - квантованная версия весов. Эти веса можно запустить на одной ноде с 8 GPU и с использованием статического квантования FP.

📌 Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.

📌Загрузить модели можно с сайта Meta.Ai или с официальное репозитория на Huggingface Для скачивания нужно заполнить форму запроса доступа.


🟠UPD: Первая GGUF-версия на HF в Q8 уже появилась.


@ai_machinelearning_big_data

#AI #Llama3.1 #ML #LLM

Читать полностью…

Machinelearning

🌟 Minitron 8В и 4В: Две новые pruned-модели на базе Nemotron-4 15B

Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно методика описана в исследовании на arxiv

🟢Minitron-8B использует embedding size 4096, 48 attention heads и промежуточную размерность MLP 16384.

🟢Minitron-4B использует embedding size 3072, 32 attention heads и промежуточную размерность MLP 9216.

В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data).
Актуальность датасета: Июнь 2023

Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B.

❗️ Модели Minitron предназначены только для исследований и разработок.
PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время.

▶️ Для локального запуска следует использовать ветку Github с коммитом ID 63d9cb0 :

git clone git@github.com:suiyoubi/transformers.git

cd transformers

git checkout 63d9cb0

pip install .



📌 Лицензирование: NVIDIA Open Model License Agreement


🟡Модель 8B
🟡Модель 4B
🟡Arxiv
🖥Github [ Stars: 5 | Issues: 0 | Forks: 9]


@ai_machinelearning_big_data

#AI #Minitron #ML #NVIDIA #SLMs

Читать полностью…

Machinelearning

Новостной дайджест

✔️ Разработчики Llama откладывают выпуск модели LLama-3-400B в ЕС

Релиз самой большой модели компании для пользователей из ЕС отложен на неопределенный срок из-за непредсказуемого поведения регулирующих органов.
Решение компания подчеркивает напряженность в отношениях между крупными технологическими компаниями и руководством ЕС на фоне ужесточения нормативно-правовой базы. Брюссель вводит Закон ЕС об искусственном интеллекте, который вступает в силу в следующем месяце, в то время как для крупных технологических компаний вводятся новые нормативные требования в виде Закона о цифровых рынках (DMA).
theguardian.com


✔️ Китайские технологические компании предлагают "воскресить" умерших близких с помощью аватаров искусственного интеллекта.

Цифровые аватары могут быть созданы на основе видео и аудио с изображением живого человека или его социальных сетей. Некоторые клиенты предпочитают низкотехнологичные решения, такие как использование ИИ для имитации голоса умершего человека, без моделирования визуального образа.
npr.org


✔️ Neo4j Knowledge Graph Builder: Инструмент, создающий графы знаний из неструктурированных данных.

Neo4j использует несколько моделей машинного обучения для обработки различных форматов данных. Он универсален в настройке схемы извлечения и хорошо работает с английским языком.
Архитектура построена на модуле llm-graph-transformer и легко адаптируется для использования в Google Cloud Run и Docker Compose
marktechpost.com


✔️ Agent Symbolic Learning: первый фреймворк для обучения агентов с открытым исходным кодом

AIWaves разработала комплексную систему символьного обучения "Agent Symbolic Learning", которая обеспечивает автоматическую оптимизацию и автономную эволюцию AI-агентов за счет симуляции алгоритмов обратного распространения и градиентного спуска.
Фреймворк использует большие модели и оперативное проектирование для преобразования оценок задач в потери и градиенты на основе текста.
jiqizhixin.com


✔️ Microsoft на ICML 2024: инновации в области машинного обучения.

На ICML 2024 компания Microsoft представила 68 научных работ, из них несколько были выбранных для устных докладов:
NaturalSpeech 3 - новая система преобразования текста в речь, использующая факторизованные диффузионные модели для генерации речи.
CompeteAI - фреймворк для изучения конкуренции агентов с помощью больших языковых моделей, который позволил получить представление о социальном обучении и накопленном преимуществе.
PRISE - новый подход к обучению временным абстракциям действий, проводя аналогию между квантованием действий и токенизацией текста в LLM, позволяет более эффективно и результативно обучать навыкам для непрерывного контроля.
microsoft.com


✔️ Triplex: Открытая SOTA LLM для построения графов знаний обеспечивает структурирование данных с помощью экономичных и эффективных решений.

Triplex - это доработанная версия Phi3-3.8B для создания графов знаний из неструктурированных данных, разработанная SciPhiAI.
Принцип работы основан на построении локальных графов с помощью R2R путем извлечения триплетов - простых утверждений, состоящих из субъекта, предиката и объекта, - из текста или других источников данных.
Она обеспечивает снижение затрат на создание графов знаний на 98 %, относительно GPT-4 по стоимости.
Модель доступна на Huggingface.
sciphi.ai

@ai_machinelearning_big_data

#digest #news

Читать полностью…

Machinelearning

🌟 XTuner Release V0.1.22: Обновление суперэффективного фреймворка для тонкой настройки LLMs.

XTuner - это простой, гибкий и полнофункциональный набор инструментов для тонкой настройки больших моделей (LLM, VLM) практически на всех GPU (от 7B LLM на 8 Gb VRAM до 70B+ на многоузловых GPU).

Обновление V0.1.22:
🟠улучшен контроль за памятью;
🟠улучшена поддержка Sequence Parallelism в Preference Alignment ;
🟠исправлено более 10 ошибок предыдущей версии;
🟠добавлена поддержка internlm2.5;
🟠добавлена поддержка DatasetInfoHook в DPO;
🟠добавлен конфиг minicpm для sft, qlora, lora и DPO.

С учетом обновления XTuner поддерживает:

*️⃣Mодели: InternLM2 / 2.5, Liama 2/3, Phi-3, ChatGLM 2/3, QWen, Mixtral, DeepSeek V2, Gemma, Baichuan 2.

*️⃣SFT Датасеты: MSAgent-Bench, MOSS-003-SFT, Alpaca, WizardLM, oasst1, Open-Platypus, Code Alpaca, Colorist, Arxiv GenTitle, Chinese Law, OpenOrca, Medical Dialogue.

*️⃣Дата Пайплайны: Incremental Pre-training, Single-turn Conversation SFT, Multi-turn Conversation SFT.

*️⃣Алгоритмы: QLoRA, LoRA, Full parameter fine-tune, DPO, ORPO, Reward Model.


▶️ Локальный запуск

# It is recommended to build a Python-3.10 virtual environment using conda
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env

# Install XTuner from source
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[all]'

# Step 0, prepare the config
xtuner list-cfg

# Step 1, start fine-tuning
xtuner train ${CONFIG_NAME_OR_PATH}

# For example, we can start the QLoRA fine-tuning of InternLM2.5-Chat-7B with oasst1 dataset by
# On a single GPU
xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --deepspeed deepspeed_zero2

(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_5_chat_7b_qlora_oasst1_e3 --launcher slurm --deepspeed deepspeed_zero2

# Step 2, convert the saved PTH model (if using DeepSpeed, it will be a directory) to Hugging Face model
xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH} ${SAVE_PATH}


📌Лицензирование: Apache-2.0


🟡Страница проекта
🖥Github [ Stars: 3.4K | Issues: 122 | Forks: 274]


@ai_machinelearning_big_data

#AI #FineTuning #LLM #XTuner #ML

Читать полностью…

Machinelearning

🌟 VGGSfM: 3D-реконструкция на основе глубокого анализа структуры в движении.

VGGSfM предлагает новый подход к процессу реконструкции трехмерной структуры сцены и положения камер по набору фотографий.

Вместо цепочки отдельных алгоритмов поиска ключевых точек, сопоставления их между кадрами, длительного восстановления положения камер относительно координат ключевых точек, была разработана модель, каждый компонент которой работает параллельным сквозным принципом.

Ключевые особенности метода:

🟢Вместо поиска соответствий между парами изображений, модель сразу отслеживает точки через все кадры последовательности.
🟢Положения всех камер оцениваются одновременно, а не последовательно.
🟢Для финальной оптимизации используется дифференцируемый слой.

В ходе тестирования при обучении особенно хорошие результаты были получены на сложных сценах с большими изменениями ракурса между кадрами. Там, где традиционные методы часто терпели неудачу, VGGSfM справлялся с задачей.

Локальная установка:


source install.sh
Локальный запуск:

# Убедитесь, что целевые изображения находятся в ВАША_ПАПКА/images, а необходимые модели скачены

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models

# Результаты реконструкции (параметры камеры и 3D-точки) будут сохранены в формате COLMAP в директории output/seq_name
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Визуализация
# Установите и запустите visdom

pip install visdom

pip install git+https://github.com/fossasia/visdom

visdom

# Откройте http://localhost:8097 в браузере. Затем запустите демо с флагом "visualize=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models visualize=True


▶️ VGGSfM поддерживает извлечение плотных карт глубины с помощью Depth-Anything-V2 (бета):


python
pip install scikit-learn

git clone git@github.com:DepthAnything/Depth-Anything-V2.git dependency/depth_any_v2

# Затем запустите демо с флагом "dense_depth=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models dense_depth=True


Страница проекта
Модели на HF
Demo
Github [ Stars: 529 | Issues: 16 | Forks: 33]

@ai_machinelearning_big_data

#AI #3D #Depthmap #ML #Reconstruction

Читать полностью…

Machinelearning

🌟 Pomegranate — библиотека Python для создания вероятностных моделей, таких как байесовские сети или марковские модели

pip install pomegranate

Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона).

Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️T-lite: AI-Центр Т-Банка открывает доступ к собственной LLM в весовой категории 7—8 млрд параметров

Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML.

Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.

С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста.

Модель

@ai_machinelearning_big_data

#opensource #LLM #ML

Читать полностью…

Machinelearning

Новостной дайджест

✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use

Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.

Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com

✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.

Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai

✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.

YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com

✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.

Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org

@ai_machinelearning_big_data

#news #digest

Читать полностью…
Подписаться на канал