Telegram-канал ai_machinelearning_big_data - Machinelearning: Технологии - каталог телеграмм

ai_machinelearning_big_data | Технологии

Подписаться на канал

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

17 сентября 2024 09:33

И получите своё предсказание🔮

Прогнозируйте изменения своих бизнес-метрик с помощью машинного обучения.

Учим начинающих дата-сайентистов ориентироваться в Machine Learning для решения рабочих задач на курсе «Data Science» от Слёрма.

За 4 месяца обучения вас ждет:
🌟 Работа с реальными проектами, анализ и визуализация больших данных
🌟 Погружение в ключевые ML-алгоритмы и библиотеки, включая Scikit-learn и CatBoost
🌟 Сведение бизнес-задач в задачи машинного обучения

Полная программа курса — здесь 👈

Формат:
⚡️ 132 часа нетривиальной практики с реальными датасетами
⚡️ 25 минут — среднее время видеолекций, которые можно смотреть, когда угодно — хоть за завтраком, хоть по дороге на работу.

Старт 30 сентября, присоединяйтесь!

Реклама ООО «Слёрм» ИНН 3652901451

Читать полностью…

Machinelearning

16 сентября 2024 15:26

🖥 Awesome LLM Strawberry (OpenAI o1)

Свежий Awesome список статей, блогов и LLM проектов, посвящённых OpenAI o1 и техникам рассуждений модели.

▪ Github

@ai_machinelearning_big_data

#opeai #chatgpto1 #awesome

Читать полностью…

Machinelearning

16 сентября 2024 13:03

Как применять нейросети в обучении с подкреплением?

Расскажет Игорь Стурейко, преподаватель курса Reinforcement Learning в OTUS на открытом уроке.

✅Вместе с опытным экспертом вы:

- разберете ситуацию, в которой использование классических методов обучения с подкреплением не дают результатов;
- поймете почему необходимо использовать нейросети;
- узнаете как адаптировать классический алгоритм Q-learning для использования нейросетей.

⚡Занятие пройдёт 26 сентября в 20:00 мск и будет приурочено к старту курса «Reinforcement Learning».

👉Регистрация https://otus.pw/BQd2/?erid=LjN8JvdZR

Обучение на курсе позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем. При поступлении в группу возможны разные способы оплаты и рассрочка платежа.

Читать полностью…

Machinelearning

16 сентября 2024 09:33

Повысь профессиональный уровень до Middle+

Изучите продвинутые ML-алгоритмы на онлайн-курсе «Machine Learning Advanced» от OTUS.

Получите опыт работы в production: настройка окружения, оптимизация кода, построение end-to-end пайплайнов и внедрение решений

⚠️ Особенность курса — вебинары в формате Live coding, где преподаватель с нуля демонстрирует решение актуальных задач ML.

Выпусная работа: Уникальный исследовательский проект по машинному обучению.

Чувствуй себя уверенно на ведущих Middle+ / Senior позициях в ML.

Пройдите тест из 10 вопросов и проверьте допуск к курсу:

https://otus.pw/Zc8d/?erid=LjN8K1daS

Читать полностью…

Machinelearning

15 сентября 2024 15:03

K2 Cloud и PiterPy2024 — бесплатный день конференции для питонистов.

Ребята из K2 Cloud помогли организовать Community Day для python-разработчиков. 18 сентября ты сможешь бесплатно послушать часть докладов конференции PiterPy: от мастерства карьерного роста до хитростей асинхронного программирования. Для участия нужно только зарегистрироваться.

Подробнее на сайте

Читать полностью…

Machinelearning

15 сентября 2024 08:55

В OTUS стартует курс «Искусственный интеллект (AI) в медицине», на котором студенты смогут обучиться создавать качественные мультимодальные медицинские датасеты, осуществлять техническую поддержку разметки данных, уметь анализировать и ориентироваться в зоопарке современных подходов к машинному обучению.

16 сентября в 20:00 по мск. приглашаем на открытый вебинар курса «Медицина будущего: как сингулярный AI изменит здравоохранение». На занятии вы познакомитесь с концепцией технологической сингулярности и ее потенциальным влиянием на медицину. Мы рассмотрим, как AI, достигший уровня человеческого интеллекта, может революционизировать диагностику, лечение и управление здравоохранением. Обсудим этические вызовы и возможности, которые открывает сингулярный AI в медицине.

Для участия пройдите регистрацию
https://otus.pw/GVav/

При поступлении в группу обучения после вебинара вы получите специальную цену на курс, а так же разные способы оплаты и рассрочка платежа.

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.erid: LjN8KVc2V

Читать полностью…

Machinelearning

14 сентября 2024 14:04

Мечтаешь о собственном бизнесе, но не знаешь, с чего начать?

Академия инноваторов — это именно то, что поможет превратить твою идею в успешный стартап!

Что такое Академия инноваторов?
На программе ты сможешь: – работать с личным трекером; – получать запросы от крупных технологических компаний; – пройти очную образовательную программу по развитию и масштабированию проекта с экспертами; – протестировать свою идею на практике; – презентовать свой проект на демо-дне перед потенциальными клиентами и инвесторами.

Почему стоит присоединиться?
Академия инноваторов — это сообщество более 20 тысяч единомышленников, свыше 3900 инновационных проектов, более 300 стартапов и привлеченные инвестиции на сумму свыше 200 миллионов рублей! Это уникальная возможность расширить сеть контактов, найти инвесторов и вывести свой проект на новый уровень.

Что дальше?
После завершения акселерации тебя ждет успех! Например, проект WE.Refiber 30 млн рублей инвестиций на НИОКР и постройку малотоннажного предприятия, а mymeet.ai привлек инвестиции в размере 3 млн рублей от частного инвестора.

Как попасть?
Подавай заявку на сайте до 15 сентября и следи за последними новостями технологического предпринимательства в канале Академии инноваторов.

Читать полностью…

Machinelearning

13 сентября 2024 14:03

🌟 Reader-LM: небольшие языковые модели для преобразования HTML в Markdown.

Reader-LM - это семейство мультиязычных компактных языковых моделей, разработанные специально для извлечения данных из web-контента. Обе модели имеют внушительное контекстное окно в 256 тыс. токенов и нацелены на преобразование "сырого", зашумленного HTML-кода в чистый и структурированный Markdown формат:

🟢Reader-lm-1.5b

🟢Reader-lm-0.5b

В основе Reader-LM лежит decoder-only архитектура, а обучение модели проводилось в два этапа. На первом этапе использовались короткие и простые HTML-документы (до 32 тысяч токенов). На втором этапе длина последовательностей была увеличена до 128 тысяч токенов.

Чтобы обработать такие длинные последовательности, разработчики применили механизм zigzag-ring-attention. В процессе обучения была выявлена проблема дегенерации, которая проявлялась в повторении одних и тех же токенов или зацикливании модели. Для борьбы с этим явлением были применены методы contrastive search и contrastive loss и, дополнительно, механизм ранней остановки декодирования при обнаружении повторяющихся токенов.

Корпус данных объемом 2,5 млрд. токенов для обучения Reader-LM состоял из синтетических пар "сырой HTML" - "Markdown", сгенерированные с помощью Jina Reader API и GPT-4o.

Для оценки производительности Reader-LM сравнивалась с несколькими большими языковыми моделями: GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B и Qwen2-7B-Instruct.
Оценка проводилась по метрикам ROUGE-L, Token Error Rate (TER) и Word Error Rate (WER). Результаты показали, что Reader-LM превосходит по качеству преобразования HTML в Markdown более крупные модели, при этом ее размер в 50 раз меньше.

Варианты запуска моделей: Goggle Collab (возможен запуск на бесплатном T4 тарифе), локально в Transformers. Неофициальные квантованные GGUF- версии для запуска в llama.cpp и LM Studio:

🟠Reader-lm-1.5b-GGUF. Версии разрядности от 3-bit (780 Mb) до 16-bit (3.1 Gb);

🟠Reader-lm-0.5b-GGUF. Версии разрядности от 3-bit (350 Mb) до 16-bit (990 Mb).

📌Лицензирование : CC-BY-NC-4.0 License.

🟡Страница проекта
🟡Модель Reader-lm-1.5b
🟡Модель Reader-lm-0.5b
🟡Google Collab
🟡Demo
🟡GGUF Reader-lm-1.5b
🟡GGUF Reader-lm-0.5b

Читать полностью…

Machinelearning

13 сентября 2024 11:03

Новостной дайджест

✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.

Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.

Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.

Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com

✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.

Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.

В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com

✔️ ell: Библиотека программирования LLM.

ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.

Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.

Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so

✔️ Loopy: генеративная модель портретного видео на основе аудио.

Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.

Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io

✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.

В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.

Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

12 сентября 2024 21:10

🖥 На своем YouTube канале OpenAI залили несколько видео, демонстрирующих работу O1.

Можно посмотреть как ChatGPT проходит путь от быстрых интуитивных рассуждений до глубоких и осознанных выводов.

Посмотрите эти примеры:
- O1 смог создать полноценную игру всего за одну минуту, следуя каждому шагу инструкции.
- Модель демонстрирует свои способности в математике.
- O1 разгадал загадку о возрасте принцессы, демонстрируя логику своих рассуждений.
- O1 и в генетеке хорош
- O1 решил задачу по квантовой физике, подробно объясняя свои решения.
- O1 посчитал количества букв R в слове "strawberry".
- O1 написал Змейку на HTML прямо в чате, позволяя добавлять новые функции.
- O1 обучился переводу корейских иероглифов, предвещая скорое исчезновение языковых барьеров.

@ai_machinelearning_big_data

#openai #chatgpt #video

Читать полностью…

Machinelearning

12 сентября 2024 17:07

🌟 rStar: Концепция взаимно рассуждающих языковых моделей.

rStar - метод, который помогает улучшить способности языковых моделей рассуждать и решать задачи. При этом не нужно переобучать модель или использовать более мощные модели. rStar делит процесс рассуждения на два этапа – самообучение с генерацией и проверка (дискриминация) полученной генерации.

На первом этапе модель использует алгоритм поиска по дереву Монте-Карло (MCTS). MCTS помогает модели построить разные варианты решения задачи, как будто она рассуждает, как человек. На втором этапе другая модель проверяет каждый вариант решения, который построила первая модель. Если обе модели согласны с каким-то вариантом решения, значит, он считается правильным.

Для того, чтобы в этом состязательном процессе генерации и дискриминации модели не ушли в бесконечный цикл, в rStar применяется способ достижения консенсуса, который называется «взаимная согласованность», а чтобы расширить траектории рассуждения, rStar использует набор дополнительных действий, которые имитируют мышление человека: разбивка на подзадачи, переформулировка задачи, прямое или последовательное решение и т.д

Эксперименты на пяти SLM показали, что rStar может успешно справляться с задачами рассуждения: GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA.

Результаты тестов показали, что rStar повышает точность решения GSM8K с 12,51 % до 63,91 % для LLaMA2-7B, с 36,46 % до 81,88 % для Mistral-7B, с 74,53 % до 91,13 % для LLaMA3-8B-Instruct.

Программная реализация метода выполняется на условном датасете (MATH, GSM8K, GSM8KHARD, STG, SVAMP, MULTIARITH) запуском ролей генерации и дискриминации двух моделей.

📌Лицензирование : MIT License.

🟡Arxiv
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #rSar

Читать полностью…

Machinelearning

12 сентября 2024 13:03

🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM.

Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.

Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:

🟢Text Generation: сжатие текстовых LLM;
🟢Vision: сжатие и оптимизация VLM;
🟢Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU.

Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.

Практические примеры задач с детальными туториалами:

🟢Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b;

🟢4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации;

🟢2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning;

🟢Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b;

🟢Ускорение 4-битной квантованной модели Llama;

🟠Обрезка YOLOX с помощью MMRazor;

🟠8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10;

🟠Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF;

🟢Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP;

🟢Файнтюн T5 large с помощью QLoRA на наборе данных XSUM;

🟢Файнтюн Llama3-8b с помощью QDoRA и FSDP.

▶️Установка и запуск:

# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam

# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate

# Install packages
# for text_generation
pip install -r text_generation/requirements.txt 
# for vision
pip install -r vision/requirements.txt 
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt 

# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}

🟡Документация
🖥Github [ Stars: 32 | Issues: 1 | Forks: 1]

@ai_machinelearning_big_data

#AI #NynAI #MLTool #LLM #VLM

Читать полностью…

Machinelearning

12 сентября 2024 08:10

Новостной дайджест

✔️ Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса.

Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.

Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com

✔️ NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL.

Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.

Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com

✔️ Anthropic добавила "Workspaces" в консоли API для команд.

Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.

С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com

✔️ Adobe анонсировала генерацию видео в своих продуктах в этом году.

Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте.
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок.

Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com

✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей.

Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.

Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.

Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.

Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

11 сентября 2024 18:33

⚡️ Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.

Arcee представила Arcee-SuperNova-70B и Arcee-SuperNova-Lite (8B), разработанные для альтернативной замены крупным проприетарным моделям, ориентированные на следование инструкциям и согласованию с человеческими предпочтениями.

Создание Arcee-SuperNova включало в себя несколько этапов, начиная с дистилляции Llama-3.1-405B-Instruct в Llama-3.1-70B-Instruct. Для этого был создан датасет из 500 млн. токенов, включающий примеры кода и математических задач и извлеченные logits модели Llama-3.1-405B.

Обучение Llama-3.1-70B-Instruct проводилось в течение пяти дней на 32 GPU H100 с использованием FSDP (Fully Sharded Data Parallel) для обеспечения возможности распределенного обучения.

Параллельно с этим была обучена отдельная версия Llama-3.1-70B с использованием Spectrum, настроенного на на 35% слоев с наивысшим соотношением SNR при длине последовательности 8192. Эта модель была обучена на наборе данных, созданном с помощью конвейера EvolKit - фреймворка повышения сложности инструкций при файнтюне LLM.

Финальная версия Arcee-SuperNova была создана путем слияния чекпойнтов из EvolKit и DPO, которые затем были объединены с дистиллированной Llama-3.1-70B-Instruct.

Проведенные тесты готовой модели в бенчмарке IF-Eval, показали, что Arcee-SuperNova превосходит не только Llama-3.1-70B-Instruct, но и проприетарные модели от OpenAI и Anthropic, а также Llama-405B-Instruct.

🟠Arcee-SuperNova-70B доступна только через API-сервис Arcee, а попробовать ее можно в playground web-интерфейса бесплатно;

🟢Arcee-SuperNova-Lite (8B), созданная по тому же принципу, что и 70B, доступна на Huggingface;

🟢Неофициальные GGUF версии Arcee-SuperNova-Lite (8B) от bartowski разрядностью от 2-bit (2.95Gb) до 16-bit (16 Gb) для использования с llama.cpp и LM Studio.

📌Лицензирование : Llama3

🟡Страница проекта
🟡Набор GGUF
🟡Модель Arcee-SuperNova-Lite
🟡Demo 70B

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #Supernova

Читать полностью…

Machinelearning

11 сентября 2024 14:04

🌟 SCIAGENTS : Автоматизация научных изысканий с помощью мультиагентных графовых рассуждений.

SciAgents - фреймворк, который самостоятельно генерирует и уточняет исследовательские гипотезы, разъясняя лежащие в их основе механизмы, принципы проектирования и неожиданные свойства объекта исследования.

Благодаря модульности этого функционала, SciAgents позволяет делать существенные открытия, критиковать и совершенствовать предположения, получать актуальные данные о проводимых исследованиях и выявлять их сильные и слабые стороны.

SciAgents умеет находить скрытые связи между сферами исследования, которые ранее считались несвязанными, достигая масштабов, точности и исследовательской мощи, превосходящих традиционные методы исследований, основанные на участии человека.

Практическая реализация для тестирования SciAgents представлена двумя ipynb для генерации новых исследовательских идей, соответствующих неавтоматизированному и автоматизированному мультиагентным методам.

Для запуска SciAgents понадобятся:

🟢GraphReasoning;
🟢wkhtmltopdf ;
🟠OpenAI API-key;
🟠Semantic Scholar API.

▶️ Установка:

# Graph Reasoning installation 
pip install git+https://github.com/lamm-mit/GraphReasoning

# wkhtmltopdf installation
sudo apt-get install wkhtmltopdf

# Graph file
from huggingface_hub import hf_hub_download   
graph_name='large_graph_simple_giant.graphml'
filename = f"{graph_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename,  local_dir='./graph_giant_component')

# Embeddings
from huggingface_hub import hf_hub_download
embedding_name='embeddings_simple_giant_ge-large-en-v1.5.pkl'
filename = f"{embedding_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename,  local_dir='./graph_giant_component')

# Clone SciAgents 
git clone https://github.com/lamm-mit/SciAgentsDiscovery.git

# Insatll reqs
cd SciAgentsDiscovery
pip install -e .

🟡Arxiv
🖥Github

@ai_machinelearning_big_data

#AI #ML #Alents #Research #SciAgentsDiscovery

Читать полностью…

Machinelearning

17 сентября 2024 08:19

Новостной дайджест

✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.

Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.

Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com

✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.

Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com

✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.

AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.

Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.

Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.

FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com

✔️ ОАЭ представили новую политику безопасности в области ИИ.

Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.

Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae

✔️ Италия тестирует обучение с помощью ИИ в школах.

Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.

В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".

Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.

В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

16 сентября 2024 14:03

🌟 LLaMA-Factory: локальный файнтюн моделей с WebUI.

LLaMA-Factory - это фреймворк, который объединяет в себе набор методов манипуляций с моделями и инструментов для гибкой настройки через веб-интерфейс Gradio.

Фреймворк состоит из трех основных модулей:

🟢Model Loader - управляет архитектурами моделей, поддерживая LLM и VLM;

🟢Data Worker - модуль для операций с наборами данных;

🟢Trainer - применяет подходы к обучению: Pre-Training, SFT, Reward Modeling, PPO, DPO, KTO, ORPO, SimPO.

LLaMA-Factory поддерживает методы: freeze-tuning, GaLore, BAdam, LoRA, QLoRA, DORA, LORA+ и PiSSA, а также flash attention, S2 attention, mixed precision training, activation checkpointing и стратегии квантования.

Список поддерживаемых семейств моделей периодически пополняется, его актуальную версию можно посмотреть в репозитории проекта.

Gradio WebUi позволяет настраивать аргументы обучения, визуализировать журналы обучения и кривые потерь в режиме реального времени, а также поддерживает несколько языков: английский, русский и китайский.

На потребительских GPU (24Gb), согласно таблице разработчиков, запустятся методы:

🟠Freeze 16-bit - модели плотностью 7B;

🟠LoRA/GaLore/BAdam 16-bit - модели плотностью 7B;

🟠QLoRA 8-bit - модели плотностью 7B, 13B;

🟠QLoRA 4-bit - модели плотностью 7B, 13B, 30B;

🟠QLoRA 2-bit - модели плотностью 7B, 13B, 30B и 70B.

⚠️ Перед локальным запуском внимательно ознакомьтесь с требованиями по пакетному окружению, рекомендациями по установке для разных архитектур, инструкцией по подготовке данных.

▶️ Проект может быть инсталлирован : Docker, Docker w\o Composer, OpenAI-style API and vLLM и классическим способом установки из репозитория.

📌Лицензирование : Apache 2.0 License.

🟡Документация (китайский)
🟡Google Collab
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #Finetune #LlaMAFactory

Читать полностью…

Machinelearning

16 сентября 2024 10:33

💊 Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года

🟩 BrainWave: модель для анализа сигналов головного мозга.

BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.

🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.

Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.

Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).

🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.

EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.

Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.

🟩 Возможности SAM для сегментации опухолей мозга.

В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.

Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.

🟩 MEDIC: Оценка языковых моделей для клинического применения.

MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.

Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.

Приложения с использованием языковых моделей.

🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.

KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.

Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.

Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.

🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.

i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.

Методики и техники

🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.

В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.

🔥Полный дайджест

@ai_machinelearning_big_data

#news #ai #ml #medtech

Читать полностью…

Machinelearning

15 сентября 2024 17:03

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License.

🟡Arxiv
🟡Demo
🟡Google Collab
🖥Github

@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID

Читать полностью…

Machinelearning

15 сентября 2024 09:57

🌟 AutoRound: расширенный алгоритм квантования LLM от Intel.

AutoRound - усовершенствованный алгоритм квантования для малоразрядных LLM, основанный на методе "SignRound" исследования "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs".

Алгоритм использует градиентный спуск по знаку для точной настройки значений округления и minmax-значений весов всего за 200 шагов. AutoRound составляет конкуренцию современным методам, не создавая дополнительных накладных расходов на инференс и сохраняя низкую стоимость настройки.

В основе AutoRound лежит идея SignRound - поиска оптимального порога округления для каждого блока весов. В отличие от стандартного округления к ближайшему целому (RTN),

SignRound учитывает взаимосвязи между весами, и между весами и активациями. Для этого используется блочная реконструкция вывода, где минимизируется ошибка между выходом исходного блока и его квантованной версией.

▶️Форматы квантования:

🟢AutoRound - подходит для CPU, HPU устройств и инференса со смешанной точностью;

🟢AutoGPTQ - подходит для симметричного квантования на устройствах CUDA, но симметричное квантование имеет тенденцию плохо работать при 2-битной точности;

🟢AutoAWQ - подходит для асимметричного 4-битного квантования на устройствах CUDA, в нем реализовано специализированное слияние слоев, предназначенное для моделей семейства Llama.

Алгоритм поддерживает практически все основные крупные языковые модели и семейства:
Llama, Qwen, Yi, Mistral, gemma, falcon, Phi, Mixtral и др.

Полный список с примерами и рецептами конфигураций для каждого семейства можно найти в репозитории проекта.

📌Лицензирование : Apache 2.0 License.

🟡Arxiv
🖥Github

@ai_machinelearning_big_data

#AI #ML #Quantization #LLM #AutoRound

Читать полностью…

Machinelearning

14 сентября 2024 15:02

🌟 repo2vec: простая библиотека, позволяющая общаться с публичным или частным репозиторием.

Иногда просто нужно узнать, как работает код и как его интегрировать, не тратя часы на изучение самого кода. Repo2vec - это как GitHub Copilot, но с самой актуальной информацией о целевом репозитории.

Возможности:

🟢 Простая настройка: запустите пару скриптов и у вас будет функциональный интерфейс чата для вашего кода;

🟢Документированные ответы: каждый ответ показывает, откуда в коде был извлечен контекст для ответа;

🟢Работает локально или в облаке: вы можете использовать Marqo для эмбеддинга + векторного хранилища и Ollama для чата с LLM или настроить эмбеддинги OpenAI + Pinecone для векторного хранилища + OpenAI или Anthropic для чата LLM;

🟢 Plug-and-play: каждый компонент конвейера легко заменяем. Инженерные стандарты уровня Google позволяют вам настраивать все по своему усмотрению;

🟢Индексация Issues (опционально): вы можете дополнительно индексировать issues, установив ключ --index-issues. И наоборот, вы можете отключить индексирование кода (и индексировать только issues), ключом --no-index-repo.

Помимо self-hosted варианта для приватных репозиториев, repo2vec существует в виде бесплатного онлайн-сервиса индексации публичных репозиториев Github - Code Sage.

▶️Установка на примере Marqo, Ollama и чатом в GradioUI:

# Install the library
pip install repo2vec

# Install Marqo instance using Docker:
docker rm -f marqo
docker pull marqoai/marqo:latest
docker run --name marqo -it -p 8882:8882 marqoai/marqo:latest

# Run index your codebase: 
index github-repo-name 
  --embedder-type=marqo 
  --vector-store-type=marqo 
  --index-name=your-index-name
  
# Сhat with a local LLM via Ollama

# Start Gradio:
chat github-repo-name
  --llm-provider=ollama
  --llm-model=llama3.1
  --vector-store-type=marqo 
  --index-name=your-index-name

📌Лицензирование : Apache 2.0 License.

🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #RAG #repo2vec

Читать полностью…

Machinelearning

14 сентября 2024 10:06

🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.

📌Лицензирование : MIT License

🟡Arxiv
🟡Модель
🖥Github

@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA

Читать полностью…

Machinelearning

13 сентября 2024 13:04

VK печатает…
и активно ищет лида разработки ML Training Program!

Коллеги ищут сильного лида в большую команду AI VK – направление, в котором развивают технологии ИИ для ключевых продуктов компании, разрабатывают систему рекомендаций и поиска контента на платформах.

Что входит в задачи?
- Разработка и реализация стратегии развития ML Training Platform всей группы VK;
- Определение технических приоритетов, разработка долгосрочной стратегии развития технических решений, инфраструктуры и технической поддержки;
- Управление технической командой (5–10 человек): координация работы, оценка эффективности, контроль выполнения задач, участие в найме новых сотрудников.

Чего ожидают?
- Опыт работы в роли руководителя команды 5-10 человек от 2 лет;
- Знание современных подходов к разработке, в частности микросервисной архитектуры, понимание принципов масштабирования и обеспечения отказоустойчивости сервисов;
- Глубокий архитектурный бэкграунд в бэкенд-разработке, широкий кругозор в технологических решениях;
- Знание алгоритмов и структур данных.

Слишком идеально, если еще имеется опыт построения ML-платформ и наличия роли ML Engineer
Взамен – реальная возможность влиять на сервисы и улучшать их, команда вдохновленных экспертов и другие классные бенефиты компании.

Чтобы откликнуться, пишите в тг – @Anastasiia_sel

Читать полностью…

Machinelearning

13 сентября 2024 09:03

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅

Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов.

Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. ~~Но и печеньки у нас тоже есть~~! 😉

Звучит заманчиво? Присоединяйся!

Читать полностью…

Machinelearning

12 сентября 2024 19:20

⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,

Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.

Заявлено, что модель будет сильно лучше писать код и понимать физику и математику.

Тот самый секретны проект, над которым так долго работала компания.

Доступ обещают дать уже сегодня.

@ai_machinelearning_big_data

#openai #chatgpt

Читать полностью…

Machinelearning

12 сентября 2024 16:05

Создавая будущее: магистратура по прикладному ИИ

Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами.

Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Авито и Альфа-Банка.

За 2 года вы научитесь:

– Использовать Python и его библиотеки.
– Строить конвейеры обработки данных.
– Автоматизировать ML-пайплайн и др.

Подать документы можно до 19 сентября. Узнайте подробности по ссылке: https://netolo.gy/dskw

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yS95f6

Читать полностью…

Machinelearning

12 сентября 2024 12:00

🔥 Готовый алгоритм по обучению нейросети для получения клиентов из телеграма

Таким бесплатно делится команда OneSpot. Если не знали, это ребята, которые подключают Telegram Ads с маркировкой и аналитикой от 250 €.

Гайд они писали вместе с клиентом, маркетологом, которому нейросеть помогла улучшить показатели в Telegram Ads:

— сократить время написание объявлений
— увеличить % объявлений, которые сразу проходят модерацию
— снизить CPL до 1 € в некоторых проектах
— снизить плановые значения CPC

Получить гайд можно бесплатно, пройдя регистрацию в OneSpot →

В гайде — конкретные шаги по обучению нейросети, примеры промтов, лайфхаки и рекомендации автора.

Ссылку на PDF найдете прямо в stories в личном кабинете. Успевайте, stories — формат исчезающий 😉

Регистрация в OneSpot →

Реклама. ООО "101". ИНН 7706798634.

Читать полностью…

Machinelearning

11 сентября 2024 20:19

🌟 LLaMA-Omni: Речевое управление LLM

LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.

LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.

Для установки и локального запуска понадобятся GPU => 20GB и набор :

🟢Модель Llama-3.1-8B-Omni
🟢Модель Whisper-large-v3;
🟠HiFi-GAN вокодер;
🟠Тулкит Fairseq;
🟠Flash-attention.

⚠️ Примечания:

🟠Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено;

🟠Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/run.sh.

▶️Установка :

# Clone repository 
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni

# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .

# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation

# Install flash-attention
pip install flash-attn --no-build-isolation

▶️ Выполните команды, описанные в разделах Quick Start и Gradio Demo. Интерфейс будет доступен в вашем браузере по адресу http://localhost:8000/

📌Лицензирование : Apache 2.0 License.

🟡Модель
🟡Arxiv
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #SpeechToSpeech

Читать полностью…

Machinelearning

11 сентября 2024 17:31

Серия хакатонов в рамках ИТ-конференции «Импульс Т1» стартует в Ижевске!

Соревнование пройдёт с 20 по 23 сентября в гибридном формате. Призовой фонд – 600 000 рублей!

К участию приглашаются команды начинающих специалистов и опытных айтишников в составе от 3 до 5 человек. Обращаем ваше внимание, что 22 и 23 сентября будет необходимо очное присутствие как минимум троих членов команды!

Хакатон Т1 — это 48 часов решения реальных продуктовых задач от одного из ведущих ИТ-холдингов страны! В каждом из двух треков будут определены по 3 команды победителей, которые разделят между собой призовой фонд.

Треки хакатона:
«SDK приоритезатор: плагин обратной связи по продукту»
Создать SDK, который позволит пользователям голосовать за новые функции приложения и/или сайта. Результаты голосования будут передаваться продуктовой команде для улучшения продукта на основе пользовательских предпочтений.

«АгроНавигатор: оптимальные полеты БПЛА»
Разработайте систему, которая рассчитывает полетные задания для БПЛА с учетом всех летных характеристик и нормальных погодных условий.

Призы:
1 место: 140 000 рублей
2 место: 90 000 рублей
3 место: 70 000 рублей
Награждается топ-3 команды в каждом из двух треков.

Расписание:
➡️ 20-21 сентября — онлайн-этап (открытие задач, два чекпоинта)
➡️ 22-23 сентября — офлайн-этап в г. Ижевск (один чекпоинт, защита проектов)

Участники очного этапа хакатона смогут не только побороться за карьерные перспективы и призы, но и
— стать частью масштабной ИТ-конференции «Импульс Т1», где эксперты холдинга расскажут о главных трендах индустрии, поговорят об инженерии, науке и технологиях, а также поделятся своим практическим опытом;
— получить работу мечты, пройдя собеседование прямо на площадке ИТ-конференции: подать заявку на участие в One Week Offer от Т1 может каждый участник хакатона при регистрации!

➡️ Успейте зарегистрироваться до 16 сентября, чтобы не пропустить приглашение на хакатон: https://cnrlink.com/hackt1izhevskmlbigdata

Реклама. ООО "Т1". ИНН: 7720484492. erid: LjN8JxFzy

Читать полностью…

Machinelearning

11 сентября 2024 12:03

Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей!

Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач:

✔️ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции.

✔️ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований.

✔️ Embodied AI — сделать робота-помощника, который будет решать сложные задачи взаимодействия с окружающей средой и человеком, общаясь на естественном языке.

✔️ E-com AI Assistant — используя LLM GigaChat, создать AI-ассистента, который сможет рекомендовать пользователям релевантные товары для покупки на маркетплейсе Мегамаркет.

Кстати, в решении задач тебе может помочь нейросетевая модель GigaChat и другие AI-разработки Сбера!

Следующий шаг в развитии AI – за тобой! Переходи по ссылке, регистрируйся и успей решить задачи до 28 октября! Соревнование проводится при поддержке Института AIRI.

Читать полностью…

Подписаться на канал