⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.
Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.
Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.
▶️ Qwen2.5
В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.
Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.
Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).
Список моделей:
🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.
В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.
▶️ Qwen2.5 Coder
Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.
Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.
Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.
Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.
Список моделей:
🟠Qwen2.5-Coder: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.
▶️ Qwen2.5 Math
Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.
Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.
Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.
Список моделей:
🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;
🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.
▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.
📌Лицензирование:
🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Qwen
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.
RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.
В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:
Базовые методы RAG:
🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;
Инженерия запросов:
🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;
Обогащение контекста и содержания:
🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;
Методы поиска:
🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;
Итеративные и адаптивные методы:
🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;
Интерпретируемость:
🟠Explainable Retrieval;
Архитектуры:
🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.
▶️Практическое применение или изучение техник RAG в проектах:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git
#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
Новостной дайджест
✔️ Runway открывает доступ к своей модели генерации видео через API.
Runway анонсировал API, который позволит интегрировать его модели в сторонние платформы, приложения и сервисы. Пока API Runway находится в ограниченном доступе, предлагая только одну модель — Gen-3 Alpha Turbo, более быструю, но менее функциональную версию флагманской модели Runway Gen-3 Alpha. Базовая цена составляет 1 цент за кредит (одна секунда видео стоит пять кредитов). Runway заявляет, что «доверенные стратегические партнеры», включая маркетинговую группу Omnicom, уже используют API.
API Runway имеет требования к использованию. Любые интерфейсы, использующие API, должны «явно отображать» баннер «Powered by Runway» со ссылкой на веб-сайт Runway.
techcrunch.com
✔️ Имплантат для восстановления зрения Neuralink получил одобрение FDA.
Имплантаты Neuralink уже вживлены в мозг двум парализованным пациентам, которые продемонстрировали значительный прогресс в управлении цифровыми технологиями с помощью мысли.
Полученное Neuralink разрешение относится к категории «революционных устройств», этот статус дает компании возможность приоритетного взаимодействия с экспертами FDA на этапе предпродажной проверки. Важно, что получение статуса не является окончательным одобрением FDA для продажи устройства на рынке.
Blindsight, так называется имплантат, работает путем вживления тонкой матрицы из сотен электродов глубоко в мозг пациента, в область, отвечающую за обработку зрительной информации. Blindsight стимулирует зрительную кору микроскопическими импульсами, имитируя сигналы, поступающие от глаз.
На первом этапе технология обеспечит зрение с низким разрешением, сравнимое с графикой старых видеоигр Atari.
inc.com
✔️ CAIS и Scale AI создадут "самый сложный экзамен человечества" для AI.
Некоммерческая организация The Center for AI Safety (CAIS) совместно со Scale AI объявили о создании «Последнего экзамена для человечества» - набора сложнейших вопросов, для оценки истинного уровня интеллекта ИИ. Инициатива возникла на фоне растущих опасений, что ИИ может превзойти человеческий интеллект и потенциально представлять угрозу для человечества.
Проект приглашает к участию экспертов и всех желающих, предлагая им придумать вопросы, которые поставят в тупик современные системы ИИ. Ответы на эти вопросы, собранные от различных моделей ИИ, будут проанализированы и использованы для создания нового стандарта оценки возможностей ИИ.
Авторы наиболее интересных и сложных вопросов будут приглашены стать соавторами научной статьи, посвященной проекту, и получат денежные призы из фонда в 500 000 долларов США. Авторы 50 лучших вопросов получат по 5000 долларов, а авторы следующих 500 лучших вопросов - по 500 долларов.
safe.ai
✔️ BitNet: экстремальное квантование языковых моделей.
Hugging Face успешно применили метод экстремального квантования BitNet к LLM, сократив требования к памяти и вычислениям без ущерба для производительности.
BitNet, разработанный Microsoft Research, представляет собой архитектуру, представляя каждый параметр только тремя значениями: -1, 0 и 1. В результате получается версия модели, которая использует всего 1,58 бит на параметр.
Для интеграции BitNet в архитектуру Transformer представлен новый метод "bitnet". Он заменяет стандартные линейные слои специализированными слоями BitLinear, совместимыми с BitNet. BitLinear квантует веса, используя троичную точность (со значениями -1, 0 и 1), а активации квантуются до 8-битной точности.
BitLinear использует разные реализации для обучения и для логического вывода. Во время обучения используется STE (Straight Through Estimator), который позволяет градиентам проходить через не дифференцируемую операцию округления, аппроксимируя ее градиент как 1. Таким образом, веса обновляются с помощью стандартных методов оптимизации на основе градиента.
Во время логического вывода веса просто квантуются до троичных значений без повторного масштабирования, а это ощутимо повышает скорость вывода.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Приглашаем посетить большую конференцию от Yandex Cloud по облачным технологиям — Yandex Scale, которая пройдет 25 сентября.
Более 50 спикеров из разных компаний обсудят генеративные нейросети, речевые технологии, новые сервисы инфраструктуры, решения для работы с данными и обеспечения безопасности, инструменты искусственного интеллекта и serverless-подход.
Принять участие в конференции можно абсолютно бесплатно, просто зарегистрируйтесь по ссылке. Присоединяйтесь!
Реклама. ООО «Яндекс.Облако» ИНН 7704458262
Бесплатные обучающие онлайн-курсы по нейросетям и Python в искусственном интеллекте от преподавателей МФТИ, УрФУ и НИУ ВШЭ для пользователей любого уровня подготовки ⚡
🌟 Курс «Основы искусственного интеллекта»
Знакомит слушателей со всеми основными понятиями сферы ИИ и научит применять знания на практике, чтобы начать карьеру или научные исследования.
▶️Блоки:
- ML: даёт исчерпывающие знания о линейных алгоритмах, метриках и алгоритмах машинного обучения.
- CV: получите представление о свёрточных нейронных сетях, популярных архитектурах (ResNet) и дообучении, научитесь выполнять классификацию изображений на практике и решать задачи компьютерного зрения.
- NLP: показывает, как обрабатывать текст и статистику; изучите эмбеддинги, рекуррентные нейросети, машинный перевод, диалоговые системы.
- Математика анализа данных и ИИ: изучите жадный алгоритм, вероятностный подход, эмпирические наблюдения, подкрутку простых решений, классификацию с помощью подсчета статистик.
🌟 Курс «Python для искусственного интеллекта»
▶️Курс вводного уровня, в котором разбираются базовые аспекты языка: работа с контейнерами и списками, циклы, множества и словари, функции и классы, популярные библиотеки Python.
Полученные знания можно проверить на Всероссийском чемпионате по искусственному интеллекту RuCode. При хорошем результате есть шанс пройти на 🌟 стажировку в Сбер, Яндекс или другую крупную айти-компанию или выиграть заманчивые призы: игровую консоль, умную колонку, смарт-часы 🔥
Реклама. Рекламодатель: Пожидаева Т.А. Erid: 2VfnxwmR2BS
Станьте незаменимым IT-специалистом для бизнеса
Сетевые инженеры проектируют и настраивают работу корпоративных сетей. Без них не смогут работать компании с развитой IT-инфраструктурой: провайдеры, банки и даже аэропорты.
На курсе «Сетевой инженер» вы научитесь настраивать и администрировать сетевое оборудование разных вендоров. Будете практиковаться в Cisco Packet Tracer и выполните 32 лабораторные работы. Для углубления знаний есть дополнительные модули: об администрирования ОС Linux и основах программирования на Python.
Вы научитесь:
- проектировать безопасные корпоративные сети;
- находить и устранять неисправности в сетях;
- собирать и анализировать трафик;
- устанавливать системы мониторинга.
Сейчас программу можно освоить ещё выгоднее — скидка 45% действует по промокоду NET45. Начинайте обучение и становитесь незаменимым IT-специалистом
Реклама. ООО "Нетология". Erid 2VSb5yBKYUQ
⚡️ Nemotron-Mini-4B-Instruct: инструктивная компактная модель от Nvidia
Nemotron-Mini-4B-Instruct - небольшая модель, полученная в результате файнтюна, обрезки (pruning), дистилляции и квантования модели Minitron-4B-Base.
Эта модель оптимизирована для roleplay-сценариев, RAG QA и вызова функций на английском языке.
Практическое применение модели ориентировано на интеграции в гейм-разработке, преимущественно - в экосистеме NVIDIA.
Модель обучалась в период февраль-август 2024 года.
При создании Nemotron-Mini-4B-Instruct использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
▶️Технические характеристики:
🟢total params - 4B;
🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢input context - 4096.
Пример инференса в Transformers, шаблоны простого промпта и instruct- шаблон в карточке модели на Huggingface.
Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 3-bit (2.18 Gb) до 16-bit (8.39 Gb) для запуска в llama.cpp и LM Studio.
📌Лицензирование : NVIDIA Community Model License.
🟡Страница модели на NGC Catalog
🟡Модель
🟡GGUF
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Nemotron
🌟 Специалисты ИТМО представили результаты исследования Open Source решений в сфере ML/Data в России
Лидирующие позиции заняли Яндекс, Сбер и Т-банк. Исследование выявило, что разработчики ориентируются как на внутренний, так и на международный рынок. Также компании рассматривают open-source как способ развития отрасли.
Лидер рейтинга Яндекс представил 120 открытых решений. Среди них выделен топ-3:
🟢CatBoost: библиотека градиентного бустинга на дереве решений.
🟢YTsaurus: платформа для хранения и обработки больших данных.
🟢YDB: распределённая SQL база данных.
📌В список открытых решений попали и последние проекты компании: YaFSDP (Библиотека для ускорения обучения больших языковых моделей), Gravity UI (Набор библиотек и компонент для создания интерфейсов), Diplodoc (Платформа для написания технической документации), DataLens (платформа для визуализации и аналитики данных), а также ClickHouse, который развивается независимо.
🟡Исследование
@ai_machinelearning_big_data
#news #ai #ml
И получите своё предсказание🔮
Прогнозируйте изменения своих бизнес-метрик с помощью машинного обучения.
🖥 Awesome LLM Strawberry (OpenAI o1)
Свежий Awesome список статей, блогов и LLM проектов, посвящённых OpenAI o1 и техникам рассуждений модели.
▪ Github
@ai_machinelearning_big_data
#opeai #chatgpto1 #awesome
Как применять нейросети в обучении с подкреплением?
Расскажет Игорь Стурейко, преподаватель курса Reinforcement Learning в OTUS на открытом уроке.
✅Вместе с опытным экспертом вы:
- разберете ситуацию, в которой использование классических методов обучения с подкреплением не дают результатов;
- поймете почему необходимо использовать нейросети;
- узнаете как адаптировать классический алгоритм Q-learning для использования нейросетей.
⚡Занятие пройдёт 26 сентября в 20:00 мск и будет приурочено к старту курса «Reinforcement Learning».
👉Регистрация https://otus.pw/BQd2/?erid=LjN8JvdZR
Обучение на курсе позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем. При поступлении в группу возможны разные способы оплаты и рассрочка платежа.
Повысь профессиональный уровень до Middle+
Изучите продвинутые ML-алгоритмы на онлайн-курсе «Machine Learning Advanced» от OTUS.
Получите опыт работы в production: настройка окружения, оптимизация кода, построение end-to-end пайплайнов и внедрение решений
⚠️ Особенность курса — вебинары в формате Live coding, где преподаватель с нуля демонстрирует решение актуальных задач ML.
Выпусная работа: Уникальный исследовательский проект по машинному обучению.
Чувствуй себя уверенно на ведущих Middle+ / Senior позициях в ML.
Пройдите тест из 10 вопросов и проверьте допуск к курсу:
https://otus.pw/Zc8d/?erid=LjN8K1daS
K2 Cloud и PiterPy2024 — бесплатный день конференции для питонистов.
Ребята из K2 Cloud помогли организовать Community Day для python-разработчиков. 18 сентября ты сможешь бесплатно послушать часть докладов конференции PiterPy: от мастерства карьерного роста до хитростей асинхронного программирования. Для участия нужно только зарегистрироваться.
Подробнее на сайте
В OTUS стартует курс «Искусственный интеллект (AI) в медицине», на котором студенты смогут обучиться создавать качественные мультимодальные медицинские датасеты, осуществлять техническую поддержку разметки данных, уметь анализировать и ориентироваться в зоопарке современных подходов к машинному обучению.
16 сентября в 20:00 по мск. приглашаем на открытый вебинар курса «Медицина будущего: как сингулярный AI изменит здравоохранение». На занятии вы познакомитесь с концепцией технологической сингулярности и ее потенциальным влиянием на медицину. Мы рассмотрим, как AI, достигший уровня человеческого интеллекта, может революционизировать диагностику, лечение и управление здравоохранением. Обсудим этические вызовы и возможности, которые открывает сингулярный AI в медицине.
Для участия пройдите регистрацию
https://otus.pw/GVav/
При поступлении в группу обучения после вебинара вы получите специальную цену на курс, а так же разные способы оплаты и рассрочка платежа.
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.erid: LjN8KVc2V
Мечтаешь о собственном бизнесе, но не знаешь, с чего начать?
Академия инноваторов — это именно то, что поможет превратить твою идею в успешный стартап!
Что такое Академия инноваторов?
На программе ты сможешь: – работать с личным трекером; – получать запросы от крупных технологических компаний; – пройти очную образовательную программу по развитию и масштабированию проекта с экспертами; – протестировать свою идею на практике; – презентовать свой проект на демо-дне перед потенциальными клиентами и инвесторами.
Почему стоит присоединиться?
Академия инноваторов — это сообщество более 20 тысяч единомышленников, свыше 3900 инновационных проектов, более 300 стартапов и привлеченные инвестиции на сумму свыше 200 миллионов рублей! Это уникальная возможность расширить сеть контактов, найти инвесторов и вывести свой проект на новый уровень.
Что дальше?
После завершения акселерации тебя ждет успех! Например, проект WE.Refiber 30 млн рублей инвестиций на НИОКР и постройку малотоннажного предприятия, а mymeet.ai привлек инвестиции в размере 3 млн рублей от частного инвестора.
Как попасть?
Подавай заявку на сайте до 15 сентября и следи за последними новостями технологического предпринимательства в канале Академии инноваторов.
🔹 Прогнозируем биткойн с использованием машинного обучения на открытом уроке от Otus.
Познакомьтесь с набором инструментов для анализа временных рядов.
Рассмотрим примеры продвинутых моделей
✅ Практика: Скачивание данных с помощью api, предобработка, прогноз средним, sarima, линейной регрессией, бустингом, recurent pro
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/Fxwb/?erid=LjN8KMFM4
Яндекс открыл прием заявок на международный чемпионат по программированию Yandex Cup. Призовой фонд — 12,5 млн рублей!
В прошлых состязаниях могли участвовать только опытные взрослые разработчики. В этом году к нему впервые смогут присоединиться программисты-юниоры от 14 до 18 лет. А еще будет создан отдельный стрим, в котором сотрудники Яндекса поборются за звание чемпиона компании.
Для взрослых программистов доступно 6 направлений: фронтенд-, бэкенд- и мобильная разработка, машинное обучение, аналитика и алгоритм.
Финал и церемония награждения пройдут в декабре в Узбекистане. Призовые места в прошлом чемпионате завоевали участники из России, Беларуси, США, Японии, Казахстана, Кипра, Германии, Грузии, Швейцарии.
Важным отличием от прошлых соревнований станет Gold-финал, где впервые будут определены абсолютные чемпионы в каждом направлении.
Зарегистрироваться на Yandex Cup можно до 20 октября на сайте чемпионата.
@ai_machinelearning_big_data
🌟 Spann3R: 3D-реконструкция на основе изображений с помощью пространственной памяти.
Spann3R - уникальный метод плотной трехмерной реконструкции из упорядоченных или неупорядоченных наборов изображений.
Метод основан на концепции пространственной памяти, которая позволяет выполнять инкрементную реконструкцию сцены с помощью прогнозирования карты точек для каждого изображения в единой системе координат.
Spann3R может применяться в реальном времени для онлайн-реконструкции.
Архитектура Spann3R основана на модели DUSt3R с добавлением внешней пространственной памяти. Она включает в себя энкодер ViT, два связанных декодера (целевой и ссылочный), как в DUSt3R, и легковесный энкодер памяти.
Модель обучается на последовательностях из 5 кадров, случайно выбранных из видео, с использованием стратегии сurriculum training, которая регулирует размер окна выборки в процессе обучения. Эта стратегия позволяет Spann3R изучать краткосрочные и долгосрочные зависимости между кадрами.
Для обучения Spann3R использовались наборы данных Habitat, ScanNet, ScanNet++, ARKitScenes, BlendedMVS и Co3D-v2.
Оценка Spann3R проводилась на трех наборах: 7Scenes, NRGBD и DTU. Результаты показывают, что Spann3R демонстрирует конкурентоспособное качество онлайн-реконструкции по сравнению с автономными методами - FrozenRecon и DUSt3R, при этом превосходя их по скорости.
Spann3R достигала частоты кадров в 50 к/с без оптимизации во время оценочного тестирования. Визуализация процесса онлайн-реконструкции демонстрирует способность Spann3R понимать регулярность сцены, модель способна восстанавливать геометрию даже текстурно-однородных областей, например, стен.
⚠️ Перед локальным запуском на тестовых данных, необходимо предварительно загрузить предобученную модель и тестовый набор данных для инференса. Модель положить в папку ./checkpoints
, а тестовый набор в ./examples
▶️Установка и запуск:
# Clone repository:
git clone https://github.com/HengyiWang/spann3r.git
cd spann3r
# Create conda env:
conda create -n spann3r python=3.9 cmake=3.14.0
conda install pytorch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install -U -f https://www.open3d.org/docs/latest/getting_started.html open3d
# Compile CUDA kernels for RoPE
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../
# Download the DUSt3R checkpoint
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth
# Run demo:
python demo.py --demo_path ./examples/s00567 --kf_every 10 --vis
Новостной дайджест
✔️ Mistral AI: обновление набора моделей по API и Pixtral в Le Chat.
Компания представила масштабное обновление: бесплатный доступ к платформе La Plateforme, обновление цен на всю линейку моделей, новую версию Mistral Small корпоративного класса и бесплатный доступ к модели Pixtral в Le Chat.
La Plateforme – это бессерверная платформа для тонкой настройки и создания моделей Mistral в виде конечных точек API. Теперь она предлагает бесплатный уровень доступа, позволяющий разработчикам экспериментировать, оценивать и создавать прототипы без каких-либо затрат.
Mistral AI также снижает цены доступа по API на всю линейку моделей. Цена на Mistral Nemo снижена на 50%, Mistral Small и Codestral – на 80%, а Mistral Large – на 33%.
Mistral Small v24.09 - последняя версия небольшой модели для задач перевода, реферирования, анализа тональности и других языковых задачи, не требующих полнофункциональных моделей общего назначения.
Mistral Small v24.09 с 22 млрд. параметров занимает место золотой середины между Mistral NeMo 12B и Mistral Large 2.
✔️ Microsoft 365 Copilot: вторая волна обновления, Copilot в офисном пакете.
Microsoft запускает вторую волну обновлений Microsoft 365 Copilot, объединяя веб-интерфейс, рабочие процессы и новый формат страниц "Pages" в единую систему для работы со знаниями.
Copilot Pages, динамическое и постоянное рабочее пространство с ИИ. Pages сохраняет созданный ИИ контент, позволяя редактировать, дополнять и делиться им с коллегами. Пользователи могут совместно работать над страницами с Copilot в режиме реального времени.
Copilot в Excel теперь общедоступен и работает с Python.
Copilot в PowerPoint может создавать презентации на основе идеи, используя Конструктор, использовать фирменные шаблоны компании благодаря функции Brand manager.
Copilot в Teams анализирует транскрипцию встречи, чат, предоставляя полную картину обсуждения и помогая не пропустить ни один вопрос или идею.
Copilot в Outlook с функцией "Расстановка приоритетов во входящих" поможет быстро находить важные сообщения, анализируя их содержание и контекст.
Copilot в Word позволит ссылаться на данные из различных источников, включая веб-страницы, документы Word и PowerPoint, PDF-файлы.
Copilot в OneDrive поможет быстро находить нужную информацию в файлах, обобщать и сравнивать до пяти файлов одновременно, предоставляя краткое и понятное описание деталей и различий.
Copilot agents - ИИ-помощники, разработанные для автоматизации и выполнения бизнес-процессов.
✔️ Google внедрит технологию проверки подлинности изображений.
Google разрабатывает технологию, которая позволит определить, было ли изображение снято камерой, отредактировано в программе типа Photoshop или создано с помощью модели GenAI.
В ближайшие месяцы в результатах поиска Google появится обновленная функция «Об этом изображении», которая позволит пользователям узнать, было ли изображение создано или отредактировано с помощью инструментов ИИ.
✔️ Китай заявил о прорыве в производстве оборудования для выпуска собственных чипов.
Это является важным шагом в преодолении санкций США, направленных на сдерживание полупроводниковых амбиций Пекина.
✔️ Mozilla запускает Solo: бесплатный no-code конструктор сайтов с ИИ.
Среди ключевых особенностей Solo - простая настройка, генерация контента с помощью ИИ, интеграция с Unsplash для поиска изображений и SEO-оптимизация.
✔️ Supermaven: конкурента GitHub Copilot от бывшего интерна OpenAi.
Jacob Jackson, один из основателей платформы Tabnine, запустил новый проект - Supermaven. Supermaven, как и Tabnine, использует ИИ для помощи в написании кода, но отличается рядом технических преимуществ, ключевое - окно контекста в 1 миллион токенов.
✔️ Япония создаст суперкомпьютер, в 1000 раз превосходящий по скорости современные аналоги.
Ожидается, что машина будет работать как минимум в 1000 раз быстрее, чем самый быстрый суперкомпьютер в мире на сегодняшний день.
✔️ ИИ используется для анализа плазменных струй при лазерном осаждении (PLD).
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
🌟 SaRA: эффективный файнтюн диффузионных моделей с помощью разреженной низкоранговой адаптации.
Sparse Low Rank Adaptation (SaRA) - метод дополнительного обучения для диффузионных моделей, который использует "неэффективные" параметры с наименьшими абсолютными значениями в предобученной модели.
SaRA позволяет улучшить генеративные способности модели, адаптируя ее к новым задачам, сохраняя при этом обобщающие способности исходной модели. SaRA отличается простотой реализации, требуя модификации всего одной строки кода в исходном скрипте обучения.
Идея метода о том, что параметры модели с наименьшими абсолютными значениями, хотя и не оказывают существенного влияния на инференс модели, обладают потенциалом для обучения новым знаниям. Потенциал обусловлен не структурными ограничениями модели, а скорее случайностью процесса оптимизации во время обучения.
Чтобы предотвратить переобучение, которое может возникнуть из-за сильной способности к представлению разреженных матриц, в SaRA используется функция потерь на основе ядерной нормы (nuclear norm-based) для ограничения ранга обучаемых матриц.
Для более плотного использования "неэффективных" параметров, используется прогрессивная стратегия настройки параметров процесса файнтюна - на более поздних этапах обучения происходит повторный выбор "неэффективных" параметров для повышения адаптивности модели.
Для решения проблемы высокого потребления VRAM, характерной для методов selective PEFT, SaRA использует алгоритм «неструктурного обратного распространения ошибки». Этот алгоритм хранит и обновляет градиенты только для обучаемых параметров, значительно сокращая использование памяти во время обучения.
Проведенные эксперименты на моделях Stable Diffusion (14, 1.5, 2.0, 3.0) демонстрируют эффективность SaRA в сравнении с другими методами файнтюна:
🟢LoRA: экономия 52% VRAM;
🟢LT-SFT: экономия 45% VRAM.
⚠️ Метод был успешно протестирован на venv : Python 3.9.5
и CUDA 11.8
. Подробный туториал разработчик обещает выложить в репозиторий на Github до 30 сентября 2024 г.
В планах проекта - поддержка Dreambooth и Animatediff. Сроки по реализации планов не уточняются.
▶️Использование SaRA :
# easily employ SaRA to finetune the model by modifying a single line of code:
from optim import adamw
model = Initialize_model()
optimizer = adamw(model,threshold=2e-3) # <-modify this line only
for data in dataloader:
model.train()
model.save()
# Save and load only the trainable parameters
optimizer = adamw(model,threshold=2e-3)
optimizer.load($path_to_save)
torch.save(optimizer.save_params(),$path_to_save)
🌟 multi1: Имитация GPT-o1-подобных цепочек рассуждений с локальными и онлайн LLM.
multi1 — это экспериментальный проект, вдохновленный моделью o1 от OpenAI, который позволяет использовать различные языковые модели: локальные (через ollama) и онлайн (Perplexity и Groq) через единый веб-интерфейс.
Цель проекта — изучение возможностей повышения способности языковых моделей к логическому мышлению путём применения стратегий промптинга.
Архитектура multi1 основана на использовании цепочек рассуждений, реализующих принцип динамической "Цепочки Мыслей" (Chain of Thought).
В отличие от o1, multi1 визуализирует все этапы рассуждений, предоставляя пользователю доступ к каждому шагу и позволяя наблюдать за логикой.
Тестирование показало, что multi1 способен решать простые логические задачи, которые обычно вызывают затруднения у LLM, с точностью 60-80%.
Например, multi1 достигает точности ~70% в популярном запросе "Сколько букв 'R' в слове 'strawberry'?" (n=10). Для сравнения, Llama-3.1-70b без промтинга показала 0% точности, а ChatGPT-4o - 30%.
▶️Установка и запуск:
# Set up the environment:
python3 -m venv venv
source venv/bin/activate
pip3 install -r requirements.txt
# Copy the example environment file:
cp example.env .env
# Edit the .env file with your API keys / models preferences
# Run the streamlit UI interface
streamlit run app/main.py
Технологии прогрессируют, количество и мощность дата-центров растет, спрос на цифровизацию появляется во всех сферах жизни. Все больше становится и кластеров виртуальной инфраструктуры с GPU-ускорителями для крупномасштабных задач машинного обучения, ИИ и высокопроизводительных вычислений .
Хранилища данных тоже меняются. Современный дата-центр теперь стоит ближе к сверхнадежному заводу Skynet, чем к серверной стойке в опасном закутке без дверей.
26 сентября на онлайн-встрече МТС Web Services обсудим перспективы развития дата-центров и технологии, которые уже сегодня меняют индустрию. Мы подготовим подробный и доступный обзор основных инструментов, которые обеспечивают надежное и бесперебойное размещение данных.
Регистрируйтесь по ссылке!
И готовьте свои вопросы: за лучший вопрос в чате трансляции будет подарок :)
Реклама. Информация о рекламодателе
⚡️ XVERSE-MoE-A36B: большая языковая модель на архитектуре MoE.
XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы.
XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных.
Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои.
Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором.
Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR).
Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval.
Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности.
▶️ Технические параметры модели:
🟢total parameters: 255.4B;
🟢active parameters: 36.5B;
🟢total layers: 50;
🟢dimensionality: 6144;
🟢attention heads: 48;
🟢feed-forward dimensionality: 4096;
🟢non-shared experts: 64;
🟢shared experts: 2;
🟢top-k sampling: 6.
⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb
▶️Установка и запуск:
# Clone repository:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B
# Install the dependencies:
pip install -r requirements.txt
# Inference with Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
# Inference with WebUI:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'
Новостной дайджест
✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.
Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.
Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com
✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.
Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com
✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.
AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.
Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.
Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.
FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com
✔️ ОАЭ представили новую политику безопасности в области ИИ.
Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.
Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae
✔️ Италия тестирует обучение с помощью ИИ в школах.
Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.
В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".
Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.
В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 LLaMA-Factory: локальный файнтюн моделей с WebUI.
LLaMA-Factory - это фреймворк, который объединяет в себе набор методов манипуляций с моделями и инструментов для гибкой настройки через веб-интерфейс Gradio.
Фреймворк состоит из трех основных модулей:
🟢Model Loader - управляет архитектурами моделей, поддерживая LLM и VLM;
🟢Data Worker - модуль для операций с наборами данных;
🟢Trainer - применяет подходы к обучению: Pre-Training, SFT, Reward Modeling, PPO, DPO, KTO, ORPO, SimPO.
LLaMA-Factory поддерживает методы: freeze-tuning, GaLore, BAdam, LoRA, QLoRA, DORA, LORA+ и PiSSA, а также flash attention, S2 attention, mixed precision training, activation checkpointing и стратегии квантования.
Список поддерживаемых семейств моделей периодически пополняется, его актуальную версию можно посмотреть в репозитории проекта.
Gradio WebUi позволяет настраивать аргументы обучения, визуализировать журналы обучения и кривые потерь в режиме реального времени, а также поддерживает несколько языков: английский, русский и китайский.
На потребительских GPU (24Gb), согласно таблице разработчиков, запустятся методы:
🟠Freeze 16-bit - модели плотностью 7B;
🟠LoRA/GaLore/BAdam 16-bit - модели плотностью 7B;
🟠QLoRA 8-bit - модели плотностью 7B, 13B;
🟠QLoRA 4-bit - модели плотностью 7B, 13B, 30B;
🟠QLoRA 2-bit - модели плотностью 7B, 13B, 30B и 70B.
⚠️ Перед локальным запуском внимательно ознакомьтесь с требованиями по пакетному окружению, рекомендациями по установке для разных архитектур, инструкцией по подготовке данных.
▶️ Проект может быть инсталлирован : Docker, Docker w\o Composer, OpenAI-style API and vLLM и классическим способом установки из репозитория.
📌Лицензирование : Apache 2.0 License.
🟡Документация (китайский)
🟡Google Collab
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Finetune #LlaMAFactory
💊 Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года
🟩 BrainWave: модель для анализа сигналов головного мозга.
BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.
🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.
Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.
Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).
🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.
EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.
Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.
🟩 Возможности SAM для сегментации опухолей мозга.
В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.
Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.
🟩 MEDIC: Оценка языковых моделей для клинического применения.
MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.
Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.
Приложения с использованием языковых моделей.
🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.
KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.
Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.
Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.
🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.
i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.
Методики и техники
🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.
В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .
PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.
PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:
🟢ID-кодер перенесен из структуры MLP в структуру Transformer;
🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;
🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;
🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;
🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload
, но генерация будет выполняться очень, очень, очень медленно.
В PuLID for FLUX есть два критически важных гиперпараметра:timestep to start inserting ID
. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.true CFG scale
. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.
Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.
Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:
🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.
⚠️ Важно!
🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;
🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1
▶️Установка и запуск GradioUI:
# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID
# create conda env
conda create --name pulid python=3.10
# activate env
conda activate pulid
# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt
# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt
# Run Gradio UI
python app.py
🌟 AutoRound: расширенный алгоритм квантования LLM от Intel.
AutoRound - усовершенствованный алгоритм квантования для малоразрядных LLM, основанный на методе "SignRound" исследования "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs".
Алгоритм использует градиентный спуск по знаку для точной настройки значений округления и minmax-значений весов всего за 200 шагов. AutoRound составляет конкуренцию современным методам, не создавая дополнительных накладных расходов на инференс и сохраняя низкую стоимость настройки.
В основе AutoRound лежит идея SignRound - поиска оптимального порога округления для каждого блока весов. В отличие от стандартного округления к ближайшему целому (RTN),
SignRound учитывает взаимосвязи между весами, и между весами и активациями. Для этого используется блочная реконструкция вывода, где минимизируется ошибка между выходом исходного блока и его квантованной версией.
▶️Форматы квантования:
🟢AutoRound - подходит для CPU, HPU устройств и инференса со смешанной точностью;
🟢AutoGPTQ - подходит для симметричного квантования на устройствах CUDA, но симметричное квантование имеет тенденцию плохо работать при 2-битной точности;
🟢AutoAWQ - подходит для асимметричного 4-битного квантования на устройствах CUDA, в нем реализовано специализированное слияние слоев, предназначенное для моделей семейства Llama.
Алгоритм поддерживает практически все основные крупные языковые модели и семейства:
Llama, Qwen, Yi, Mistral, gemma, falcon, Phi, Mixtral и др.
Полный список с примерами и рецептами конфигураций для каждого семейства можно найти в репозитории проекта.
📌Лицензирование : Apache 2.0 License.
🟡Arxiv
🖥Github
@ai_machinelearning_big_data
#AI #ML #Quantization #LLM #AutoRound
🌟 repo2vec: простая библиотека, позволяющая общаться с публичным или частным репозиторием.
Иногда просто нужно узнать, как работает код и как его интегрировать, не тратя часы на изучение самого кода. Repo2vec - это как GitHub Copilot, но с самой актуальной информацией о целевом репозитории.
Возможности:
🟢 Простая настройка: запустите пару скриптов и у вас будет функциональный интерфейс чата для вашего кода;
🟢Документированные ответы: каждый ответ показывает, откуда в коде был извлечен контекст для ответа;
🟢Работает локально или в облаке: вы можете использовать Marqo для эмбеддинга + векторного хранилища и Ollama для чата с LLM или настроить эмбеддинги OpenAI + Pinecone для векторного хранилища + OpenAI или Anthropic для чата LLM;
🟢 Plug-and-play: каждый компонент конвейера легко заменяем. Инженерные стандарты уровня Google позволяют вам настраивать все по своему усмотрению;
🟢Индексация Issues (опционально): вы можете дополнительно индексировать issues, установив ключ --index-issues
. И наоборот, вы можете отключить индексирование кода (и индексировать только issues), ключом --no-index-repo
.
Помимо self-hosted варианта для приватных репозиториев, repo2vec существует в виде бесплатного онлайн-сервиса индексации публичных репозиториев Github - Code Sage.
▶️Установка на примере Marqo, Ollama и чатом в GradioUI:
# Install the library
pip install repo2vec
# Install Marqo instance using Docker:
docker rm -f marqo
docker pull marqoai/marqo:latest
docker run --name marqo -it -p 8882:8882 marqoai/marqo:latest
# Run index your codebase:
index github-repo-name
--embedder-type=marqo
--vector-store-type=marqo
--index-name=your-index-name
# Сhat with a local LLM via Ollama
# Start Gradio:
chat github-repo-name
--llm-provider=ollama
--llm-model=llama3.1
--vector-store-type=marqo
--index-name=your-index-name
🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.
LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.
В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.
В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.
Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.
▶️Технические параметры модели:
🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.
📌Лицензирование : MIT License
🟡Arxiv
🟡Модель
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #LongLLaVA