🌟 WordLlama: простой тулкит для NLP.
WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.
Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.
Ключевые особенности WordLlama:
🟢Представления матрешки: пользователь могут обрезать измерения эмбеддинга по мере необходимости, 1024-dim может быть усечена до 64, 128, 256 или 512.
🟢Низкие требования к ресурсам: WordLlama эффективно работает на CPU, выполняя быстрый поиск токенов со средним пулом.
🟢Бинаризация: будущие обновления будут включать модели, которые можно упаковать в небольшие целочисленные массивы для более быстрых вычислений с использованием расстояния Хэмминга.
🟢Инференс только на основе NumPy: конструкция легкая и простая, что позволяет легко интегрировать ее в существующие рабочие процессы.
Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).
WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.
В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.
📌Лицензирование : MIT License.
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #Toolkit #NLP #WordLlama
Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.
Регистрация уже открыта
Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.
Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки
Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.
Успейте подать заявку до 4 октября
Реклама. Фонд «Энергия без Границ». ИНН 7704278904. erid: LjN8JuF3i
🌟 Агенты GenAI: Репозиторий Github c обширной базой знаний и примерами.
GenAI-агенты - это системы ИИ, способные взаимодействовать с окружающим миром и выполнять разнообразные задачи, подобно человеку. В отличие от традиционных систем ИИ, GenAI-агенты обладают большей гибкостью, адаптивностью и способностью к обучению.
Репозиторий - кладезь теоретических и практических знаний: примеры, начиная от простых разговорных ботов до сложных многоагентных систем, обучающие материалы для всех уровней — от начинающих до опытных пользователей, заинтересованных в изучении и применении современных технологий GenAI.
Простые агенты:
🟢простые диалоговые агентов и агенты для ответов на вопросы;
🟢агенты для анализа данных;
Агенты для конкретных задач:
🟠клиентская поддержка;
🟠оценка эссе и сочинений;
🟠планировщик путешествий;
Творческие агенты:
🟢агент генерации GIF-анимации;
🟢агент для генерации речи на основе текста;
🟢агент для генерации музыкальных композиций;
Сложные системы агентов:
🟠разговорный агент с расширенной памятью;
🟠многоагентные системы;
🟠самосовершенствующиеся агенты;
🟠агенты, ориентированные на выполнение задач;
🟠агенты для поиска и обобщения информации в Интернете;
🟠 исследовательские группы агентов на базе Autogen;
Специальные сложные агенты:
🟢агент для комплексных задач с использованием RAG.
▶️Практическое изучение и создание агентов GenAI::
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/GenAI_Agents.git
#Перейдите к интересующей вас технике
cd all_agents_tutorials/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
🌟 jina-embeddings-v3: мультиязычная модель эмбединга текста.
jina-embeddings-v3 - мультиязычная (89 языков, включая русский) многозадачная модель текстового эмбединга с 570M параметров, предназначенная для задач NLP.
Модель построена на архитектуре Jina-XLM-RoBERTa, поддерживает Rotary Position Embeddings для обработки длинных входных последовательностей до 8192 токенов. Она оснащена 5 адаптерами LoRA для генерации эмбедингов, специфичных для конкретной задачи:
🟢retrieval.query:
эмбединг запросов в задачах асимметричного поиска;
🟢retrieval.passage:
эмбединг фрагментов текста в задачах асимметричного поиска;
🟢separation:
для эмбедингов в приложениях для кластеризации и повторного ранжирования;
🟢classification:
эмбединг в задачах классификации;
🟢text-matching:
используется для эмбедингов в задачах, которые количественно оценивают сходство между двумя текстами, например, STS или симметричный поиск.
Адаптеры LoRA составляют менее 3% от общего числа параметров, обеспечивая минимальные расходы на вычисления.
Имея размерность вывода по умолчанию 1024, пользователи могут произвольно сократить размерность эмбедингов вплоть до 32 без ущерба для производительности благодаря интеграции Matryoshka Representation Learning.
Модель доступна через API Jina, а также в ближайшее время будет доступна на Azure Marketplace и AWS SageMaker.
Jina AI сотрудничает с поставщиками векторных баз данных (Pinecone, Qdrant и Milvus), с платформами оркестрации LLM (LlamaIndex, Haystack и Dify), чтобы обеспечить интеграцию с Jina Embeddings V3.
Jina Embeddings V3 можно использовать локально через Transformers или SentenceTransformers. Модель также поддерживает формат ONNX.
📌Лицензирование : CC BY-NC 4.0 License. Для коммерческих проектов - свяжитесь с разработчиком.
🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #ML #LLM #Embedding #JinaAI
Новостной дайджест
✔️ YouTube анонсировала AI функции для создателей контента и зрителей.
СEO YouTube Нил Мохан объявил о запуске набора новых функций на основе искусственного интеллекта, которые будут внедрены на платформе до конца года.
Среди новых возможностей - функция создания шестисекундных видеороликов на основе текста, которые можно будет использовать в YouTube Shorts. Функция будет работать на базе технологии ИИ Google DeepMind.
Все видео, созданные с помощью ИИ, будут помечены водяным знаком SynthID, разработанным DeepMind . Эта технология позволяет идентифицировать материалы, созданные ИИ, чтобы помочь зрителям отличать их от контента, созданного людьми.
Помимо генерации видео, YouTube внедрит функции Dream Track, позволяющую создавать инструментальные треки для Shorts и Music AI Sandbox для создания музыкальных “лупов”.
Платформа расширит возможности автоматического дубляжа видео на другие языки, а обновление “выразительной речи” сделает дубляж более естественным.
Новая кнопка “Хайп” позволит зрителям предлагать видео для включения в новый раздел трендов.
Для авторов контента будут внедрены новые способы монетизации во время прямых трансляций, аналогичные TikTok Live и Twitch.
nbcnews.com
✔️ Co-LLM: алгоритм для повышения точности инференса моделей.
В MiT разработали новый алгоритм Co-LLM, который позволяет большой языковой модели общего назначения LLM сотрудничать со специализированной моделью для повышения точности ответов. Co-LLM анализирует каждое слово в ответе базовой LLM и определяет, когда следует обратиться к экспертной модели для получения более точного ответа. Алгоритм использует "переключающую переменную", обученную на данных предметной области, чтобы определить, какая из моделей обладает большей компетентностью в конкретной части ответа.
Co-LLM показал эффективность в различных сферах: медицинские вопросы, математические задачи и вопросы на рассуждение. Например, при ответе на вопрос о составе лекарственного препарата, базовая LLM может допустить ошибку, в то время как Co-LLM, обратившись к специализированной модели Meditron, предоставит верный ответ.
news.mit.edu
✔️ Fal.ai привлекла $23 млн. от a16z и других венчурных компаний.
Fal.ai - платформа, которая специализируется на генерации аудио, видео и изображений. Компания объявила о привлечении $23 млн инвестиций от Andreessen Horowitz (a16z), сооснователя Black Forest Labs Робина Ромбаха, генерального директора Perplexity Аравинда Сриниваса и других. $14 млн были получены в рамках раунда серии A под руководством Kindred Ventures, а остальные $9 млн – в рамках ранее не объявленного раунда начального финансирования под руководством a16z.
Fal.ai предлагает два основных продукта: частные вычислительные мощности и рабочие процессы для запуска моделей, а также API для моделей с открытым исходным кодом, которые генерируют изображения, аудио и видео. Платформа была одной из первых, кто разместил Flux от Black Forest Labs.
Компания планирует направить большую часть полученных средств на модернизацию своего продукта и на создание исследовательской группы, которая сосредоточится на оптимизации моделей
techcrunch.com
✔️ Sonarworks выпустил SoundID VoiceAI 2.0 с новыми пресетами и локальной обработкой.
SoundID VoiceAI - это плагин для преобразования голоса, разработанный Sonarworks для DAW. Он позволяет легко изменять записанный певческий голос в голос другого человека с помощью технологии ИИ. Обновленная версия 2.0 добавляет новые функции, включая 50 высококачественных пресетов для голоса и инструментов.
Одним из ключевых преимуществ SoundID VoiceAI 2.0 является новый тип лицензирования - Perpetual Mode. С ним пользователи могут обрабатывать неограниченное количество аудиотреков локально на своем компьютере без каких-либо дополнительных затрат. Бесплатную пробную версию (7дней) SoundID VoiceAI 2.0 можно загрузить на сайте Sonarworks.
mixdownmag.com.au
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.
Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.
Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.
▶️ Qwen2.5
В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.
Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.
Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).
Список моделей:
🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.
В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.
▶️ Qwen2.5 Coder
Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.
Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.
Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.
Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.
Список моделей:
🟠Qwen2.5-Coder: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;
🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.
▶️ Qwen2.5 Math
Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.
Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.
Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.
Список моделей:
🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;
🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.
▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.
📌Лицензирование:
🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Qwen
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.
RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.
В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:
Базовые методы RAG:
🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;
Инженерия запросов:
🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;
Обогащение контекста и содержания:
🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;
Методы поиска:
🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;
Итеративные и адаптивные методы:
🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;
Интерпретируемость:
🟠Explainable Retrieval;
Архитектуры:
🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.
▶️Практическое применение или изучение техник RAG в проектах:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git
#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
Новостной дайджест
✔️ Runway открывает доступ к своей модели генерации видео через API.
Runway анонсировал API, который позволит интегрировать его модели в сторонние платформы, приложения и сервисы. Пока API Runway находится в ограниченном доступе, предлагая только одну модель — Gen-3 Alpha Turbo, более быструю, но менее функциональную версию флагманской модели Runway Gen-3 Alpha. Базовая цена составляет 1 цент за кредит (одна секунда видео стоит пять кредитов). Runway заявляет, что «доверенные стратегические партнеры», включая маркетинговую группу Omnicom, уже используют API.
API Runway имеет требования к использованию. Любые интерфейсы, использующие API, должны «явно отображать» баннер «Powered by Runway» со ссылкой на веб-сайт Runway.
techcrunch.com
✔️ Имплантат для восстановления зрения Neuralink получил одобрение FDA.
Имплантаты Neuralink уже вживлены в мозг двум парализованным пациентам, которые продемонстрировали значительный прогресс в управлении цифровыми технологиями с помощью мысли.
Полученное Neuralink разрешение относится к категории «революционных устройств», этот статус дает компании возможность приоритетного взаимодействия с экспертами FDA на этапе предпродажной проверки. Важно, что получение статуса не является окончательным одобрением FDA для продажи устройства на рынке.
Blindsight, так называется имплантат, работает путем вживления тонкой матрицы из сотен электродов глубоко в мозг пациента, в область, отвечающую за обработку зрительной информации. Blindsight стимулирует зрительную кору микроскопическими импульсами, имитируя сигналы, поступающие от глаз.
На первом этапе технология обеспечит зрение с низким разрешением, сравнимое с графикой старых видеоигр Atari.
inc.com
✔️ CAIS и Scale AI создадут "самый сложный экзамен человечества" для AI.
Некоммерческая организация The Center for AI Safety (CAIS) совместно со Scale AI объявили о создании «Последнего экзамена для человечества» - набора сложнейших вопросов, для оценки истинного уровня интеллекта ИИ. Инициатива возникла на фоне растущих опасений, что ИИ может превзойти человеческий интеллект и потенциально представлять угрозу для человечества.
Проект приглашает к участию экспертов и всех желающих, предлагая им придумать вопросы, которые поставят в тупик современные системы ИИ. Ответы на эти вопросы, собранные от различных моделей ИИ, будут проанализированы и использованы для создания нового стандарта оценки возможностей ИИ.
Авторы наиболее интересных и сложных вопросов будут приглашены стать соавторами научной статьи, посвященной проекту, и получат денежные призы из фонда в 500 000 долларов США. Авторы 50 лучших вопросов получат по 5000 долларов, а авторы следующих 500 лучших вопросов - по 500 долларов.
safe.ai
✔️ BitNet: экстремальное квантование языковых моделей.
Hugging Face успешно применили метод экстремального квантования BitNet к LLM, сократив требования к памяти и вычислениям без ущерба для производительности.
BitNet, разработанный Microsoft Research, представляет собой архитектуру, представляя каждый параметр только тремя значениями: -1, 0 и 1. В результате получается версия модели, которая использует всего 1,58 бит на параметр.
Для интеграции BitNet в архитектуру Transformer представлен новый метод "bitnet". Он заменяет стандартные линейные слои специализированными слоями BitLinear, совместимыми с BitNet. BitLinear квантует веса, используя троичную точность (со значениями -1, 0 и 1), а активации квантуются до 8-битной точности.
BitLinear использует разные реализации для обучения и для логического вывода. Во время обучения используется STE (Straight Through Estimator), который позволяет градиентам проходить через не дифференцируемую операцию округления, аппроксимируя ее градиент как 1. Таким образом, веса обновляются с помощью стандартных методов оптимизации на основе градиента.
Во время логического вывода веса просто квантуются до троичных значений без повторного масштабирования, а это ощутимо повышает скорость вывода.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Приглашаем посетить большую конференцию от Yandex Cloud по облачным технологиям — Yandex Scale, которая пройдет 25 сентября.
Более 50 спикеров из разных компаний обсудят генеративные нейросети, речевые технологии, новые сервисы инфраструктуры, решения для работы с данными и обеспечения безопасности, инструменты искусственного интеллекта и serverless-подход.
Принять участие в конференции можно абсолютно бесплатно, просто зарегистрируйтесь по ссылке. Присоединяйтесь!
Реклама. ООО «Яндекс.Облако» ИНН 7704458262
Бесплатные обучающие онлайн-курсы по нейросетям и Python в искусственном интеллекте от преподавателей МФТИ, УрФУ и НИУ ВШЭ для пользователей любого уровня подготовки ⚡
🌟 Курс «Основы искусственного интеллекта»
Знакомит слушателей со всеми основными понятиями сферы ИИ и научит применять знания на практике, чтобы начать карьеру или научные исследования.
▶️Блоки:
- ML: даёт исчерпывающие знания о линейных алгоритмах, метриках и алгоритмах машинного обучения.
- CV: получите представление о свёрточных нейронных сетях, популярных архитектурах (ResNet) и дообучении, научитесь выполнять классификацию изображений на практике и решать задачи компьютерного зрения.
- NLP: показывает, как обрабатывать текст и статистику; изучите эмбеддинги, рекуррентные нейросети, машинный перевод, диалоговые системы.
- Математика анализа данных и ИИ: изучите жадный алгоритм, вероятностный подход, эмпирические наблюдения, подкрутку простых решений, классификацию с помощью подсчета статистик.
🌟 Курс «Python для искусственного интеллекта»
▶️Курс вводного уровня, в котором разбираются базовые аспекты языка: работа с контейнерами и списками, циклы, множества и словари, функции и классы, популярные библиотеки Python.
Полученные знания можно проверить на Всероссийском чемпионате по искусственному интеллекту RuCode. При хорошем результате есть шанс пройти на 🌟 стажировку в Сбер, Яндекс или другую крупную айти-компанию или выиграть заманчивые призы: игровую консоль, умную колонку, смарт-часы 🔥
Реклама. Рекламодатель: Пожидаева Т.А. Erid: 2VfnxwmR2BS
Станьте незаменимым IT-специалистом для бизнеса
Сетевые инженеры проектируют и настраивают работу корпоративных сетей. Без них не смогут работать компании с развитой IT-инфраструктурой: провайдеры, банки и даже аэропорты.
На курсе «Сетевой инженер» вы научитесь настраивать и администрировать сетевое оборудование разных вендоров. Будете практиковаться в Cisco Packet Tracer и выполните 32 лабораторные работы. Для углубления знаний есть дополнительные модули: об администрирования ОС Linux и основах программирования на Python.
Вы научитесь:
- проектировать безопасные корпоративные сети;
- находить и устранять неисправности в сетях;
- собирать и анализировать трафик;
- устанавливать системы мониторинга.
Сейчас программу можно освоить ещё выгоднее — скидка 45% действует по промокоду NET45. Начинайте обучение и становитесь незаменимым IT-специалистом
Реклама. ООО "Нетология". Erid 2VSb5yBKYUQ
⚡️ Nemotron-Mini-4B-Instruct: инструктивная компактная модель от Nvidia
Nemotron-Mini-4B-Instruct - небольшая модель, полученная в результате файнтюна, обрезки (pruning), дистилляции и квантования модели Minitron-4B-Base.
Эта модель оптимизирована для roleplay-сценариев, RAG QA и вызова функций на английском языке.
Практическое применение модели ориентировано на интеграции в гейм-разработке, преимущественно - в экосистеме NVIDIA.
Модель обучалась в период февраль-август 2024 года.
При создании Nemotron-Mini-4B-Instruct использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
▶️Технические характеристики:
🟢total params - 4B;
🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢input context - 4096.
Пример инференса в Transformers, шаблоны простого промпта и instruct- шаблон в карточке модели на Huggingface.
Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 3-bit (2.18 Gb) до 16-bit (8.39 Gb) для запуска в llama.cpp и LM Studio.
📌Лицензирование : NVIDIA Community Model License.
🟡Страница модели на NGC Catalog
🟡Модель
🟡GGUF
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Nemotron
🌟 Специалисты ИТМО представили результаты исследования Open Source решений в сфере ML/Data в России
Лидирующие позиции заняли Яндекс, Сбер и Т-банк. Исследование выявило, что разработчики ориентируются как на внутренний, так и на международный рынок. Также компании рассматривают open-source как способ развития отрасли.
Лидер рейтинга Яндекс представил 120 открытых решений. Среди них выделен топ-3:
🟢CatBoost: библиотека градиентного бустинга на дереве решений.
🟢YTsaurus: платформа для хранения и обработки больших данных.
🟢YDB: распределённая SQL база данных.
📌В список открытых решений попали и последние проекты компании: YaFSDP (Библиотека для ускорения обучения больших языковых моделей), Gravity UI (Набор библиотек и компонент для создания интерфейсов), Diplodoc (Платформа для написания технической документации), DataLens (платформа для визуализации и аналитики данных), а также ClickHouse, который развивается независимо.
🟡Исследование
@ai_machinelearning_big_data
#news #ai #ml
И получите своё предсказание🔮
Прогнозируйте изменения своих бизнес-метрик с помощью машинного обучения.
🖥 Awesome LLM Strawberry (OpenAI o1)
Свежий Awesome список статей, блогов и LLM проектов, посвящённых OpenAI o1 и техникам рассуждений модели.
▪ Github
@ai_machinelearning_big_data
#opeai #chatgpto1 #awesome
🌟 Local Knowledge Graph: создания графа знаний для изучения связанных вопросов и ответов.
Local Knowledge Graph - это простое веб-приложение на Flask, которое использует локальную языковую модель Llama для обработки запросов, создания пошаговых рассуждений и визуализации процесса мышления в виде интерактивного графа знаний.
Local Knowledge Graph также умеет отображать связанные вопросы и ответы на основе семантического сходства.
Возможности:
🟢интерактивный веб-интерфейс для запросов;
🟢пошаговый процесс рассуждения, который отображается в реальном времени;
🟢динамическая визуализация графа знаний этапов рассуждения;
🟢расчет и отображение лучшего пути рассуждения;
🟢связанные вопросы и ответы на основе семантического сходства;
🟢локальная обработка с использованием языковой модели Llama.
⚠️ Перед запуском приложения убедитесь, что у вас запущена языковая модель Llama (на любом бэкэенде) на порту 11434
.
Возможность работы с другими семействами LLM автором репозитория не уточнялась.
▶️Установка и запуск:
# Clone repository:
git clone
https://github.com/punnerud/Local_Knowledge_Graph.git
cd Local_Knowledge_Graph
# Install requirements
pip install -r requirements.txt
# Run the Flask app
python app.py
# Open a web browser and go to http://localhost:5100
Новостной дайджест
✔️ Google создал инструмент ИИ для мониторинга состояния зданий в городах.
Google выпустила инструмент на основе ИИ - Open Buildings 2.5D Temporal Dataset, отслеживающий визуальные изменения зданий. Набор данных охватывает территорию площадью 82 миллиона кв. км в Африке, Латинской Америке, Южной и Юго-Восточной Азии. Отслеживание изменений включает в себя оценку наличия, количества и высоты зданий за период с 2016 по 2023 г. Для обнаружения зданий использовались снимки со спутника Sentinel-2, который позволяет снимать заданный регион Земли примерно каждые пять дней, причем каждый пиксель на снимке представляет собой квадрат размером 10 м на реальной поверхности.
readwrite.com
✔️ АЭС в Пенсильвании будет перезапущена для обеспечения энергией дата-центров Microsoft.
Компания Constellation Energy объявила о планах по перезапуску закрытой атомной электростанции Три-Майл-Айленд в Пенсильвании. Перезапуск стал возможным благодаря соглашению с Microsoft, которая обязалась закупать электроэнергию, вырабатываемую станцией, в течение 20 лет. Данное решение является знаковым событием, демонстрирующим возобновление интереса к атомной энергетике на фоне растущих опасений по поводу изменения климата и необходимости обеспечения стабильных поставок электроэнергии.
Constellation Energy намерена инвестировать 1,6 миллиарда долларов в модернизацию реактора, включая замену главного силового трансформатора, восстановление турбин и систем охлаждения. Ожидается, что модернизированный реактор будет иметь мощность 835 мегаватт.
nytimes.com
✔️ Wordfreq, проект, анализирующий использование человеческого языка, закрывается из-за загрязнения данных генеративным ИИ.
Проект wordfreq, который предоставлял данные о состоянии языка на основе различных онлайн-источников, больше не будет обновляться. Это решение обусловлено из-за влияния генеративного ИИ и изменениями в доступности данных.
Генеративный ИИ загрязняет источники данных, они становятся ненадежными. Интернет, являвшийся важным источником информации для wordfreq, теперь переполнен контентом, созданным большими языковыми моделями. Этот контент часто не имеет подлинного человеческого намерения или коммуникации, искажая частоту слов.
Доступ к данным, которые раньше были бесплатными, теперь стал платным. Twitter и Reddit, ранее являвшиеся ценными источниками разговорного языка для wordfreq, больше не предоставляют открытые API.
edworking.com
✔️ Индийский режиссер Рам Гопал Варма отказывается от музыкантов в пользу музыки, созданной искусственным интеллектом.
Индийский режиссер Рам Гопал Варма, заявил, что будет использовать только музыку, созданную искусственным интеллектом в своих будущих проектах. Варма запустил проект под названием RGV Den Music, который будет использовать музыку, созданную Suno и Udio. Он утверждает, что ИИ обеспечивает мгновенное создание музыки с «нулевой стоимостью».
Варма раскритиковал композиторов за частые срывы сроков и конфликты в расписании, а авторов текстов обвинил в неспособности уловить суть песен.
techcrunch.com
✔️ Amazon запустил сервис генерации видеорекламы.
Amazon Ads запустил новую функцию - "Video Generator", которая использует генеративный ИИ для создания визуально привлекательных видеореклам за несколько минут. Инструмент предназначен для повышения креативности рекламодателей и создания контента.
Video Generator создает персонализированные видео по одному изображению продукта, подчеркивая особенности и преимущества товара. Он является дополнением к существующим инструментам Amazon Ads, которые позволяют рекламодателям генерировать изображения в разных стилях.
aboutamazon.com
@ai_machinelearning_big_data
#news #ai #ml
Если чувствуете, что хотите сделать следующий шаг в IT, то самое время действовать! Не ждите выпускного из школы или колледжа — развивайтесь в интересующем направлении прямо сейчас 🚀🌟
Помимо самообучения, стоит воспользоваться поддержкой опытных менторов и преподавателей. Яндекс Лицей, проект Яндекс Образования, предлагает именно такую возможность. На бесплатных онлайн-специализациях вы сможете углубить свои знания в одном из востребованных направлений:
- Веб-разработка на Django.
- Большие данные.
- Машинное обучение.
- Анализ данных.
- Веб-разработка на GO.
Специализации длятся 3 месяца и ориентированы на подростков 13-20 лет, у которых уже есть опыт в программировании. Во время онлайн-обучения вы прокачаете свои навыки, поработаете над реальными задачами и групповыми проектами, пообщаетесь со специалистами из индустрии… в общем, сделаете всё, чтобы подготовиться к карьере в IT!
Подайте заявку на специализации до 24 сентября и выйдите на новый уровень в IT!
Приглашение на открытый вебинар: Разметка данных с помощью CVAT
На данном открытом уроке вы узнаете:
- Как осуществляется разметка в CVAT.
- Как интегрировать собственную авторазметку.
- Про разные виды конвертеров готовой разметки.
В результате вебинара вы сможете:
- Начать использовать CVAT в своих проектах.
- Ускорить процесс разметки в десятки раз.
- Стать опытными пользователями CVAT.
Для кого это занятие:
Этот вебинар будет особенно интересен начинающим и продвинутым разработчикам компьютерного зрения, разметчикам.
Присоединяйтесь к открытому вебинару 23 сентября в 20:00 мск!
Встречаемся в преддверии старта курса «Компьютерное зрение». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://clck.ru/3DNk6F
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
🌟 GRIN MoE: Mixture-of-Experts от Microsoft.
Модель GRIN (GRadient-INformed) MoE разработана Microsoft для использования в ИИ-системах и приложениях, где требуется мышление (задачи программирования, математики и логики), в сценариях с ограниченным временем ожидания и средах с ограниченным объемом ресурсов.
Модель построена на архитектуре Transformer. Отличительной чертой GRIN MoE является использование слоя Mixture-of-Experts (MoE) в качестве слоя feedforward.
Модель оперирует 16 экспертами и использует top-2 маршрутизацию, активируя два эксперта для каждого токена на каждом слое. GRIN MoE использует алгоритм SparseMixer-v2 для оценки градиента и обучения маршрутизации экспертов.
В отличие от традиционных MoE моделей, GRIN MoE не использует распараллеливание по экспертам и отбрасывание токенов во время обучения.
Технические характеристики модели:
🟢total parameters: 16x3.8B;
🟢active parameters: 6.6B;
🟢context length: 4096;
🟢number of embeddings 4096;
🟢number of layers: 32;
Для обучения GRIN MoE использовался набор данных из 4 трллн. токенов, состоящий из общедоступных документов, образовательных материалов, кода и синтетических данных для обучения математике, программированию и рассуждению.
Тестирование GRIN MoE проводилось на наборе данных Phi-3 в популярных бенчмарках. Модель показала высокие результаты, превзойдя 7B модель и сравнявшись по метрикам с 14B моделью.
GRIN MoE набрала 79.4 балла в тесте MMLU, 74.4 - в HumanEval и 58.9 - в MATH. Несмотря на высокую эффективность в задачах, связанных с кодом и математикой, GRIN MoE показала более низкие результаты в задачах обработки языка, что может быть связано с особенностями обучающего корпуса.
📌Лицензирование : MIT License.
🟡Arxiv
🟡Модель
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #Microsoft
🔹 Прогнозируем биткойн с использованием машинного обучения на открытом уроке от Otus.
Познакомьтесь с набором инструментов для анализа временных рядов.
Рассмотрим примеры продвинутых моделей
✅ Практика: Скачивание данных с помощью api, предобработка, прогноз средним, sarima, линейной регрессией, бустингом, recurent pro
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/Fxwb/?erid=LjN8KMFM4
Яндекс открыл прием заявок на международный чемпионат по программированию Yandex Cup. Призовой фонд — 12,5 млн рублей!
В прошлых состязаниях могли участвовать только опытные взрослые разработчики. В этом году к нему впервые смогут присоединиться программисты-юниоры от 14 до 18 лет. А еще будет создан отдельный стрим, в котором сотрудники Яндекса поборются за звание чемпиона компании.
Для взрослых программистов доступно 6 направлений: фронтенд-, бэкенд- и мобильная разработка, машинное обучение, аналитика и алгоритм.
Финал и церемония награждения пройдут в декабре в Узбекистане. Призовые места в прошлом чемпионате завоевали участники из России, Беларуси, США, Японии, Казахстана, Кипра, Германии, Грузии, Швейцарии.
Важным отличием от прошлых соревнований станет Gold-финал, где впервые будут определены абсолютные чемпионы в каждом направлении.
Зарегистрироваться на Yandex Cup можно до 20 октября на сайте чемпионата.
@ai_machinelearning_big_data
🌟 Spann3R: 3D-реконструкция на основе изображений с помощью пространственной памяти.
Spann3R - уникальный метод плотной трехмерной реконструкции из упорядоченных или неупорядоченных наборов изображений.
Метод основан на концепции пространственной памяти, которая позволяет выполнять инкрементную реконструкцию сцены с помощью прогнозирования карты точек для каждого изображения в единой системе координат.
Spann3R может применяться в реальном времени для онлайн-реконструкции.
Архитектура Spann3R основана на модели DUSt3R с добавлением внешней пространственной памяти. Она включает в себя энкодер ViT, два связанных декодера (целевой и ссылочный), как в DUSt3R, и легковесный энкодер памяти.
Модель обучается на последовательностях из 5 кадров, случайно выбранных из видео, с использованием стратегии сurriculum training, которая регулирует размер окна выборки в процессе обучения. Эта стратегия позволяет Spann3R изучать краткосрочные и долгосрочные зависимости между кадрами.
Для обучения Spann3R использовались наборы данных Habitat, ScanNet, ScanNet++, ARKitScenes, BlendedMVS и Co3D-v2.
Оценка Spann3R проводилась на трех наборах: 7Scenes, NRGBD и DTU. Результаты показывают, что Spann3R демонстрирует конкурентоспособное качество онлайн-реконструкции по сравнению с автономными методами - FrozenRecon и DUSt3R, при этом превосходя их по скорости.
Spann3R достигала частоты кадров в 50 к/с без оптимизации во время оценочного тестирования. Визуализация процесса онлайн-реконструкции демонстрирует способность Spann3R понимать регулярность сцены, модель способна восстанавливать геометрию даже текстурно-однородных областей, например, стен.
⚠️ Перед локальным запуском на тестовых данных, необходимо предварительно загрузить предобученную модель и тестовый набор данных для инференса. Модель положить в папку ./checkpoints
, а тестовый набор в ./examples
▶️Установка и запуск:
# Clone repository:
git clone https://github.com/HengyiWang/spann3r.git
cd spann3r
# Create conda env:
conda create -n spann3r python=3.9 cmake=3.14.0
conda install pytorch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install -U -f https://www.open3d.org/docs/latest/getting_started.html open3d
# Compile CUDA kernels for RoPE
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../
# Download the DUSt3R checkpoint
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth
# Run demo:
python demo.py --demo_path ./examples/s00567 --kf_every 10 --vis
Новостной дайджест
✔️ Mistral AI: обновление набора моделей по API и Pixtral в Le Chat.
Компания представила масштабное обновление: бесплатный доступ к платформе La Plateforme, обновление цен на всю линейку моделей, новую версию Mistral Small корпоративного класса и бесплатный доступ к модели Pixtral в Le Chat.
La Plateforme – это бессерверная платформа для тонкой настройки и создания моделей Mistral в виде конечных точек API. Теперь она предлагает бесплатный уровень доступа, позволяющий разработчикам экспериментировать, оценивать и создавать прототипы без каких-либо затрат.
Mistral AI также снижает цены доступа по API на всю линейку моделей. Цена на Mistral Nemo снижена на 50%, Mistral Small и Codestral – на 80%, а Mistral Large – на 33%.
Mistral Small v24.09 - последняя версия небольшой модели для задач перевода, реферирования, анализа тональности и других языковых задачи, не требующих полнофункциональных моделей общего назначения.
Mistral Small v24.09 с 22 млрд. параметров занимает место золотой середины между Mistral NeMo 12B и Mistral Large 2.
✔️ Microsoft 365 Copilot: вторая волна обновления, Copilot в офисном пакете.
Microsoft запускает вторую волну обновлений Microsoft 365 Copilot, объединяя веб-интерфейс, рабочие процессы и новый формат страниц "Pages" в единую систему для работы со знаниями.
Copilot Pages, динамическое и постоянное рабочее пространство с ИИ. Pages сохраняет созданный ИИ контент, позволяя редактировать, дополнять и делиться им с коллегами. Пользователи могут совместно работать над страницами с Copilot в режиме реального времени.
Copilot в Excel теперь общедоступен и работает с Python.
Copilot в PowerPoint может создавать презентации на основе идеи, используя Конструктор, использовать фирменные шаблоны компании благодаря функции Brand manager.
Copilot в Teams анализирует транскрипцию встречи, чат, предоставляя полную картину обсуждения и помогая не пропустить ни один вопрос или идею.
Copilot в Outlook с функцией "Расстановка приоритетов во входящих" поможет быстро находить важные сообщения, анализируя их содержание и контекст.
Copilot в Word позволит ссылаться на данные из различных источников, включая веб-страницы, документы Word и PowerPoint, PDF-файлы.
Copilot в OneDrive поможет быстро находить нужную информацию в файлах, обобщать и сравнивать до пяти файлов одновременно, предоставляя краткое и понятное описание деталей и различий.
Copilot agents - ИИ-помощники, разработанные для автоматизации и выполнения бизнес-процессов.
✔️ Google внедрит технологию проверки подлинности изображений.
Google разрабатывает технологию, которая позволит определить, было ли изображение снято камерой, отредактировано в программе типа Photoshop или создано с помощью модели GenAI.
В ближайшие месяцы в результатах поиска Google появится обновленная функция «Об этом изображении», которая позволит пользователям узнать, было ли изображение создано или отредактировано с помощью инструментов ИИ.
✔️ Китай заявил о прорыве в производстве оборудования для выпуска собственных чипов.
Это является важным шагом в преодолении санкций США, направленных на сдерживание полупроводниковых амбиций Пекина.
✔️ Mozilla запускает Solo: бесплатный no-code конструктор сайтов с ИИ.
Среди ключевых особенностей Solo - простая настройка, генерация контента с помощью ИИ, интеграция с Unsplash для поиска изображений и SEO-оптимизация.
✔️ Supermaven: конкурента GitHub Copilot от бывшего интерна OpenAi.
Jacob Jackson, один из основателей платформы Tabnine, запустил новый проект - Supermaven. Supermaven, как и Tabnine, использует ИИ для помощи в написании кода, но отличается рядом технических преимуществ, ключевое - окно контекста в 1 миллион токенов.
✔️ Япония создаст суперкомпьютер, в 1000 раз превосходящий по скорости современные аналоги.
Ожидается, что машина будет работать как минимум в 1000 раз быстрее, чем самый быстрый суперкомпьютер в мире на сегодняшний день.
✔️ ИИ используется для анализа плазменных струй при лазерном осаждении (PLD).
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml
🌟 SaRA: эффективный файнтюн диффузионных моделей с помощью разреженной низкоранговой адаптации.
Sparse Low Rank Adaptation (SaRA) - метод дополнительного обучения для диффузионных моделей, который использует "неэффективные" параметры с наименьшими абсолютными значениями в предобученной модели.
SaRA позволяет улучшить генеративные способности модели, адаптируя ее к новым задачам, сохраняя при этом обобщающие способности исходной модели. SaRA отличается простотой реализации, требуя модификации всего одной строки кода в исходном скрипте обучения.
Идея метода о том, что параметры модели с наименьшими абсолютными значениями, хотя и не оказывают существенного влияния на инференс модели, обладают потенциалом для обучения новым знаниям. Потенциал обусловлен не структурными ограничениями модели, а скорее случайностью процесса оптимизации во время обучения.
Чтобы предотвратить переобучение, которое может возникнуть из-за сильной способности к представлению разреженных матриц, в SaRA используется функция потерь на основе ядерной нормы (nuclear norm-based) для ограничения ранга обучаемых матриц.
Для более плотного использования "неэффективных" параметров, используется прогрессивная стратегия настройки параметров процесса файнтюна - на более поздних этапах обучения происходит повторный выбор "неэффективных" параметров для повышения адаптивности модели.
Для решения проблемы высокого потребления VRAM, характерной для методов selective PEFT, SaRA использует алгоритм «неструктурного обратного распространения ошибки». Этот алгоритм хранит и обновляет градиенты только для обучаемых параметров, значительно сокращая использование памяти во время обучения.
Проведенные эксперименты на моделях Stable Diffusion (14, 1.5, 2.0, 3.0) демонстрируют эффективность SaRA в сравнении с другими методами файнтюна:
🟢LoRA: экономия 52% VRAM;
🟢LT-SFT: экономия 45% VRAM.
⚠️ Метод был успешно протестирован на venv : Python 3.9.5
и CUDA 11.8
. Подробный туториал разработчик обещает выложить в репозиторий на Github до 30 сентября 2024 г.
В планах проекта - поддержка Dreambooth и Animatediff. Сроки по реализации планов не уточняются.
▶️Использование SaRA :
# easily employ SaRA to finetune the model by modifying a single line of code:
from optim import adamw
model = Initialize_model()
optimizer = adamw(model,threshold=2e-3) # <-modify this line only
for data in dataloader:
model.train()
model.save()
# Save and load only the trainable parameters
optimizer = adamw(model,threshold=2e-3)
optimizer.load($path_to_save)
torch.save(optimizer.save_params(),$path_to_save)
🌟 multi1: Имитация GPT-o1-подобных цепочек рассуждений с локальными и онлайн LLM.
multi1 — это экспериментальный проект, вдохновленный моделью o1 от OpenAI, который позволяет использовать различные языковые модели: локальные (через ollama) и онлайн (Perplexity и Groq) через единый веб-интерфейс.
Цель проекта — изучение возможностей повышения способности языковых моделей к логическому мышлению путём применения стратегий промптинга.
Архитектура multi1 основана на использовании цепочек рассуждений, реализующих принцип динамической "Цепочки Мыслей" (Chain of Thought).
В отличие от o1, multi1 визуализирует все этапы рассуждений, предоставляя пользователю доступ к каждому шагу и позволяя наблюдать за логикой.
Тестирование показало, что multi1 способен решать простые логические задачи, которые обычно вызывают затруднения у LLM, с точностью 60-80%.
Например, multi1 достигает точности ~70% в популярном запросе "Сколько букв 'R' в слове 'strawberry'?" (n=10). Для сравнения, Llama-3.1-70b без промтинга показала 0% точности, а ChatGPT-4o - 30%.
▶️Установка и запуск:
# Set up the environment:
python3 -m venv venv
source venv/bin/activate
pip3 install -r requirements.txt
# Copy the example environment file:
cp example.env .env
# Edit the .env file with your API keys / models preferences
# Run the streamlit UI interface
streamlit run app/main.py
Технологии прогрессируют, количество и мощность дата-центров растет, спрос на цифровизацию появляется во всех сферах жизни. Все больше становится и кластеров виртуальной инфраструктуры с GPU-ускорителями для крупномасштабных задач машинного обучения, ИИ и высокопроизводительных вычислений .
Хранилища данных тоже меняются. Современный дата-центр теперь стоит ближе к сверхнадежному заводу Skynet, чем к серверной стойке в опасном закутке без дверей.
26 сентября на онлайн-встрече МТС Web Services обсудим перспективы развития дата-центров и технологии, которые уже сегодня меняют индустрию. Мы подготовим подробный и доступный обзор основных инструментов, которые обеспечивают надежное и бесперебойное размещение данных.
Регистрируйтесь по ссылке!
И готовьте свои вопросы: за лучший вопрос в чате трансляции будет подарок :)
Реклама. Информация о рекламодателе
⚡️ XVERSE-MoE-A36B: большая языковая модель на архитектуре MoE.
XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы.
XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных.
Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои.
Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором.
Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR).
Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval.
Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности.
▶️ Технические параметры модели:
🟢total parameters: 255.4B;
🟢active parameters: 36.5B;
🟢total layers: 50;
🟢dimensionality: 6144;
🟢attention heads: 48;
🟢feed-forward dimensionality: 4096;
🟢non-shared experts: 64;
🟢shared experts: 2;
🟢top-k sampling: 6.
⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb
▶️Установка и запуск:
# Clone repository:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B
# Install the dependencies:
pip install -r requirements.txt
# Inference with Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))
# Inference with WebUI:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'
Новостной дайджест
✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.
Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.
Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com
✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.
Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com
✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.
AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.
Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.
Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.
FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com
✔️ ОАЭ представили новую политику безопасности в области ИИ.
Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.
Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae
✔️ Италия тестирует обучение с помощью ИИ в школах.
Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.
В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".
Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.
В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 LLaMA-Factory: локальный файнтюн моделей с WebUI.
LLaMA-Factory - это фреймворк, который объединяет в себе набор методов манипуляций с моделями и инструментов для гибкой настройки через веб-интерфейс Gradio.
Фреймворк состоит из трех основных модулей:
🟢Model Loader - управляет архитектурами моделей, поддерживая LLM и VLM;
🟢Data Worker - модуль для операций с наборами данных;
🟢Trainer - применяет подходы к обучению: Pre-Training, SFT, Reward Modeling, PPO, DPO, KTO, ORPO, SimPO.
LLaMA-Factory поддерживает методы: freeze-tuning, GaLore, BAdam, LoRA, QLoRA, DORA, LORA+ и PiSSA, а также flash attention, S2 attention, mixed precision training, activation checkpointing и стратегии квантования.
Список поддерживаемых семейств моделей периодически пополняется, его актуальную версию можно посмотреть в репозитории проекта.
Gradio WebUi позволяет настраивать аргументы обучения, визуализировать журналы обучения и кривые потерь в режиме реального времени, а также поддерживает несколько языков: английский, русский и китайский.
На потребительских GPU (24Gb), согласно таблице разработчиков, запустятся методы:
🟠Freeze 16-bit - модели плотностью 7B;
🟠LoRA/GaLore/BAdam 16-bit - модели плотностью 7B;
🟠QLoRA 8-bit - модели плотностью 7B, 13B;
🟠QLoRA 4-bit - модели плотностью 7B, 13B, 30B;
🟠QLoRA 2-bit - модели плотностью 7B, 13B, 30B и 70B.
⚠️ Перед локальным запуском внимательно ознакомьтесь с требованиями по пакетному окружению, рекомендациями по установке для разных архитектур, инструкцией по подготовке данных.
▶️ Проект может быть инсталлирован : Docker, Docker w\o Composer, OpenAI-style API and vLLM и классическим способом установки из репозитория.
📌Лицензирование : Apache 2.0 License.
🟡Документация (китайский)
🟡Google Collab
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Finetune #LlaMAFactory