🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft.
OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.
Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.
OmniParser состоит из двух моделей:
🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.
🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.
OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).
⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.
На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.
▶️Локальная установка и запуск в Gradio UI :
# Create conda env
conda create -n "omni" python==3.12
conda activate omni
# Install requirement
pip install -r requirement.txt
# Run Gradio UI
python gradio_demo.py
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥Github
@ai_machinelearning_big_data
#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser
⚡️ MobileLLM: набор SLM от Facebookresearch.
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
🟢MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;
🟢MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;
🟢MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;
🟢MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;
▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.
▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.
📌Лицензирование: CC-BY-NC-4.0 License.
🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM
✔️ GitHub представил Spark: создание веб-приложений с помощью естественного языка.
Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.
Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.
Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com
✔️ AMD подтвердила выпуск графических процессоров RDNA 4 в начале 2025 года.
EO AMD Лиза Су во время отчета о прибыли за 3 квартал 2024 года подтвердила, что компания планирует выпустить первые GPU на базе архитектуры RDNA 4 в начале 2025 года. Она отметила, что RDNA 4 обеспечит «значительное увеличение производительности в играх, значительно более высокую производительность трассировки лучей и добавит новые возможности ИИ».
Это первый случай, когда AMD публично поделилась своими планами. Это может придать достоверность другим утечкам о том, что компания анонсирует свою графику RDNA 4 на выставке CES 2025 в январе.
В настоящее время игровой сегмент составляет всего 2% от выручки AMD, в то время как ЦОД составляют более половины бизнеса компании. Лиза Су подчеркнула, что ее следующая задача — «сделать AMD лидером в области комплексных решений для ИИ».
theverge.com
✔️ Google готовит к выпуску Gemini 2 в декабре: что известно о новой модели ИИ.
Google планирует представить Gemini 2, следующее поколение линейки моделей ИИ, в начале декабря. Ожидается, что Gemini 2 станет значительным шагом вперед по сравнению с версиями Gemini 1.5, выпущенными в мае.
Ожидается, что Gemini 2 получит новые возможности, обучение на новых наборах данных, а также потенциально новые способы взаимодействия с пользователем. Главным изменением могут стать агенты - функции модели, позволяющие ей выполнять задачи самостоятельно без участия человека. Кроме того, Google может улучшить поиск и доступ к данным в реальном времени, поскольку компания сталкивается с растущей конкуренцией со стороны OpenAI.
tomsguide.com
✔️ GitHub Copilot получил Claude 3.5 Sonnet.
Обновление, доступное в публичной предварительной версии, позволяет разработчикам выбирать Claude 3.5 Sonnet для написания кода непосредственно в Visual Studio Code и на GitHub.com.
Согласно тестам, Claude 3.5 Sonnet превосходит все общедоступные модели на SWE-bench Verified, бенчмарке, измеряющем способность ИИ решать реальные задачи с GitHub.
Среди новых возможностей GitHub Copilot с Claude 3.5 Sonnet: написание готового кода по описаниям, отладка с помощью встроенного чата, автоматическое создание тестов и контекстные объяснения кода.
Все разработчики и организации получат доступ к Claude 3.5 Sonnet в ближайшие недели.
anthropic.com
✔️ ИИ ускоряет квантовые вычисления.
Команда из Школы электротехники KAIST разработала метод DeepSCF, использующий CNN для ускорения расчетов электронной структуры в квантовой механике.
DeepSCF позволяет прогнозировать информацию о химических связях, распределенных в трехмерном пространстве, тем самым обходя сложные алгоритмы, необходимые для квантово-механических расчетов на атомном уровне.
DeepSCF избегает необходимость процесса самосогласованного поля, обучаясь на наборе данных органических молекул, содержащих различные характеристики химических связей. Этот подход значительно сокращает время расчета и повышает эффективность для сложных и больших систем, например - моделей устройств для анализа последовательности ДНК на основе углеродных нанотрубок.
miragenews.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
🟢TIPO-200M;
🟢TIPO-500M.
▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.
📌Лицензирование : Kohaku License 1.0
🟡Коллекция моделей на HF
🟡KBlueLeaf/BJULOQBR0">Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
🌟 Llama-3.1-Centaur-70B: модель симуляции поведения человека.
Centaur - модель, которая способная предсказывать и симулировать поведение человека в любом психологическом эксперименте, который можно описать на естественном языке.
Это первая модель, соответствующая большинству критериев Ньюэлла для универсальной теории познания, включая способность действовать как почти произвольная функция окружающей среды и работать в реальном времени.
Centaur создана на основе Llama 3.1 70B и дообучена на наборе данных Psych-101, включающем данные 60 000 участников, давших суммарно 10 000 000 ответов в 160 психологических экспериментах.
Psych-101 охватывает широкий спектр областей когнитивной науки: игровые автоматы, принятие решений, память, обучение с учителем, процессы принятия решений Маркова и др.
Centaur дообучалась методом QLoRA: к каждому слою базовой Llama 3.1 70B были добавлены низкоранговые адаптеры, при этом параметры базовой модели остались неизменными.
Обучение проводилось на всем наборе данных с использованием стандартной функции потерь кросс-энтропии. Потери маскировались для всех токенов, не соответствующих ответам людей, чтобы итоговая модель фокусировалась на моделировании поведения человека.
В большинстве проведенных экспериментов Centaur превосходит как базовую модель Llama, так и специализированные когнитивные модели, разработанные для конкретных областей психологии.
Кроме того, Centaur обобщает знания на "незнакомые" ситуации, которые не входили в датасет обучения: точно предсказывает поведение при измененных формулировках задач, структурах проблем и даже в совершенно новых областях.
Важный результат экспериментального тестирования - соответствия внутренних представлений Centaur нейронной активности человека.
Это открытие было подтверждено 2 исследованиями, в которых внутренние представления модели использовались для предсказания активности мозга. Centaur продемонстрировала улучшенную декодируемость по сравнению с Llama в задачах, связанных с чтением предложений и выполнением двухэтапных задач.
⚠️ Centaur обучена на наборе данных, в котором выбор человека выражается символами "<<
" и ">>
".
Для оптимальной работы рекомендуется соответствующим образом настроить промпты.
⚠️ Модель запускается на 80 GB GPU.
📌Лицензирование: Llama 3.1 Community License.
📌Лицензирование датасета : Apache 2.0 License.
🟡Модель
🟡Техотчет
🟡Датасет
@ai_machinelearning_big_data
#AI #ML #LLM #Centaur
✔️ СFO OpenAI: ИИ достиг уровня PhD.
Финансовый директор OpenAI Сара Фрайер на конференции Money 20/20 заявила, что внутренние исследовательские модели OpenAI способны выполнять задачи на уровне PhD в различных дисциплинах. Эти модели, основанные на взаимодействии моделей рассуждений, подобных o1-preview, и базовых моделей, таких как GPT, демонстрируют «невероятные результаты».
Фрайер отметила, что ИИ больше не является экспериментальной технологией, а стал фундаментальным компонентом современной технологической инфраструктуры. Она предположила, что AGI может быть ближе, чем думает общественность.
wallstreetpit.com
✔️ xAI добавила функцию распознавания изображений в Grok AI.
Теперь пользователи могут загружать изображения и задавать вопросы, основанные на их содержании. Grok может выполнять глубокий анализ изображения и объяснять даже визуальные шутки. В настоящее время функция доступна только для статичных изображений.
Илон Маск намекнул в X, что на очереди - возможность загрузки файлов. В августе xAI выпустила модели Grok-2 и Grok-2 Mini. Обе модели доступны в чат-боте Grok для пользователей X Premium и X Premium+.
gadgets360.com
✔️ Google DeepMind разработала ИИ-медиатора для разрешения конфликтов.
DeepMind представила ИИ-медиатора под названием Habermas Machine, предназначенного для поиска точек соприкосновения в спорах между людьми с противоположными точками зрения.
Habermas Machine использует LLM Chinchilla для обработки аргументов сторон и создания потенциальных «групповых заявлений», объединяющих разные точки зрения. После создания "заявления" модель вознаграждения предсказывает, насколько вероятно, что каждая сторона положительно оценит каждое заявление. Наиболее предпочтительное заявление отправляется всем участникам дискуссии. Участники могут вносить изменения в заявление, если это происходит - создается обновленная версия и т.д.
Тестирование Habermas Machine в Великобритании показало, что система эффективно работает с общими вопросами, увеличивая уровень согласия с 39% до 51%. В случае более острых вопросов, например, связанных с Brexit, уровень согласия не повысился.
extremetech.com
✔️ LLMWare представила Model Depot: большую коллекцию SLM для ПК Intel.
Model Depot состоит из более 100 моделей для различных задач: чат, программирование, математика, вызов функций и эмбеддингов. Model Depot включает в себя популярные SLM: Microsoft Phi-3, Misеtal, Llama, Yi и Qwen, а также специализированные модели LLMWare, оптимизированные для аппаратного обеспечения Intel в форматах OpenVINO, ONNX и GGUF. Model Depot доступна на Huggingface.
Вместе с моделями, LLMWare предлагает библиотеку с открытым исходным кодом, позволяющую разработчикам создавать рабочие процессы на основе SLM, используя формат OpenVINO.
huggingface.co
✔️ OSI представила официальное определение Open Source AI.
Open Source Initiative (OSI) опубликовала версию 1.0 своего определения Open Source AI (OSAID) с целью стандартизации понятия "open source" в сфере ИИ. Для соответствия OSAID, модель ИИ должна предоставлять достаточно информации о своем дизайне для "существенной" возможности ее воссоздания, а также раскрывать информацию о данных обучения, включая их происхождение, обработку и доступность.
OSAID также определяет права разработчиков на использование Open Source AI: свободное использование, модификация и создание производных моделей без необходимости получения разрешений.
OSI не обладает механизмами принуждения к соблюдению OSAID, но намерена выявлять модели, которые не соответствуют определению, но позиционируются как "open source".
Критики OSAID указывают на недостаточную проработку вопросов лицензирования данных обучения и авторских прав на модели ИИ.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Увидел у коллег пост про увеличение призового фонда чемпионата по программированию Yandex Cup для ML-направления. Рад, что бигтех осознает, что за каждой разработкой стоят именно люди. И инициатива увеличить призовой фонд и число финалистов с 6 до 22 — очень грамотный ход, чтобы дать ребятам больше возможностей показать себя.
@ai_machinelearning_big_data
⚡️ Ruadapt-Qwen2.5-3B-instruct_v4: Адаптированная к русскому языку с помощью LEP Qwen2.5.
НИВЦ МГУ разработал RuAdaptQwen-3B – адаптированную версию модели Qwen2.5_3B.
Ключевой элемент адаптации - Learned Embedding Propagation (LEP) . Это метод, позволяющий эффективно интегрировать улучшенную токенизацию в существующие инструктивные модели.
Вместо полной замены токенизатора, LEP корректирует эмбединги, чтобы обеспечить лучшую совместимость с слоями модели.
Новый токенизатор, используемый в RuAdaptQwen-3B, учитывает специфику русского языка, сохраняя при этом высокую производительность на английском. Это позволило ускорить инференс русскоязычного текста до 60%.
Оценка в бенчмарке Ru-Arena-General принесла RuAdaptQwen-3B 66 баллов, она превзошла большинство моделей с 7-8 млрд. параметров.
⚠️ Квантованных версий пока нет.
🟡Модель на HF
@ai_machinelearning_big_data
#AI #ML #LLM #MSU #RuQwen
✔️ Google разрабатывает ИИ-инструмент, способный управлять браузером для выполнения задач.
Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.
Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.
Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.
finance.yahoo.com
✔️ Amazon и Мичиганский университет разработали модель, которая повышает связность текста, генерируемого ИИ.
Модель, основанная на усовершенствованной архитектуре трансформера, эффективнее обрабатывает длинные тексты сохраняя контекст, разбивая его на сегменты и используя механизм, учитывающий ошибки.
В ходе экспериментов модель продемонстрировала улучшение точности на 2% по сравнению со стандартными трансформерами, а также рост показателей в тестах “Tracking Shuffled Objects” и “Penguins in a Table”.
Новая модель, благодаря своей модульной и адаптируемой структуре, обещает преимущества для приложений, требующих обработки естественного языка .
arxiv.org
✔️ Китайская компания Kepler представила гуманоидного робота Forerunner K2.
Kepler Robotics представила Forerunner K2, новое поколение гуманоидного робота, предназначенного для коммерческого использования.
K2 обладает 52 степенями свободы, улучшенной прочностью рук и ног, а также упрощенной конструкцией для удобства производства и обслуживания. Робот оснащен пятипалыми кистями с 11 степенями свободы, способными поднимать до 15 кг каждая.
K2 работает от аккумулятора емкостью 2,33 кВтч, обеспечивающего до 8 часов автономной работы. Усовершенствованная система зрения и навигации позволяет роботу лучше ориентироваться в окружающей среде и быстро реагировать на изменения.
Kepler проводит испытания K2 на объектах клиентов, где он выполняет задачи по обработке материалов, контролю качества и патрулированию.
newatlas.com
✔️ CasTianta Tech представила ИИ-модель для управления спутниками.
Китайская технологическая компания CasTianta Tech Co., Ltd., специализирующаяся на управлении коммерческими спутниками, представила LLM Huashan для повышения надежности управления космическими аппаратами.
Модель Huashan использует ИИ для помощи пользователям в управлении космическими аппаратами, расчете и анализе орбиты и генерации кода команд. Huashan предоставляет программную платформу для управления объектами в космосе, обучение персонала и интеллектуального управления посредством голосового и текстового взаимодействия.
macaubusiness.com
✔️ Гонконг представил первые рекомендации по применению ИИ в финансовой сфере.
Власти Гонконга опубликовали ранюю версию рекомендаций по "ответственному" использованию ИИ в финансовом секторе. Их цель - помочь финансовым учреждениям в реализации потенциала ИИ, одновременно обеспечивая защиту данных, кибербезопасность и интеллектуальную собственность. Финансовые учреждения должны будут разработать стратегию управления ИИ и применять подход, основанный на оценке рисков.
Гонконгский университет науки и технологий (HKUST) предоставит доступ к своей собственной модели ИИ, вычислительным ресурсами консультационно-обучающие услуги. Полиция Гонконга будет укреплять меры киберполиции, а Совет по инвесторам и финансовому образованию запустит инициативы по информированию общественности о влиянии ИИ на розничные инвестиции.
thecyberexpress.com
@ai_machinelearning_big_data
#news #ai #ml
ML-инженер или специалист по Data science?
Прими участие в Авито ML Cup – турнире по машинному обучению с призовым фондом.
Задача: создать модель, которая будет передавать пользователю наиболее релевантную рекламу, основываясь на его выборе и характеристиках. Победит модель, которая лучше всего предсказывает вероятность клика.
🔴 Старт соревнования: 5 ноября
🔴 Команды до 4 человек
🔴 Призовой фонд: 600 000 рублей!
Регистрация уже открыта, детали и анкета ➡️ по ссылке.
Участвуй и докажи, что твои модели лучшие!
📎 ML в медицине: дайджест за 21 - 27 октября 2024 г.
▶️Модели машинного обучения и бенчмарки
🔘BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.
🔘MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.
🔘PanDerm: базовая MMLM для дерматологии.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.
🔘MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.
▶️Фреймворки и методологии
🔘Метод "Обратной диффузия во времени" для обнаружения дипфейков в медицинских изображениях.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).
🔘REFLECTOOL: агент для решения клинических задач.
Система для решения сложных медицинских задач с использованием специализированных инструментов.
🔘GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.
🔘VISAGE: синтез видео лапароскопических операций с использованием графов действий.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.
🔘MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.
🔘SleepCoT: алгоритм для персонализированного управления здоровьем сна.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.
🔘ALCD: Противодействие галлюцинациям в LLM.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.
▶️Медицинские LLM-приложения
🔘LMLPA: инструмент для лингвистической оценки личности LLM.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.
🔘Cистема обратной связи для обучения медицинским процедурам.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.
▶️Исследования и обзоры
*️⃣Storytelling XAI: повышение доверия к ИИ в медицине.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.
*️⃣Оценка объяснимого ИИ (XAI) с помощью LLM.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер - LLM лучше, дешевле и эффективней.
*️⃣ Выявление и устранение предвзятости в LLM для клинических решений.
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер - устранить предвзятость не получается.
🔜 Читать полный дайджест
@ai_machinelearning_big_data
🌟 PocketPal AI: локальный запуск LLM на IOS и Android.
PocketPal AI - проект Ai-ассистента на базе SLM, которые запускаются локально на iOS и Android без необходимости подключения к Интернету:
🟢PocketPal AI для iOS в App Store
🟢PocketPal AI для Android в Google Play
Приложения на обеих платформах позволяет выбирать модели, настраивать параметры инференса (системный промпт, температура, шаблоны чата и BOS), следить за показателями производительности в реальном времени и имеют функцию автоматической выгрузки моделей из памяти устройства, когда приложение в фоновом режиме.
Список моделей в приложении (загружаются вручную из меню):
🟠H2O Danube 2 and 3;
🟠Microsoft Phi;
🟠Google Gemma 2;
🟠Qwen.
Помимо этих моделей, можно загрузить любую модель в формате GGUF через опцию "Add Local Model" в меню моделей приложения на устройстве.
В планах проекта расширение списка поддерживаемых моделей, улучшение функций пользовательского интерфейса и поддержка большего количества версий Android/
⚠️ Требования для локальная разработки проекта PocketPal:
🟢Xcode для iOS или Android Studio;
🟢Node.js версии 18 или выше;
🟢Yarn;
🟢React Native CLI.
▶️ Локальная установка и запуск для самостоятельной разработки :
# Clone repository
git clone https://github.com/a-ghorbani/pocketpal-ai
cd pocketpal-ai
# Install dependencies
yarn install
# Install dependencies iOS only
cd ios
pod install
cd ..
# Run App via iOS Simulator
yarn ios
# Run App via Android Simulator
yarn android
✔️ Релиз библиотеки Transformers.js v3.
Hugging Face выпустила Transformers.js v3, с улучшенной поддержкой WebGPU, новых форматов квантования и 120 поддерживаемых архитектур.
WebGPU обеспечивает вычисления на GPU непосредственно в браузере, что делает Transformers.js v3 до 100 раз быстрее по сравнению с WASM.
Новые форматы квантования позволяют выбирать уровень точности модели: fp32, fp16, q8 и q4. Среди поддерживаемых архитектур - Phi-3, Gemma, LLaVa, Florence-2 и MusicGen.
Transformers.js v3 совместима с Node.js, Deno и Bun, а также доступна на NPM - @huggingface/transformers.
huggingface.co
✔️ Британский регулятор начал расследование партнерства Alphabet и Anthropic.
Британское управление по конкуренции и рынкам (CMA) начало расследование партнерства Alphabet, материнской компании Google, с Anthropic.
Alphabet инвестировала 500 миллионов долларов в Anthropic в 2023 году с обещанием дополнительных 1,5 миллиарда долларов в будущем.
CMA изучает, не приведет ли партнерство к ограничению конкуренции на рынке. Регулятор должен принять решение о дальнейших действиях к 19 декабря 2024 года. Alphabet и Anthropic пока не прокомментировали ситуацию.
cityam.com
✔️ Fujitsu представила динамический распределитель ресурсов для ИИ-серверов и HPC-систем.
Fujitsu разработала программное обеспечение, для оптимизации использования GPU -"Сomputing broker".
Computing broker способен перераспределять процессы даже во время их работы, отдавая приоритет задачам с более высокой эффективностью выполнения. В ходе предварительного тестирования Fujitsu удалось достичь увеличения производительности обработки GPU до 2,25 раз.
Технология также эффективно управляет памятью, обрабатывая рабочие нагрузки ИИ объемом до 150 ГБ, что примерно в пять раз превышает физическую емкость протестированных GPU. Fujitsu планирует расширить возможности технологии для поддержки нескольких GPU, установленных на нескольких серверах.
techspot.com
✔️ CEO OpenAI опроверг сообщение о GPT-5 Orion.
В статье The Verge утверждалось, что Orion будет ориентирован на корпоративных клиентов и будет доступен через API. В публикации также говорилось о планах Microsoft разместить Orion в Azure уже в ноябре.
Сэм Альтман назвал эту информацию "фейковыми новостями", не уточнив, какие именно детали публикации не соответствуют действительности. OpenAI недавно выпустила модели o1 и o1-mini, но их восприятие было сдержанным из-за высокой стоимости эксплуатации и ограниченных возможностей по сравнению с GPT.
venturebeat.com
✔️ В Китае построили дорогу длиной 157 километров без участия людей.
10 беспилотных машин распределяли смесь из утрамбованных камней и песка, а затем нанесли битумное связующее для формирования дорожного полотна. Автономные катки выравнивали поверхность и обеспечивали необходимую твердость. Дроны контролировали ход строительства и проводили топографические измерения, гарантируя соблюдение заданных параметров. Несколько сотрудников удаленно контролировали работу техники.
Новая технология позволила выполнить укладку дороги за один проход, исключив необходимость в дополнительных работах. Разработчики алгоритмов проекта отмечают, что роботизированная укладка дороги обеспечивает миллиметровую точность и более высокую скорость по сравнению с традиционными методами.
Проект является продолжением скоростной автомагистрали Пекин-Гонконг, общая протяженность которой составляет 664 километра. Построенный участок соединяет Пекин с Хэбэем.
xatakaon.com
@ai_machinelearning_big_data
#news #ai #ml
Как обучить и интегрировать ML-модель — расскажут спикеры конференции I’ML
— MLOps-конференция от JUG Ru Group — организаторов Joker, JPoint, Heisenbug, HolyJS и других крупных конференций.
— 8 ноября онлайн
— 10 докладов и онлайн-дискуссии
Как измерить полезность модели? Какую развернуть инфраструктуру? Нужно ли строить свою ML-платформу? Найдем ответы на эти вопросы вместе.
Сравним стеки AMD и Nvidia, поговорим о RecSys и мультимодальности, процессах и политиках ML-разработки. Также будут доклады про обеспечение качества и безопасности моделей.
Выступления будут транслироваться в 4K, записи останутся участникам навсегда, а после докладов вы сможете задать вопросы спикерам.
Полная программа — на сайте конференции.
Билет на I’ML 2024 Autumn можно купить за счет компании — читайте в статье на VC, почему это выгодно не только вам, но и вашему работодателю.
При покупке билета за свой счет («Для частных лиц») используйте промокод для скидки 15% — MACHINELEARNING
Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Что можно создать с помощью Python? Сервис знакомств, чат-бота с ИИ, систему по поиску данных — почти всё что угодно. Именно за универсальность и простоту разработки компании и профессионалы любят Python.
Как освоить этот язык программирования, рассказывают на расширенном курсе Нетологии «Python-разработчик». На нём вы:
- Освоите все инструменты и технологии, необходимые для работы.
- Научитесь разрабатывать веб-приложения и API, работать с базами данных, настраивать сервера и тестировать код.
- Добавите в портфолио 22 проекта, поработаете над реальными кейсами и примете участие в хакатоне.
Получите скидку по промокоду PRINT(45)
После курса вы сможете стать крепким backend-разработчиком и попасть на стажировку в «Самолёт». А если вдруг решите сменить направление, Python станет надёжной базой для аналитики и машинного обучения. Постройте карьеру в IT
Реклама. ООО "Нетология". Erid 2VSb5xSXLSC
Яндекс объявил победителей премии Yandex ML Prize
В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность.
Среди лауреатов:
🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике.
🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем.
🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств.
Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных.
@ai_machinelearning_big_data
#AI #ML #YandexMLPrize
⚡️ SimpleQA: бенчмарк для оценки фактологичности LLM от OpenAI.
SimpleQA - бенчмарк для оценки способности LLM отвечать на короткие, фактологические вопросы, разработанный с учетом двух основных свойств: сложности и простоты оценки.
Сложность достигается за счет вопросов, на которые модели GPT-4o и Claude отвечают с трудом (точность < 50%).
Простота оценки реализована формулировкой вопросов, допускающих только один верный ответ. Каждый ответ классифицируется как «верный», «неверный» или «ответ не дан».
Идеальная модель должна давать как можно больше верных ответов, воздерживаясь от ответов на вопросы, в которых она не уверена.
SimpleQA состоит из 4326 вопросов из областей: наука и технологии, политика, искусство, география, телевидение и т.д.
Ответы на вопросы проверялись двумя независимыми AI-тренерами, и только вопросы с совпадающими ответами были включены в набор данных. Для соблюдения актуальности датасета, вопросы формулировались таким образом, чтобы их ответы не менялись со временем.
Оценка ответов моделей производится с помощью классификатора ChatGPT, который сравнивает сгенерированный ответ с эталонным и присваивает оценку.
Для измерения калибровки LLM, то есть способности модели оценивать свою уверенность в ответе, применяются два метода:
🟢Первый заключается в прямом запросе модели указать свою уверенность в ответе в процентах.
🟢Второй основан на многократном (100 раз) запросе модели на один и тот же вопрос.
Если в обоих случаях наблюдается положительная корреляция между заявленной уверенностью модели и точностью ответа - это свидетельствует о наличии у моделей некоторого представления об уверенности. Но в случае, если модели склонны переоценивать свою уверенность, это указывает на необходимость дальнейших исследований в области калибровки LLM.
⚠️ Ограничением бенчмарка является его фокус на коротких ответах, оставляя открытым вопрос о корреляции между способностью давать фактологические короткие ответы и способностью генерировать длинные тексты с множеством фактов.
⚠️ Фикс ошибки загрузки датасета заменой blobfile
на HTTPS URL
:
import pandas
df = pandas.read_csv(
"https://openaipublic.blob.core.windows.net/simple-evals/simple_qa_test_set.csv"
)
# Clone repo
git clone https://github.com/openai/human-eval
# Install requirements for inference
# For OpenAI API
pip install openai
# For Anthropic API
pip install anthropic
# Demo
python -m simple-evals.demo
🌟 UAG: методика ускорения генерации LLM с любыми моделями в качестве ассистента.
В использовании LLM всегда хочется увеличения скорости генерации без ущерба для качества. Есть метод ассистированной генерации, который зарекомендовал себя как один из компромиссных решений. Однако традиционные техники его применения требуют, чтобы целевая и вспомогательная LLM использовали один и тот же токенизатор, что ограничивает выбор моделей и возможность ощутимого ускорения.
Intel Labs и Hugging Face разработали метод универсальной ассистированной генерации (UAG) , который позволяет использовать любую модель в качестве ассистента, независимо от ее токенизатора. Метод открывает новые возможности для ускорения практически любой LLM, даже тех, для которых не существует специализированных маленьких версий для инференса ассистированной генерации.
UAG основан на принципе двустороннего преобразования токенизаторов. После того как модель-ассистент генерирует последовательность токенов, эти токены конвертируются в текст, который затем токенизируется с помощью токенизатора целевой модели. После проверки целевой моделью, токены целевой модели преобразуются обратно в формат токенов модели-ассистента. Для повышения точности перекодирования используется контекстное окно, состоящее из группы предшествующих токенов.
Чтобы оценить UAG, были проведены тесты с различными комбинациями целевых LLMи моделей-ассистентов. Результаты показали, что UAG дает ускорение декодирования 1.5-2.0x по сравнению с генерацией без ассистента. Например, скорость генерации кода с помощью CodeLlama-13b увеличилась в 1.9 раза при использовании tiny_starcoder_py в качестве модели-ассистента.
В будущем планируется расширить функциональность UAG, добавив поддержку алгоритма спекулятивной выборки, что позволит еще больше увеличить скорость генерации.
📌 UAG интегрирован в релиз Huggingface Transformers 4.46.0
▶️Для использования UAG нужно передать tokenizer
и assistant_tokenizer
в generate()
:
from transformers import AutoModelForCausalLM, AutoTokenizer
prompt = "Alice and Bob"
checkpoint = "google/gemma-2-9b"
assistant_checkpoint = "double7/vicuna-68m"
assistant_tokenizer = AutoTokenizer.from_pretrained(assistant_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt")
model = AutoModelForCausalLM.from_pretrained(checkpoint)
assistant_model = AutoModelForCausalLM.from_pretrained(assistant_checkpoint)
outputs = model.generate(**inputs, assistant_model=assistant_model, tokenizer=tokenizer, assistant_tokenizer=assistant_tokenizer)
tokenizer.batch_decode(outputs, skip_special_tokens=True)
Как оценить стоимость облачных решений?
Как перенести свои процессы обучения моделей в облачную среду?
🔹Расскажем на открытом уроке «Облачная инфраструктура для ML инженера на базе Yandex Cloud» на открытом уроке в Otus.
Рассмотрим базовые компоненты облачной инфраструктуры, которые часто используются в машинном обучении - хранилища данных, виртуальные машины и базы данных.
✅ Практика: Создадим все необходимые компоненты в облаке Yandex Cloud, подключимся к ним, запустим конвейер машинного обучения и сохраним обученную модель в облачном S3 хранилище.
Урок приурочен курсу «MLOps» от Otus.
👉 Регистрация и подробности:
https://otus.pw/9cuo/?erid=LjN8KWf91
#реклама
О рекламодателе
Ты давно мечтаешь открыть собственное дело, но не уверен, с чего начать? В Академии инноваторов есть все необходимое, чтобы твоя идея превратилась в успешный бизнес!
В рамках программы Академии инноваторов ты получишь возможность:
- Работать под руководством личного наставника.
- Откликаться на предложения от ведущих технологических компаний.
- Участвовать в образовательной программе по развитию и масштабированию стартапа вместе с экспертами.
- Провести пилотирование своего проекта.
- Презентовать свою разработку на демо-дне перед потенциальными клиентами и инвесторами.
Почему стоит выбрать Академию инноваторов? Это сообщество, где:
- Более 21 тысячи единомышленников.
- Свыше 4 тысяч инновационных проектов.
- Более 350 успешных стартапов.
- Привлечено свыше 250 миллионов рублей инвестиций и грантов.
Что еще предлагает академия?
- Возможность значительно расширить сеть контактов – завести полезные знакомства среди российских и международных предпринимателей.
- Найти инвесторов для своего проекта.
- Развить свой стартап до новых высот.
Какие перспективы ждут выпускников?
Успех! К примеру, команда «Тьюбот», разработавшая внутритрубных роботов для диагностики и ремонта сложных трубопроводов, благодаря участию в академии привлекла 50 миллионов рублей вложений, продала одного из своих роботов крупному химическому предприятию и заработала 8 миллионов рублей прибыли. Кроме того, они запустили серийные продажи и уже получили несколько предварительных заказов.
Как стать участником?
Подавай заявку на сайте до 28 января. Самые актуальные новости и рекомендации по оформлению заявки ищи в нашем канале и чате.
Так что вперед, действуй и покоряй мир своим стартапом!
⚡️ Опубликована модель Stable diffusion 3.5 Medium.
Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.
Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.
SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.
Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.
SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.
Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.
▶️Локальный запуск инференса на Diffusers:
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
Как ускорить обучение нейросетей и обработку данных?
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
Как нужно укомплектовать команду ML для решения задачи?
🔹Расскажем на открытом уроке «Структура и построение ML команды» про композицию ML команды, различные роли в ней и их зоны ответственности
✅ Поговорим о том, зачем нужны ролы Data Scientist, Data Analyst, BI Analyst, ML Engineer, Data Engineer. Как организовать работу команды и взаимодействие внутри нее.
Урок приурочен новому курсу «ML Team Lead» от Otus.
👉 Регистрация и подробности:
https://otus.pw/TlDH/?erid=LjN8KSacw
#реклама
О рекламодателе
🌟 SageAttention: метод квантования механизма внимания в архитектурах трансформеров.
Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.
SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.
Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".
Ключевые особенности метода:
🟢Для уменьшения ошибки квантования используется сглаживания матртицы К (среднее значение K вычитается по всем токенам);
🟢Квантование Q и K в INT8;
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.
🟢Matmul PV выполняется с FP16-накопителем;
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.
🟢Адаптивное квантование;
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.
SageAttention реализован с использованием Triton
и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.
Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.
⚠️ Использование SageAttention рекомендуется с версиями:
🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.
⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.
▶️Пример использования:
# Install sageattention
pip install sageattention
# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)
# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F
F.scaled_dot_product_attention = sageattn
# Specifically
cd example
python sageattn_cogvideo.py
📌Учебное пособие по диффузионным моделям для обработки изображений и СV.
Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.
Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.
▶️ Содержание:
Вариационный автоэнкодер (VAE)
🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения
Вероятностная модель диффузионного денойза (DDPM)
🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM
Динамика сопоставления баллов Ланжевена (SMLD)
🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD
Стохастическое дифференциальное уравнение (SDE)
🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE
Уравнения Ланжевена и Фоккера-Планка
🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #Tutorial #Duffusion
🌟 DuoAttention: эффективный метод для работы с длинными контекстами в LLM.
DuoAttention - метод, который решает проблему LLM при работе с длинными текстами. Эта неэффективность проявляется в большом потреблении памяти и замедлении работы модели. DuoAttention позволяет сократить использование памяти и ускорить обработку длинных текстов без ущерба для точности модели.
Он основан на разделении attention heads в LLM на два типа: «Retrieval Heads» и «Streaming Heads»:
🟢 Retrieval Heads - это небольшая часть attention heads, критически важная для обработки длинных контекстов, которым требуется полное внимание ко всем токенам.
🟢 Streaming Heads, напротив, составляют большинство attention heads и фокусируются преимущественно на последних токенах и так называемых "точках притяжения" внимания (attention sinks).
DuoAttention использует эту дихотомию, применяя полный KV-кэш только к Retrieval Heads, а для Streaming Heads использует облегченный KV-кэш постоянной длины, который хранит только "точки притяжения" и последние токены.
Проведенные эксперименты показывают, что DuoAttention может снижать использование памяти до 2,55 раз для моделей MHA и 1,67 для моделей GQA, а также ускоряет декодирование в 2,18 раз для моделей MHA и 1,50 для моделей GQA.
В сочетании с квантованием DuoAttention позволяет модели Llama-3-8B декодировать текст с длиной контекста 3,3 млн. токенов на одном GPU A100, это примерно 6,4-кратное увеличение емкости по сравнению со стандартным развертыванием FP16 с полным вниманием.
▶️ Модели, которые поддерживают инференс с патчем DuoAttention:
🟢Llama-2-7B-32K-Instruct;
🟢Llama-3-8B-Instruct-Gradient-1048k;
🟢Llama-3-8B-Instruct-Gradient-4194k;
🟠Mistral-7B-Instruct-v0.2;
🟠Mistral-7B-Instruct-v0.3;
🟠Meta-Llama-3.1-8B-Instruct.
▶️ Установка окружения для запуска инференса с DuoAttention :
conda create -yn duo_demo python=3.10
conda activate duo_demo
# Install DuoAttention
pip install -e .
conda install -y git
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit
conda install -y nvidia::cuda-cudart-dev
# Install QServe
git clone git@github.com:mit-han-lab/qserve.git
cd qserve
pip install -e .
pip install ninja packaging
pip install flash-attn==2.4.1 --no-build-isolation
cd kernels
python setup.py install
# Install FlashInfer
pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.3/
pip install tensor_parallel
🌟 Mochi 1: открытая text-to-video модель генерации видео.
Mochi 1 - модель от компании Genmo для генерации видео на новой архитектуре Asymmetric Diffusion Transformer (AsymmDiT).
Mochi 1 была обучена с нуля и получила 10 млрд. параметров. Это самая большая генеративная модель видео, когда-либо выпущенная в открытый доступ.
Модель способна генерировать видео с разрешением 480p длительностью до 5,4 секунд со скоростью 30 кадров в секунду. AsymmDiT обрабатывает текстовые запросы используя одну языковую модель T5-XXL.
Вместе с Mochi 1 Genmo выпустила в открытый доступ свой видеокодер AsymmVAE, который сжимает видео до 128-кратного размера, с пространственным 8x8 и временным 6x сжатием до 12-канального латентного пространства.
Genmo планирует выпустить улучшенную вервию - Mochi 1 HD до конца года, которая будет поддерживать разрешение 720p.
⚠️ Для работы модели требуется не менее 4 GPU H100.
⚠️ В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения.
⚠️ Mochi оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом.
▶️ Локальная установка и инференс c Gradio UI или в CLI:
# Clone repo
git clone https://github.com/genmoai/models
cd models
# Install using uv
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
# Inference with Gradio UI
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"
# Inference with CLI
python3 -m mochi_preview.infer --prompt "%prompt%" --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"
🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.
Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.
Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.
Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.
Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:
🟢Aya Expanse 32B
🟢Aya Expanse 8B
Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:
🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF
Блокноты на Google Collab от сообщества Cohere For AI:
🟢Инференс ассистента по составлению текстов на разных языках;
🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;
🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;
🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.
▶️Пример инференса Aya Expanse 8B на Transformers :
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
🌟 Pangea: открытая мультиязычная МLLM для 39 языков и инструктивный датасет .
PANGEA - это модель с 7.94 млрд. параметров на архитектуре LLaVA-Next и с Qwen2-7B-Instruct в качестве LLM-основы, которая была обученная на инструктивном датасете PANGEAINS.
PANGEA предназначена для "преодоления" культурных и языковых барьеров в задачах визуального понимания в задачах мультимодального чата, создания аннотаций к изображениям, понимания контекста культурных особенностей, обработке многоязычных VQA и рассуждений на разные темы.
Инструктивный датасет PANGEAINS состоит из 6 млн. мультимодальных инструкций на 39 языках. Перевод инструкций с английского языка на другие выполнялся с помощью Gemini 1.5 Pro.
Оценка PANGEA проводилась с использованием набора тестов PANGEABENCH(14 наборов данных на 47 языках) .
PANGEA продемонстрировала значительные улучшения в кросс-лингвистическом и кросс-культурном понимании.
Репозиторий PANGEA на Github содержит подробные инструкции и скрипты по установке, тонкой настройке, оценке результатов обучения и примеры разметки данных для файнтюна.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Arxiv
🟡Датасет
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Pangea
✔️ Дания запускает суперкомпьютер с суверенным ИИ для решения научных задач.
Дания представила свой суперкомпьютер Gefion, созданный в партнерстве с NVIDIA и оснащенный 1528 GPU NVIDIA H100 Tensor Core.
Gefion управляется Датским центром инноваций в области искусственного интеллекта (DCAI) и будет использоваться для исследований в области квантовых вычислений, чистой энергии, биотехнологий и других областях, важных для датского общества и всего мира.
Gefion, первый в Дании суперкомпьютер с ИИ, основан на NVIDIA DGX SuperPOD и использует сетевые технологии NVIDIA Quantum-2 InfiniBand.
blogs.nvidia.com
✔️ Canva запускает свой генератор изображений Dream Lab.
Dream Lab, часть пакета инструментов Canva Magic Studio, использует базовую модель Phoenix от Leonardo.Ai.
Новый инструмент позволяет создавать изображения в более чем 15 стилях на основе текстовых запросов. Пользователи могут генерировать изображения с несколькими объектами, фотореалистичные портреты, а также использовать существующие изображения в качестве образцов стиля.
Dream Lab дополняет существующий генератор изображений Canva, основанный на Stable Diffusion.
gadgets360.com
✔️ Cohere представляет Embed 3, MMLM для поиска, объединяющую текст и изображения.
Cohere анонсировала Embed 3, новую MMLM, которая объединяет эмбединги текста и изображений в единое латентное пространство, что позволит предприятиям извлекать информацию из огромных массивов данных разной модальности.
Embed 3 поддерживает более 100 языков. Модель доступна на платформе Cohere, Amazon SageMaker, а также через отдел продаж Cohere для частного развертывания в любой облачной среде или локально.
cohere.com
✔️ Google DeepMind разработала систему водяных знаков SynthID для идентификации текста, созданного ИИ.
Google DeepMind представила SynthID-Text, систему водяных знаков для маркировки текста, сгенерированного ИИ, которая позволяет определить его происхождение без ущерба для качества и скорости генерации текста.
Система работает путем незаметного для человека изменения некоторых слов в выводе чат-бота, создавая "статистическую подпись", которую может обнаружить детектор SynthID. SynthID-Text уже интегрирована в чат-бот Google Gemini и доступна разработчикам и компаниям в открытом доступе.
Система не является панацеей: значительное редактирование текста или его перефразирование другим чат-ботом может скрыть водяной знак.
deepmind.google
✔️ Arm отзывает лицензию у Qualcomm.
Arm Holdings plc, разрабатывающая архитектуру процессоров Arm, отзывает лицензию у Qualcomm. Qualcomm получила 60-дневное уведомление об отзыве, что дает компаниям два месяца на достижение соглашения. В противном случае Qualcomm будет вынуждена прекратить производство и продажу своих чипов Arm.
Qualcomm считает действия Arm необоснованными и антиконкурентными, утверждая, что обладает широкими правами на использование архитектуры. Судебное заседание состоится в декабре.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml