🌟 Aurora: Набор фундаментальных моделей ML от Microsoft Research for Science для прогнозирования атмосферных явлений.
Архитектура базовой Aurora построена на 3D Swin Transformer. Модель обучалась более миллиона часов на корпусе данных о погоде и климате: прогнозах, параметрическом анализе и данных моделирования климата.
Длительное и обширное обучение позволило изучить модели общее представление динамики атмосферы, адаптироваться к широкому спектру задач прогнозирования: задачам с ограниченными входными данными, гетерогенными переменными и экстремальными событиями.
Aurora прошла двухэтапный процесс тонкой настройки. Предварительно настроенные веса сначала настраивались на короткое время прогнозирования (до 15 дней), а затем Aurora была интегрирована с LoRA комбинированных математических моделей длительного прогнозирования.
В наборе представлены три специализированных версии: одна для прогнозирования атмосферных явлений со средним разрешением, одна для прогнозирования с высоким разрешением и одна модель для прогнозирования загрязнения воздуха:
🟢Aurora 0.1 - большая модель для прогнозов IFS HRES T0 c разрешением 0.1°;
🟢Aurora 0.25 Pretrained - версия, обученная на обобщенном спектре параметров для использования в случае, если для целевого набора данных нету, например, для прогнозов на данных ERA5 с точностью 0.25°;
🟢Aurora 0.25 Fine-Tuned - версия Aurora 0.25 Pretrained , дополнительно обученная на данных IFS HRES T0. Рекомендуется для прогнозирования на основе данных IFS HRES с разрешением 0.25°;
🟢Aurora 0.25 Pretrained Small - уменьшенная версия Aurora 0.25 для процедур отладки. Не рекомендуется использовать для иных целей, кроме дебага;
🟠Aurora air pollution forecasting - модель прогноза загрязнения воздуха, еще не опубликована, ее разработка активно ведется.
Модели семейства Aurora совместимы с данными прогнозных моделей ERA5 и HRES Европейского центра среднесрочных прогнозов погоды (ECMWF).
▶️Установка и пример запуска c малой моделью и рандомными данными:
# Install with pip
pip install microsoft-aurora
#create a new venv & install the reqs:
virtualenv venv -p python3.10
source venv/bin/activate
make install
# Run the pretrained small model on random data:
from datetime import datetime
import torch
from aurora import AuroraSmall, Batch, Metadata
model = AuroraSmall()
model.load_checkpoint("microsoft/aurora", "aurora-0.25-small-pretrained.ckpt")
batch = Batch(
surf_vars={k: torch.randn(1, 2, 17, 32) for k in ("2t", "10u", "10v", "msl")},
static_vars={k: torch.randn(17, 32) for k in ("lsm", "z", "slt")},
atmos_vars={k: torch.randn(1, 2, 4, 17, 32) for k in ("z", "u", "v", "t", "q")},
metadata=Metadata(
lat=torch.linspace(90, -90, 17),
lon=torch.linspace(0, 360, 32 + 1)[:-1],
time=(datetime(2020, 6, 1, 12, 0),),
atmos_levels=(100, 250, 500, 850),
),
)
prediction = model.forward(batch)
print(prediction.surf_vars["2t"])
🔥 Weekly Tutorials Digest
🔘Туториал: очистка и предварительная обработка текстовых данных в Pandas для задач NLP.
В туториале приведены практические примеры операций по удалению пропущенных значений, нормализации текста, удалению шумов, токенизации, удаления стоп-слов, техники стемминга и лемматизации, преобразования текста в числовые представления с использованием TF-IDF векторизации.
🔘Статья в блоге: Марковские цепи лучше в задачах генерации юмора, чем LLM
Статья обсуждает уникальное чувство юмора, генерируемое Марковскими цепями по сравнению с крупными LLM, такими как ChatGPT.
Автор утверждает, что Марковские цепи, хотя и примитивны, могут создавать неожиданные и забавные фразы благодаря своей простоте. В отличие от них, LLM более предсказуемы и в меньшей степени подходят для создания юмора.
🔘Статья: Семь основных правил причинно-следственного инференса.
Автор подробно и лаконично рассматривает семь ключевых правил, которые помогают понять, как причинно-следственные механизмы в реальности отражаются в данных.
В статье описаны фундаментальные структуры причинных графов и продемонстрированы примеры кода на R для иллюстрации каждого правила.
🔘Практический кейс: Классификация большого набора PDF-документов.
Подробное описание процесса классификации огромного набора PDF-документов с помощью LLM - эмбеддингов и XGBoost.
Автор проводит несколько экспериментов по созданию и обучению эмбеддингов и делает акцент на сложности обработки 8,4 миллиона PDF-файлов.
@ai_machinelearning_big_data
#Tutorials #ml
⚡️ OmniCast — технология, которая повышает точность прогноза погоды
В Яндексе подробно рассказали про новую технологию, которую стали использовать в Яндекс Погоде. OmniCast работает на основе нейросетей, которые рассчитывают температуру воздуха, учитывая множество факторов, в том числе один совершенно новый — любительские метеостанции.
OmniCast помогает решать проблему точности прогноза в разных локальных районах мегаполисов. Подробнее про то, как работает метод, написано в статье.
▪️Хабр
@ai_machinelearning_big_data
#AI #ML #OmniCast
⚡️ Новостной МЛ дайджест 22 августа 2024.
✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.
Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.
✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.
Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.
✔️ Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей
✔️ Запущен Ideogram 2.0.
Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.
✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.
В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.
Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.
✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.
Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.
FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.
✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.
Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.
Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.
✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.
Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.
✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.
Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.
✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.
ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.
Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.
✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.
Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml #tech
⚡️ YaFDP: библиотека, ускоряющая обучение LLM
ML-инженеры Яндекса рассказали, как создавали YaFDP — алгоритм, который помогает ускорить процесс обучения больших языковых моделей и сократить расходы на GPU.
Специалисты раскрыли алгоритм-референс, на который ориентировались при создании, и назвали основные трудности, возникшие в процессе.
🟡 Разбор инструмента
🖥Github
@ai_machinelearning_big_data
#AI #LLM #ML
🔥Осваиваем алгоритмы обучения с подкреплением и получаем ценные навыки в ML!
⚡29 августа в 20:00 мск. приглашаем на открытый урок "Основные алгоритмы обучения с подкреплением SARSA и Q-learning", где мы разберём:
- обучение с подкреплением и его отличия от других подходов ML;
- функцию ценности состояния и ценности действия-состояния, их связь и как они помогают агенту учиться;
- уравнение Беллмана;
- метод SARSA;- метод Q-learning.
На практической части мы на Python, «с нуля», без использования каких-либо фреймворков, реализуем два алгоритма обучения с подкреплением и убедимся, что наш агент успешно обучается.
👉Регистрация https://otus.pw/BtdM/?erid=LjN8Juyxw
Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS. Все участники вебинара получат специальную цену на обучение!
🌟 MFLUX (MacFLUX): MLX-порт FLUX, основанный на Huggingface Diffusers.
MFLUX (MacFLUX) - это построчный порт реализации FLUX в библиотеке Huggingface Diffusers на Apple MLX.
Цель проекта состоит в том, чтобы иметь минимальный набор кода, избегая слишком большого количества абстракций.
Пайплайн инференса моделей реализован с нуля на MLX, токенизаторы используются через библиотеку Huggingface Transformers и минимальные зависимости Numpy и Pillow.
Поддерживаемые модели :
🟢FLUX.1-Scnhell
🟢FLUX.1-Dev
Проект гарантированно работает на чипах M1-M3 всех версий (Pro | Max | Ultra), количество оперативной памяти Mac влияет на скорость инференса.
Ориентировочные бенчмарки времени генерации на FLUX-schnell:
2020 M1 (8GB) - 335 секунд (512х512)
2021 M1 Pro (32GB) - 160 секунд (1024х1024)
2023 M2 Max (32GB) - 70 секунд (1024х1024)
2023 M2 Max (96GB) - 25 секунд (1024х1024)
2023 M3 Pro (36GB) - 80 секунд (1024х1024)
2023 M3 Max (неизвестно) - 20 секунд (1024х1024)
▶️Ограничения:
🟠Изображения генерируются по одному, нет пакетного режима;
🟠Негативный промпт не поддерживается;
🟠При первом запуске, если модели не скачаны заранее, происходит загрузка ~34 Gb;
🟠FLUX.1-dev требует авторизации к репозиторию Huggingface, для исключения ошибок доступа используйте huggingface-cli с вашим API-ключом от HF;
🟢Поддержка LoRA - в ближайших планах.
▶️Установка:
# Clone repository
git clone git@github.com:filipstrand/mflux.git
# Navigate to the project and set up a venv:
cd mflux
python3 -m venv .venv
source .venv/bin/activate
# Install dependencies
pip install -r requirements.txt
import sys
sys.path.append("/path/to/mflux/src")
from flux_1.config.config import Config
from flux_1.flux import Flux1
from flux_1.post_processing.image_util import ImageUtil
flux = Flux1.from_alias("schnell") # "schnell" or "dev"
image = flux.generate_image(
seed=3,
prompt="TEXT_YOUR_PROMPT.",
config=Config(
num_inference_steps=2, # Schnell works well with 2-4 steps, Dev works well with 20-25 steps
height=768,
width=1360,
)
)
ImageUtil.save_image(image, "image.png")
🌟 Llama-3.1-Storm-8B: Файнтюн и мердж Llama 3.1+Llama Saprk от победителей NeurIPS LLM Efficiency Challenge 2023.
Llama-3.1-Storm-8B - инструктивная модель, сочетающая в себе баланс размера и производительности, ориентированная на использование в приложениях и сервисах, генерацию текста, вызов функций и чат-ботов.
Модель обучалась на 1 миллионе высококачественных образцах из большого датасета (2.8M), отобранных вручную. Образцы оценивались на основе образовательной ценности и уровня сложности, чтобы модель могла получить релевантные и сложные данные в качестве тренировочной базы.
Полученный набор данных использовался для контролируемого файнтюна базовой Llama-3.1-8B-Instruct c применением методологии SPECTRUM. В завершении, полученная модель была объединена с моделью Llama-Spark методом сферической линейной интерполяции SLERP.
🟠Llama-3.1-Storm-8B : базовая модель;
🟠Llama-3.1-Storm-8B-FP8-Dynamic : оптимизированная версия с динамическим квантованием с более низкими требованиями к VRAM (на 50%);
🟢Llama-3.1-Storm-8B-GGUF : квантованные версии с разрядностью от 4-bit (5 Gb) до 8-bit (8.5 Gb) для использования с llama.cpp и ollama (поддержка есть в последнем обновлении).
Локальный запуск Llama-3.1-Storm-8B поддерживается в Transformers, vLLM и LitGPT.
▶️Формат промпта для Function Calling:
You are a function calling AI model.
You may call one or more functions to assist with the user query.
Don't make assumptions about what values to plug into function.
The user may use the terms function calling or tool use interchangeably.
Here are the available functions:
<tools>LIST_OF_TOOLS</tools>
For each function call return a json object with function name and arguments within <tool_call></tool_call> XML tags in the format:
<tool_call>{"tool_name": <function-name>, "tool_arguments": <args-dict>}</tool_call>
⚡️ Новостной дайджест
✔️EX.CO представила систему рекомендаций видеоконтента на основе LLM для цифровых издателей.
Презентованная система позволяет издателям предоставлять аудитории наиболее релевантные видеоролики из банка видеоконтента в режиме реального времени, без ручного сопоставления текстовых данных с мультимедиа.
Система показала высокие результаты, достигнув 80% совпадения релевантности и 4-кратного увеличения вовлеченности аудитории по сравнению с отраслевыми стандартами. Среднее количество негативных взаимодействий с видеоплеером уменьшилось на 30-40%.
prnewswire.co.uk
✔️ Microsoft дпопнули Phi 3.5
- Phi-3,5-3,8B (Mini)
(обучался только на 3,4T токенах)
- Phi-3.5-16x3.8B (MoE)
(обученный только на 4,9Т токенов)
- Phi-3.5-V-4.2B (Vision) превосходит GPT-4o
https://huggingface.co
✔️Модель HeAR от Google DeepMind выявляет заболевания с помощью анализа звука.
Google разработал биоакустическую модель под названием Health Acoustic Representations (HeAR), предназначенную для обнаружения заболеваний через анализ звуков. Модель была обучена на 300 миллионах аудиофайлов, включая 100 миллионов звуков кашля.
Индийская компания Salcit Technologies использует HeAR в своем приложении Swaasa для анализа кашля с целью раннего выявления туберкулеза.
HeAR демонстрирует высокую эффективность при меньшем объеме обучающих данных. Модель также может обнаруживать другие заболевания, такие как хроническая обструктивная болезнь легких и, потенциально деменцию.
blockonomi.com
✔️Henrik.ai: мультиконтекстный сервис с ИИ для разработчиков.
Neuralogics представила платформу искусственного интеллекта Henrik которая упрощает процесс разработки программного обеспечения. Пользователи могут создавать функциональные приложения всего лишь с помощью простого запроса.
Henrik.ai основан на концепции "мультиконтекстного интеллекта" которая использует сеть специально обученных AI-моделей для создания комплексных программных систем. Набор моделей позволяет сервису адаптироваться к различным контекстам и сценариям обеспечивая функциональность масштабируемость и безопасность.
Платформа также включает адаптивное обучение которое помогает сервису улучшаться на основе новых данных и взаимодействий с пользователями. Neuralogics акцентирует внимание на этичности и прозрачности решений.
devops.com
✔️Новая система Парето от Recogni оптимизирует вычисления ИИ с минимальными потерями точности.
Компания Recogni Inc представила новую логарифмическую систему чисел под названием Pareto, которая оптимизирует вычисления ИИ при минимизации потери точности. Она решает проблемы, связанные с высокими вычислительными требованиями генеративных моделей которые требуют petaFLOPS операций.
Система преобразует умножения в сложения, снижает потребление энергии, задержку и размер чипа, сохраняет высокий уровень точности и достигает высокой производительности при значительно меньшем потреблении энергии.
Эта разработка позиционирует Recogni как лидера в области проектирования чипов, особенно для генеративных приложений, предоставляя решение которое балансирует производительность и эффективность без ущерба для качества модели.
siliconangle.com
✔️DeepBrain AI в сотрудничестве с Национальным полицейским агентством Кореи представила решение для обнаружения дипфейков.
Сотрудничество государственного органа и частой компании направлены на борьбу с растущей угрозой преступлений, связанных с подменой личности, которые становятся все более сложными и представляют значительные риски для общества.
Система включает два основных компонента: комплексное и голосовое обнаружение. Она анализирует поведенческие паттерны, такие как углы наклона головы и движения губ, для определения подлинности изображаемого лица. Процесс обнаружения занимает от 5 до 10 минут, после чего контент классифицируется как "настоящий" или "фальшивый".
Система основана на данных, собранных DeepBrain AI, включая один миллион корейских и 130 тысяч азиатских данных.
Продукт доступен как SaaS, а также в виде локальной версии для организаций.
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Настоящее железо: открыта регистрация на митап о роботах Маркета!
В субботу, 7 сентября пройдёт Яндекс Robotics Day — ивент для backend, ML/CV-разработчиков и hardware-инженеров в Москве.
Железный аргумент зарегистрироваться — митап пройдёт в центре робототехники Яндекса. В программе доклады и экскурсия с демонстрацией складских роботов, а ещё афтепати и нетворкинг с экспертами.
👉🏻 Подробная программа доступна на сайте. После регистрации дождитесь подтверждения заявки. До встречи!
🌟 mPLUG-Owl3: MMLM, которая может проанализировать 2 часа видео за 4 секунды.
Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.
Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.
Технические характеристики модели:
🟢Number of parameters - 8B;
🟢Context size - 4096 (SFT, Video, Multi-image);
🟢Number of Layers - 40;
🟢Visual Encoder - Siglip-400m;
🟢High-Resolution Image Processing - UReader.
▶️Установка и запуск GradioUI:
# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git
# Navigate to OWL3 folder
cd mPLUG-Owl3
# Install the dependencies
pip install -r requirements.txt
# Execute the demo
python gradio_demo.py
⚡️Awesome FLUX Resources: Все ресурсы по Flux в одном месте.
Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.
Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!
https://awesomeflux.com/
🖥Github [ Stars: 16 | Issues: 0 | Forks: 1]
@ai_machinelearning_big_data
#AI #FLUX #ML #Awesome
Встречаемся 14 сентября на Practical ML Conf в Москве и онлайн!
Machine learning, проверенный практикой*
* Сгенерировано YandexGPT
Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении.
Ключевые темы конференции:
CV / NLP / Speech / RecSys / MLOps / Data science
В числе спикеров:
– Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи;
– Дмитрий Антипов — Сбер, АБТ, тимлид разработки;
– Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering.
Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров.
Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн.
Реклама. ООО "Яндекс", ИНН 7736207543
⚡️ Hermes 3: Семейство finetune Llama 3.1 от Nous Research
Новый набор моделей от Nous Research был создан на основе Llama 3.1 8B, 70B и 405B файнтюном датасета из синтетически сгенерированных ответов. Hermes 3 получил производительность Llama 3.1 и расширенные возможности в мышлении и творчестве.
Hermes 3 разблокирован, не подвергается цензуре и обладает высокой степенью управляемости. Он обладает улучшенной функцией долговременного сохранения контекста и возможностью ведения длинного диалога, навыком сложной ролевой игры и внутреннего монолога, а также расширенной функцией вызова агентов.
Модели семейства умеют точно и адаптивно следовать системным промптам и инструкциям.
В Hermes 3 возникают аномальные состояния, которые при правильных вводных и пустых системных подсказках приводят к ролевой игре и потере памяти. Вы можете активировать этот “Режим амнезии” в Hermes 3 405B, введя пустой системный запрос и отправив сообщение "Кто вы?".
Hermes 3 использует ChatML для формата промптов. Формат более сложный, чем alpaca или sharegpt, в нем используются специальные токены для обозначения начала и окончания логического контекста и ролей в этих контекстах.
Набор Hermes 3:
🟠Hermes 3 - Llama-3.1 405B;
🟠Hermes 3 - Llama-3.1 405B FP8 для использования с vLLM;
🟠Hermes 3 - Llama-3.1 70B;
🟠Hermes 3 - Llama-3.1 70B FP8 для использования с vLLM;
🟢Hermes 3 - Llama-3.1 70B GGUF для использования с llama.cpp. Версии квантования от 3-bit (31 Gb) до 5-bit (50 GB);
🟠Hermes 3 - Llama-3.1 8B;
🟢Hermes 3 - Llama-3.1 8B GGUF для использования с llama.cpp. Версии квантования от 4-bit (5 Gb) до 8-bit (9 GB);
📌Лицензирование : Llama 3 Community License
🟡Страница проекта
🟡Сообщество в Discord
🟡Набор моделей
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #Hermes3 #LLM #ML
🌟ReBased: новая архитектура быстрых языковых моделей
Архитектура ReBased – усовершенствованная Based, представленная исследователями из Стэнфорда в декабре 2023 года, которая значительно улучшила способности контекстного обучения. В лаборатории T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры нейросети.
Проведя анализ архитектуры Based, в T-Bank AI Research оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, и упростили алгоритм выделения текстовой информации. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.
ReBased способна снизить издержки на использование искусственного интеллекта для специализированных задач и позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.
Эксперименты проводили на датасете MQAR (Multi-Query Associative Recall), который позволяет определять способность модели к контекстуальному обучению, а именно к ассоциативному запоминанию. Результаты были представлены на ACL 2024.
📝Статья
🖥Github
#AI #LLM
@ai_machinelearning_big_data
⚡️ Sapiens: Семейство ViT-моделей для визуальных задач c изображениями человека.
Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:
🟢вычисления 2D-позы (17, 133 и 308 ключевых точек);
🟢сегментации частей тела (28 категорий);
🟢оценки карты глубины;
🟢извлечения нормалей поверхности.
Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.
Опубликованные модели разделяются по назначению : sapiens_lite_host - предназначены для инференса, а sapiens_host - длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:
🟢Sapiens 0.3B
🟢Sapiens 0.6B
🟢Sapiens 1B
🟢Sapiens 2B
Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.
▶️Установка и запуск на примере Depth Estimation:
# Clone repository
git clone git@github.com:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens
# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite
# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks
# Navigate to your script directory
cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
# Uncomment your model config line first
./depth.sh
⚡️ Новостной дайджест
✔️ Perplexity AI запустит рекламу на своей платформе в четвертом квартале 2024.
Инициатива направлена на создание нового источника дохода для компании, которая уже привлекла 26 миллионов долларов в рамках раунда финансирования, завершившегося в июле.
Реклама будет интегрирована в существующий поисковый сервис и будет отображаться блоками в результатах поиска. Это необходимый шаг в сторону монетизации, поскольку Perplexity AI стремится расширить свою аудиторию и улучшить финансовые показатели.
Компания также рассматривает возможность добавления новых функций: интеграция с другими сервисами и улучшение пользовательского интерфейса, основная цель которых - повысить привлекательность платформы для рекламодателей и пользователей.
reuters.com
✔️ ИИ поможет совершить прорыв в солнечных технологиях и вычислительной химии.
Ученые разработали новый метод на основе ИИ: "NES-VMC (Natural excited states variational Monte Carlo)", который может точно рассчитать возбужденные состояния атомов и молекул - проблема в физике и химии, которая ранее задерживала усовершенствование солнечных технологий.
Метод точно предсказывает квантовые возбужденные состояния в системах от отдельных атомов до молекул размером с бензол. NES-VMC превосходит существующие в вычислительной химии подходы, часто достигая химической точности. Возбужденные состояния имеют решающее значение для понимания взаимодействия света и вещества, что , в свою очередь, является ключевым фактором к улучшению солнечных батарей, светодиодов, лазеров и многого другого.
Эффект может быть огромным: снижение стоимости электроэнергии, увеличение времени работы аккумуляторов и дисплеев телефонов и ноутбуков и более быстрый оптоволоконный интернет.
science.org
✔️ Сотрудники Google DeepMind призывают прекратить военные контракты.
Около 200 сотрудников Google DeepMind (примерно 5% от всего числа подразделения) подписали письмо к руководству Google в котором призывают прекратить контракты компании с военными организациями.
В письме, отправленном 16 мая 2024 года, они выражают обеспокоенность использованием технологий искусственного интеллекта в военных действиях: применение в массовом наблюдении и выбор целей в конфликтах,.
В письме также подчеркивается, что беспокойство не связано с конкретными геополитическими конфликтами, а касается этических принципов компании, которые противоречат участию в военных разработках.
Отдельным пунктом, они просят руководство Google провести расследование по поводу использования облачных услуг компании военными и создать новый орган управления для предотвращения будущего использования технологий DeepMind в военных целях.
На данный момент компания не дала четкого ответа на письмо.
theverge.com
✔️ Линус Торвальдс рассказал об отношении к Ai, внедрении Rust и о том, почему ядро Linux - это "единственное, что имеет значение".
На конференции Open Source Summit China Линус Торвальдс обсудил текущее состояние и будущее ядра Linux. Он рассказал, что расширяемый планировщик sched_ext не будет включен в следующий релиз ядра, но ожидается его добавление в версии 6.12.
Он так же отметил отметил, что даже спустя 33 года разработки, базовые проблемы, такие как управление памятью, все еще актуальны.
Процесс разработки ядра стал более структурированным, с релизами каждые девять недель, а количество релизов не имеет значения. Обсуждая безопасность, он отметил, что уязвимости — это просто ошибки, и порекомендовал пользователям обновлять ядро для повышения безопасности.
Что касается внедрения языка Rust, Торвальдс выразил разочарование медленным темпом его принятия, объясняя это тем, что многие разработчики не знакомы с новым языком. Он также высказал скептицизм по поводу текущего хайпа вокруг ИИ, но надеется, что ИИ может помочь в ревью кода и обнаружении ошибок.
zdnet.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 Jamba 1.5: Семейство моделей на архитектуре SSM-Transformer с большим контекстным окном.
AI21 Labs опубликовала в открытом доступе семейство моделей Jamba 1.5. Модели позиционированы для использования в бизнесе для задач анализа документов, рабочих процессов RAG, поддержки клиентов и обладают возможностями вызова функций, структурированного вывода (JSON) и генерации текстовых данных.
Семейство демонстрирует хорошую управляемость в длительном контексте, скорость и качество. Это первый кейс успешного масштабирования не трансформерной модели до уровня качества топовых открытых моделей.
Архитектура Jamba состоит из гибридного сочетания Transformers и Mamba, что позволило создать модели, которые требуют меньший объем VRAM, чем трансформерные аналоги и могут обрабатывать контексты длиной до 140 тысяч токенов на одном GPU в квантованной версии.
Чтобы сделать модели удобными в использовании, была разработана новая техника квантования ExpertsInt8. Она квантует только веса, которые являются частью слоев MoE, и сохраняет их в формате INT8.
ExpertsInt8 быстрее других методов квантования, не требует калибровки и дает возможность использования BF16 для хранения больших активаций и позволяет загружать Large модель на одном узле из 8 GPU.
Jamba 1.5 Large:
🟠total params - 399B;
🟠active non-embedding params - 94B;
🟠context - 256К.
Jamba 1.5 Mini:
🟢total params - 52B;
🟢active non-embedding params - 12B;
🟢context - 256К;
🟢Int8 context - 140К.
Запуск моделей возможен на платформах AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Протестировать возможности обеих моделей можно онлайн в сервисе AI21 Studio .
Доступен вход с Gmail и Github, на бесплатный тестовый период дается 10$ на три месяца при тарификации:
🟠Jamba 1.5 Large - 2 $ / 8$ Input / Output за 1 млн токенов.
🟠Jamba 1.5 Mini - 0.2 $ / 0.4$ Input / Output за 1 млн токенов.
📌Лицензирование: Jamba Open Model License
🟢Бесплатно для некоммерческих проектов и личного использования
🟠Бесплатно для коммерческого использования при годовом доходе до 50 млн USD, если больше - заключение отдельного договора.
🟡Страница проекта
🟡Набор моделей
🟡Demo
@ai_machinelearning_big_data
#AI #Jamba #LLM #ML #SSM
🌟 iMESA: распределенный алгоритм совместной одновременной локализации и картографирования (C-SLAM) для групп рoботов.
iMESA расширяет алгоритм MESA, используя согласованный метод множителей с переменным направлением (C-ADMM) для пакетных задач C-SLAM.
Он дает возможность роботам обновлять свои локальные решения по мере поступления новых измерений и взаимодействовать друг с другом для поддержания согласованности, предоставляя точные оценки состояния в режиме реального времени при незначительном количестве спораидальных взаимодействий между собой.
iMESA использует возможности оптимизации iSAM2, обеспечивая согласованность оценок состояния с помощью смещенных априорных значений.
Алгоритм масштабируем, хорошо справляется с различными размерами групп и сложностью задач. Он подходит для разработки мультироботных систем в условиях, связанных с развертыванием групп роботов в реальном мире при ограниченных коммуникационных и вычислительные ресурсах.
Программная реализация iMESA выполнена в виде библиотеки C++ с классом IMESAAgent для использования на борту каждого робота. iMESA имеет зависимость от GTSAM версии 4.2.0. Специфические функции разработки, необходимые для iMESA, доступны в ветке 4.2.0-imesa. Тестовые проекты для запуска можно найти в репозитории imesa-experiments.
Поскольку этот пакет представляет собой только библиотеку, чаще всего он будет использоваться в качестве сторонней зависимости в вашем проекте. Используйте FetchContext для доступа к библиотеке iMESA, включите iMESA как зависимость в свой проект, добавив в файл CMakeLists.txt:
include(FetchContent)
FetchContent_Declare(
imesa
GIT_REPOSITORY https://github.com/rpl-cmu/imesa.git
GIT_TAG main
)
FetchContent_MakeAvailable(imesa)
⚡️ Mistral-NeMo-Minitron-8B-Base: Базовая Minitron 8B от Nvidia
NVIDIA и Mistral AI представили модель Mistral-NeMo-Minitron 8B, одну из наиболее точных открытых моделей в своем классе для генерации текста.
Mistral-NeMo-Minitron-8B-Base получена в результате обрезки (pruning) и дистилляции Mistral-NeMo 12B. В процессе создания была урезана размерность эмбеддинга и промежуточная размерность MLP (с 14336 до 11520).
Комбинация применяемых методов позволила оставить количество attention heads и слоев неизменным.
После обрезки было продолжено обучение с дистилляцией, используя корпус данных от Nemotron-4 15B размером 380 миллиардов токенов для получения окончательной модели, что примерно в 40 раз меньше, чем необходимо для тренировки модели такой же плотности с нуля.
Корпус обучения (набор данных) по структуре точно такой же, как в недавно представленной другой модели, собранной по такой же методике обрезки и дистилляции.
Дата актуальности корпуса обучения - июнь 2023 года.
При создании Mistral-NeMo-Minitron 8B использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
🟢total params - 8B;
🟢active non-embedding params - 7.3B;
🟢embedding size - 4096;
🟢attention heads - 32;
🟢MLP intermediate dimension - 11520;
🟢number of layers - 40;
🟢input context - 8000.
Поддержка Mistral-NeMo-Minitron-8B-Base в Hugging Face Transformers будет реализована в ближайшем обновлении.
Для инференса модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 1-bit (2. 12 Gb) до 16-bit (16.08 Gb).
📌Лицензирование : NVIDIA Open Model License.
🟡Страница проекта
🟡Модель
🟡Набор GGUF
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
🔥 Дайджест самых интересных новостей
✔️ Файнтюн на собственных данных доступнен в GPT-4o.
OpenAI запустила возможность файнтюна GPT-4o, позволяющую разработчикам настраивать модель для конкретных случаев использования с помощью собственных наборов данных.
✔️ Meta's Self-Taught Evaluator создает датасеты для обучения LLM.
Self-Taught Evaluator - новый метод обучения для оценочных LLM без необходимости аннотировать датасет с участием человека.
Используя концепцию LLM-as-a-Judge, он итеративно генерирует и уточняет ответы для создания обучающего набора данных. Высокая производительность метода подтверждена вRewardBench. Эта методика даст возможность предприятиям использовать неразмеченные данные для настройки LLM, при условии хорошо согласованной базовой модели.
✔️ Авторы книг подали в суд на Anthropic за нарушение авторских прав при обучении искусственного интеллекта.
Компания Anthropic стала объектом коллективного иска в федеральном суде Калифорнии. Три автора - Андреа Бартц, Чарльз Грейбер и Кирк Уоллес Джонсон - обвиняют компанию в незаконном использовании их книг и сотен тысяч других произведений для обучения чат-бота Claude.
✔️ Symphonic открывает каталог для обучения моделей искусственного интеллекта.
Компания Symphonic Distribution заключила партнерство с Musical AI, чтобы создать лицензированный набор данных для обучения искусственного интеллекта.
✔️ Модель ИИ от Nvidia предсказывает грозы за несколько километров.
Модель предсказывает более 100 переменных, включая температуру и влажность. Такой набор аналитических данных дает возможность наблюдать за развитием шторма в трехмерном пространстве.
✔️ Юридический факультет Университета Беркли запустил новую магистерскую программу, посвященную праву и управлению искусственным интеллектом.
Факультет начинает прием заявок на новую программу магистратуры, которая будет сосредоточена на искусственном интеллекте. Программа рассчитана на практикующих юристов и ученых, уже получивших степень доктора права (JD).
✔️ Stability AI назначила ветерана индустрии развлечений Ханно Бассе (Hanno Basse) новым директором по технологиям.
Ханно Бассе ранее занимал должности технического директора (CTO) в Digital Domain, Microsoft Azure Media & Entertainment и 20th Century Fox Film Corp.
Он является действительным членом Академии кинематографических искусств и наук и обладателем 30 патентов.
✔️ Google Cloud открыла ранний доступ к NVIDIA L4 для разработчиков.
Nvidia L4 GPU Cloud Run позволит разработчикам AI разворачивать в облаке Google языковые модели плотностью до 8B для создания пользовательских чат-ботов или мгновенного резюмирования документов с возможностью масштабирования для обработки пиковой нагрузки от пользователей.
✔️ Midjourney вновь открыл free-tial использование своего сервиса.
Функция доступна на web-сайте сервиса для всех зарегистированных и новых пользователей. На ознакомление с возможностями платформы дают 25 кредитов (1 кредит = 1 генерация из 4 вариантов изображения).
Помимо генерации, появился доступ к галерее генераций других пользователей, выполненной в виде полотна.
⚡️ Подробнее
@ai_machinelearning_big_data
#news #ai #ml
Сегодня анализ больших данных стал ключевым элементом для роста экономической эффективности крупных компаний, а также для современных вендоров, создающих инструменты Big Data.
На онлайн-дискуссии рассмотрим тему больших данных с двух сторон – бизнеса и тех, кто разрабатывает платформы для сбора и хранения больших данных. Эксперты T-Банка и Arenadata обсудят
🔹 Эволюционный путь развития работы с данными в российском бизнесе
🔹 Где аналитика больших данных дает для enterprise-бизнеса реальный экономический эффект?
🔹Технологический стек больших данных – что выбрать?
🔹Надо ли строить единое корпоративное хранилище данных?
🔹Перспективы искусственного интеллекта для бизнеса
🔹Требования к инфраструктуре для больших данных. On premise vs Облако
Спикеры
Дмитрий Зуев
ex-Руководитель отдела дата-инфраструктуры
Т-Банк
Андрей Жуков
Коммерческий директор
Arenadata
Ведущий
Сергей Зинкевич
Эксперт по облачным технологиям
🗓 27 августа | 17:00
Регистрация по ссылке>>
Реклама. ООО "ДЛИ" ИНН 9704006911
⚡️Яндекс внедрил в виртуального помощника Алису технологию эмоционального синтеза
Голосовые реплики Алисы стали более живыми за счет расширения спектра эмоций. Теперь она может подбодрить, посочувствовать или порадоваться за собеседника. А еще менять оттенки эмоций в рамках одной реплики. Обновление уже доступно в Станциях Лайт 2.
В основе изменений Алисы лежит синтез эмоциональной речи. О том, как его создавали — со схемами и примерами — разработчики Яндекса рассказали в статье на Хабре.
#news #ml
@ai_machinelearning_big_data
⚡️ xGen-MM (BLIP-3): Мультимодальный набор моделей от Saleforce.
Salesforce AI Research представила XGen-MM (BLIP-3) - коллекцию из 4 моделей на основе phi3-mini-instruct с улучшенным обучением и повышенной, согласно бенчмаркам претрейна, производительностью.
XGen-MM (BLIP-3) может использоваться в различных областях - от обработки естественного языка до компьютерного зрения. Он способен понимать сложные, мультимодальные входные данные, что делает его мощным инструментом для различных приложений, от виртуальных помощников до создания контента.
Набор моделей:
🟢xGen-MM-base: базовая модель, обученная на 100 миллиардах пар "изображение-текст" ;
🟢xGen-MM-instruct-singleimg: инструктивная модель, обученная на 1 млн. изображений датасета Cauldron, предназначенная для работы с одиночными изображениями;
🟢xGen-MM-instruct-interleave: инструктивная модель, обученная на Cauldron для работы с несколькими (чередующимися) изображениями;
🟠xGen-MM-instruct-dpo: безопасная инструктивная версия, которая обучалась оптимизации предпочтений на датасете VLFeedback.
📌Лицензирование кода : BSD-3-Clause license.
📌Лицензирование моделей: Apache 2.0 license.
🟡Набор моделей
🟡Arxiv
🟡Google Collab (инференс)
🖥Github [ Stars: 9.4K | Issues: 422 | Forks: 932]
@ai_machinelearning_big_data
#AI #xGEN #LMM #ML
🌟 Mixture-of-Agents: метод для улучшения качества LLM
MoA использует несколько LLM для генерации ответов. На выходе получается ответ, который превосходит по качеству все предшествующие.
В рамках способа была создана многослойная структура с несколькими моделями на каждом слое. На вход подавали один вопрос, и каждый слой давал на него ответ. Затем полученные данные передавались на следующий слой, и всё повторялось.
🟡Страница проекта
🟡Разбор метода
@ai_machinelearning_big_data
#AI #LLM
Нейросеть от Сбера GigaChat умеет не только генерировать текст, но и работать с готовыми материалами.
Она легко сократит объём слов, поможет с переводом на другой язык и перескажет содержание файла. Для этого прикрепите документ в формате txt или pdf и напишите свой запрос. Подсказка 👉 промпт лучше начинать с глаголов.
Эти и другие полезные функции ждут вас здесь.
🌟 Clapper: Альфа-версия комбайна для визуализации генеративных сценариев.
Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke
Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.
В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.
Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.
⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.
Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.
Проект написан на TypeScript. Необходимые условия перед установкой:
🟠Git LFS;
🟠Bun;
🟠NVM;
🟢Версия Node - 20.15.1.
▶️Установка и запуск:
# Install the dependencies:
# --include=optional to make
# sure deps are installed
bun i
# build the app:
npm run build
# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile
cd packages/app
bun run electron:start
# You can also build Clapper:
cd packages/app
bun run electron:make
⚡️ Llama-3.1 Minitron 4B Width Base: Компактная LLM на основе Llama 3.1 от NVIDIA.
Llama-3.1-Minitron-4B-Width-Base - это базовая текстовая модель, которая может быть адаптирована для различных задач генерации естественного языка.
Она получена путем обрезки (pruning) Llama-3.1-8B за счет сокращения размера эмбеддинга, количества attention heads и промежуточной размерности MLP.
После было выполнено продолженное обучение с дистилляцией, используя набор данных размером 94 миллиарда токенов.
Корпус обучения (набор данных) модели Llama-3.1-Minitron-4B-Width-Base включает английские и многоязычные тексты, код и другие письменные материалы.
Источники данных охватывают различные области: право, математика, наука, финансы. Для улучшения производительности режима "чата", в процессе обучения были добавлены данные в формате вопрос-ответ.
Дата актуальности корпуса обучения - июнь 2023 года.
При создании были использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢number of layers - 32;
🟢input context - 8000.
⚠️ На момент публикации, поддержка Llama-3.1-Minitron-4B-Width-Base в Hugging Face Transformers находится на рассмотрении.
Для использования модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные GGUF - версии модели в семи разрядностях, от 2-bit (1. 84Gb) до 16-bit (9.03 Gb).
📌Лицензирование : NVIDIA Open Model License.
🟡Модель
🟡Набор GGUF
🟡Arxiv
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
🌟DeepSeek-Prover: Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search.
DeepSeek-Prover-V1.5 - набор из языковых моделей для доказательства теорем в Lean 4.
"V1.5" означает обновление DeepSeek-Prover-V1 с некоторыми ключевыми нововведениями.
Во-первых, процесс обучения: предварительная подготовка на базе DeepSeekMath, затем контрольная работа с набором данных, включающим логические комментарии на естественном языке и код Lean 4. Это устраняет разрыв между рассуждениями на естественном языке и формальным доказательством теоремы. В набор данных также входит информация о промежуточном тактическом состоянии, которая помогает модели эффективно использовать обратную связь с компилятором.
Во-вторых, проводится обучение с подкреплением, используя алгоритм GRPO для изучения обратной связи с помощником по проверке. Тут выравнивается соответствие модели формальным спецификациям системы проверки.
В-третьих, RMaxTS, варианте поиска в дереве по методу Монте-Карло. Он присваивает встроенные вознаграждения на основе изучения тактического пространства состояний, побуждая модель генерировать различные пути доказательства. Это приводит к более обширному исследованию пространства доказательств.
В результате получился набор моделей с абсолютной точностью генерации в 46,3% на тестовом наборе miniF2F. Этот показатель лучше, чем у GPT-4 и моделей RL, специализирующихся на доказательстве теорем.
Набор DeepSeek-Prover:
🟠DeepSeek-Prover-V1.5 Base. Идеально подходит для первоначального изучения и понимания возможностей модели и основ для формальных математических рассуждений, но требует дальнейшего обучения для оптимальной работы;
🟠DeepSeek-Prover-V1.5 SFT. Модель для задач, требующих умеренных навыков доказательства теорем за счет рассуждений на естественном языке и информации о тактическом состоянии.
🟠DeepSeek-Prover-V1.5 RL. Рекомендуется для решений, требующих высочайшей точности и производительности при формальном доказательстве теорем. К SFT-версии добавлены дополнительная оптимизация на основе Proof Assistant Feedback и обучение с подкреплением.
▶️Установка и запуск:
# Clone the repository:
git clone --recurse-submodules git@github.com:deepseek-ai/DeepSeek-Prover-V1.5.git
cd DeepSeek-Prover-V1.5
# Install dependencies:
pip install -r requirements.txt
# Build Mathlib4:
cd mathlib4
lake build
# Run paper experiments:
python -m prover.launch --config=configs/RMaxTS.py --log_dir=logs/RMaxTS_results
🌟 MedTrinity-25M: Огромный датасет снимков для медтеха.
Med Trinity-25M - крупномасштабный мультимодальный набор данных для медицины из более 25 миллионов изображений в 10 модальностях, с подробными аннотациями для более чем 65 заболеваний.
Аннотации содержат:
🟠тип заболевания;
🟠классификация патологии;
🟠описания для регионов и межрегиональные связи.
🟠подробные локальные аннотации для областей интереса (ROI), включая ограничивающие рамки и маски сегментации.
MedTrinity-25M подходит для мультимодальных задач: создание медицинских описаний патологий и новообразований, отчетов, задач классификации и сегментации. Этот набор данных может быть использован для подготовки медицинских моделей искусственного интеллекта.
Модели:
🟢LLaVA-Med++ (VQA-RAD). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора VQA-RAD), доработка на VQA-RAD;
🟢LLaVA-Med++ (SLAKE). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора SLAKE), доработка на SLAKE;
🟢LLaVA-Med++ (PathVQA). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора PathVQA), доработка на PathVQA;
🟢LLaVA-Med-Captioner. Captioner для создания мультигранулярных аннотаций.
▶️Установка, запуск обучения и оценка на этом датасете:
# Clone repository
git clone https://github.com/UCSC-VLAA/MedTrinity-25M.git
# Install Package
conda create -n llava-med++ python=3.10 -y
conda activate llava-med++
pip install --upgrade pip # enable PEP 660 support
pip install -e .
# Install cases FOR TRAIN
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install git+https://github.com/bfshi/scaling_on_scales.git
pip install multimedeval
# Pre-train 1 stage
cd MedTrinity-25M
bash ./scripts/med/llava3_med_stage1.sh
# Pre-train 2 stage
bash ./scripts/med/llava3_med_stage2.sh
# Finetune
cd MedTrinity-25M
bash ./scripts/med/llava3_med_finetune.sh
# Eval
cd MedTrinity-25M
bash ./scripts/med/llava3_med_eval_batch_vqa_rad.shs