⚡️ FLUX: Поддержка моделей FLUX в наборах скриптов для трейна ХlabsAI и SimpleTuner.
ХlabsAI и SimpleTuner опубликовали обновления в своих наборах скриптов, добавив поддержку модели FLUX.
▶️В ХlabsAI доступна тренировка LoRA и ControlNet на Deepspeed:
LoRA for FLUX dev
accelerate launch train_flux_lora_deepspeed.py --config "train_configs/test_lora.yaml"
accelerate launch train_flux_deepspeed_controlnet.py --config "train_configs/test_canny_controlnet.yaml"
⚡️ ml_mdm: Набор диффузионных моделей Matryoshka от Apple.
Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.
ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.
Codebase фреймворка:
🟠ml_mdm.models - реализация core-модели;
🟠ml_mdm.diffusion - диффузионный пайплайн;
🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);
🟠ml_mdm.clis - все инструменты cli проекта.
Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:
🟢vis_model_64x64;
🟢vis_model_256x256;
🟢vis_model_1024x1024.
▶️Локальный запуск:
Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.
# Running Test Cases:
> pytest # will run all test cases - including ones that require a gpu
> pytest -m "not gpu" # run test cases that can work with just cpu
# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth
# Launch Web Demo:
torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999
Новостной дайджест
✔️Jimeng AI: сервис от ByteDance для генерации видео запущен на матрикового Китае.
ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com
✔️LG представляет первую в Южной Корее AI-модель с открытым исходным кодом.
LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network
✔️Mistral AI запустила файнтюн моделей, раннюю версию Agents и SDK для разработки приложений генеративного ИИ.
Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai
@ai_machinelearning_big_data
#news #ai #ml
🌟BRAG: Серия Instruct-RAG LLM.
BRAG - это серия специализированных языковых моделей, обученных для RAG-задач с текстом, таблицами и в режиме чата. Все модели ориентированы в основном на английский язык, но модели на базе Llama-3.1-8B и Qwen2-1.5b имеют наследованную поддержку мультиязычности.
В качестве базовых моделей использованы Qwen2-1.5B, Qwen2-7B-Instruct, Llama-3.1-8B-Instruct и Llama-3-8B-Instruct.
Список моделей:
🟢BRAG-Qwen2-7b-v0.1 Instruct | 7B | 128K
🟢BRAG-Llama-3.1-8b-v0.1 Instruct | 8B | 128K
🟢BRAG-Llama-3-8b-v0.1 Instruct | 8B | 8K
🟢BRAG-Qwen2-1.5b-v0.1 Instruct | 1.5B | 32K
▶️Формат промта:
messages = [
{"role": "system", "content": "You are an assistant who gives helpful, detailed, and polite answers to the user's questions based on the context with appropriate reasoning as required. Indicate when the answer cannot be found in the context."},
{"role": "user", "content": """Context: <CONTEXT INFORMATION> \n\n <USER QUERY>"""},
]
Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
👉 Вырвись из однотипных задач на ML. Освой продвинутые подходы. Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на курсе «MLOps» от OTUS по специальной цене.
Пройти тестирование и узнать подробности:
https://otus.pw/BALs/?erid=LjN8KUECG
AI помогает бизнесу анализировать большие объемы данных, чтобы принимать обоснованные решения и повышать эффективность процессов.
➡️Сервисы речевой аналитики позволяют распознавать и глубоко анализировать голосовые и текстовые диалоги с помощью технологий машинного обучения и искусственного интеллекта.
✔️22 августа в 11.00 МСК MWS проведет вебинар о сервисе речевой аналитики, который они развернули в своем облаке совместно с UKTECH LAB.
↘️ На вебинаре вы узнаете, как MWS внедрили сервис речевой аналитики для сети клиник «Кремлёвская стоматология».
В эфире расскажут:
🔴Что компании уже сегодня получают с помощью речевой аналитики в облаке.
🔴Как AI в облаке помог компании:
- на 20% увеличить конверсию из обращений в запись,
- на 14% снизить время на постобработку звонков.
🔴Какие облачные решения обеспечивают надёжное хранение и безопасную обработку персональных данных.
Приходите на вебинар и задавайте свои вопросы - за лучший вопрос в чате трансляции - будет подарок :)
Реклама. Информация о рекламодателе.
🌟 BigLlama-3.1-1T-Instruct: Большая модель для тех, кому 405B не хватает.
Экспериментальная модель, размером 2ТB на основе Meta-Llama-3.1-405B-Instruct, рожденная методом passthrough в mergekit.
Для использования автор рекомендует шаблон чата Llama 3 и 4 ноды 8xH100s в FP8.
Квантование и оценка в бенчмарках - решение еще не принято.
▶️ Скачать BigLlama-3.1-1T-Instruct можно на HF
@ai_machinelearning_big_data
#LLM #ML #Ai
Приходите на ML-тренировку Data Dojo Яндекса, которая пройдёт 14 августа в Петербурге!
На событии для начинающих в ML- и DS-сферах сможете послушать доклады победителей соревнований, узнать их лучшие решения и разобрать пару задач на офлайн-зарешке.
Среди спикеров:
🔹 Эдуард Мартынов, ВМК МГУ. Расскажет про обучение трансформеров для дискриминативных задач.
🔹 Александр Перевалов, HTWK Leipzig. Объяснит, как решать задачу извлечения данных, понимания и ответов на вопросы на основе таблиц из отчётности организаций.
🔹 Никита Синчинов, ML разработчик Яндекс. Поделится, как выиграть золото и серебро, используя лики предоставленных в данных.
Перед стартом докладов разберёте несколько задач с руководителем группы разработки Лаборатории машинного интеллекта Яндекса Радославом Нейчевым. А после — нетворкинг.
Для тех, кто не сможет прийти лично, будет трансляция.
Зарегистрироваться по ссылке можно уже сейчас.
Как бизнесу сохранить производительность высоконагруженных решений при работе с отечественными СУБД. Приходите на бесплатный вебинар от СберТеха.
20 августа в 11:00 приглашаем на вебинар «Что нового в Platform V Pangolin 6.3.0: сохраняем производительность высоконагруженных решений». Platform V Pangolin – это целевая СУБД в Сбере и в ряде крупных компаний. В конце июля вышел новый релиз продукта, который включает множество улучшений:
· оптимизации для повышенных нагрузок при работе с платформой 1С;
· улучшения производительности, важные для внедрения продукта в высоконагруженных системах;
· доработки для соответствия новым требованиям ФСТЭК к отечественным СУБД;
· дополнительные инструменты и расширения: колоночное хранение данных и использование распределенных таблиц, инструменты для подготовки тестовых сред.
На встрече выясним, как новые возможности продукта могут стать полезны вашему бизнесу.
Регистрация открыта
🌟 StackFLOW: Монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.
Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.
Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.
Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.
В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.
В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.
📌 Внимательно прочитайте инструкции к каждому типу запуска, трейн-коду и оценочному запуску!
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥Github [ Stars: 8 | Issues: 2 | Forks: 1]
@ai_machinelearning_big_data
#AI #3D #Reconstruction #VideoTo3D #ML
⭐️ Новостной дайджест
✔️Tora: Alibaba запустила проект генерации видео с контролем траектории.
Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.
✔️Tachyon: Одноплатный компьютер на Snapdragon с AI-ускорителем.
Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com
✔️Vimeo анонсировала AI-перевод видео для бизнес-клиентов.
Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com
✔️Индия и ОАЭ лидируют в мире по внедрению ИИ и Gen AI.
"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com
@ai_machinelearning_big_data
#news #ai #ml
🔥 Новостной дайджест
✔️В Google Cloud появился специальный кластер GPU Nvidia для стартапов Y Combinator.
Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com
✔️aiOla выпустила сверхбыструю модель распознавания речи.
Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com
✔️Mixture of Nested Experts (MoNE): фреймворк компьютерного зрения для адаптивной обработки визуальных маркеров путем динамического распределения.
Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.
Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com
✔️Vidu: крупномасштабный сервис генерации видео стал доступен за пределами Китая при поддержке Baidu.
Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 rLLM: библиотека PyTorch для взаимодействия LLM с реляционными таблицами.
rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.
rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.
Библиотека включает в себя несколько слоев:
🟠Data Engine, для загрузки и предварительной обработки данных;
🟠Module, предлагающий стандартизированные строительные блоки из GNN, LLM и TNN;
🟠Model, облегчающий построение сложных RTL-архитектур.
Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.
▶️Рекомендации по LLM и LM:
🟠LLM - квантованная 4-bit Gemma 2b;
🟠LM - облегченная BERT-подобная all-MiniLM-L6-v2 для sentence embedding.
Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:
🟠Table-MovieLens1M (TML1M);
🟠Table-LastFm2K (TLF2K);
🟠Table-ACM12K (TACM12K).
🟡Arxiv
🖥Github [ Stars: 242 | Issues: 1 | Forks: 24]
@ai_machinelearning_big_data
#AI #ML #RTL #rLLM
⚡️ Stable Fast 3D: Image-to-3D от Stability AI
Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.
Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.
Локальный запуск:
# Update setuptools
pip install -U setuptools==69.5.1
# For CLI-version of inference install requirements
pip install -r requirements.txt
# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt
# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/
# run Gradio UI
python gradio_app.py
🌟 Нейросеть YandexART научилась восстанавливать архивные видеозаписи и кинохронику
Возможности нейросети были протестированы на материалах «Мосфильма» и Российского государственного архива кинофотодокументов при подготовке сериала «Игры» об Олимпиаде-80. YandexART улучшила качество изображения и восстановила некоторые утраченные детали, включая элементы одежды, архитектуры и транспортных средств.
Разработчики Яндекса научили модель не «галлюцинировать». Благодаря поэтапному обучению на материалах низкого качества, YandexART превращает размытые и сильно сжатые кадры в контент с высокой детализацией объектов и текстур.
@ai_machinelearning_big_data
Новостной дайджест
✔️Hugging Face приобретает стартап, чтобы разместить еще больше моделей.
Hugging Face приобрела XetHub, платформу для совместной работы над моделями машинного обучения. Цель приобретения - облегчение размещения сотен миллионов моделей.
Компания XetHub, основанная бывшими сотрудниками Apple, разработала технологии, которые позволяют масштабировать Git до репозиториев размером в терабайт.
О сделке объявил соучредитель Hugging Face Жюльен Шомон, который выразил энтузиазм по поводу приобретения и его потенциального влияния на сообщество разработчиков.
forbes.com
✔️Рынок серверов для ИИ достигнет 187 миллиардов долларов в 2024 году.
Основными факторами роста являются растущий спрос со стороны крупных облачных провайдеров и улучшение производственных возможностей TSMC, SK hynix, Samsung и Micron. Их усилия помогли сократить дефицит и сократить сроки поставки для флагманского решения NVIDIA H100. Сейчас NVIDIA занимает почти 90% рынка серверов с GPU.
Ожидается, что поставки AI серверов вырастут на 41,5% в год в 2024 году и доля AI-серверов составит около 65% от общей стоимости серверного рынка.
geeky-gadgets.com
✔️Qwen2-Math занимает первое место по количеству математических моделей.
Alibaba Cloud объявила о том, что ее новая модель Qwen2-Math заняла первое место среди математических LLM. Qwen2-Math предназначен для решения сложных математических задач и обошел в проведенных тестах GPT-4o от OpenAI и Math-Gemini от Google.
Qwen2-Math-72B-Instruct набрал 84 % баллов в тесте MATH Benchmark, включающем 12 500 сложных математических задач, справился с контрольными заданиями по математике в начальной школе (96,7 %) и на уровне колледжа (47,8 %).
Qwen2-Math выпускается в нескольких наборах параметров - 0,5B, 1,5B, 7B, 14B и 72B.
venturebeat.com
✔️AMD выпустила ROCm 6.2; добавлена поддержка FP8 и расширены возможности обучения и инференса для ИИ.
Благодаря поддержке FP8, ROCm теперь может эффективно обрабатывать вычисления, потребляя меньше памяти и быстрее обучать модели.
В дополнение к поддержке FP8, ROCm 6.2 получил оптимизацию производительности, специально разработанную для рабочих нагрузок ИИ.
Обновление также расширяет поддержку более широкого спектра фреймворков машинного обучения, упрощая процесс интеграции и оптимизации моделей ИИ на платформе AMD.
community.amd.com
✔️Команда китайских ученых создала первый в мире чипсет для AI, работающий исключительно за счет энергии света.
Предыдущее поколение чипов Taichi-I в апреле 2024 года превзошло по энергоэффективности GPU H100 от Nvidia более чем в тысячу раз.
Taichi-II, чья модернизация является большим шагом для оптических вычислений, может стать ключевым фактором перехода из теоретической стадии в масштабные экспериментальные применения, а также удовлетворить растущий спрос на вычислительную мощность с низким энергопотреблением.
scmp.com
@ai_machinelearning_big_data
#news #ai #ml
#вакансия #remote #ml #cv #job
Lead Machine Learning Engineer (Computer Vision) в Gradient
от 1 000 000 ₽
Удаленная работа приветствуется!
Мы в Gradient ищем талантливого и опытного ML инженера для создания новых передовых технологий и улучшения текущих пайплайнов обработки фото и видео для приложений Gradient и Persona.
Gradient - мобильное приложение для редактирования фото и видео
- Самое скачиваемое приложение в мире за месяц в 2019, 2020 годах
- Best of 2019 среди приложений по версии Apple
Persona - передовой бьюти фото и видео редактор с инновационными технологиями обработки селфи
Совокупно наша аудитория составляет больше 100 миллионов пользователей
Ваши задачи
- Исследовать, разрабатывать и внедрять state-of-the-art технологии в области обработки изображений и видео
- Совершенствовать текущие технологии и пайплайны
- Следить за новейшими исследованиями и публикациями в ML и computer vision
- Оптимизировать модели для работы на сервере и мобильных устройствах
- Работать с большим объемом данных в датасетах, совершенствовать подходы по их получению и обработке
Требования
- Высшее образование в сфере computer science в ведущем технологическом вузе
- Опыт работы на senior позиции в топовых фото/видео редакторах, computer vision стартапах или бигтехе от 3 лет
- Глубокое понимание текущих SOTA подходов в computer vision и ML (GAN, diffusion, transformers и тд)
- Опыт деплоя production-ready моделей на большие аудитории
- Идеальное знание Python, Pytorch
- Знание основных инструментов и библиотек для обработки изображений и видео (OpenCV, Scikit-Image, FFmpeg и тд)
- Обладание отличным математическим бэкграундом - линейная алгебра, теория вероятностей, мат. анализ
Будет плюсом:
- У вас есть PhD или вы в процессе получения
- У вас есть опубликованные статьи или github-репозитории, в которых вы внесли вклад в развитие отрасли
- Участие в ведущих конференциях и семинарах по computer vision (CVPR, ICCV, ECCV)
Контакт: @axcher
⚡️Qwen выпустили Qwen2-Math, размером 1.5B, 7B и 72B, превосходящие GPT4o, Claude 3.5 на AIME 24/ AMC 23. 🔥
> 84 (72B), 75 (7B), 69,4 (1,5B) баллов на MATH
> > 72B SoTA на MMLU STEM
> Лицензия Apache 2.0 для версии 1.5B и 7B, 72B выпущена под лицензией Qianwen
> Основана на той же архитектуре, что и Qwen 2
> Интеграция с Transformers! 🤗
▪Hf
▪Github
▪Tech report
▪Scope
@ai_machinelearning_big_data
#opensource #Qwen #math
🖥 Полезные заметки по устранению неполадок в AMD MI300X и других подобных устройствах
https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md
А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md
@ai_machinelearning_big_data
#amd #NVIDIA #Troubleshooting
⚡️ Mini CPM-V: Семейство MLM для работы с изображениями и видео, в том числе на портативных устройствах.
MiniCPM-V новое семейство MLLM. Набор состоит из 3 моделей и их квантованных версий в int4 и GGUF:
MiniCPM-V 2.6: самая производительная модель в серии MiniCPM-V, построена на основе SigLip-400M и Qwen2-7B и имеет 8 миллиардов параметров.
Эта модель улучшена новыми возможностями для понимания нескольких изображений и видео и поддерживает работу в режиме реального времени на сторонних устройствах, таких как iPad.
🟠MiniCPM-V 2.6 (16.2 Gb)
🟠MiniCPM-V 2.6 Int4 (5.95GB)
🟠MiniCPM-V 2.6 GGUFs в 4-bit (4.68GB) и 16-bit (15.2GB)
MiniCPM-Llama3-V-2_5: построена на основе SigLip-400M и Llama3-8B-Instruct и имеет 8 миллиардов параметров.
Модель ориентирована на задачи OCR, производительность, надежность и поддерживает 30 языков. Она способна работать на устройствах с ограниченными ресурсами, например, на смартфоне.
🟠MiniCPM-Llama3-V 2.5 (~17GB)
🟠MiniCPM-Llama3-V 2.5 Int4 (6.16GB)
🟠MiniCPM-Llama3-V 2.5 GGUF от 2-bit до 16-bit (от 3.18Gb до 16.1 соответственно)
MiniCPM-V 2: самая легкая модель в серии MiniCPM-V с 2 миллиардами параметров. Она обрабатывает изображения с любым соотношением сторон и разрешением до 1,8 Mpx, например, 1344x1344.
🟠MiniCPM-V 2
▶️Локальный запуск c GradioUI:
# Clone this repository and navigate to the source folder:
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V
# Create conda environment:
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V
#Install dependencies.
pip install -r requirements.txt
## For NVIDIA GPUs, run::
python web_demo_2.6.py --device cuda
Новостной дайджест
✔️AWS разработала AI-ассистента Amazon Q.
Amazon Q умеет: генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com
✔️Сети Колмогорова-Арнольда могут навести физиков на новые гипотезы.
Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org
✔️ИИ-модель Profluent приблизилась к точному и управляемому проектированию белков.
Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com
✔️NEO Semiconductor объявляет о разработке чипа 3D X-AI: замена HBM и решение проблемы узких мест в шине данных.
Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com
✔️MIT опубликовал "Руководство по разработке стратегии AI для предприятий".
Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 MM-Vet v2: Бенчмарк LMM на встроенные возможности.
MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.
Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.
📌Лицензирование : Apache-2.0 license
🟡Arxiv
🟡Dataset MM-Vet v2
🟡Demo на HF
🖥Github [ Stars: 218 | Issues: 0 | Forks: 10]
@ai_machinelearning_big_data
#AI #Benchmark #LMM #MMVetV2
⚡️ InternVideo2: две VLM для аннотирования и QA видео.
OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:
🟢InternVideo2-Chat-8B
🟢InternVideo2-Chat-8B-HD
InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.
Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.
На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.
Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.
Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.
📌Лицензирование : MIT license
🟡Модель Chat-8B
🟡Модель Chat8B-HD
🟡Arxiv
🟡Demo Video
🖥Github [ Stars: 1.2K | Issues: 65 | Forks: 76]
@ai_machinelearning_big_data
#AI #VLM #ML #VideoQA #Video2Text
⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1
Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_typegit clone https://github.com/meta-llama/llama-models.git
▪ Github
@ai_machinelearning_big_data
#llama #Кarpathy #nanoGPT
🌟EMO-Disentanger: Создание фортепианной музыки с помощью двухэтапного анализа и функционального представления c заданным эмоциональным тоном.
Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.
Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.
Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.
Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.
▶️Для локального запуска потребуются:
🟢python 3.8 + CUDA 10.2;
🟢pytorch fast-transformers или transformers, в зависимости от установленной версии CUDA;
🟢midi2audio для конвертации сгенерированного MIDI в audio (опционально);
🟢предварительно загруженные events и веса.
📌Лицензирование : MIT license
🟡Страница проекта
🟡Модели
🟡Arxiv
🖥Github [ Stars: 12 | Issues: 0 | Forks: 1]
@ai_machinelearning_big_data
#AI #Music #ML
🌟 Lynx v1.1: Модели c 8B и 70B параметрами для обнаружения галлюцинаций RAG.
LYNX - первая модель обнаружения галлюцинаций с открытым исходным кодом. Она представляет собой результат тонкой настройки Llama-3-70B-Instruct на комплексном датасете из разных областей, включая финансы и медицину, с акцентом на сложные сценарии реальных запросов и инференса.
Данные обучения включают примеры из RAGTruth, DROP, CovidQA и PubMedQA, с 300 образцами на источник, предварительно прошедшими perturbed-обработку для создания "галлюцинирующих" ответов.
Процесс обучения использовал цепочку мышления с GPT-4о для улучшения возможностей рассуждения.
Были обучены два варианта моделей: Lynx 70B и Lynx 8B.
Для использования в Ollama, llama.cpp и LM Studio были созданы квантированные 4-bit GGUF версии моделей Lynx 8B и 70B соответственно.
Чтобы облегчить оценку работы модели, разработчики предлагают HaluBench, бенчмарк галлюцинаций, содержащий 15 000 маркерных образцов, полученных из датасетов: DROP, FinanceBench, COVID-QA, PubMedQA, HaluEval и RAGTruth.
Для моделирования галлюцинации, HaluBench использует технику perturbed, при которой генерируются семантически измененные ответы, сохраняя минимальные отличия от первоначального ответа. Этот метод выполняет генерацию сложных примеров, которые могут быть неправильно истолкованы как верные, несмотря на несоответствия контексту.
⚠️ Lynx фокусируется исключительно на оценке внутренней галлюцинации, которая оценивает согласованность сгенерированного текста с предоставленным контекстом. Оценка внешних факторов галлюцинаций выходит за рамки функционала модели.
Lynx может быть запущен несколькими способами: с помощью Ollama, llama.cpp, LM Studio, в виде локального инференса или как интеграция с NVIDIA NeMo-Guardrails:
🟢инструкцию по запуску для llama.cpp можно найти на странице GGUF версии модели на HF;
🟢инструкция по запуску для Ollama - на странице проекта;
🟢инструкция по интеграции с NVIDIA NeMo-Guardrails в репозитории NeMo-Guardrails.
▶️Локальный запуск (инференс и тренировка):
# Install local environment:
python -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install poetry==1.8.1
poetry update
poetry install
# Install pre-commit in your teminal and run:
pre-commit install
#Copy .env.example to .env and replace values for environmental variables.
#Установки Inference и Finetuning на mcli и vLLM описаны в файлах:
# mcli/mcli_finetuning.md
# mcli/mcli_inference.md
# mcli/vllm_inference.md
⚡️ FLUX: SOTA Text-to-image модели от BlackForest.
Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.
Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:
🟠FLUX.1 pro. Старшая и лучшая модель в семействе, доступная только по подписке через API и на онлайн-сервисах Replicate и FalAI. Подписка доступна частным лицам и корпоративным пользователям. Стоимость подписки - 0.05USD за изображение 1024х1024 при 50 шагах генерации;
🟢FLUX.1 dev. Открытая модель для некоммерческого использования. Оптимизирована методом дистилляции из версии FLUX.1 pro, что сделало ее менее требовательной к потреблению VRAM, повысило скорость инференса при незначительной деградации качества и точности. Веса модели доступны на Huggingface. Для коммерческой эксплуатации нужно запрашивать лицензию у разработчика.
🟢FLUX.1 schnell. Младшая и самая быстрая модель, предназначенная для локальной разработки и личного использования. Версия schnell распространяется под лицензией Apache2.0 и опубликована в открытом доступе на Huugingface.
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.
Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.
Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:
# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'
# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>
# For cli interactive sampling run
python -m flux --name <name> --loop
# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"
# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py
⚡️ Новостной дайджест
✔️Thermometer: метод, не позволяющий модели искусственного интеллекта быть слишком уверенной в неправильных ответах.
Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu
✔️OpenAI анонсировала альфа-тестирование экспериментальной модели GPT-4o Long Output.
OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com
✔️GenSQL: Использование LLM для структурированных данных.
GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com
✔️AMD становится AI Chip компанией.
Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com
✔️StreamTinyNet: анализ многокадрового видео на устройствах Arduino-формата
StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io
✔️Полностью автоматизированный робот-стоматолог впервые в мире провел процедуру на человеке.
Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 InstantSplat: реконструкция больших 3D-сцен без Structure from Motion (SfM).
InstantSplat - подход к реконструкции 3D-сцены по исходным изображениям с помощью Multi-View Stereo (MVS) и 3D Gaussian Splatting (3D-GS).
Методика InstantSplat использует выборку из самых дальних точек (FPS) в каждом вокселе, чтобы сохранить только самые надежные гауссианы для построения точного представления сцены.
Одновременное уточнение гауссовых атрибутов и параметров камеры с помощью фотометрических потерь позволяет добиться высокого качества рендеринга и точной оценки положения камеры без использования Adaptive Density Control (ADC). Для решения проблемы overparameterization, присущей 3D-GS, InstantSplat применяет confidence-aware point downsampler.
Алгоритм оптимизации в InstantSplat позволяет исправлять ошибки, накопленные на этапе MVS, в результате чего получается относительно точная и плотная 3D-модель.
По сравнению с релевантными современными методами (Nope-NeRF и CF-3DGS), InstantSplat предлагает более высокое качество рендеринга, более высокую точность оценки положения камеры при низких значениях Absolute Trajectory Error (ATE) и Relative Pose Error (RPE), при этом требует меньшего количества обучающих просмотров.
▶️Локальный запуск с автозагрузкой модели на тестовом подготовленном датасете (около 8Gb) :
# Clone InstantSplat and download pre-trained model
git clone --recursive https://github.com/NVlabs/InstantSplat.git
cd InstantSplat
git submodule update --init --recursive
cd submodules/dust3r/
mkdir -p checkpoints/
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth -P checkpoints/
# Install dependencies (modify CUDA version dep. of your system)
pip install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install submodules/simple-knn
pip install submodules/diff-gaussian-rasterization
# modify the rasterizer
vim submodules/diff-gaussian-rasterization/cuda_rasterizer/auxiliary.h
'p_view.z <= 0.2f' -> 'p_view.z <= 0.001f' # line 154
# Optional but highly suggested, compile the cuda kernels for RoPE
cd submodules/dust3r/croco/models/curope/
python setup.py build_ext --inplace
# Data preparation OR download test pre-processed sample.
cd <data_path>
# InstantSplat train and output video (no GT reference, render by interpolation)
bash scripts/run_train_infer.sh
# InstantSplat train and evaluate (with GT reference)
bash scripts/run_train_eval.sh
Соберём ансамбль — вместе веселее!
Приглашаем на открытый урок, где вы узнаете как усилить свои модели объединяя их сильные стороны.
🔹Расскажем в чем заключается "сила толпы" и когда оправдано ее использование
🔹Покажем методы объединения моделей в ансамбли, которые помогут добиться лучших результатов без существенного усложнения моделей
✅ Практика: Вместе построим ансамбль моделей для задачи классификации.
Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.
👉 Регистрация и подробности:
https://otus.pw/crz4/?erid=LjN8K8M8T