🌟 SEED-Story: Мультимодальная генерация иллюстрированных историй.
SEED-Story - это инструмент на базе проекта SEED-Х для создания истории из изображений и текстов в заранее определенном стиле. Такая история может содержать до 25 эпизодов.
Методика, используемая в SEED-Story основана на комбинации из предварительно обученных моделей, которые помогают создавать реалистичные изображения и текст, специальной адаптации, чтобы обеспечивать согласованность персонажей и стилей в изображениях и мультимодальном механизме внимания, для сохранения важных деталей текста и изображений.
SEED-Story обучалась на специальном детализированном датасете StoryStream, который основан на нескольких мультипликационных сериалах.
⚠️ Для использования SEED-Story потребуется 40GB VRAM (с учетом возможности самостоятельной тренировки) м набор дополнительных моделей:
🟢SDXL Base 1.0
🟢QwenVL-Chat
⚠️ GradioUI к SEED-Story находится в разработке, и, по словам разработчиков будет представлен в ближайшее время (сроки не сообщаются).
⚖️ Лицензирование кода: Apache-2.0 license
🟡 Модель на HF
🟡 Demo Video
🟡 Arxiv
🖥 Github [Stars: 382 | Issues: 9 | Forks: 24]
@ai_machinelearning_big_data
#MLLM #VisualStorytelling #ML
🌟 Simplicits: революционный подход к симуляции эластичности 3D объектов, независимый от сетки и геометрии.
Существующие инструменты для симуляции эластичных объектов часто ограничены в использовании и могут работать только с определенными типами 3D-моделей. Это создает трудности при моделировании деформации объектов разной геометрии и упругости.
Проект Simplicits предлагает сделать 3D-моделирование еще проще и универсальнее. Его главная особенность в том, что он может работать с любыми типами 3D-геометрии, выполняя моделирование изменяющихся во времени эластодинамических свойств объектов.
На вход подается 3D-модель в состоянии покоя, а на выходе получается набор данных, описывающих, как эта модель будет двигаться и деформироваться.
Метод, заложенный в Simplicits использует "функцию занятости" - математическое описание того, какие точки находятся внутри 3D-объекта, а какие снаружи. Такую функцию можно построить практически для любой 3D-модели.
Далее Simplicits применяет алгоритм линейного смешивания скиннинга (LBS). Это позволяет описать, как будет деформироваться поверхность объекта при движении. Важно, что все вычисления производятся без использования сетки из треугольников, как, например, в традиционных методах симуляции.
Вместо этого применяются спрогнозированные на основе карт деформации нейронные поля, обрабатывающие веса скиннинга для симуляции динамического движения, что делает процесс более гибким и управляемым.
Разработчики провели множество тестов Simplicits на самых разных 3D-объектах - от простых лент до сложных сцен с использованием Gaussian Splatting и NeRFs. Результаты показали, что система успешно справляется даже с объемными деформациями и множеством видов контакта поверхностей при движении, например - столкновениями объектов.
Simplicits - это важный шаг вперед в области 3D-моделирования. Он делает создание реалистичных трехмерных анимаций более доступным как для профессионалов, так и для начинающих пользователей, что предоставляет новые горизонты в таких сферах, как компьютерная графика, виртуальная реальность и компьютерные игры.
🟡 Страница проекта
🟡 Статья
🟡 Demo Видео
@ai_machinelearning_big_data
#Paper #3D #Simulation #ML
💫 Яндекс устраивает технологический Код-хоппинг 8 августа!
Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка!
✉️ Заполняйте форму и регистрируйтесь уже сейчас! А если хотите рассказать о проекте или увлечении, приложите к форме тему и тезисы.
До встречи на Код-хоппинге! 🎉
🌟 RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени.
RTMW (набор моделей оценки позы всего тела нескольких человек в реальном времени), - это серия моделей, предназначенных для решения тонкостей оценки позы всего тела.
RTMW основан на исследованиях RTMPose и включает в себя новые методы обработки информации о позе и различных частей тела.
Для решения ключевой проблемы оценки локальных областей низкого разрешения (например, стопы, кисти рук) были применены техники:
- PAFPN - пирамидальная сеть функций частичного агрегирования;
- HEM - модуль иерархического кодирования для повышения разрешения локальных участков;
- FPN - метод, улучшающий разрешение отдельных объектов за счет агрегирования функций с разных уровней сетевой пирамиды.
Таким образом, архитектура моделей RTMW состоит из принципов RTMPose и объединяет модули PAFPN и HEM и FPN. Одновременное использование этих модулей значительно повышает точность оценки позы всего тела.
Для оценки 3D позы всего тела была разработана модель RTMW3D, которая использует прогнозирование оси Z для головы декодера и устанавливает новую корневую точку для человеческого скелета.
Применение техники смещения оси упрощает процесс обучения модели и позволяет применять ее в задачах, связанных с высокой интенсивностью динамики объекта оценки, например, спортивное состязательное видео.
RTMW и RTMW3D тестировались на общедоступных наборах данных (COCO-WholeBody и H3WB) и показали хорошие результаты производительности и точности, в том числе в задаче оценки 3D поз всего тела.
🟢Модели RTMW c описанием различий, вариантами форматов и прямой загрузкой на странице проекта rtmpose
🟢Модели RTMW3D на странице проекта rtmpose3d
⚠️ Внимательно ознакомьтесь с материалами общего репозитория mmpose в ветках соответствующих проектов и документацией перед началом использования.
⚖️ Лицензирование: Apache-2.0 license
🟡Arxiv
🖥Open-Mmlab [Stars: 5.3K | Issues: 189 | Forks:1.2K ]
@ai_machinelearning_big_data
#3D #Posetracking #ML #MMPose
🌟 BigVGAN — универсальный нейросетевой вокодер от NVIDIA
Прежде всего, вокодер — это метод синтеза речи, основанный на знании механизмов ее образования и восприятия; с помощью вокодера, например, можно сжимать запись речи в 2-3 раза с сохранением разборчивости.
Несмотря на недавний прогресс в области вокодеров на основе GAN, в которых модель генерирует нужную форму волны на основе акустических особенностей, синтезировать звук высокой точности для разных дикторов в различных условиях записи всё ещё сложно.
Чтобы это исправить, NVIDIA на днях опубликовала BigVGAN, универсальный вокодер, который из коробки подходит для использования в различных сценариях.
Весь сопутствующий код выложен на GitHub под MIT лицензией
🖥 GitHub
🟡 Пример полученных аудио
🟡 Arxiv
@ai_machinelearning_big_data
🔥Дайджест новостей
🔷 Исследовательская группа из Microsoft и МiT предложила новую парадигму «Аксиоматического обучения», позволяющую трансформер-моделям с 67 миллионами параметров достигать возможностей вывода, сравнимых с GPT-4.
Исследование включает в себя создание набора данных на основе причинно-следственных моделей и непосредственное обучение LLM изучению аксиом, а не полагаться на большие объемы данных.
В ходе практического эксперимента обучили модель Transformer всего с 67 миллионами параметров, используя простые причинно-следственные цепочки в качестве обучающих данных. По результатам проведенных оценок, эта модель превзошла более крупные языковые модели в выводе сложных причинно-следственных связей, соперничая с GPT-4. Arxiv.org
👀 Вышел релиз Supervision-0.22.0 от Roboflow с инструментом визуализации ключевых точек лица и тела и поддержкой Florence 2.
Новая версия Supervision интегрирует Mediapipe (поддерживаются как устаревшие, так и современные конвейеры), предоставляя разработчикам более удобный инструмент для визуализации и анализа данных ключевых точек лица и тела.
Добавлена поддержка результатов анализа модели Florence 2. Сюда входит детальное обнаружение объектов, распознавание текста с предложениями регионов, сегментация и многое другое. Supervision changelog
🔍 Superposition Prompting: улучшение и ускорение поиска RAG
Superposition Prompting - это новая методология, которая устраняет ограничения LLM при работе с длинными контекстами. Она позволяет LLM обрабатывать несколько входных документов параллельно, отбрасывая ненужные пути, что приводит к повышению эффективности и точности.
Метод совместим с предварительно обученными LLM и повышает производительность в различных тестах ответов на вопросы.
Superposition Prompting сокращает время вычислений в 93 раза и одновременно повышают точность на 43% в наборе данных NaturalQuestions-Open с использованием модели MPT-7B, настроенной с помощью инструкций, по сравнению с традиционным RAG. Apple Machine Learning Research
@ai_machinelearning_big_data
#digest #news #ai
🌟 AuraFlow v0.1 — релиз новой open-source большой генеративной модели с собственной архитектурой.
Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)
Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.
В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.
При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.
⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)
Рекомендации по построению промптов от разработчиков:
- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.
🌟 DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео.
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео. В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
В репозитории на Github представлен код для локальной тренировки с использованием датасетов:
- D-NeRF
- DG-Mesh
- NeuralActor
- Кастомный датасет, снятый на Iphone 14 Pro и обработанный в Record3D, RealityCheck и маскированный в DEVA.
🖥 Локальный запуск:
conda create -n dg-mesh python=3.9
conda activate dg-mesh
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
# Install nvdiffrast
pip install git+https://github.com/NVlabs/tiny-cuda-nn#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast/
# Install pytorch3d
export FORCE_CUDA=1
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
# Clone this repository
git clone https://github.com/Isabella98Liu/DG-Mesh.git
cd DG-Mesh
# Install submodules
pip install dgmesh/submodules/diff-gaussian-rasterization
pip install dgmesh/submodules/simple-knn
# Install other dependencies
pip install -r requirements.txt
🌟 MiraData: крупный датасет видеоданных с большой продолжительностью и структурированными аннотациями.
При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).
Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.
🟡Страница проекта
🟡Arxiv
🤗 Hugging Face
🖥 GitHub [ Stars: 241 | Issues: 4 | Forks: 7 ]
@ai_machinelearning_big_data
#Text2Video #Dataset #ML
Дайджест новостей
🎦 Odyssey создает визуальный ИИ «голливудского уровня»
Стартап в области ИИ нацелен на то, чтобы предоставить пользователям полный, тонко настроенный контроль над каждым элементом в их сценах — вплоть до низкоуровневых материалов, освещения, движения и многого другого. Odyssey обучает четыре мощные генеративные модели, чтобы реализовать свои возможности.
Создатели Odyssey утверждают, что эта технология — то, что придет после парадигмы "text2video". Odyssey
🧠 Высокоточная реконструкция части человеческого мозга выполнена в Google
Исследователи из Google завершили крупнейшую в истории цифровую реконструкцию человеческого мозга с помощью искусственного интеллекта. Они представили самую подробную карту человеческого мозга размером всего в 1 кубический миллиметр мозговой ткани, но с высоким разрешением, чтобы показать отдельные нейроны и их связи. Google
🏭 Aitomatic запускает первую собственную LLM с открытым исходным кодом - "SemiKong", разработанную специально для полупроводниковой промышленности.
SemiKong разработан для вывода на новый уровень производства полупроводниковых процессов и технологий, с целью произвести революцию в отрасли стоимостью 500 миллиардов долларов. По предварительным оценкам, SemiKong превосходит стандартные LLM в решении отраслевых задач, демонстрируя улучшения в точности и понимании процессов.
Планируется выпуск следующей версии модели в декабре 2024 года и специализированных моделей для конкретных технологических процессов в сентябре 2024 года.
Модели 8B и 70B уже доступны для загрузки на Huggingface. Попробовать SimiKong можно в он-лайн демо.
Semikong.ai
🔥 Выпущен Flash Attention 3 ,который был оптимизирован под H100 и H800.
🖼 В Stable Assistant добавили новые функции и расширены возможности существующих.
Stable AI добавила в свой ассистент 2 новые функции:
- поиск и замену для редактирования изображений;
- музыкальные треки до трех минут в Stable Audio.
Улучшения коснулись инструментов редактирования изображений - добавили возможность сохранения входного изображения, набор промптов для стилевых эффектов, реставрацию изображений низкого качества, улучшен апскейл.
Помимо этого, добавлен функционал text2video, sketch2image и удаление фона. Stability AI
🟥 AMD приобретает крупнейшую в Европе частную лабораторию искусственного интеллекта Silo AI за 665 миллионов долларов.
Сделка ожидается к завершению во второй половине 2024 года. Цели приобретения - ускорение разработки ИИ, расширение ПО с открытым исходным кодом и создание многоязычных моделей LLM на платформах AMD.
Silo AI - это команда ученых и инженеров мирового класса, выполняющие проекты по заказу Allianz и Unilever. AMD
🟩 NVIDIA представила RankRAG - новый фреймворк RAG, который настраивает одну LLM для выполнения двух задач: ранжирования по контексту Top-k и генерации ответов в RAG.
RankRAG использует двухэтапный конвейер извлечения-повторного ранжирования-генерации для улучшения оценки релевантности и генерации ответов. Улучшения особенно заметны в сложных наборах данных, таких как PopQA и 2WikimQA.
По бенчмаркам, проведенным в ходе исследования, RankRAG превосходит ChatQA-1.5 и конкурирует с более крупными моделями в задачах генерации данных с расширенным поиском. Код и веса не опубликованы. Marktechpost.com
🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.
Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com
#digest #news #ai
@ai_machinelearning_big_data
🌟 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств.
К презентации на ICML 2024, MetaResearch опубликовали обновленную версию исследования об методах оптимизации LLM с малым количеством параметров для мобильных устройств и представил код для обучения и оценки эффективности таких LLM.
Основная цель проекта - создание компактных и производительных языковых моделей с менее чем миллиардом параметров, способных работать на ресурсно-ограниченных устройствах.
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера. Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
Несмотря на хорошие результаты, MobileLLM все еще уступает по возможностям крупным языковым моделям. Из-за кратно меньшего размера модели, контекст у моделей MobileLLM значительно меньше, чем у классических LLM.
Экспериментальная модель MobileLLM от Meta Research еще не опубликована, она проходит юридический аудит и будет представлена позже.
🖥 Локальный трейн и оценка эффективности:
git clone https://github.com/facebookresearch/MobileLLM.git
pip install -r requirements.txt
python pretrain.py --config configs/125m.json # Конфиг для предобучения
python evaluation/evaluate_zero_shot.py --model_path /path/to/your/model # оценка модели на различных задачах (используйте скрипты в из /evaluation/ )
🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
Этот проект - первая попытка обучения модели и на наборах данных (SA-1B) и на данных по сегментации фрагментов изображений (SAM).
Бенчмарки проведенные в ходе исследования демонстрируют, что такое обучение положительно сказывается на точности Semantic-SAM.
🟡 Arxiv
🖥 Github [ Stars: 2,1K | Issues: 65 | Forks: 104 ]
🟡 Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@ai_machinelearning_big_data
#ML #SAM #Segmentation #Recognition
One Day Offer для Центра робототехники 🤖
13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer.
Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы.
Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения.
В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet.
Какие задачи будут в вашем планере 👇
▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы
Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉
Появляется новый тип баз данных — делаем обзор! Дата-инженер из финтех-компании Точка Николай Мозганов расскажет, как пользоваться векторными базами данных для ML-задач. Если коротко: теперь в вектор можно превратить слова, предложения и даже звуки.
Читайте статью и задавайте вопросы в комментариях!
🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению.
Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.
Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.
Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.
Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)
Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.
Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.
Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py
Дайждест новостей:
📱 YouTube Music тестирует радио, созданное ИИ и запустит звуковой поиск
YouTube Music представляет две новые функции, которые помогут пользователям находить новую музыку.
Функция «разговорного радио», созданная ИИ, которая поможет пользователям создавать собственные радиостанции, описывая тип музыки, которую они хотят слушать. Эта функция уже доступна некоторым пользователям с подпиской Premium в США.
Новая функция распознавания песен, которая дает возможность пользователям искать в каталоге приложения, напевая или проигрывая части песни.
Эта функция доступна всем пользователям YouTube Music на iOS и Android. Techcrunch.com
💠 Google тестирует сервис создания видеопрезентаций, где помощником выступает Gemini
Google запустил новое приложение Vids, которое использует Gemini AI для автоматического создания видеоконтента, сценариев и озвучки на основе вводимых пользователем данных. Это позволяет каждому создавать профессионально выглядящие видеопрезентации без особых навыков редактирования.Theverge.com
🖥 Microsoft представила AI для электронных таблиц
Исследователи Microsoft опубликовали новое исследование, представляющее SpreadsheetLLM и SheetCompressor.
Это новые платформы, разработанные, чтобы помочь специалистам по LLM лучше понимать и обрабатывать информацию в электронных таблицах.
SpreadsheetLLM может обрабатывать как структурированные, так и неструктурированные данные в таблицах, включая несколько таблиц одновременно с различными форматами данных.
SheetCompressor — это платформа, которая сжимает электронные таблицы для сокращения количества токенов до 25 раз при сохранении важной информации.
Используя электронные таблицы в качестве «источника знаний », SpreadsheetLLM может значительно уменьшить галлюцинации ИИ, повысив надежность выдачи языковых моделей. Arxiv.org
🖥 Запустилась бета-версия LlamaCloud, сервиса Llamaindex.ai, предназначенного для улучшения рабочих процессов RAG.
LlamaCloud призван помочь разработчикам тратить меньше времени на настройку конвейеров обработки данных, позволяя им быстрее итерировать над разработкой приложений на основе LLM.
Возможности LlamaCloud:
- LlamaParse: продвинутый инструмент анализа документов, поддерживающий множество форматов;
- Управляемая загрузка данных: простое подключение к источникам данных и системам хранения
- Продвинутый поиск: семантический поиск, переранжирование, фильтрация по метаданным;
- Интерактивная платформа для тестирования и настройки стратегий загрузки и поиска
- Масштабируемость и безопасность для промышленных нагрузок.
llamaindex.ai
ℹ️ Исследователи из MIT и лаборатории Watson MIT-IBM представили методику оценки надежности базовых моделей перед их развертыванием.
Эта методика включает обучение ансамбля немного отличающихся базовых моделей и использование алгоритма для оценки согласованности представлений, которые каждая модель изучает на основе одной и той же точки тестовых данных.
Методику можно использовать для принятия решения о том, следует ли применять модель в определенных условиях без необходимости проведения реальных испытаний, что особенно полезно в сценариях, где наборы данных недоступны из-за проблем с конфиденциальностью. News.mit.edu
@ai_machinelearning_big_data
#news #digest
⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM
FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:
🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;
🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.
Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.
В репозитории выложены Instruct FP8 версии моделей:
🟢Llama-3 (8B,70B);
🟢Mixtral (7B, 22B);
🟢Qwen2 (1,5B, 7b, 72B);
🟢Mistral 7B
🟢Llama-2 7B
🟢Phi-3 (mini-128K, medium-128K)
🟢Gemma-2 9b-it
⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:
🟢nm-vllm: форк vLLM от сервиса Neuralmagic.com;
🟢DeepSparse: среда выполнения для CPU-only систем;
🟢SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат.
vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта
🌟 Дайджест новостей
👨🏻💻 Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.
Команда MetaFAIR разработала метод "System 2 distillation", позволяющий обучать языковые модели решению сложных задач без промежуточных шагов. Этот подход улучшает способности ИИ к рассуждению и планированию, сохраняя при этом скорость и эффективность. Результаты показывают значительное повышение производительности моделей на сложных задачах, сравнимое или превосходящее точность исходных методов System 2, но с меньшими вычислительными затратами. Venturebeat.com
💪 Разарботчики LLamы готовится представить самую мощную на сегодняшний день модель Llama-3 23 июля
Модель будет флагманской в линейке Llama-3: 405 миллиардов параметров.
Ожидается, что новая модель превзойдет GPT-4 по производительности и будет обладать мультимодальными возможностями, включая обработку текста и изображений. Llama-3 разрабатывается с использованием конституционного ИИ для повышения безопасности и этичности. Theinformation.com
🖥 Microsoft анонсировала систему RUBICON, которая оценивает качество общения между людьми и системами искусственного интеллекта, улучшая взаимодействие в конкретных областях, таких как разработка программного обеспечения.
RUBICON - специально разработанная система для обсуждения конкретных предметных областей в средах разработки программного обеспечения. Она устраняет ограничения существующих механизмов обратной связи и направлен на то, чтобы обновления ИИ-помощников существенно улучшали взаимодействие с пользователем.
Структура системы основана на SPUR, а новый алгоритм выбора определяет высококачественные рубрики, повышая точность прогнозирования в практических приложениях. Microsoft.com
📱NEXA AI разработала Octoplanner, высокоэффективную среду оптимизации агентов искусственного интеллекта для периферийных устройств.
Структура платформы Octoplanner разделяет планирование и выполнение действий, применяя методы точной настройки модели, в частности методы LoRA и Multi-LoRA, чтобы значительно снизить вычислительные затраты и потребление энергии. Octoplanner имеет модульная конструкцию, что делает ее подходящим для периферийных устройств с ограниченными ресурсами. такими как мобильные телефоны. Nexa4ai.com
🚥 Исследователи из Института науки о свете (MPISL, Эрланген, Германия) предложили новый оптический подход к созданию более эффективных нейронных сетей.
Метод позволяет реализовать нейронную сеть с помощью оптической системы, что может сделать машинное обучение более энергоэффективным и экономичным . Ключевая особенность подхода заключается в том, что входной сигнал изменяет передачу света, а не просто накладывается на световое поле. Это позволяет избежать сложных физических взаимодействий и высоких мощностей лазера, необходимых для реализации математических функций.
Авторы предполагают, что их подход может использоваться для классификации изображений с той же точностью, что и цифровые нейронные сети. Заявленный метод значительно упрощает экспериментальные требования и может быть применен к различным физическим системам, открывая новые возможности для нейроморфных устройств. Optics.org
@ai_machinelearning_big_data
#news #digest
🌟 WizardLM-2 8x22B — большая производительная модель семейства WizardLM второго поколения.
WizardLM-2 - набор моделей от Microsoft AI, построенный на базе Mixtral с улучшенной по сравнению с первым поколением производительностью, расширенными возможности и более глубоким пониманием сложных задач.
WizardLM-2 8x22B: флагманская модель.
Благодаря сочетанию экспертной архитектуры (MoE) и 141 миллиарду параметров модель показывает конкурентную производительность в сравнении с лидирующими проприетарными аналогами.
По оценкам бенчмарка MT-Bench 8x22B превосходит существующие современные модели с открытым исходным кодом.
⚠️ Внимание! Модель имеет размер около 300Gb
WizardLM-2 использует формат системных промптов Vicuna и поддерживает композитные диалоги.
Пример системного промпта:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful,
detailed, and polite answers to the user's questions.
USER: Hi ASSISTANT: Hello.</s>
USER: Who are you?
ASSISTANT: I am WizardLM.</s>
5 причин, по которым ВСК, Альфа Капитал, УРАЛХИМ и Инвитро выбирают Loginom для анализа данных 🔽
Loginom – платформа, позволяющая бизнес-экспертам самостоятельно, без программирования, выполнять все работы по интеграции, очистке и подготовке данных. Она приходит на помощь, когда аналитики используют несколько источников информации: файлы, БД, web-сервисы, 1С и т. д.
🕯Интуитивный интерфейс: легко создавайте сложные процессы ETL благодаря графическому конструктору и интуитивно понятному пользовательскому интерфейсу в стиле low-code.
💥Мощная трансформация данных: независимо от сложности задачи, Loginom предлагает широкий спектр инструментов для эффективной обработки информации — связывание, очистка и предобработка данных, трансформация, обогащение данных и загрузка результатов в приемники.
🔗Безопасность: данные защищены благодаря возможностям контроля доступа и шифрования.
💯Эффективность: не теряйте время на рутинные процессы обработки данных — доверьте это дело Loginom и сосредоточьтесь на анализе результатов и более интересных стратегических задачах.
📊Гибкость и масштабируемость: масштабируйте решения в соответствии с потребностями, независимо от того, работаете ли вы с небольшими данными или огромными массивами информации.
Если вы ищете современный и удобный ETL-инструмент, то Loginom — ваш идеальный выбор! Узнать подробнее о продукте можно по ссылке ☄️
🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).
⚖️ Лицензирование: Apache-2.0
🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
🌟 Aim : Простой и удобный open-source трекер для отслеживания ML-экспериментов.
Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей , а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.
Ключевые преимущества Aim:
🟢Каждый процесс training run изолирован в плане данных и не требует дополнительных сервисов для запуска;
🟢Aim предоставляет способ запускать несколько параллельных экспериментов в распределенной многохостовой среде.
🟢Встроенный язык запросов позволяет пользователям выбирать, группировать и фильтровать отслеживаемые данные
🟢Aim имеет встроенные конвертеры для легкой миграции журналов из других инструментов и интегрируется с широким спектром фреймворков машинного обучения.
Трекер активно поддерживается разработчиками, имеет хорошо структурированную документацию и большое сообщество пользователей на разных социальных платформах.
🖥 Локальный запуск:
# Установка Aim
pip install aim
# Интегрируйте Aim со своим кодом, инициализировав новый прогон и регистрируя параметры, метрики и другие отслеживаемые объекты.
# Запустите свою тренировку как обычно и запустите интерфейс Aim
aim up
Дайджест новостей
⚛️ Google DeepMind представила новый подход под названием Parameter Efficient Expert Retrieval (PEER), который решает проблемы масштабирования трансформерных моделей.
PEER использует технику продуктовых ключей для эффективного извлечения информации из более чем миллиона крошечных экспертов. Он улучшает гранулярность моделей Mixture-of-Experts (MoE), что приводит к лучшему соотношению производительности и вычислительных затрат.
В экспериментах на различных наборах данных модели PEER достигли более низких показателей перплексии по сравнению с плотными и MoE моделями.
При бюджете FLOP 2e19 модели PEER достигли перплексии 16.34 на наборе данных C4, что ниже, чем 17.70 для плотных моделей и 16.88 для MoE моделей. Marktechpost.com
🤞OpenAI представила пятиуровневую дорожную карту AGI.
Уровни варьируются от чат-ботов, специалистов по рассуждению и агентов до новаторов и систем, которые могут выполнять работу целых организаций.
На сегодняшний день OpenAI близка к уровню 2 - ИИ, способному решать задачи на уровне человека с PhD. Компания планирует достичь этого в ближайшие 1,5 года с помощью улучшений семейства GPT. The-Decoder.com
🤝 Cтартап SmarterLicense помогает создателям отслеживать и лицензировать работы, используемые ИИ.
SmarterLicense представила платформу для лицензирования контента в эпоху ИИ. Ключевые особенности: глобальный охват, разнообразие активов, ИИ-подбор, блокчейн, гибкие условия.
Платформа упрощает лицензирование, делая его доступнее для бизнеса и частных лиц. Цель - ускорить инновации и сотрудничество в различных отраслях, революционизируя сферу лицензирования ИС. Businesswire.com
@ai_machinelearning_big_data
#news #digest
🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео.
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥 Локальный запуск инференса без UI (с Videocrafterv2)
git clone https
:
//
github
.
com
/
Adamdad
/
vico
.
git
pip install diffusers
==
0.26.3
git lfs install
git clone https
:
//
huggingface
.
co
/
adamdad
/
videocrafterv2_diffusers
export PYTHONPATH
=
"$PWD"
python videocrafterv2_vico
.
py \
--
prompts XXX \
--
unet_path $PATH_TO_VIDEOCRAFTERV2 \
--
attribution_mode
"latent_attention_flow_st_soft"
🌟 Mamba Vision: Эффективная альтернатива трансформерам для компьютерного зрения
Mamba Vision - реализация архитектуры Mamba с применением селективных моделей пространства состояний (SSM) в области обработки изображений от Nvidia Lab.
MambaVision демонстрирует более эффективное использование вычислительных ресурсов по сравнению с традиционными архитектурами (VIT и Swin) на основе трансформеров, а использование SSM открывает новые способы извлечения и обработки визуальных признаков. Предлагаемая архитектура показывает хорошую масштабируемость, сохраняя эффективность при увеличении размера модели.
MambaVision применим к различным задачам компьютерного зрения, включая классификацию изображений и семантическую сегментацию.
Проект находится на начальной стадии, и его эффективность в реальных задачах компьютерного зрения еще предстоит полностью оценить.
На данный момент реализовано применение только в задаче классификации изображений.
🗄 Семейство MambaVision Pretrained (ImageNet-1K) моделей (прямая загрузка с Google Drive):
MambaVision-T (32М)
MambaVision-T2 (35М)
MambaVision-S (50M)
MambaVision-B (98M)
MambaVision-L (228M)
MambaVision-L2 (241M)
⚠️ Лицензирование:
Для некоммерческих проектов: CC-BY-NC-SA-4.0
Для коммерческого использования: запрос через форму
🖥 Github [ Stars: 32 | Issues: 0 | Forks: 2 ]
🟡Arxiv
@ai_machinelearning_big_data
#MambaVision #ML
Зачем искать удобный планировщик задач, когда его можно создать самостоятельно? А заодно — узнать, насколько вам интересно программирование.
Бесплатный курс «Основы Python: создаём телеграм-бота» — полезный и надёжный вариант для самоопределения. Там на примере Python вы узнаете, как устроены процессы разработки, самостоятельно создадите планировщик задач и бота-помощника и поймёте, подходит ли вам этот язык.
Доступ в чат с экспертами и однокурсниками для получения ответов на вопросы и помощи в практике, а также сертификат Нетологии после прохождения курса прилагаются → https://netolo.gy/dg7t
Реклама ООО “Нетология” 2VSb5ykDhfv
🌟 Inf-DiT: Upscale изображения до любого разрешения с помощью диффузионного трансформера с эффективным использованием памяти
Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024.
Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости.
Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения.
По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096.
Адаптацию для ComfyUI обещают к концу июля.
🟡 Arxiv
🖥 GitHub [ Stars: 298 | Issues: 12 | Forks: 12 ]
🟡 Модель (прямая загрузка)
#Upscale #DiT #Diffusers #Img2Img
@ai_machinelearning_big_data
⚡️ GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.
GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.
Архитектура GraphRAG состоит из ключевых компонентов:
Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.
GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.
⚠️ Рекомендации и предупреждения:
- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей
📄 Документация:
🟢локальный запуск
🟢конфигурирование
🟢эмулятор Azurite
🖥Github
🖥Github для запуска на API Azure
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#LLM #GraphRAG #ML #RAG #NLP #Deeplearning
⚡️ Дайджест интересных новостей
💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg
🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github
🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI
👨🏻💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch
🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times
🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz
👩⚕️ Thrive AI Health, стартап, финансируемый OpenAI и Thrive Global, использует ИИ для предоставления персонализированных медицинских консультаций. Помощник с искусственным интеллектом может использовать данные человека, чтобы давать рекомендации по сну, диете, физическим упражнениям, управлению стрессом и социальным связям. Time
⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat
🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure.
Seekingalpha
#news #digest
@ai_machinelearning_big_data
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения.
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.
Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.
На Github опубликованы адаптации метода:
- адаптация под Pytorch
- адаптация под JAX
🟡Arxiv
🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ]
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]
@ai_machinelearning_big_data
#Pytorch #Jax #TTT #LLM #Training