cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Вы будете смеяться но у нас новый видеогенератор.

Амазон приподоткрыл веки и бахнул анонс своего нового семейства моделей Nova.
Все написали про LLM, а про картинки и видео позабыли.

А между тем, амбиции такие:

Amazon Nova Canvas
- это современная модель генерации изображений, которая создает изображения профессионального уровня из текста или изображений, предоставленных в подсказках. Amazon Nova Canvas также предоставляет функции, облегчающие редактирование изображений с помощью текстового ввода, а также элементы управления для настройки цветовой схемы и макета. Amazon Nova Canvas превосходит такие генераторы изображений, как OpenAI DALL-E 3 и Stable Diffusion, по результатам сравнительной оценки, проведенной третьей стороной, а также по ключевым автоматизированным показателям.

Amazon Nova Reel - это современная модель для создания видео, которая позволяет клиентам легко создавать высококачественное видео из текста и изображений. Она идеально подходит для создания контента в сфере рекламы, маркетинга или обучения. Клиенты могут использовать подсказки на естественном языке для управления визуальным стилем и темпом, включая движение камеры, поворот и масштабирование. Amazon Nova Reel превосходит аналогичные модели по качеству и согласованности, согласно оценкам, проведенным третьей стороной, которая отдала предпочтение видео, созданным Amazon Nova Reel, по сравнению с видео, созданными Runway's Gen-3 Alpha. В настоящее время Amazon Nova Reel генерирует шестисекундные видеоролики, а в ближайшие месяцы будет поддерживать создание видео длительностью до двух минут.

Все это уже доступно в Amazon Bedrock, подсобрал для вас примеров.

На видео с дрона выше:
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view flying over a coastal landscape"

Но самое интересное, что в 2025 году они готовят модель типа "всё-во-всё". Трушная мультимодальность.

В 2025 году мы представим две дополнительные модели Amazon Nova, включая модель преобразования речи в речь и нативную модель преобразования мультимодальности в мультимодальность, или "любой в любой". Модель "речь в речь" будет понимать потоковую речь на естественном языке, интерпретировать вербальные и невербальные сигналы (например, тон и каденцию) и обеспечивать естественное человекоподобное взаимодействие, а модель "всё-во-всё" сможет обрабатывать текст, изображения, аудио и видео, как на входе, так и на выходе. Это упростит разработку приложений, в которых одна и та же модель может использоваться для выполнения широкого спектра задач, таких как перевод контента из одной модальности в другую, редактирование контента и обеспечение работы агентов ИИ, способных понимать и генерировать информацию во всех модальностях.

Наиболее подробно тут:
https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws

@cgevent

Читать полностью…

Метаверсище и ИИще

3DECEMBER

Всех причастных к 3Д - с праздником!

Возможно еще живы олды, которые помнят первые сходки майщиков в Матвеевском в ДВК в 90-х и 00-вых.
Возможно еще живы олды, которые помнят книжку на 1424 страницы.
Возможно еще живы олды, которые помнят первый Ивент 2006 года, куда приехал Серега Невшупов из Новой Зеландии.
Наверняка живы еще те, кто помнят приезд Бипла и, о боги, Андрю Крамера.

Кто не помнит - напомню, что сегодня 3December - профессиональный праздник всех трехмерщиков.
Да, моделинг, риггинг, анимация, шейдинг, текстуринг, рендер - и вот это вот все.

Во все это активно залезает ИИ - и это прекрасно. Трудно найти область с бОльшим количеством рутинной работы (только композ). Так пусть ИИ берет на себя рутину, а мы будем на него покрикивать через Voice Mode.

Старзы и донаты Нейро3Деду приветствуются, эпоха сменяет эпоху, а 3Дед все не унимается.

@cgevent

Читать полностью…

Метаверсище и ИИще

Как попробовать Хуньянь Видео Генератор.

Кстати, если вампрямневтерпеж, то camenduru уже собрал Jupiter Notebook для Hunyuan Video 13B:
https://github.com/camenduru/hunyuan-video-jupyter

Можно потренироваться на котиках.

Ну, или если у вас остался китайских номер от ранних тестов Клинга и Минимакса, то можно попробовать тут:
https://video.hunyuan.tencent.com/login

Дают 3 генерации в день.

А пока ждем нормального демо, английского сайта и смотрим на реддит, где индусы пишут всякую чушь про то, то Хуньянь побивает Gen-3 и Luma.

Пока народ на реддите рыдает про видеопамять и взывает к духу Kijai для адаптации под Комфи.

Кстати, Tencent, автор Hunyuan Video 13B, является одним из основных инвесторов в Minimax.

@cgevent

Читать полностью…

Метаверсище и ИИще

Flux 1.1 Pro Ultra Raw, конечно, крут.

Резкость и то, что он генерить хайрез, прям радикально его отстраивает от Flux Dev (а круто мы привыкли к хорошему, и теперь Flux Dev - уже не круто).

Попробуйте на Glif.app - он там есть.

Но даже Минимакс пока не вытаскивает зубы. Палятся.

Пора уже Лору сделать, которая нормальные зубы вставляет и держит их как влитые.

@cgevent

Читать полностью…

Метаверсище и ИИще

Трушнай омолаживатель и состарятор.

Тут вот интересная работа, в которой совершенно справедливо подмечено, что все эти омолажитватели и состариватели работают, как правило, по сферически вакуумным паттернам - ну то есть наваливают морщин или меняют пропорции черепа примерно одинаково для всех. Коль скоро лица разные, то мы вроде как верим.
Но мы, говорят, не такие!
Дайте нам ПЯТЬДЕСЯТ ваших фоток (минимум), а мы возьмет StyleGAN2 и дипфейки и состарим вас трушно, то есть так, состарились бы именно вы, а не просто морщин навалим.

На сайте проекта есть интересные ползунки, можно поиграться. И даже обещан код.

Ну и кстати, при съемке кино под рукой всегда будет сотня фоток актера. Поэтому акцент в работе именно на кино.

https://mytimemachine.github.io/

@cgevent

Читать полностью…

Метаверсище и ИИще

2D -> 3D

Мне кажется то, о чем так долго говорили в Midjourney вылезает на свет, но только не из недр Midjourney.


World Labs представила ИИ-платформу, которая превращает обычные изображения в полностью изучаемые 3D-миры прямо в вашем браузере.

Сначала поглядите сюда:

https://www.worldlabs.ai/blog


Загружаете картинку - получаете 3Д-мир, причем прямо в браузере. И ну ходить по нему. Прямо в браузере.

Внимание, вам нужен очень мощный браузер. Чем дальше прокручиваете страницу, тем жирнее демо, и тем медленнее все крутится и в конце концов у меня все тупо зависает.

Это не проблема технологии, просто не надо в одну страницу впихивать столько 3Д-виджетов.

Что оно умеет:

Берет 2D-изображения и создает реалистичную 3D-геометрию
Заполняет невидимые части сцены
Позволяет свободно перемещаться, как в игре
Поддерживает эффекты камеры (глубина резкости, зум)
Работает со стилями

Выглядит просто наряднейше.

Есть запись в вейтлист.

За код ничего не скажу, думаю, вряд ли.

Я поскачивал видосов, сколько смог. Браузер просто воет на второй половине страницы.

Если вы глянете на команду, то там реальный дрим тим из Стенфорда и авторитетов из графики и VFX.
После бесконечных китайских репозитариев это выглядит как God Level.

И поднимите веки Midjourney, кто-нибудь.

@cgevent

Читать полностью…

Метаверсище и ИИще

Но самое огненное у Клинговской примерочной - это то, что она работает на котиках!

Во-первых, это красиво.
Во-вторых, интернет-архетипично.
В-третьих, рынок шмота для собак и кошек огромен и там маржа еще огромнее.

Если посмотрите видео до конца, то можем выпить за костюмеров для кино.

А, печеньки в трусах (в смысле трусы на печеньках) - это может быть новое слово в рекламе, ящетаю.

#нумилотажеж

@cgevent

Читать полностью…

Метаверсище и ИИще

Синтетический мир и новый высококачественный видео-генератор.

Щас будет подводка, кому tl;dr шуруйте в конец.

Я уже писал, что у Unity, например, есть отдельная платформа для генерации синтетических (ну то есть ненастоящих видео, а рендеров). Чтобы не размечать реальные видосы индийскими ручками, а запускать "машинки с камерами" по 3Д-мирам, созданным в Юнити и рендерить видео, где уже все размечено еще на этапе моделинга.
И self-driving cars успешно учатся на таких рендерах.

Так вот, встречайте:

MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

Это видео-генератор, который не умеет в лица и пальцы, но зато генерит именно виды улиц с качеством, которое не снилось опен-сорсу и некоторым другим генераторам. Ну и самое главное, он генерит такую длину и фпс, которая даже не на радарах у "развлекательных" видеогенераторов.

Интересно, что я уже писал про Лоры для поворота влево. Теперь вот и сами модели могут поделиться на классы: пейзажные, фишайные, суперзумные, поворот не туда, ну и тд.

Это как на площадке: меняем оптику, декорацию и свет - а на нейроплощадке: загружаем модель для Улиц Секса в Большом Городе. И ну генерить.

Меня, правда слегка беспокоит вопрос деградации моделей для беспилотников при таком обучении. Если долго учиться на синтетике, можно немного отупеть, как показывают ранние примеры с LLM (щас может уже не так, или метрики подкрутили). Но тут все-таки беспилотники будут учится на галлюцинациях видеомодели, а не зумеры чатиться с ботами.

Уроборос в общем.

И это, кстати, Хуавейчик. Который сделал Pixar Sigma и еще много чего для картинок:
https://gaoruiyuan.com/magicdrivedit/

На примерах много видео, которое ничем не отличается от видеорегистраций, и только надписи на асфальте заставляют вздрагивать.

Код будет, кстати.

@cgevent

Читать полностью…

Метаверсище и ИИще

За озвучку. Пост

У всех этих видеогенераторов есть общая черта.

Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.

Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).

Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).

Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/

Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.

Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ним в продукты - помните, как они заполняют пустые куски на видео генеративом? Теперь будет и со звуком тоже.

@cgevent

Читать полностью…

Метаверсище и ИИще

Название статьи обидное для Apple, но фактически точное: Xiaomi сумел сделать то, чего ждали от Apple, но так и не дождались.
Китайский производитель гаджетов весной этого года представил свой первый электромобиль, который сразу стал хитом: за первые сутки было собрано 90 000 заказов на SU7. Планы продаж до конца года компания подняла до 130 000 штук.
Про технические характеристики можно почитать в статье или на автосайтах, но о многом говорит тот факт, что CEO Ford Джим Фарли, предположительно неплохо разбирающийся в автомобилях и имеющий возможности выбирать, на чем ему ездить, наплевал на корпоративный патриотизм и ездит как раз на SU7 и не устает им восхищаться.
Достойны упоминания еще два факта: операционка автомашины прекрасно работает с iOS и Android, превратив автомобиль в идеально совместимый с устройствами водителя и пассажира гаджет. А сборку компания не аутсорсит (как бывает со стартапами), а построила собственный полномасштабный автозавод.
Тем временем ходят слухи, что готовится выпуск еще двух моделей. Автор статьи иронично отмечает, что наконец-то фанаты получили свой iCar, вот только прибыл он из Китая
https://www.wired.com/story/phone-maker-xiaomi-made-the-car-that-apple-couldnt/

Читать полностью…

Метаверсище и ИИще

На этой неделе в Казани проходит Российская неделя стартапов—2024!🔥

30 ноября в Казани вас ждет большая открытая конференция, посвященная разработке игр!
Хедлайнер мероприятия – Макс Михеенко!

В этот день вы сможете:
⚪️ Погрузиться в мир GameDev и узнать о последних трендах.
⚪️ Задать вопросы экспертам и получить ценные советы.
⚪️ Послушать выступления Макса Михеенко, Яна Шевченко и других крутых спикеров.

Приглашаем всех, кто интересуется разработкой игр, на насыщенную субботу, посвященную GameDev-индустрии!

• Дата: 30.11
• Время: 14:00-17:00
• Место: ул. Петербургская, 52

▪️Регистрируйтесь по ссылке: /channel/StartapHub_bot

Реклама ГАУ «ИТ-парк» ИНН 1655191213 erid: 2SDnjemZu95

Читать полностью…

Метаверсище и ИИще

А тем временем, как пишет мне с дивана Дима @yanadivane, A100 уже можно купить за 3000 долларов.

Или подождать весны и купить 5090 с 32гига видеопамяти за 2000 долларов. 5090 будет типа в два раза быстрее, чем 4090.

Но 80 гигов - это 80 гигов.

Мы же тут не в игрушки играем, а видеопамять кушаем. Ложками.

#ябвзял

https://www.alibaba.com/product-detail/Nvidia-Tesla-A100-A800-H100-80GB_1601292732998.html?spm=a2700.shop_plgr.41413.1.680571213mnqUX

Читать полностью…

Метаверсище и ИИще

По поводу LTXV видеогенератора, опенсорсного притом.

Мне надо еще потестировать, но по моим первым тестами - дико непредсказуемо, качество хуже, чем у CogVideo, много статики и брака и какое-то шаманство с промптами.
Но натолкнулся на вот такой видос на реддите позавчера.

Автор пишет: Created using fal.ai, took me around 4-5 seconds per video generation. Used Image2Video on a base Flux image and then did a quick edit on Premiere.

try using the 768x512 res. Also upscaling the flux image before seemed to help. When generating shorter videos I got better results. When the prompt for image and video are similar it also seemed to help.

Юзеры пытаются воспроизвести результат, но получается не очень, а автор подозрительно ушел в тень.

Но я выловил в коментах разрывающий мозг трюк, чтобы побороть статику на image2Video для текущей модели LTX Video. Оказывается, модель не любит нетронутые\чистые изображения, она была обучена на видео. Поэтому вы можете пропустить изображение через ffmpeg, использовать h264 с CRF около 20-30, чтобы получить такое сжатие. По-видимому, этого достаточно, чтобы модель "зацепилась" за изображение и действительно что-то с ним сделала.

Ну то есть предлагается приподыспоганить картинку на входе image2video, сделав из нее как бы стопкадр из видео.

Хотя это идет вразрез с советами(выше) типа "прогоните через апскейлер и уберите блюр" перед тем как кормить в image2video

В общем видеогенерация сейчас - это шаманство с костылями типа motion brush и camera control, а опенсорсная видеогенерация это протошамаство с костылями из говна и палок, и мифологемами вокруг промптов, cfg и качества картинок на входе.

Читаем теории заговора тут.

Продолжим наши тесты и мифотворчество. Там в коментах могучий Stan Travis показывает генерации на ТРИСТА ДВАДЦАТЬ ОДИН кадр в LTXV, которые не разъезжаются! Как?


@cgevent

Читать полностью…

Метаверсище и ИИще

KeenTools 2024.3: стабильный FaceTracker for Blender!

– Трекинг мимики и движений головы с помощью геометрии лица
– Создание точных 3D моделей лица по кадрам из видео (доступно с FaceBundle)
– Работа с текстурами, добавление макияжа, VFX и другие композитинговые задачи
– Перенос лицевой анимации с видео на 3D персонажа: через ARKit и Rigify

Последняя фича открывает новые возможности для анимации в Blender: переносите мимику с видео на 3D модель в один клик!

Подробности:
https://link.keentools.io/ftb-stable-tg

А еще Ромсель заезжал недавно в гости и показывал, что они там на нейроночках делают...
У них есть такие приборы! Аналогов я не видел..

@cgevent

Читать полностью…

Метаверсище и ИИще

Elevenlabs выкатили GenFM. Прямого конкурента Google NotebookLM.


Пока GenFM можно найти в приложении ElevenLabs Reader для iOS.

Ну то есть приложение старое - а в нем просто есть новая фича - GenFM

В настоящее время GenFM поддерживает 32 языка, включая английский, хинди, португальский, китайский, испанский, французский, немецкий, японский и другие.

В андроид приложении - скоро.

Из любопытного - пока другие вырезают паузы и все эти эээ, хмм, уфф, elevenlabs наоборот добавляют "живости" в речь разными звуками типа сопения и покашливания.

@cgevent

Читать полностью…

Метаверсище и ИИще

У Минимакса новая видео модель!

Hailuo I2V-01-Live: Transform Static Art into Dynamic Masterpieces

Сначала можно подумать, что это файнтюн по аниме.

Идея чуть шире
Это Image2Video, заточенный, чтобы оживлять статичные картинки и в основном арт.

Можно назвать это уклоном в мультипликацию, анимацию или движущиеся комиксы.

Проблема "общих" генераторов в том, что когда присовываешь им плоскую графику или анимэ, они норовят вытащить ее в реализм или 3д.

А тут именно анимация статики, сохраняющая исходный стиль без плясок с промптами.

Мне всегда нравился NPR(non photorealistic render) и всякие туншейдеры.

Тут они генерятся довольно ловко.

Люблю Минимакс

https://hailuoai.video/discover-ai-videos/1

@cgevent

Читать полностью…

Метаверсище и ИИще

Первое сравнение нового опенсорсного видео-генератора от Tencent с коммерческим MiniMax

1-3 Tencent
4-6 MiniMax

Читать полностью…

Метаверсище и ИИще

Вы будете смеяться, но у нас еще один опенсорсный видео-генератор.

От Tencent.

Я уже писал про Хуньянь - это их модель для генерации картинок. Звезд с неба не хватает и после выхода Флюкса не имеет промысловой ценности. У них также есть 3Д-генератор

Сейчас однако все выглядит серьезно.
Смотрим сюда:
https://aivideo.hunyuan.tencent.com/

13B параметров. Разрешение 1280 на 720. Лютые черрипики на сайте.

Но если вы уже расчехляете свои не остывшие видеокарточки, погодите, щас навалю негатива.

нет image2video. обещают, но не говорят когда. как отдельную модель со своими весами.

минимально нужно 45 ГБ видеопамяти

комфортно: We recommend using a GPU with 80GB of memory for better generation quality.

мультиGPU пока нет

а теперь внимание: 129 кадров в 720x1280 это ~17min with 30 diffusion steps on the H800 GPU model (H800 - это примерно как H100)

Ну в общем что-то натренировали и теперь опен сорс будет упихивать это в Комфи на 4090 и смотреть, что там получается.

13B конечно круто, но надо смотреть, насколько это лучше CogVideo 1.5 или Mochi-1. В деле.

Можно начинать отсюда, качнуть 25 гигов весов, Комфи и Градио демо пока нет.
https://github.com/Tencent/HunyuanVideo

Кстати, почитайте про Tencent - полезно, чтобы понимать, какие у них ресурсы.


@cgevent

Читать полностью…

Метаверсище и ИИще

📚Библиотека промптов для самых разных задач и профессий

Внутри - сотни проверенных запросов для ChatGPT, которые удобно разбиты по категориям (от домашнего обучения до маркетинга и разработки)

Библиотека постоянно обновляется, а доступна она здесь - Нейрон

Сохраняй и пользуйся!💾

#промо

Читать полностью…

Метаверсище и ИИще

Тут вот очень интересная работа, в которой нам обещают генерацию текстур с UV-мапами!

Выглядит очень глянцево на видео и в статье.
Но есть пара моментов.
Если поглядеть внимательно, то текстуры и материалы хоть и лучше, чем у конкурентов, но все равно довольно грубого качества. Не уверен, что даже в игры сгодится, не говоря про кино.
UV надо смотреть, не думаю, что там прям адекватная развертка.

Но я вот послушал себя и понял, что пишу как некоторые подписчики в коментах - "а чо это у него с зубами, не годицца для продакшена".

Прогресс в 3Д идет отличный. Пойду погляжу, что там DeemosTech наваяли.

А вы можете развлечь себя установкой добра, ибо репозитарий живой и начинается с установки Блендора.

https://github.com/3DTopia/MaterialAnything

@cgevent

Читать полностью…

Метаверсище и ИИще

Как запускать AI-проекты до 3 раз быстрее?

Используйте готовую inference-платформу от Selectel. Она превращает вашу обученную ML-модель в публичный сервис без разработки. Настройка платформы и инфраструктуры — полностью на стороне Selectel.

С inference-платформой вы сможете обновлять версию работающей модели, не прекращая при этом обработку пользовательских запросов. А ресурсы масштабируются автоматически при увеличении нагрузки, так что бесперебойная работа обеспечена даже при росте количества запросов к ML-модели.

Протестировать inference-платформу Selectel и оценить производительность можно бесплатно. Оставляйте заявку на двухнедельный тест: https://slc.tl/nxyxq

Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzqvZQsEF

Читать полностью…

Метаверсище и ИИще

Виртуальная примерочная от Клинга, это конечно огнищще.

Еще полгода назад, мы тут взахлеб обсуждали одеваторы и раздеваторы фотачек.
А сейчас это происходит на видео!

Представляете, сколько там сейчас низковисящих фруктов для стартапов в области ритейла.
Кстати, если вы не в курсе, то у Амазона есть своя видеомоделька, для генерации превьюшек для товаров.
Но одежда - это конечно хит.

Рядом ждут своей очереди украшения, косметика, шляпы, очки, примерка, мать его, пирсинга и пр.
Читаем тут:
https://klingai.com/release-notes

В общем идете в Клинг
01. Select "Virtual Try-On"
02. Upload a garment
03. Upload a model
04. Generate Image
05. Generate Video

Midjourney промпт для картинки выше:
editorial photo, medium shot, asian female model with bleached blonde hair in a dynamic pose, wearing a short simple black outfit walking towards the camera, loft studio background with exposed brick and textures, 85mm high precision photo --ar 5:6 --q 2 --p--stylize 75

Kling промпт: the camera slowly zooms out as a woman walks towards us in a fashion photo shoot, 35mm style
забрал тут

@cgevent

Читать полностью…

Метаверсище и ИИще

Нейрориг

Ну за риггеров, сетаперов и Миксамо.


Немного узкая тема, для тех, кто занимается анимацией персонажей.

Тут вот в связи с наплывом 3Д-генераторов, которые замахиваются на генерацию персонажей, возникает вопрос, а что дальше делать с этими обмылками. Кроме как кидать их в 3Д-принтер или в музей метаверса.

Ну и мы тут периодически поговариваем про автоматизацию риггинга.
Риггинг - это когда у вас есть полигональная модель персонажа и надо туда вставить скелет, потом привязать разные участки модели к разным костям (это скининг), покрасить веса этой привязки, поглядеть, что все ломается на сгибах, повторить это 57 раз, накинуть инверсную кинематику, а потом еще навешать разных локаторов и кубиков, чтобы тянуть персонажа за разные части тела в разных направлениях (а не гнуть кости вручную прямой кинематикой).

Короче, вот вам китайский нейроавториг.

Одевает персонажа в сетап менее, чем за секунду. Причем топология скелета подбирается нейросеткой под персонаж (тут у ригеров мозг немного ломается).

Я просто процитирую эту дерзость:

Мы представляем Make-It-Animatable - новый data-driven метод, позволяющий сделать любую 3D-модель персонажа готовой к анимации персонажа менее чем за секунду, независимо от ее формы и позы. Наша единая система генерирует высококачественные весовые коэффициенты (скининг!), кости и трансформы позы. Благодаря использованию автоэнкодера шейпа на основе частиц наш подход поддерживает различные 3D-представления, включая полигональные сетки и 3D Gaussian splats. Кроме того, мы используем coarse-to-fine representation and a structure-aware modeling strategy, чтобы обеспечить точность и устойчивость даже для персонажей с нестандартной структурой скелета.

#явшоке

Дальше олды со слезой вспоминают майский Advanced Skeleton и скелет Миши Бажуткина, зумеры поминают Миксамо, а мы пытаемся потестить это дело тут:
https://huggingface.co/spaces/jasongzy/Make-It-Animatable (хф демо, может не работать)
и тут:
https://make-it-animatable.jasongzy.com/ (более ловкое демо, градио пока живой тут)

Совсем упоротые риггеры смотрят видос:
https://youtu.be/mH6L9r_28LA

и читают сайт проекта:
https://jasongzy.github.io/Make-It-Animatable/

В репе https://github.com/jasongzy/Make-It-Animatable - пока пусто, но очень надеюсь, что код будет, и его можно будет присунуть в Блендор и Майя.

Справедливости и эрудиции ради замечу, что такие попытки уже делались у Rokoko, где они совмещают нейро- и тру- мокапы.

Но тут это выглядит прям вызывающе - ИИ-риг, как он есть.

Ну, за риггеров (Скифу привет).

@cgevent

Читать полностью…

Метаверсище и ИИще

Играем в Бога с LLM

Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:

– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки

В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:

– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той же области
– Она проверила, теория не подтвердилась
– Дальше, модель выдвинула философскую мысль, что:
Возможно, это урок смирения для моделей ИИ — признание того, что даже при наличии передовых возможностей существуют пределы того, что можно предсказать или контролировать
– Дальше модель выдвигала много теорий, включая настройки собственной температуры и тп
– В конце, спустя минут 10, модель сделала вывод, что лучше просить ее предсказывать предложения фразы, а не слова, так как она для этого была сделана вообще-то

И все это: в рамках одного длинного сообщения-ответа, QwQ – зверь, идеально следует системным инструкциям

Почему это игра в бога с LLM:
Пока наблюдаешь за ее рассуждениями и попытками понять, что происходит, возникает ощущение, что ты препарировал что-то живое, что пытается рассуждать и разобраться в себе – странное чувство, немного пугающее, хоть и понятно что это симуляция «рассуждений»

Если хотите повторить – системный промпт тут, просто отправьте ей «start» чтобы начать

Читать полностью…

Метаверсище и ИИще

Протестировал возможности генерации Kling img2video через их API в комфи. 100 генераций (API calls) за 9 долларов. Воркфлоу в комфи сразу для загрузки 2-х фото (скорее всего сразу на 2 кейфрейма), удалил второй для чистоты эксперимента. В среднем 400 секунд на генерацию 10-ти секундного видео в режиме Pro. Не понятно, быстрее это или медленнее, чем через генерацию на сайте (возможно быстрее). Доступна только модель версии 1, хотя даже на trial-тарифе обещали 1.5. Но, судя по генерации, возможно это и 1.5. Из фото, сгенеренного во флаксе, 832x1216 я получил видео 768x1152. Камера зумится, как и было прописано в промпте. Пока все работает, в статистике API показано, сколько раз его вызывали и сколько секунд видео было сгенерено.

Специально для канала @cgevent

Читать полностью…

Метаверсище и ИИще

Для тех, кто не хочет покупать A100 просто напомню, что у Блэк Форест есть спейсы на Hugging Face для всего их нового безобразия: Redux, Depth, Fill, Canny

Без Комфи и смс.

Ну вдруг, если кто не знает.

https://huggingface.co/black-forest-labs
сорс

@cgevent

Читать полностью…

Метаверсище и ИИще

LTX Video. 321 кадр!

Ну хорошо, вот вам видео от Stan Travis, о котором я писал в предыдущем посте.

Цитирую без купюр:
А вот с консистенцией просто отлично, если получается вытянуть без развала.
Тут тест на 321 кадр. Едва заметные родинки около рта и около брови сохраняются от начала до конца, также и морщины на лбу.
Ну и прекрасные эмоции.


Эмоции у меня скорее такие 😱

@cgevent

Читать полностью…

Метаверсище и ИИще

Рубрика крутые подписчики.

Недавно сделал пост про Le Chat - бесплатный аналог chatGPT от Mistral.
Который нынче умеет ну очень много, в том числе генерить картинки с помощью Flux Pro.
До сих пор не пойму, в чем подвох - лимиты на запросы не обнаружены, цены на всякие "про"-тарифы тоже, все бесплатно.

https://chat.mistral.ai/

В общем за это время дерзкие подписчики разломали его цензуру(совсем), научились генерить по 10(десять!) картинок за один промпт и в общем выжали из него все соки.

Главный сок заключается в том, что несмотря на то, что у него нет настроек - это быстрое облачное бесплатное решение для генерации картинок. И это отличный "превиз" для ваших промптов, то есть вы можете отлаживать ваши промпты во Флюкс в Ле Чате - 1 картинка считается ОЧЕНЬ быстро, 9 картинок считаются 2 минуты.
Отладили - включаете свои чахлые видеокарточки и доводите настройками. Или идете в платные сервисы с готовыми промптами наперевес.

Большое спасибо главному разламывателю: Skubidoo

В коментах есть промпты. Но надо мотать наверх. У меня там жара, по 60 коментов на пост.

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну, что, какая модель?

Меньше суток с момента выхода. Скоро миллион просмотров.

Но у меня ощущение, что половина моих подписчиков из коментов (а там щас лютые ребята подсобрались) сделают не хуже. И быстро.

В общем контент перестает быть The King.
ИИ завалит вас и ваши клипы любым трешом и размером.

Бренд is a King.
А контент is just Kling.

Нейродед забыл выпить таблетки и что-то ворчит, перевожу: клип отстой, подписчики в комментах показывают круче, и единственное, что влияет на просмотры - это то, что Канье Уэст. И дщери его.

Нейробезумныймакс на минималках, блэт. Докатились.

https://youtu.be/qeWutl38TQw?si=VVDKjKdZiC2H9Phi

Если кто музику обнаружит, тоже дайте знать.
Suno will save us all.

@cgevent

Читать полностью…

Метаверсище и ИИще

IT-пчеловод, повелитель света, создатель лучших микрофонов, строитель, дизайнер — что общего между ними? Они смогли! Стали одними из лучших в своей сфере и... героями предновогодней конференции 🎄

20 декабря не пропустите «Рождественские лекции: путь основателя». Создатели заметных компаний из разных отраслей поделятся своими историями: какие препятствия были у них на пути и как они их преодолевали, почему важно «гореть» тем, что делаешь, зачем и как делать фанатов из своих клиентов, что помогает не сдаваться в самые трудные минуты.

Вас ждут:

*️⃣Выступления основателей в формате TED и интервью
*️⃣Live-концерт Polina band
*️⃣DJ-сет
*️⃣VR-хоккей и симулятор полетов
*️⃣Виртуальный Майкл Фарадей в качестве ведущего вечера

Среди спикеров:

🟠Александр Дубовенко, основатель GoodWood
🟠Павел Баздырев, сооснователь «Союз Майкрофонс»
🟠Александр Ус, основатель и креативный директор SILA SVETA
🟠Артем Жаров, основатель компании Пчелошеринг
🟠Дарья Самкович, основатель I AM STUDIO, сооснователь DIVNO, экс-креативный консультант EKONIKA

🔜
Подробности и регистрация

Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjcrC4qH

Читать полностью…
Подписаться на канал