cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37801

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Mochi-1 на H100. Меньше минуты. Память решает.

Обновил все, что мог. И мне начинает нравиться.

На видео сначала вариант с 40 steps, а потом 100 steps.

@cgevent

Читать полностью…

Метаверсище и ИИще

Mochi-1. Ну как-то так.

Хотя шаги выкручены на 100 steps.

Понимание промпта действительно крутое. Но исполнение - ну такое.

Two white women with long, flowing blonde hair walking side by side along a wide, sandy beach on a bright, sunny day. Both are mid-laugh, their expressions full of joy and friendship, as they walk in sync, close together, barefoot on the warm sand. The sunlight casts a golden glow over their hair, which flows slightly in the sea breeze, adding a touch of dynamic movement. In the background, powerful sea waves crash rhythmically along the shore, their white foam glistening under the vibrant sunlight. The sky is a rich, clear blue with only a few wispy clouds, intensifying the vivid, cheerful atmosphere. Their footprints are left behind in the sand, showing the path they've taken. Seagulls can be seen faintly in the sky above, and small seashells are scattered along the beach. The scene captures a lively, carefree moment between friends in a picturesque, natural beach setting. Hight quality video

Negative: The video is not of a high quality, it has a low resolution.

@cgevent

Читать полностью…

Метаверсище и ИИще

Очень годный подкаст.

Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.

Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.

Также в этом выпуске:

- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний

А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.

YouTube
RUTUBE
Яндекс Музыка

Читать полностью…

Метаверсище и ИИще

Для тех, кто запутался в разрешениях.

Ну не генерит Flux 1.1 pro ultra ничего в 4к.

У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.

4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.


Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).

Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.

https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/

@cgevent

Читать полностью…

Метаверсище и ИИще

А почему все молчат?

FLUX1.1 [pro] Ultra and Raw Modes

В четыре раза большее разрешение при том же времени генерации.

Raw Mode - cуперфотореализьм.

Уже завезли в Krea.ai

И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra

И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

Новость:
https://blackforestlabs.ai/flux-1-1-ultra/

@cgevent

Читать полностью…

Метаверсище и ИИще

Большой Хуньянь и Хуньянь 3Д.

У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.

Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.

Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large

По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.

В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.

А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.

И пока он лучший.

И на Гитхабе у них 192 репозитария.

@cgevent

Читать полностью…

Метаверсище и ИИще

Мнемонад.

Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.


Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.

Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.

А я понял, что мне это все напоминает.

Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.

Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.

Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.

Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.

Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.

@cgevent

Читать полностью…

Метаверсище и ИИще

Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.

Выглядит нарядно, согласитесь?

https://www.polyhammer.com/

@cgevent

Читать полностью…

Метаверсище и ИИще

В HeyGen новая фича - Photo Avatar

И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.

Почитайте полный пайплайн тут:

Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz

Ну, за дикторов и блоггеров..

@cgevent

Читать полностью…

Метаверсище и ИИще

Kling "Custom Models" - это вообще-то прорыв.

Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.

Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.

Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.

Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.

Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.

В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.

@cgevent

Читать полностью…

Метаверсище и ИИще

Зачем платить инфоцыганам, когда есть нейросети? 🤔

Нейросети уже выполняют за тебя массу задач: от контента в соц сетях до реальных продаж!

Как легко и без опыта освоить ИИ — читай ЗДЕСЬ.

Автор канала — кандидат наук и владелец IT-компании, внедряющий ИИ в крупнейшие российские корпорации.
Его опыт — это твой шанс быть впереди конкурентов.

🔥 Заходи, здесь учат использовать нейросети для роста твоего бизнеса: @KiberMisha

#промо

Читать полностью…

Метаверсище и ИИще

Open Source Video2Video - работает локально.

Это удивительно, конечно, наблюдать, как с опозданием в 2-3 месяца фишки, которые мы наблюдали, роняя челюсти, в Runway или Kling начинают появляться в опенсорсных сборках.

Да, они сходу работают кривовато, качество треш по большей части, но оно РАБОТАЕТ. Ну то есть замысел и алгоритмы заводятся на кургузых опенсорсных чекпойнтах и главное отличие в том, что у энтузиастов не было денег, возможностей и компьюта, собрать конские датасеты, перемолоть их в тренировке и задрать качество. Но дайте время.

И когда я вижу, что появляются image2video, video2video, маски для видео, глубина (MoGe) на гитхабе, я стараюсь все попробовать, чтобы убедиться, что это не фейк. И это не фейк, это работает локально. И когда Барак Обама улыбается и кивает тебе на видео в нужном ракурсе, хотя у тебя было только видео девушки и текст "Барак Обама улыбается", то ты понимаешь, video2video работает.

Тут ирония в том, что не было ни одной картинки на входе.
Девушка - это text2video в Pyramida Flow.
Остальное - это video2video в MochiEdit - этакий контролНет для видеогенерации.

Его можно завести в Комфи вот отсюда:
https://github.com/kijai/ComfyUI-MochiEdit
или отсюда:
https://github.com/logtd/ComfyUI-MochiEdit

Обещают поддержку CogVideo и других.

@cgevent

Читать полностью…

Метаверсище и ИИще

Чтобы не мучить вас кринжоповатыми опенсорсными видеогенераторами вкину вот такую китайскую утечку из Клинга.

Внимание, это чистый текст2image. Никакой картинки на входе, как у "никогда-в-продукте" MovieGen от метачки или дипфейках.

Внимание, это первая Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Подробности ниже

@cgevent

Читать полностью…

Метаверсище и ИИще

Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

comfyui mochiedit
comfyui mochiwrapper

Читать полностью…

Метаверсище и ИИще

Pyramide Flow недавно обновился.

Это опенсорсный видеогенератор.
Они взяли и перетренировали модель на основе Флюкс (было SD30), назвали это miniflux и сказали, что пофиксили родовые анатомические травмы первой модели на базе SD30.
Я провел с ней в обнимку несколько дней, там очень много есть о чем рассказать, но выходные, вода еще +26, и надо все-таки не смотреть в монитор.
А пока милая девушка из Комфи желает вам хороших выходных.
Качество подтянули, да. И ходит на 20 гигах. Это я еще image2image не тестировал, разбирался с text2image

@cgevent

Читать полностью…

Метаверсище и ИИще

Mochi-1 на 3060 12 гиг.

Generation time: about 1 hour 17 minutes for sampling, plus another 22 minutes for VAE decoding

Prompt: "A stunningly beautiful young caucasian business woman with short brunette hair and piercing blue eyes stands confidently on the sidewalk of a busy city street, talking and smiling, carrying on a conversation. The day is overcast. In the background, towering skyscrapers create a sense of scale and grandeur, while honking cars and bustling crowds add to the lively atmosphere of the street scene. Focus is on the woman, tack sharp."

@cgevent

Читать полностью…

Метаверсище и ИИще

Mochi-Tamagochi. Разбираемся с опен-сорсным видео-генератором Genmo\Mochi-1.

Тут я немного размечу опен-сорсную поляну для начала.
На ней топчутся и конкурируют друг с другом:
Open Sora - самый старый проект, но одновременно самый заброшенный и по качеству самый слабый.

CogVideo - хорошо развивается, есть много форков и параллельных веток, есть модели 2B и 5B, есть image2video. Последние обновления в октябре.

Allegro - бодрый новичок, нет image2video, multiGPU support.

PyramidFlow - очень многообещающий проект. Есть image2video. Только что перетренировали на базе Flux. Есть старая модель 720p на базе SD30 и новая 384p (miniflux). Обещают скоро новую 720р модель. Есть MultiGPU.

Для всего этого списка есть поддержка ComfyUI от великого и могучего Jukka Seppänen
https://github.com/kijai?tab=repositories

А теперь перейдем к Mochi.
Главный недостаток - нет image2video.
Вначале было заявлено, что нужно 4 карты H100, чтобы это все посчитать. Действительно, в две A100 это не влезало по памяти, я проверял. На восьми считалось неторопливо. Но считалось. Но результат меня не так чтобы впечатлил.

Далее.
Есть как бы вполне себе коммерческий генератор Genmo, а Mochi-1 - это как бы исходный код, элегантно выложенный в опен сорс. Хороший пиар ход, имхо.

Но.
Результаты генерации у них на сайте (за деньги или унылые 3 бесплатных попытки) разительно отличаются от локальный генераций в Комфи или из командной строки.

В Комфи Jukka Seppänen сразу сделал так, чтобы это влезало в 24 гига, сократив требования с 320 гиг до 20 гиг VRAM. Это прям разорвало мне мозг.

И вот теперь, вышел анонс от самого ComfyUI, что они поддерживают Мочи на обычных видеокартах.

Там есть инструкции, что и откуда скачивать, бывалые разберутся, правда и там путаницы хватает. То ссылки на полные веса, то на пожатые. Но не суть - я протестировал все, вплоть до 40гиговых непожатых весов и без вае тайлинга.
Результат НЕ радует.

Более того, репозитарий Mochi-1 -
это самый кривой и косой репозитарий из всех моделей.
Ставится все плохо, с ошибками, пути перепутаны и такое ощущение, что разработчики выкладывали код именно как пиар-акцию, на отвали. Отвечают медленно, обновляют также.

Я немного прижал их вопросами, почему у них так сладенько на сайте и так кривенько локально.
Они заявили, что на сайте тоже модель 480р, что нет улучшайзера, что дело в промптах. Что у них на сайте стоит auto-prompter, который раскучерявливает промпты до годного. Я попросил поделиться примерами, ушли в тень, сказали "потом".
В общем у меня странные чувства по поводу этого генератора. Jukka говорит, что там есть апскейлер, но меня больше всего подбешивает их картиночка с метриками тут, где они на гнилой козе якобы обходят, внимание, Runway, Kling и Luma.

Тут мое доверие иссякло. Мне не нравится, то, что они делают.

А локальные генерации у них на уровне Пирамиды или Кога. Может чуть лучше. Но до закрытых генераторов им как до Луны, там все очень грустно. И никакой управляемости. Рулетка text2image. Да, я сделал лисичку с их сайта. Но твари от Кога мне нравятся больше.

Но есть и хорошая новость, народ запускает Мочи на 3060 с 12 гиг врам. Можете попробовать, вот инструкция:
https://www.reddit.com/r/StableDiffusion/s/z4ZA3fPKXz

У меня все, надеюсь полезно. Хоть и недобро.

@cgevent

Читать полностью…

Метаверсище и ИИще

А поглядите на такое видео. Очень познавательно. 2 минуты

https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.

А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.

Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
/channel/cgevent/8250

Подумайте, на каких сигналах мы можем еще дообучить мозг.

А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.

@cgevent

Читать полностью…

Метаверсище и ИИще

Flux 1.1 Ultra Raw Mode

Читать полностью…

Метаверсище и ИИще

Тут я понял, что надо пояснить за Tencent.

Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.

Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom

Ну в общем это как бы монстр.

Вот вам картинка с их долями.

Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.

А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.

@cgevent

Читать полностью…

Метаверсище и ИИще

Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.

А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.

Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?

Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.

@cgevent

Читать полностью…

Метаверсище и ИИще

Нет времени объяснять, регистрируйся на МТС True Tech Champ 🚀
Осталось несколько дней до шоу финала ИТ-чемпионата.


Дата: 8 ноября
Место: МТС Live Холл
Формат: Офлайн + Онлайн

Участников ждут:
🤖 Шоу с гонкой роботов в интерактивных лабиринтах
🕹 20+ активностей для кодеров и фанатов технологий
🧠 Выступления спикеров, воркшопы, плохие прогерские шутки

Тебе точно понравится, если ты:
— Занимаешься разработкой
— Интересуешься технологиями
— Планируешь построить карьеру в ИТ

До конца регистрации несколько дней — успей присоединиться: https://truetechchamp.ru/conf

#промо

Читать полностью…

Метаверсище и ИИще

ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image

Читать полностью…

Метаверсище и ИИще

ПомниГен. Не шутка.

А вот это выглядит уже очень интересно.

Я много писал про OmniGen. Это как бы новая архитектура для генерации картинок.
Но это не совсем генератор. Это скорее нейроредактор уже имеющихся изображений.
Его не стоит использовать как text2image, это больше похоже на "возьми вот эти картинки (пока до трех) и сделай с ними следующее: поменяй тут одежду, убери серьги, дай в руки гитару" и так далее. Это метакитбаш на стероидах, если говорить очень грубо.
Сам автор говорит: I want to focus on editing and non generation tasks.

А теперь внимание.
Те, кто в теме, знают, что есть такая Stable Diffusion Based модель - Pony.
https://civitai.com/articles/6309
Ну это как бы царь (или царица) в области генерации NSFW.
Так вот, автор Пони сейчас файнтюнит Omnigen (на датасетах из Пони), чтобы можно было редактировать эти веселые картинки в соответствии с вашими фантазиями. Промптами. Поглядите мой пост на предмет таких промптов.

Вы представляете, что это будет за комбайн?

И называться все это будет PomniGen!

Как пишет автор Пони: generate with Pony V7 and edit with (p)omnigen.

Я много писал про одеваторов и раздеваторов (поиск по ленте по этим старорусским терминам). В разрезе с Pony это обретает новые применения, например в чатботах для секстинга. Типа "дорогая, а сделай вот так и пришли мне фотку".

За рамками NSFW - это тоже может быть использовано как нейрофотошоп с голосовым управлением.

Вопрос только в том, что OmniGen ну очень не быстрый, жрущий и язык общения с ним не сильно очевиден. Равно как и тренинг оного.

Но замысел, конечно, огненный.
Сорс

На картинке OmniGen из коробки. Он и сейчас не особо парится о том, что на входе и что в промпте, просто делает свой нейрокомпоз. Промпт на картинке. 2 минуты на H100/ Что же будет на файнтюнах Pony и PomniGen?

@cgevent

Читать полностью…

Метаверсище и ИИще

Разведу немного вкусовщины. Ибо рубрика крутые подписчики.

Иногда пощщу работы из коментов или лички.

Засада в том, что большинство работ - это либо хорор, либо цветочки, либо тянки, либо металубок - ну типа щас мы приподнавалим в рунвей салата из флюкса и переходов.

Меня всегда подташнивало от фотореализьма, еще во времена раннего 3Д в нулевых. Где все упарывались в текстуру для кожи, чтобы свалиться в зловещую долину при первом же сдвиге кадра в анимации.

Сложно "додумывать" за фотореализьмом, все уже придумано. Воображению некуда приткнуться.

Некоторое время назад постил вот такой хак-промпт для лайнарта.


А сейчас в коментах Стейси Смит сбросил вот такую наиприятнейшую работу (для меня, с моим плебейским вкусом).

Что мне отчаянно нравится?

Очень простые образы объекты. Каждый додумывает сам.
Аскетично. Есть куда провалиться глазом и не застрять в деталях.
Архетипичные, скажем так, объекты, глаз, стрелки, шестеренки.
Ну и самое главное - это кинжально бьется со звукорядом. Точнее с текстом.
Получается чудовищно просто и символично.
Ну и нет соблазна считать пальцы и придираться "ой у птички глазик не там". Все на месте. Ибо образы и наброски.

В конце как бы развитие и выход в цвет и 3Д. Тут я задергался, но все быстро вернулось в лайнарт - как будто бы к истокам.

Хорошая такая анимационная работа. Мне понравилось.

А, и кстати, замечания от автора:
"рисовал Flux, анимировал Kling и пару переходов Luma, звук от Suno, монтаж в CapCut, а афтерэффектов у нас сроду не водилось..."

Отросло поколение, которое не знает про after effect. Наверное это хорошо. Для них же лучше.
@cgevent

Читать полностью…

Метаверсище и ИИще

Полностью опенсорсная видео-генерация.

Рубрика крутые подписчики.

Идеальным дополнением к моим тряпочным тестам выше будет вот такой эпохальный ролик от Димы Жилзоны ПОЛНОСТЬЮ СОБРАННЫЙ в опенсорсной Pyramide Flow.

"В качестве исходных артов генерации Midjourney без какой-либо пост-обработки и апскейла.

Генерации шли в размере 640x384px, при дальнейшем апскейле до 1200x720px и двойном улучшайзинге через две модели Topaz Video AI."

Про память, скорость и прочее почитайте в посте у Димы.
/channel/zhilzona/1361

А я лишь процитирую то, с чем полностью согласен:

"Да, не хватает динамики в ценах. Да, не хватает когерентности к концу видео. Да, не для всех объектов просчитывается динамика так, как бы хотелось ее видеть. Да, меняется цвет сцены под конец генерации. Да, шаг влево-шаг вправо и видео распадается. Но! Это огромный скачок по-сравнению с тем, что мы видели хотя бы 3 месяца назад. И дальше будет, я верю, я это предсказывал, только лучше."

@cgevent

Читать полностью…

Метаверсище и ИИще

Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки своей модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.


@cgevent

Читать полностью…

Метаверсище и ИИще

Похоже, что лента превращается в один сплошной видеогенератор.
У нас небольшая передышка в области, скажем так, североамериканского ИИ (там все прижали уши до завтра, то есть до выборов, и разборок после них) и европейского ИИ (эти перестраховщики просто прижали уши и регулируют регуляции). Зато китайцы и опен-сорс просто не дают поднять головы.

Поэтому вы уж потерпите, на этой неделе на вас будет валиться всякая информация именно по видеогенераторам. Ибо я тут даже завел опенсорсное видео-2-видео и оно, как ни странно криво-косо работает.

А для тех, кто мучает Pyramide Flow через Comfy дам такой лайфхак. В оригинальном коде разрабы считерили и захардкодили в позитивный промпт вот такую добавку ", hyper quality, Ultra HD, 8K"
А в негативный промпт, если он пустой, добавляют "cartoon style, worst quality, low quality, blurry, absolute black, absolute white, low res, extra limbs, extra digits, misplaced objects, mutated anatomy, monochrome, horror"

В Комфи вам надо вручную дописать добавку в позитивный промпт и задать вот такой негативный. У меня качество отросло раз в пять на этих девушках.

Two white women with long, flowing blonde hair walking side by side along a wide, sandy beach on a bright, sunny day. Both are mid-laugh, their expressions full of joy and friendship, as they walk in sync, close together, barefoot on the warm sand. The sunlight casts a golden glow over their hair, which flows slightly in


@cgevent

Читать полностью…

Метаверсище и ИИще

К вопросу о том, что такое video guidance scale в image2video в pyramide flow.
И как оно влияет на генерацию.

Кстати, я заметил, что оптимально считать всего на 4-8 шагах video steps

Сделать в Комфи грид из видео = пол-субботы.

@cgevent

Читать полностью…

Метаверсище и ИИще

X-to-Voice: Твиттор2Аватар и Твиттор2Войс

В общем ElevenLabs пошли еще дальше. На входе ваш твиттор, на выходе ваш голос и даже аватар - они просто берут все ваши глупости, которые вы написали в твитторах, суммаризируют и присовывают как промпт в недавно запущенную ими же фичу Text2Voice.

По дороге забирают вашу твитторную аватарку и с помощью Хедры (да, у них коллаб по голосу) генерят еще и говорящее нечто.

Помните я генерил картинки себя на основе истории разговоров с chatGPT.
Теперь тоже самое на основе вашей болтовни в твитторе, а на выходе голос и аватар.

Это, конечно, вирусный проект, призванный продвинуть их свеженькое Voice Designer API, где как раз и идет генерация голоса по тексту.

И он какбытипа опенсорсный. Весь код вот он, но понятно, что вам надо будет вонзать за Voice Designer API и по дороге за Hedra API.

Но маркетинг отличный, я считаю.

Я туда присунул свой пыльный твиттер, где я когда-то шиллил CG EVENT и получил на выходе вот такое чудо.
Понятно, что из плоского перца никакой Хедрой не сделаешь выпуклого аватара с ротом и глазами. Но попытка защитана. С голосе уже точно звучит намерение выпить не чокаясь за жертв прогресса.

Ну и тебе еще и выдают описание твоего голоса.

Голос мужской среднего диапазона, излучающий уверенность и научный энтузиазм. Тон авторитетный, но в то же время доступный, с нотками волнения, что говорит о том, что он обсуждает важные и инновационные вопросы. Темп его речи взвешенный, но иногда переходит в быстрый, что отражает высокую энергию его мыслительного процесса. Он родом с Кипра, но его акцент в основном нейтральный, со слабыми средиземноморскими нотками. Скорее всего, ему около тридцати лет, что придает его голосу зрелый, знающий тембр.

Лесть, а приятно.

Го играть тут:
https://www.xtovoice.com/

Доброкотов, сувай свой твиттор сюда, он у тебя годный.

И пожалуйста, сделайте такое для телеги: telegram2voice - я уже слышу сиплый, спитой голос "ну, за...".

@cgevent

Читать полностью…
Подписаться на канал