Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Метариг и Нейрохьюман.
Посты про нейрориггеров немного взорвали комменты. А тем временем подписчики обнаружили уже готовый воркфлоу для такого нейрорига:
https://www.reddit.com/r/StableDiffusion/s/36B0jOXfgr
Вот ссылка на сетап для Комфи
https://github.com/PowerHouseMan/ComfyUI-AdvancedLivePortrait
Более того, обещают постановку ключей и анимацию!
Но для нормальных людей просится классическое окно со слайдерами, и в идеале, таймланом для постановки ключей на слайдеры.
Напишите кто-нибудь, все сорсы есть.
Ну или ждём расширение для Форджа.
И будет нам НейроМетаХьюман. И выяснится, что для того, чтобы анимировать лицо, надо, почему-то, знать анимацию.. особенно, если это не озвучка дикторов.
Но пока Хедра и Хейген занимаются исключительно лицами кожаных.
Кто займётся персонажами?
В live portrait уже завезли котиков и песелей....
@cgevent
Первый чип собственной разработки OpenAI будет разработан TSMC по ее технологическому процессу A16 Angstrom и в первую очередь будет использоваться для генерации видео в Sora.
Инсайдеры отрасли сообщают, что OpenAI вела активные переговоры с TSMC о разработке специализированного литейного завода для своего собственного чипа, но эти планы были отменены.
Дальше интереснее:
Говорят, что внутренний чип усилит возможности генерации видео Sora, что может помочь увеличить продажи устройств Apple, поскольку эта функция будет интегрирована в набор функций генеративного ИИ компании.
Возможно, OpenAI и Apple тесно сотрудничают в этом проекте, поскольку у последней есть многолетний опыт разработки чипсетов, которые опережают конкурентов, но пока ничего не подтверждено.
https://wccftech.com/openai-developing-custom-chip-on-tsmc-a16-angstrom-process/
@cgevent
Благодаря ИИ, мы наконец-то видим, как админ и подписчики выпивают, не чокаясь, за весь этот список кожаных профессий.
Стадия гнев, сменяется фазой принятия и смирения.
Ну, за графику и анимацию.
Покрал у @NeuralShit, ибо люто хорошо.
Ждем контролНетов на стероидах.
На выходных не поленился почитал статью от Метачки с броским названием Sapiens.
Статья невыносимо крутая.
Авторы взяли и немного сузили класс задач компьютерного зрения, а именно до тех изображений, где находится человек (ибо это самый востребованный класс).
И получили убойное семейство моделей для четырех фундаментальных задач комп зрения - оценки 2D-позы, сегментации частей тела, оценки глубины и предсказания нормалей.
По качеству убрали все аналогичные частные случаи. Ну и самое главное - вывалили все этот в опенсорс.
Ждем нaтренированных как рексы контролНетов, ибо проделанная работа впечатляет.
Взяли миллиард изображений людей, вычистили его от мусора, получили 300(!) миллионов картинок с людьми, причем 17% - один кожаный в кадре, а 56% - больше 4 кожаных в кадре (что важно для будущих генераций).
Для оценки глубины взяли 600 качественных фотограмметрических сканов кожаных (то бишь 3Д-моделей оных) и отрендерили полмиллиона(!) ракурсов и поз в 4K, чтобы на них обучаться по глубине. Случайный фон выбирался из коллекции 100 HDRI карт окружения. Для нормалей - аналогично.
Все это добро обучалось на кластере из 1024 A100 за 18 дней.
И там несколько размеров моделей - от 0.3B до 2B.
В общем очень круто, поглядите хотя бы на сайт проекта, там внутри ссылка на код и на статью.
https://about.meta.com/realitylabs/codecavatars/sapiens
@cgevent
Как вам такая новости?
Canva купили Leonardo AI.
У меня один вопрос - зачем?
Я тестировал Леонардо очень давно. Когда это был один из многих сервисов типа: накатили Stable Diffusion на сервер, даем погенерить за деньги. Потом они пощли по пути InvokeAI и стали пилить удобные интерфейсные штуки для тех, кто привык рисовать. Начали прикручивать видео (как я понял на основе открытого кода AnimatedDifа и SVD). Все равно оставаясь нашлепкой на Stable Diffusion. Из последнего - они сделали свою модель Феникс.
Едиственное, что их отличало от других сервисов - убойный маркетинг (команда пришла из web3 и NFT). Тьма привлеченных блогеров называла их убийцей Midjourney.
Потом они начали вводить больше и больше цензуры на контент. Видать готовились к продаже.
Поэтому у меня так и висит вопрос - зачем Canva их купила?
С юзерами у Канвы и так все ок.
С понимание UI\UX тоже.
Неужели сами не решились написать обертки над Stable Diffusion?
У них же уже есть обертка над DALL·E 3 (через вызовы API OpenAI).
Или я чего-то упускаю?
https://www.canva.com/newsroom/news/leonardo-ai/
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.
Запустить ламу на домашнем кластере
@ai_newz
«Хаб дал возможность проверить свою идею на практике: создать курс с использованием LLM и протестировать его на реальных студентах! Так я запустила стартап EduLLM — AI-помощник преподавателям» Саша Корнеева, выпускница AI Talent Hub.
➡️ Поступить в AI-магистратуру ai.itmo.ru можешь и ты! Более 200 бюджетных мест, успей подать заявку!
▪️ Учись онлайн у лучших практиков из Яндекс, Sber AI, VK, Napoleon IT, Ozon, MTS AI, AIRI;
▪️ Самостоятельно собери программу обучения из 80+ дисциплин;
▪️ Реализуй 4 проекта с реальными бизнес-кейсами;
▪️ Участвуй в воркшопах, хакатонах, проектных семинарах;
▪️ Стань частью крупнейшего AI-комьюнити
🔘Для участия в конкурсе на бюджет, рекомендуется подать заявку до 20 июля: ai.itmo.ru
AI Talent Hub — магистратура, созданная университетом ИТМО и AI-компанией Napoleon IT.
Реклама. Университет ИТМО ИНН:7813045547 erid:2Vfnxw1EB7v
В последнее время количество каналов в ИИ растет если не экспоненциально, то линейно. Количество вороваторов-аггегаторов зашкаливает. Я с любопытством смотрю, как мои разнузданные посты копируют и втискивают в шаблон "смаритечто" или "SD3 урыли, а OpenAI фсе" или "а вот новость".
Понятно, что такие каналы - закупка аудитории, нагон хомяков и личности автора там и близко не просвечивает. Я подписан в основном на авторские каналы, где есть персоналити.
Один из них @ppprompt - авторский канал Алексея Иванова, где он рассказывает и обсуждает нетривиальные новости из мира AI, делится полезными подборками и промптами, публикует разборы и ляпы нейронок.
Кстати, Алексей любит эксперименты с AI в областях саморазвития и обучения, и активно встраивает LLM в свою повседневную жизнь. Возможно вы его знаете по проекту PonchikNews.
Вот интересные посты с его канала:
#Промпт: саммари, которые вставляет читать
Claude 3 Opus vs GPT 4 Updated: чем пользоваться?
[опрос] Станут ли бедняки и средний класс богаче с появлением AGI?
OpenAI - это новый Apple. Вот почему
Тестим Gen-3 по промптам от подписчиков
Подписывайтесь на @ppprompt, это вам не аггрегатор чужих постов
#вп
Очередная бомбяря от создателя Фокуса.
Он как бы развернул процесс создания картинки вспять.
И если в Stable Diffusion уже давно можно генерить по наброскам картинку, то он делает ровно наоборот - генерит по картинке наброски, из которых как быдто бы эта картинка была создана. Получается этакий спид-пайнт наоборот.
Реально гений.
Грубо говоря, он довел модель Canny до космического уровня. На входе одна картинка!
Поглядите на примеры вот тут:
https://lllyasviel.github.io/pages/paints_undo/
Более того, есть код!
https://github.com/lllyasviel/Paints-UNDO
Спасибо Нейронавтику за наводку
@cgevent
Есть четыре новости. Одна хорошая и три плохих.
Хорошая: апскейлер Magnific прикрутили как (официальный) плагин к Фотошопу.
Плохие:
- вам надо вонзать за подписку Магнифика, чтобы пользоваться им. Плюсом к подписке Адобченко.
- Есть только апскейл, нет релайта
- Есть только апскейл, но нет стайл трансфера
Ставим отсюда: https://exchange.adobe.com/apps/cc/34d52243?pluginId=34d52243
Kolors-Correction. На китайском -2
Kolors - новый SD3? Только лучше!
Простите, я уже задолбал всех с новой моделью, но эти травмы надо проработать.
Ну ок, я пришел из Дипла с котиками и собачками на китайском. И выяснилось, что на китайском Kolors просто уделывает SD3 по всем параметрами, особенно по пониманию промпта!
Первые две картинки - это промпт на китайском, переведенный диплом (deepl)
一张红色球体位于蓝色立方体之上的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫
Третья и четвертая - промпт на англиском. Почувствуйте разницу и поглядите, что на китайском Kolors рисует именно ТРЕУГОЛЬНИК, как просили, а не призму.
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Сравните с английским промптом и с той вялой лабудой, которую генерит SD3 (там я черрипикал котиков в колорсе долго, а в этом посте с первой попытки)
Start Seed 2152145132, Scale 2.5, 1344x768
@cgevent
Колорскоррекция. На китайском.
Держитесь крепче, ибо щас будет очень круто. Жду вороватинга след поста на всех каналах телеграм-столицы.
Ладно, напишу спокойно, чтобы вы сделали репост.
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
Kolors - новый SD3? Не совсем. Лицензия.
Лицензия там плохая.
Но вот сдается мне, что лицензия на код, равно как и авторские права на музику или картинки становятся все больше вопросом серой зоны.
LLM настолько прокачались в коде, что что их можно просить не только переписать код, но и улучшить его.
Что мешает взять код Kolors - он совсем небольшой, я бы даже сказал маленький. Подпереть его статьей и попросить Клода переписать кусками этот код. Какая будет лицензия у такого кода? И кому она будет принадлежать? Кроме того, огромный кусок кода Kolors - это код Stable Diffusion.
В общем с авторскими и лицензиями на код все будет очень интересно.
И чтобы дополнить пост визуалом держите Джаки Чана, Барака Обаму, Илона Маска и Том Круиза.
Kolors довольно интересно "смазывает" похожесть знаменитостей. Видно, что она их знает (кроме Маска, вестимо). Она как будто размывает узнаваемость, и начинает включать DALL·E 3 в плане нереалистичности.
Ну и вишенка на торте. Седой мужик - это результат по запросу Portrait oа Barak Obama (я опечатался в предлоге).
Узнали?
Тут я малость охренел - насколько в голове у ИИ все эти знаменитости и политики кластеризованы в одну кучку в капитолии латентного пространства. Стоит только опечататься...
Ну и эти вот опечатки - это скрытые шорткаты и джейлбрейки. LLM-мантры.
@cgevent
Kolors - новый SD3? Не совсем. Записки очевидца-2.
Теперь за понимание промпта.
Там навернуто очень (прям очень) сильное раскучерявливание промпта с большим количеством деталей, благодаря LLM.
В отличие от DALL·E 3 нельзя сказать, "используй в точности мой промт и только его". Она креативит конкретно.
Но мне было интересно понимание пространства. Поэтому я взял знаменитые промпты от SD3 с бутылочками и собачками на шаре и прогнал их как через Kolors, так и через SD3 медиум.
Ну что сказать, Kolors понимает пространство хуже, чем SD3, это прям видно. Но старается.
Зато по красоте бутылочек ей нет равных. И пусть она путает цвета жидкостей и цифры, но выглядит отлично, благодаря промпт-улучшайзингу с помощью внутренней LLM. SD3 тоже путается в наклейках и тексте, но цвета, как правило, распределяется правильно.
Kolors не умеет в текст. В интернетике лютый черрипик. Она даже избегает его, как будто специально.
На итоге: понимание промпта хорошее, добавление деталей убойное, понимание отношений между объектами - хуже, чем в SD3, но качество лучше.
На картинке все бутылочки - это Kolors и только 3х3 - это грид из SD3. Сравните сами качество, детали и понимание.
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3
С Томом Крузом у китайцев не очень. Хотя можно догадаться.
Ну и с промптом тоже неловко получилось.
photorealistic image of Tom Cruise floating in water, dressed in tactical gear, carrying guns, chasing scared roach fish.
Tost.ai Flux Lora training
На tost.ai завезли ostris ai toolkit
Получится ли обучить на бесплатном лимите - не знаю.
[update] Благодаря смелым подписчикам-первопроходцам, удалось выяснить что да, на бесплатном лимите можно натренить одну лору в день
Еще из новых фич тоста: можно подключать лору ссылкой и генерить флюксом
#lora #flux #finetuning
Жидкий терминатор уже рядом.
Китайские ученые создали робота-слизняка, который может проникать в узкие щели и даже хватать предметы.
Пишут, что может работать внутри человеческого тела 🌚
🔴 @reptiloidnaya × #роботы #киберпанк
Помните такой китайский генератор Vidu?
Он засветился сразу после Соры, но как-то исчез из твитторов и новостей.
Так вот, у них есть фишка, которой, похоже, нет ни у кого.
Characters to Video. Вы можете загрузить фотку себя, или флексить флюксом, или сгенерить персонаж в MJ - и присунуть его на вход.
Vidu довольно цепко держит персонаж, акцентируя именно на консистентности оного.
Для оживляжа комиксов самое то.
Ещё у них появился апскейлер, но он ну такой.
Есть бесплатные генерации и вообще стоит заглянуть к ним сюда:
https://www.vidu.studio/
@cgevent
Тут вот в телегу завезли Stars в качестве реакций. Ну штож, протестируем фичу.
Я тут на сутки завис с фракталами во Флюксе. И вообще я завис во Флюксе, как вы могли заметить.
Наворотил вот такое вот абстрактищще, года 3 назад - сразу бы на OpenSea и ну в миллионеры.
Короче, навалите мне сюда 1000 Stars и я расскажу, как обгонял, как подрезал, как генерил.
Как собирал видео без всяких монтажек.
Как делал анимацию.
Как юзал Optical Flow чтобы убрать кипение
Как не юзал AnimatedDiff или EbSynth
При чем тут chatGPT
Почему Forge это бомба и как починить Distilled CFG
Ну и по мелочи...
Телегу надо обновить, без этого никак.
Хинт: чтобы послать 10 или 50 звезд(1⭐️ это 1.4руб), надо 10 раз тапнуть по звезде(или прижать ее подольше). Так что это еще и тест тапалок. Тапайте на здоровье. Админа. И Флюкса.
@cgevent
Kling vs Luma vs Gen-3 (промтинг и особенности so far)
Готов поделиться с вами некоторыми наблюдениями на основе своего опыта и официальных гайдов.
😑 Актуально для Kling, Luma и Gen-3:
1. Модели не могут одновременно создать два сюжета или действия в рамках одной генерации. Фокусируйтесь на одном конкретном действии или изменении за раз.
2. Luma лучше справляется с интерполяцией между совершенно разными ключевыми кадрами, создавая логичную (иногда) последовательность. Kling чаще ошибается в таких случаях и требует наличия визуальных подсказок - общих деталей или объектов в кадрах (здесь, например, это приборная панель машины), чтобы правильно интерполировать между ними.
3. Фокусируйтесь на том, что должно быть в сцене, а не на том, чего не должно быть.
4. В целом все три модели схожи - по классике промтинга, четко описывайте желаемую сцену, избегая двусмысленности и сложных выражений.
😌 Рекомендации по промптингу:
1. Для Kling:
* Используйте короткие, простые предложения.
* Сосредоточьтесь на описании движения, а не на характеристиках объектов.
* Избегайте сложных идиом и культурно-специфических выражений. Не понятно, переводит ли он на китайский, но если да, смысл вашего английского или русского промта может измениться.
* Пример: Instead of "An elegant lady in an evening gown", write "A woman smoothly moving in a long dress".
* Есть теория, что Клинг охотнее ест упрощенный китайский.
* Экспериментируйте с ползунком креативности для баланса между точностью и интерпретацией. Установка ползунка на 0.5 дает сбалансированный результат, а на 1 — более точное следование промпту, но это нужно еще проверить.
2. Для Luma:
* Используйте "Enhance prompt" для улучшения ваших промптов. Работает почти всегда.
* Обязательно указывайте движение камеры, например: "A dramatic zoom in" или "An FPV drone shot". Иногда достаточно описать движение камеры + enchance prompt.
3. Для Gen-3:
* Структурируйте промпт по схеме: [camera movement]: [scene setup]. [additional details].
* Четко разделяйте информацию о движении камеры, описании сцены и дополнительных деталях.
* Повторяйте или усиливайте ключевые идеи в разных частях промпта.
* Пример: "Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray."
P.S: Обновил свою GPTшку, генерирующую промпты для видео-моделей по картинке. Теперь она более точная и предлагает сразу четыре варианта промпта на выбор.🤨
Как-то история со StoryDiffusion не взлетела, кроме их же примеров в сети почти ничего нет, и даже великий и ужасный реддит молчит. Пишут, что код кривой, заводится плохо, и, самое главное, веса для генерации видео (спорного качества) они так и не выложили. Только примеры с комиксами. На гитхабе отвечают на китайском, в общем все спорно.
А вот я углядел работу на тех же принципах (Subject Driven Self-Attention) но, от более (скажем так) солидных авторов - Nvidia и Tel Aviv University.
ConsiStory - это модель для генерации консистентных персонажей (и похоже не только персонажей, а всего(!)) без всякого дообучения, то есть без вот этих вот лор, дримбусов, кастомных чекпойнтов, инверсий и даже IP-адаптеров. Просто по одному изображению объекта\персонажа. Выглядит очень сладко. Особенно возможность менять фон, без потери консистентности основного объекта.
Работа едет на Сигграф, в качестве пакована работ от Нвидия, и после Сигграфа должен появиться код. Очень надеюсь.
Там правда есть угрожающая деталь - "10 секунд на H100". Это на базе SDXL, поэтому по времени может и ничего, но про память непонятно.
Гикам советую заглянуть в аппендикс статьи на архиве.
https://research.nvidia.com/labs/par/consistory/
В продолжение про LivePortrait повторю свой пост двухлетней давности:
Я сначала немного привсподупал со стула.
Слева реальная кожаная косплеерша имитирует движения анимационного персонажа из Отеля Трансильвания.
И как!
Да, там сверху навалено фильтров, но кожаная анимация (мимика и тело) впечатляет.
Вот такие люди смогут использовать LivePortrait на всю мощь.
Ну и вот вам история для размышления.
Когда в конце 90-х мы привезли первый взрослый мокап (Асценшен) на студию Пилот, то был устроен кастинг для мокап-актеров.
Обосрались все.
И только одна категория граждан идеально и с большим отрывом подошла на эту роль.
Знаете кто?
Мимы.
P.S. А Серега Лобанков после этого стал лучшим актером мокапа в России. И было это 28 лет назад.
Вот косплеерша: https://twitter.com/seeu_cosplay
Как же похорошела наша старая добрая принцесса при Kolors.
Помните досторический промпт:
goddess princess beautiful face portrait ram skull zbrush sculpt. jellyfish phoenix head, nautilus, orchid, skull, betta fish, bioluminiscent creatures, intricate artwork by Tooth Wu and wlop and beeple. octane render, trending on artstation, greg rutkowski very coherent symmetrical artwork. cinematic, hyper realism, high detail, octane render, 8k
В Kolors он выглядит вот так. А чтобы было веселее, я перевел его на китайский.
Первые 4 картинки - английский промпт, вторые - китайский.
Почувствуйте, так сказать, разницу в восприятии мира. Не зря говорят, что язык определяет мышление.
Arata Fukoe и его невероятный клип через нейронки
🍎 Автор работы уже делал невероятные вещи через Gaussian Splatting и множество гопро камер, а теперь показывает мастерство клипмейкинга через нейронки.
Музыка: ChatGPT, Sunoai
Видео: DreamMachine, Gen-3, Kling
Картинки: MJ, SD
Монтаж: Photoshop, After Effects
📕 Это если мы говорим о полных нейронных видео, но можем посмотреть на классические работы с небольшими вставками нейронок:
Видеоклипная работа Ramzoid (Это один из любимчиков Славы Мэрлоу, а так же мой любимый артист)
в этом клипе часто используется generative Fill от Adobe, когда края картинки дорисовываются, а центр остается оригинальным видео.
И так же есть момент с DreamMachine, сцена в прачечной, когда мы берем последний кадр из видео и подаем в видеонейронку для артового продолжения кадра.
Успех и мемность видеомоделей, а так же некоторые старые приемы, которые мы видели уже 2 года назад, становятся вновь актуальными как части видеоэффектов для клипов.
У всех этих видео-генераторов (кроме Соры) довольно мыльная картинка. Мало деталей, а те что есть, просят апскейла.
Имеет смысл делать видосы явно не реалистичного, а наоборот абстрактного стиля, ну или сильно стилизованные видео.
Вот посмотрите, что творит Клинг, по мотивам Spider-Man: Across the Spider-Verse.
Китайцы пока точно мои фавориты, особенно после выхода Kolors(гитхаб обновился, кстати, сделали веб-морду).
Kolors-Correction. На китайском.
Kolors - новый SD3? Только лучше!
Сегодня писал про Kolors и про то, что она обходит в качестве SD3, но с пониманием пространства справляется хуже. Так вот - это не так. Она идеально понимает пространство и отношения между объектами, если с ней говорить на китайском.
Я просто перевел вот такой промпт на китайский:
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3
(точнее мне пригнали перевод с реддита, куда я запихал свои бутылочки).
木桌上放着三个透明玻璃瓶。 左边的瓶子里装着红色液体,上面标着数字 1。 中间的瓶子里装着蓝色液体,上面标着数字 2。 右边的瓶子里装着绿色液体,上面标着数字 3。
И что вы думаете, по китайскому промпту Kolors сгенерила 7 из 8 корректных бутылочек с первой попытки!
Расположение цветов и цифр - правильное.
Сравните с английским промптом и с той вялой лабудой, которую генерит SD3.
Я пошел учить китайский. А точнее в Deepl.
Start Seed 2152145132, Scale 2.5, 1344x768
@cgevent
Эта реклама Volvo была сделана за 24 часа одним человеком. Сетки + AE.
Теперь представляем ситуацию, когда заказчик приходит и просит прорекламировать свои матрасы, "чтобы как у Нолана было!".
С одной стороны, наступает просадка в заказах, у маленьких и не очень, постовых студий. Потому что зачем, если Васян сделает за 24 часа.
С другой стороны, мы имеем заказчика, который мозг вытрахает, если у вас не тот цвет травы или его товар выглядит хотя бы на миллиметр не так, как произведён на фабрике в Китае. А если не фул CG, то там и косты на супервайзеров, и на камеры, и на менеджеров, и на актёров, которые ещё не закончили курсы, но уже стоят охулиард. Т.е. все те ребята как получали, так и будут получать, в том числе и директора студий.
А экономить будут, я думаю, вы уже догадались, на бедолагах CG-цеха.
Но, как я уже говорил, это временная аномалия на рынке, которая может продержаться пару лет. А потом люди, студии или сквад, собирающийся на проект, чтобы запилить графику, снова займут свои места. Только это уже будут другие люди!
Kolors - новый SD3? Не совсем. Записки очевидца-3.
Теперь потренируемся на сферических кошечках.
Берем промпт из твиттора Эмада и суем его в Kolors и SD3.
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Kolors - новый SD3? Не совсем. Записки очевидца.
Я сейчас приподвывалю сюда, чем я занимался в выходные (кроме просмотра БМ и Фуриозы). А дальше у меня тьма материал про генерацию контента под запрос пользователя.
В общем, я развел Kolors локально (точнее на удаленном серваке с Убунтой), встало быстро. Но в коде у них просто командная строчка. Пришлось сделать веб-морду, как у них на демо на Хаггинг Фейсе.
По технике - она быстрая, быстрее, чем SDXL (по крайне мере на A100). Но жрет память как не в себя. Можно указать выгрузку ЛЛМ на цпу, и она честно старается, но все равно в пике отжирает 24гига видеопамяти. Если не указывать выгрузку, аллокирует 31 гиг, но, при множественных генерациях, постоянно дожирает память и на итоге начинает тормозить, потому что закончились 80ГБ!
В общем код сыроват, там какие-то куски SD и оборванные комментарии.
Но работает.
По генерации - хорошо. Только она очень .. старательная что ли. То ли это китайские датасеты, то ли китайская разметка, то ли они переборщили с синтетическими картинками при обучении. Очень странная кожа, но зато мелкие детали типа травы, волос, узоров - просто отлично.
Негативный промпт есть, но почти не нужен.
Лучше пользовать ея с CFGScale = 2-3, иначе она выжигает картинку. И гладкомордит. (вообще просится для лица 2, а для кожи и остального 4-5)
Очень сильная зависимость от Sampling Steps - это не просто улучшение качества, это может быть изменение с собаки на кошку. И только после 60 Step начинает сходиться процесс.
Сэмплер скрыт в коде, еще не смотрел.
В общем перво-наперво я стал укладывать девчонок на траву. И тут проблем никаких. Да, иногда вылезает анатомия, но в пределах нормы. Это вам не SD3.
NSFW есть, но вы точно не сможете им пользоваться без файнтюнов. Как и в SD3 там похоже есть слои, которые портят картинку, при срабатывании каких-то триггеров (в коде есть safety_checker но он пока заглушка). Лица тут же портятся, соски деформируются. Как в SD3, но в сильно меньше степени. Скорее, как в SDXL.
Туда точно просится Face Enhancer и Adetailer, некоторые картинки просто отличные, но лица явно просят доработки, что норм.
В общем держите пока девчонок. Остальное в один пост не влезает.
@cgevent
Хорошие новости из Китая - 2.
Создатели Клинга бахнули новую дифузионную модель для генерации картинок.
И на первый взгляд она выглядит плазменно хорошо.
Я уже погонял ее на HF, завтра разведу локально (но она жрет 19 гиг видеопамяти).
И вот мои ощущения.
1. Он не такая пугливая как SD3 относительно анатомии, но лица и части тела даются ей с некоторым трудом, когда загоняешь ее в жоский NSFW, видно, что ей это точно не нравится.
Но портреты генерит просто отлично. Я наваял суровых мужуков с пленочным зерном.
2. Хорошо, очень хорошо понимает промпт.
3. Здорово понимает отношения между объектами. Я раз десять генерил зеленый ball на красном кубе, не мог поверить, что она такая ловкая.
4. Всякия пейзажи - просто отлично.
5. Глядя на их галерею, есть ощущение, что глядишь на главную страницу Civitai - там сплошной фан арт. Это наверное неплохо - модель разносторонняя (но надо проверять)
В общем все, что нам обещали в SD3 тут похоже есть. Особенно понимание промпта, качество надо исследовать. Но уже есть разговоры и про контрол нет и тренировку.
Ну и самое главное, они клянуцца выложить это в опен сорс, правда с непонятной лицензией (уже выложили, пока я писал).
В общем плакало мое воскресенье, придется тестировать.
Совсем сладких девчонок присуну в коменты, тут меня телегам пристукнет. Держите результаты тестов и держите ссылок.
Пробуем сами тут:
https://huggingface.co/spaces/gokaygokay/Kolors
Читаем тут:
https://huggingface.co/Kwai-Kolors/Kolors
Гитхабчег:
https://github.com/Kwai-Kolors/Kolors
Галерея:
https://kolors.kuaishou.com/
Нода для Комфи(!):
https://github.com/kijai/ComfyUI-KwaiKolorsWrapper