Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Что-то это уже слишком хорошо для липсинка.
У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait
Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.
Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/
@cgevent
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
По всей видимости, текущие методы RL не очень подходят для генерации трёхмерных представлений либо тратят слишком много вычислительных ресурсов. Поэтому для новой беты модели Gen-1 RLHF V0.9 использовали Reinforcement Learning with Human Feedback (RLHF): у них, натурально, в штате сидит команда моделлеров, которые раздают вознаграждения.
К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.
На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.
Пробовать тут
Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.
Продавать современные обогреватели для датацентров хайповее железа пятилетней давности, кто бы мог подумать.
Doesn't look like anything to me.
Кто куда, а я за модной черной шляпой и конем :D
Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.
Torso by Clone Robotics
@derplearning
Когда сгорел на работе и стал запретной слоеной булочкой
Читать полностью…Anthropic показал новые модели Sonnet 3.5 (New) — эта чуть лучше прошлой (все равно вы ее для кода используете, на 5% лучше его пишет), Haiku 3.5 — эта их конкурент gpt4o-mini (получше, но дороже). Тут у Игоря подробный разбор релиза.
Мне же понравилось другое, они показали как примерно будет работать управление компьютером агентом — посмотрите видео, я их чуть обрезал. То есть через какое-то время, мышку можно будет не двигать, просто говорите компьютеру что хотите — и оно делает скриншотя экран – ну как в Sci-Fi фильмах только сегодня
Уже доступно через апи, вот код из примера, а тут документация
Ботоводы, наверное, потирают руки
Слухи подтвердились, используют DC-AE, официальное репо sana это подтверждает!
Код ещё не подьехал, но уже есть градио демка. Генерит быстро, 1-2с на 1024х1024 картинку.
В принципе, даже если качество самой модели будет неоч, DC-AE отдельно уже очень крут.
DC-AE project
DC-AE paper
DC-AE code
Sana repo
Sana gradio demo (1.6b 1024)
Paper
@derplearning
efficientvit
TLDR; на реддит пишут что это исходный код того самого эффективного VAE (жмет в 32 раза), который заюзан в Sana
https://github.com/mit-han-lab/efficientvit
Вот держите список open-source-ных генераторов картинок. Которые можно развести локально.
Не у всех хорошие лицензии, например, Хуньянь только что обновили свое лицензионное соглашение вот так:
You must not use, reproduce, modify, distribute, or display the Tencent Hunyuan Works, Output or results of the Tencent Hunyuan в Европейском Союзе. Еще раз "показывать работы!!!!".
Ну да ладно. Вернемся к списку.
Список неполный, но Влад его постоянно обновляет.
https://github.com/vladmandic/automatic/wiki/Models
Только что добавил неведомых зверух типа MeissonFlow или Thu-ML или IDKiro.
Есть даже динозавры типа Дипфлойда.
Дико полезно, что вы можете в одном месте поглядеть и сравнить вот такие параметры:
Size
Diffusion Architecture
Model Params
Text Encoder(s)
TE Params
Auto Encoder
Еще раз, это то, для чего есть код. Для Flux 1.1 кода нет.
В общем сразу хочется все попробовать, целюсь в MeissonFlow.
Пишите, кто пробовал разную дичь из этого списка.
И кто вообще юзает SD.Next.
p.s. Тут все постят про SANA от Нвидия.
https://nvlabs.github.io/Sana/
Пока кода нет, сложно что-то сказать. Упор на скорость. Я не впечатлился и не стал постить. Странная ответочка на Flux Turbo от Алимамы, но меня зацепило, что там вся команда из Пиксарт Сигмы, которую сманили из Хуавея в Нвидию.
@cgevent
The Man Who Sold The World
Тем временем WorldCoin от Scam'a Альтмана ребренднулся в World и запилил более кошерный девайс для скана сетчатки. Его можно будет юзать как для себя, так и сканировать соседей за небольшой гешефт.
На данный момент сетчатку уже сдали более 7млн человек.
Намерения на бумаге, конечно, благие - в эпоху ии-агентов важно знать, что ты общаешься с реальным человеком, скан сетчатки которого и будет его уникальной электронной подписью. Ну и UBI каждому даром, и пусть никто не уйдет обиженным.
Однако, зная способности к переобуванию данного персонажа, а также подментованность опенаи, я бы относился к этому с опаской 😅
Подробнее
@derplearning
Ah yes the man from the famous
sissy themed of ad lawn
Adobe показал новую АИ-фичу от которой уже на самом деле дизайнеры напряглись – для такой работы в иллюстраторе раньше приходилось тратить кучу времени 🌚
Читать полностью…В HeyGen новая фича - Photo Avatar
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
Тренировка Лор для Клинг!
На своих (чужих, нужных) лицах.
Да, в Клинге появляются Лоры - они их зовут "AI Custom model"
Для тренировки свое модели:
Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.
Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.
Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.
Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.
И все, Клингонская Лора в действии!
Поглядите примеры. Этот ж новый нормальный кастинг.
Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.
@cgevent
У Runway потрясающее новое обновление — улучшенное управление камерой
Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.
Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.
Классная игра – где одна LLM рисует картинку кодом (SVG), а другие LLM угадывают что это
(Кода пока нет, но наверное будет)
Автор
Тем временем главный не-мешки-ворочатель Openai лично опроверг выход новой модели Orion в декабре. Значит, релиз точно будет 😂
Читать полностью…HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.
На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша sana? 😂
Code
Project
Paper
Demo
@derpleaning
Кстати диффузионных моделек, использующих DC-AE, целый зоопарк, но они все class conditioned и походу тренились только на imagenet :D
Даже не знаю, что хочется больше - задистиллить sd под этот DC-AE, или запихнуть эти модели в disco diffusion
code
models
A gta5 loading screenshot featuring a man, by Stephen bliss, comics, thick lines, outlines, high detail, cyberpunk 2077 arasaka armor
Забили очередь, ахах.
У мега-ультра-супербыстрого генератора картинок от Nvidia под названием SANA появился репозитарий на Гитхабе. Но кода пока нет, а Readme обновилось 3 часа назад. Ждем-с...
https://github.com/NVlabs/Sana
Когда хотел сгенерить картинку 1910*1080, но вместо * написал ^
Хватит ли сферы Дайсона и нашего солнышка, чтобы запитать кластер на 1 эксабайт (1 млн терабайт)?
Ну наконец-то для is-odd обнова вышла!
Теперь можно узнать четное число или нечётное с помощью гпт3.5!
Еще одна классная фича нового Adobe Illustrator, это когда вы загружаете 2D векторную картинку, и можете ее "повернуть" в объеме – на видео понятно как работает
Фича называется Project Turntable
Все же придется уходить с Corel Draw, чуваки 😮
Mistral выкатил пару новых моделей для edge девайсов: Ministral 3B & 8B, 128k context.
Подвох в том, что они доступны по API, опенсорсная 8B - с рисерч лицензией, а за коммерческой писать в им лс :D
Announcement
Ministral 8B - Research License