Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Первый день анонсов от OpenAI был просто, гхм, потрясающим!
День первый: цунами
День второй: саранча?
Just a woman casually walking her pet raptor
Нейросети прекрасны
AI Video Composer
Лицехваты упоролись и сделали управляемый текстом видеоредактор.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.
Ваистену, text2video который мы заслужили!
демо
х
@derplearning
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.
Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.
По классике, код и веса выложили чуть ли не раньше пейпера.
подробнее
код
веса (правда там бардак)
@derplearning
https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px
вышла
демо: https://nv-sana.mit.edu/
Очередной хайп-тул от китайцев из ByteDance — SeedEdit
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
Что-то это уже слишком хорошо для липсинка.
У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait
Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.
Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/
@cgevent
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
По всей видимости, текущие методы RL не очень подходят для генерации трёхмерных представлений либо тратят слишком много вычислительных ресурсов. Поэтому для новой беты модели Gen-1 RLHF V0.9 использовали Reinforcement Learning with Human Feedback (RLHF): у них, натурально, в штате сидит команда моделлеров, которые раздают вознаграждения.
К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.
На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.
Пробовать тут
Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.
Продавать современные обогреватели для датацентров хайповее железа пятилетней давности, кто бы мог подумать.
Doesn't look like anything to me.
Кто куда, а я за модной черной шляпой и конем :D
Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.
Torso by Clone Robotics
@derplearning
Когда сгорел на работе и стал запретной слоеной булочкой
Читать полностью…Anthropic показал новые модели Sonnet 3.5 (New) — эта чуть лучше прошлой (все равно вы ее для кода используете, на 5% лучше его пишет), Haiku 3.5 — эта их конкурент gpt4o-mini (получше, но дороже). Тут у Игоря подробный разбор релиза.
Мне же понравилось другое, они показали как примерно будет работать управление компьютером агентом — посмотрите видео, я их чуть обрезал. То есть через какое-то время, мышку можно будет не двигать, просто говорите компьютеру что хотите — и оно делает скриншотя экран – ну как в Sci-Fi фильмах только сегодня
Уже доступно через апи, вот код из примера, а тут документация
Ботоводы, наверное, потирают руки
HunyuanVideo от Тencent
Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!
13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.
HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.
Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.
👨💻 Project page
🤗 Huggingface
💻 Git
📜 Paper
🎮 Demo
CS492(D): Diffusion Models and Their Applications
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй
#ликбез
@ai_newz
OminiControl
И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.
Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D
Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.
Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.
код
пейпер
модели
демо
датасет (subject)
@derplearning
https://x.com/fofrAI/status/1860108591002452479
Читать полностью…Вчера был большой день в моей карьере артиста.
Моя работа A DREAM стала одним из победителей Artefact AI film Festival.
Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.
А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.
#jane
Runwayml: анонсирует camera controls, успевает похайповать полчаса.
Опенсорс: hold my beer
DimensionX Lora для Cogvideo. Моё увожение!
Github
В HeyGen новая фича - Photo Avatar
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
Тренировка Лор для Клинг!
На своих (чужих, нужных) лицах.
Да, в Клинге появляются Лоры - они их зовут "AI Custom model"
Для тренировки свое модели:
Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.
Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.
Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.
Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.
И все, Клингонская Лора в действии!
Поглядите примеры. Этот ж новый нормальный кастинг.
Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.
@cgevent
У Runway потрясающее новое обновление — улучшенное управление камерой
Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.
Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.
Классная игра – где одна LLM рисует картинку кодом (SVG), а другие LLM угадывают что это
(Кода пока нет, но наверное будет)
Автор
Тем временем главный не-мешки-ворочатель Openai лично опроверг выход новой модели Orion в декабре. Значит, релиз точно будет 😂
Читать полностью…HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.
На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша sana? 😂
Code
Project
Paper
Demo
@derpleaning
Кстати диффузионных моделек, использующих DC-AE, целый зоопарк, но они все class conditioned и походу тренились только на imagenet :D
Даже не знаю, что хочется больше - задистиллить sd под этот DC-AE, или запихнуть эти модели в disco diffusion
code
models
A gta5 loading screenshot featuring a man, by Stephen bliss, comics, thick lines, outlines, high detail, cyberpunk 2077 arasaka armor
Забили очередь, ахах.