Telegram-канал derplearning - Derp Learning: Неотсортированное

Derp Learning

06 декабря 2024 05:36

Первый день анонсов от OpenAI был просто, гхм, потрясающим!

День первый: цунами
День второй: саранча?

Читать полностью…

Derp Learning

03 декабря 2024 15:37

Just a woman casually walking her pet raptor
Нейросети прекрасны

Читать полностью…

Derp Learning

26 ноября 2024 23:49

AI Video Composer
Лицехваты упоролись и сделали управляемый текстом видеоредактор.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.

Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.

Ваистену, text2video который мы заслужили!

демо
х

@derplearning

Читать полностью…

Derp Learning

25 ноября 2024 11:20

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning

Читать полностью…

Derp Learning

21 ноября 2024 12:10

https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px

вышла

демо: https://nv-sana.mit.edu/

Читать полностью…

Derp Learning

12 ноября 2024 12:57

Очередной хайп-тул от китайцев из ByteDance — SeedEdit

По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).

Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.

Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.

По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.

Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).

Больше примеров ниже.

Демо на Hugging Face
Пейпер
Project page

@ai_newz

Читать полностью…

Derp Learning

09 ноября 2024 02:21

Что-то это уже слишком хорошо для липсинка.

У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait

Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.

Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/

@cgevent

Читать полностью…

Derp Learning

04 ноября 2024 12:53

Скинули в нашем Опять чате

Читать полностью…

Derp Learning

03 ноября 2024 11:25

Для mochi запилили ~~редактор mochi~~ comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).

comfyui mochiedit
comfyui mochiwrapper
models

@derplearning

Читать полностью…

Derp Learning

27 октября 2024 07:39

По всей видимости, текущие методы RL не очень подходят для генерации трёхмерных представлений либо тратят слишком много вычислительных ресурсов. Поэтому для новой беты модели Gen-1 RLHF V0.9 использовали Reinforcement Learning with Human Feedback (RLHF): у них, натурально, в штате сидит команда моделлеров, которые раздают вознаграждения.

К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.

На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.

Пробовать тут

Читать полностью…

Derp Learning

25 октября 2024 18:11

Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.

Продавать современные обогреватели для датацентров хайповее железа пятилетней давности, кто бы мог подумать.

Читать полностью…

Derp Learning

25 октября 2024 05:03

SD 3.5 уже квантовали в q4!

Gguf жив!

Models

Читать полностью…

Derp Learning

24 октября 2024 09:20

Doesn't look like anything to me.

Кто куда, а я за модной черной шляпой и конем :D

Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.

Torso by Clone Robotics

@derplearning

Читать полностью…

Derp Learning

23 октября 2024 10:54

Когда сгорел на работе и стал запретной слоеной булочкой

Читать полностью…

Derp Learning

22 октября 2024 18:21

Anthropic показал новые модели Sonnet 3.5 (New) — эта чуть лучше прошлой (все равно вы ее для кода используете, на 5% лучше его пишет), Haiku 3.5 — эта их конкурент gpt4o-mini (получше, но дороже). Тут у Игоря подробный разбор релиза.

Мне же понравилось другое, они показали как примерно будет работать управление компьютером агентом — посмотрите видео, я их чуть обрезал. То есть через какое-то время, мышку можно будет не двигать, просто говорите компьютеру что хотите — и оно делает скриншотя экран – ну как в Sci-Fi фильмах только сегодня

Уже доступно через апи, вот код из примера, а тут документация

Ботоводы, наверное, потирают руки

Читать полностью…

Derp Learning

04 декабря 2024 09:04

HunyuanVideo от Тencent

Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!

13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.

HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.

Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.

👨‍💻 Project page

🤗 Huggingface

💻 Git

📜 Paper

🎮 Demo

Читать полностью…

Derp Learning

30 ноября 2024 19:11

CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz

Читать полностью…

Derp Learning

26 ноября 2024 21:59

OminiControl

И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.

Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D

Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.

Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.

код
пейпер
модели
демо
датасет (subject)

@derplearning

Читать полностью…

Derp Learning

23 ноября 2024 13:30

https://x.com/fofrAI/status/1860108591002452479

Читать полностью…

Derp Learning

17 ноября 2024 12:45

Вчера был большой день в моей карьере артиста.

Моя работа A DREAM стала одним из победителей Artefact AI film Festival.

Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.

А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.

#jane

Читать полностью…

Derp Learning

09 ноября 2024 18:49

Runwayml: анонсирует camera controls, успевает похайповать полчаса.
Опенсорс: hold my beer

DimensionX Lora для Cogvideo. Моё увожение!

Github

Читать полностью…

Derp Learning

05 ноября 2024 23:58

В HeyGen новая фича - Photo Avatar

И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.

Почитайте полный пайплайн тут:

Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz

Ну, за дикторов и блоггеров..

@cgevent

Читать полностью…

Derp Learning

04 ноября 2024 12:47

Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки свое модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.

@cgevent

Читать полностью…

Derp Learning

01 ноября 2024 23:09

У Runway потрясающее новое обновление — улучшенное управление камерой

Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут .

Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.

Читать полностью…

Derp Learning

27 октября 2024 00:20

Классная игра – где одна LLM рисует картинку кодом (SVG), а другие LLM угадывают что это

(Кода пока нет, но наверное будет)

Автор

Читать полностью…

Derp Learning

25 октября 2024 08:45

Тем временем главный не-мешки-ворочатель Openai лично опроверг выход новой модели Orion в декабре. Значит, релиз точно будет 😂

Читать полностью…

Derp Learning

24 октября 2024 22:49

Тем временем дум запустили на кактусе.

Читать полностью…

Derp Learning

24 октября 2024 08:37

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.

На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша sana? 😂

Code
Project
Paper
Demo

@derpleaning

Читать полностью…

Derp Learning

22 октября 2024 20:44

Кстати диффузионных моделек, использующих DC-AE, целый зоопарк, но они все class conditioned и походу тренились только на imagenet :D

Даже не знаю, что хочется больше - задистиллить sd под этот DC-AE, или запихнуть эти модели в disco diffusion

code
models

Читать полностью…

Derp Learning

22 октября 2024 07:11

A gta5 loading screenshot featuring a man, by Stephen bliss, comics, thick lines, outlines, high detail, cyberpunk 2077 arasaka armor

Забили очередь, ахах.

Читать полностью…