Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсов. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.
Запустить ламу на домашнем кластере
@ai_newz
«Хаб дал возможность проверить свою идею на практике: создать курс с использованием LLM и протестировать его на реальных студентах! Так я запустила стартап EduLLM — AI-помощник преподавателям» Саша Корнеева, выпускница AI Talent Hub.
➡️ Поступить в AI-магистратуру ai.itmo.ru можешь и ты! Более 200 бюджетных мест, успей подать заявку!
▪️ Учись онлайн у лучших практиков из Яндекс, Sber AI, VK, Napoleon IT, Ozon, MTS AI, AIRI;
▪️ Самостоятельно собери программу обучения из 80+ дисциплин;
▪️ Реализуй 4 проекта с реальными бизнес-кейсами;
▪️ Участвуй в воркшопах, хакатонах, проектных семинарах;
▪️ Стань частью крупнейшего AI-комьюнити
🔘Для участия в конкурсе на бюджет, рекомендуется подать заявку до 20 июля: ai.itmo.ru
AI Talent Hub — магистратура, созданная университетом ИТМО и AI-компанией Napoleon IT.
Реклама. Университет ИТМО ИНН:7813045547 erid:2Vfnxw1EB7v
В последнее время количество каналов в ИИ растет если не экспоненциально, то линейно. Количество вороваторов-аггегаторов зашкаливает. Я с любопытством смотрю, как мои разнузданные посты копируют и втискивают в шаблон "смаритечто" или "SD3 урыли, а OpenAI фсе" или "а вот новость".
Понятно, что такие каналы - закупка аудитории, нагон хомяков и личности автора там и близко не просвечивает. Я подписан в основном на авторские каналы, где есть персоналити.
Один из них @ppprompt - авторский канал Алексея Иванова, где он рассказывает и обсуждает нетривиальные новости из мира AI, делится полезными подборками и промптами, публикует разборы и ляпы нейронок.
Кстати, Алексей любит эксперименты с AI в областях саморазвития и обучения, и активно встраивает LLM в свою повседневную жизнь. Возможно вы его знаете по проекту PonchikNews.
Вот интересные посты с его канала:
#Промпт: саммари, которые вставляет читать
Claude 3 Opus vs GPT 4 Updated: чем пользоваться?
[опрос] Станут ли бедняки и средний класс богаче с появлением AGI?
OpenAI - это новый Apple. Вот почему
Тестим Gen-3 по промптам от подписчиков
Подписывайтесь на @ppprompt, это вам не аггрегатор чужих постов
#вп
Очередная бомбяря от создателя Фокуса.
Он как бы развернул процесс создания картинки вспять.
И если в Stable Diffusion уже давно можно генерить по наброскам картинку, то он делает ровно наоборот - генерит по картинке наброски, из которых как быдто бы эта картинка была создана. Получается этакий спид-пайнт наоборот.
Реально гений.
Грубо говоря, он довел модель Canny до космического уровня. На входе одна картинка!
Поглядите на примеры вот тут:
https://lllyasviel.github.io/pages/paints_undo/
Более того, есть код!
https://github.com/lllyasviel/Paints-UNDO
Спасибо Нейронавтику за наводку
@cgevent
Есть четыре новости. Одна хорошая и три плохих.
Хорошая: апскейлер Magnific прикрутили как (официальный) плагин к Фотошопу.
Плохие:
- вам надо вонзать за подписку Магнифика, чтобы пользоваться им. Плюсом к подписке Адобченко.
- Есть только апскейл, нет релайта
- Есть только апскейл, но нет стайл трансфера
Ставим отсюда: https://exchange.adobe.com/apps/cc/34d52243?pluginId=34d52243
Kolors-Correction. На китайском -2
Kolors - новый SD3? Только лучше!
Простите, я уже задолбал всех с новой моделью, но эти травмы надо проработать.
Ну ок, я пришел из Дипла с котиками и собачками на китайском. И выяснилось, что на китайском Kolors просто уделывает SD3 по всем параметрами, особенно по пониманию промпта!
Первые две картинки - это промпт на китайском, переведенный диплом (deepl)
一张红色球体位于蓝色立方体之上的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫
Третья и четвертая - промпт на англиском. Почувствуйте разницу и поглядите, что на китайском Kolors рисует именно ТРЕУГОЛЬНИК, как просили, а не призму.
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Сравните с английским промптом и с той вялой лабудой, которую генерит SD3 (там я черрипикал котиков в колорсе долго, а в этом посте с первой попытки)
Start Seed 2152145132, Scale 2.5, 1344x768
@cgevent
Колорскоррекция. На китайском.
Держитесь крепче, ибо щас будет очень круто. Жду вороватинга след поста на всех каналах телеграм-столицы.
Ладно, напишу спокойно, чтобы вы сделали репост.
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
Kolors - новый SD3? Не совсем. Лицензия.
Лицензия там плохая.
Но вот сдается мне, что лицензия на код, равно как и авторские права на музику или картинки становятся все больше вопросом серой зоны.
LLM настолько прокачались в коде, что что их можно просить не только переписать код, но и улучшить его.
Что мешает взять код Kolors - он совсем небольшой, я бы даже сказал маленький. Подпереть его статьей и попросить Клода переписать кусками этот код. Какая будет лицензия у такого кода? И кому она будет принадлежать? Кроме того, огромный кусок кода Kolors - это код Stable Diffusion.
В общем с авторскими и лицензиями на код все будет очень интересно.
И чтобы дополнить пост визуалом держите Джаки Чана, Барака Обаму, Илона Маска и Том Круиза.
Kolors довольно интересно "смазывает" похожесть знаменитостей. Видно, что она их знает (кроме Маска, вестимо). Она как будто размывает узнаваемость, и начинает включать DALL·E 3 в плане нереалистичности.
Ну и вишенка на торте. Седой мужик - это результат по запросу Portrait oа Barak Obama (я опечатался в предлоге).
Узнали?
Тут я малость охренел - насколько в голове у ИИ все эти знаменитости и политики кластеризованы в одну кучку в капитолии латентного пространства. Стоит только опечататься...
Ну и эти вот опечатки - это скрытые шорткаты и джейлбрейки. LLM-мантры.
@cgevent
Kolors - новый SD3? Не совсем. Записки очевидца-2.
Теперь за понимание промпта.
Там навернуто очень (прям очень) сильное раскучерявливание промпта с большим количеством деталей, благодаря LLM.
В отличие от DALL·E 3 нельзя сказать, "используй в точности мой промт и только его". Она креативит конкретно.
Но мне было интересно понимание пространства. Поэтому я взял знаменитые промпты от SD3 с бутылочками и собачками на шаре и прогнал их как через Kolors, так и через SD3 медиум.
Ну что сказать, Kolors понимает пространство хуже, чем SD3, это прям видно. Но старается.
Зато по красоте бутылочек ей нет равных. И пусть она путает цвета жидкостей и цифры, но выглядит отлично, благодаря промпт-улучшайзингу с помощью внутренней LLM. SD3 тоже путается в наклейках и тексте, но цвета, как правило, распределяется правильно.
Kolors не умеет в текст. В интернетике лютый черрипик. Она даже избегает его, как будто специально.
На итоге: понимание промпта хорошее, добавление деталей убойное, понимание отношений между объектами - хуже, чем в SD3, но качество лучше.
На картинке все бутылочки - это Kolors и только 3х3 - это грид из SD3. Сравните сами качество, детали и понимание.
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3
С Томом Крузом у китайцев не очень. Хотя можно догадаться.
Ну и с промптом тоже неловко получилось.
photorealistic image of Tom Cruise floating in water, dressed in tactical gear, carrying guns, chasing scared roach fish.
После такого крутого демарша от Клинга новость о том, что Автоматик1111 обновился до 1.10 RC с поддержкой SD3 выглядит настолько невзрачно, что я поставил его, вгрузил туда обе SD3 модели (с T5 и без), завел генерацию в SD3. не увидел никакой разницы между двумя этим моделями и включением\выключением T5 и спокойно закрыл его. Пойду мучить Клинг.
Читать полностью…Stability подают признаки жизни
Исправили лицензию:
* Некоммерческая лицензия остаётся бесплатной: люди и организации, которые используют модели на своих устройствах не для заработка (исследователи, создатели файнтюнов, итд) могу свободно их задействовать.
* Свободная коммерческая лицензия для личного использования и маленького бизнеса: пока ваш годовой доход с SD моделей не превысит $1 млн, ими можно пользоваться бесплатно.
* Убрали лимиты: лицензия не ограничивает количество генераций, файнтюнов, и прочего, что вы можете сделать на основе моделей. И от вас не будут требовать ничего из этого удалить.
Обещают через несколько недель улучшенную версию SD3 Medium.
Ну, посмотрим.
Пост
Обновлённая лицензия
Жирнейшая и годнейшая статья на Хабре про использование Stable Diffusion в интерьерах\архвизе.
Все отлично расписано. Я лишь процитирую финал, чтобы вы побежали скорее читать.
Благодаря дообучению модели, помимо общей картины (цвета, фон, палитра красок и прочее), в фирменном стиле также появляются детали интерьера, такие как обивка дивана и стульев. В общем, мы получили то, что хотели, запрашивали и надеялись увидеть. И всё это гораздо быстрее, чем нарисовал бы дизайнер. Все решение мы обернули в платформу MLflow, разработали простенький сервис с API и интегрировали всё это в чат‑бот в Telegram для сотрудников.
Вот лишь некоторые результаты за короткое время работы проекта:
Более 80% положительных отзывов.
Всего выполнено свыше 15 000 генераций.
Среднее время инференса составляет 1 минуту, но на тестах новой версии уже достигаем 30 секунд в зависимости от входного изображения.
Также стоит отметить, что в боте для сотрудников реализована и другая задача — добавление реально существующей мебели из каталога (inpainting)
https://habr.com/ru/companies/samolet/articles/825750/
У Синтезии обновление 2.0
Аватары теперь поддают эмоций и всплескивают руками.
Ну и основной мессадж - теперь, чтобы создать своего аватара, достаточно ноута и вебки.
Но я вот прицепился ко второму видео с руками - они говорят, что руки у них теперь по специальной технологии loops. А я вижу, что руки просто сняты (где-то, чьи-то).
Ну то есть это, похоже как бы не ваши руки, ибо ни один генератор в руки не умеет.
А если я трехпалый блоггер, что мне делать?
Я, конечно, придираюсь, у Синтезии самый, наверное, прошаренный движок для сборки говорящих голов. С нодами, зависимостями и пр. Они заточены именно под говорящие головы ассистентов, в отличие от Хейгена, который более универсальный. Поглядите в твитторе у Синтезии, там примеры в метро или в аэропорту(композ?).
Да, все как бы палится немного, но они и целятся не в заменителей людей, а скорее в озвучку (обвидку?) ботов. То есть вы знаете, что это бот, просто красивый. Но бот.
https://www.synthesia.io/2
Так, давайте разберемся с Kyutai и Мойшей.
Тут вот телеграм надрывается, что французы уделали OpenAI и выпустили голосового помощника Moshi, которого можно перебивать и который может вас перебивать - все как на майском демо GPT-4o.
Цитирую: "OpenAI только что урыли — французский стартап Kyutai презентовал голосового ассистента" или "Французский стартап Kyutai опередил OpenAI — появился полный конкурент голосового режима GPT-4o. Новая модель Moshi в реальном времени слушает и говорит не хуже GPT-4o". И ну постить видосик от французов.
Блин, зачем писать такую хрень не посмотрев хотя бы в спеки модели:
это 7B модель, да она MLM - Multimodal LM, но явно должна быть туповата.
Базовая модель - Helium 7B, а отвечалка училась на синтетических данных - The model is fine-tuned on 100K transcripts generated by Helium itself.
Только английский.
Анонсирована 160ms latency (with a Real-Time Factor of 2) - в реальности все гораздо хуже.
Короче, вот есть демо:
https://moshi.chat/
Можете сами попробовать и увидеть:
модель явно тупит с ответами и несет порой хтонь
модель НЕ может определить эмоции по голосу вопрошающего
Модель ОЧЕНЬ часто входит в цикл "я не могу, я не могу, я не могу", что бы вы ее не спрашивали.
Задержка порой огого, какой реалтайм.
В общем, французы как можно раньше выкатили какбы-голосового-помощника-которого-можно перебивать, сделав акцент "а вот OpenAI только в сентябре, бе-бе-бе".
Ну да, все так, только как в анекдоте про набор текстов, "я печатаю со скоростью 20000 знаков в минуту, только получается какая-то хрень".
Крутизна в том, что они обещают исходный код, чтобы народ мог это допилить до годного не в одно лицо, а в коллективный разум.
Вы можете поиграться с демо, но я бы советовал подождать, когда появится код, и что-то на его основе.
А пока расходимся. Мойша пока лыка не вяжет.
Как-то история со StoryDiffusion не взлетела, кроме их же примеров в сети почти ничего нет, и даже великий и ужасный реддит молчит. Пишут, что код кривой, заводится плохо, и, самое главное, веса для генерации видео (спорного качества) они так и не выложили. Только примеры с комиксами. На гитхабе отвечают на китайском, в общем все спорно.
А вот я углядел работу на тех же принципах (Subject Driven Self-Attention) но, от более (скажем так) солидных авторов - Nvidia и Tel Aviv University.
ConsiStory - это модель для генерации консистентных персонажей (и похоже не только персонажей, а всего(!)) без всякого дообучения, то есть без вот этих вот лор, дримбусов, кастомных чекпойнтов, инверсий и даже IP-адаптеров. Просто по одному изображению объекта\персонажа. Выглядит очень сладко. Особенно возможность менять фон, без потери консистентности основного объекта.
Работа едет на Сигграф, в качестве пакована работ от Нвидия, и после Сигграфа должен появиться код. Очень надеюсь.
Там правда есть угрожающая деталь - "10 секунд на H100". Это на базе SDXL, поэтому по времени может и ничего, но про память непонятно.
Гикам советую заглянуть в аппендикс статьи на архиве.
https://research.nvidia.com/labs/par/consistory/
В продолжение про LivePortrait повторю свой пост двухлетней давности:
Я сначала немного привсподупал со стула.
Слева реальная кожаная косплеерша имитирует движения анимационного персонажа из Отеля Трансильвания.
И как!
Да, там сверху навалено фильтров, но кожаная анимация (мимика и тело) впечатляет.
Вот такие люди смогут использовать LivePortrait на всю мощь.
Ну и вот вам история для размышления.
Когда в конце 90-х мы привезли первый взрослый мокап (Асценшен) на студию Пилот, то был устроен кастинг для мокап-актеров.
Обосрались все.
И только одна категория граждан идеально и с большим отрывом подошла на эту роль.
Знаете кто?
Мимы.
P.S. А Серега Лобанков после этого стал лучшим актером мокапа в России. И было это 28 лет назад.
Вот косплеерша: https://twitter.com/seeu_cosplay
Как же похорошела наша старая добрая принцесса при Kolors.
Помните досторический промпт:
goddess princess beautiful face portrait ram skull zbrush sculpt. jellyfish phoenix head, nautilus, orchid, skull, betta fish, bioluminiscent creatures, intricate artwork by Tooth Wu and wlop and beeple. octane render, trending on artstation, greg rutkowski very coherent symmetrical artwork. cinematic, hyper realism, high detail, octane render, 8k
В Kolors он выглядит вот так. А чтобы было веселее, я перевел его на китайский.
Первые 4 картинки - английский промпт, вторые - китайский.
Почувствуйте, так сказать, разницу в восприятии мира. Не зря говорят, что язык определяет мышление.
Arata Fukoe и его невероятный клип через нейронки
🍎 Автор работы уже делал невероятные вещи через Gaussian Splatting и множество гопро камер, а теперь показывает мастерство клипмейкинга через нейронки.
Музыка: ChatGPT, Sunoai
Видео: DreamMachine, Gen-3, Kling
Картинки: MJ, SD
Монтаж: Photoshop, After Effects
📕 Это если мы говорим о полных нейронных видео, но можем посмотреть на классические работы с небольшими вставками нейронок:
Видеоклипная работа Ramzoid (Это один из любимчиков Славы Мэрлоу, а так же мой любимый артист)
в этом клипе часто используется generative Fill от Adobe, когда края картинки дорисовываются, а центр остается оригинальным видео.
И так же есть момент с DreamMachine, сцена в прачечной, когда мы берем последний кадр из видео и подаем в видеонейронку для артового продолжения кадра.
Успех и мемность видеомоделей, а так же некоторые старые приемы, которые мы видели уже 2 года назад, становятся вновь актуальными как части видеоэффектов для клипов.
У всех этих видео-генераторов (кроме Соры) довольно мыльная картинка. Мало деталей, а те что есть, просят апскейла.
Имеет смысл делать видосы явно не реалистичного, а наоборот абстрактного стиля, ну или сильно стилизованные видео.
Вот посмотрите, что творит Клинг, по мотивам Spider-Man: Across the Spider-Verse.
Китайцы пока точно мои фавориты, особенно после выхода Kolors(гитхаб обновился, кстати, сделали веб-морду).
Kolors-Correction. На китайском.
Kolors - новый SD3? Только лучше!
Сегодня писал про Kolors и про то, что она обходит в качестве SD3, но с пониманием пространства справляется хуже. Так вот - это не так. Она идеально понимает пространство и отношения между объектами, если с ней говорить на китайском.
Я просто перевел вот такой промпт на китайский:
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3
(точнее мне пригнали перевод с реддита, куда я запихал свои бутылочки).
木桌上放着三个透明玻璃瓶。 左边的瓶子里装着红色液体,上面标着数字 1。 中间的瓶子里装着蓝色液体,上面标着数字 2。 右边的瓶子里装着绿色液体,上面标着数字 3。
И что вы думаете, по китайскому промпту Kolors сгенерила 7 из 8 корректных бутылочек с первой попытки!
Расположение цветов и цифр - правильное.
Сравните с английским промптом и с той вялой лабудой, которую генерит SD3.
Я пошел учить китайский. А точнее в Deepl.
Start Seed 2152145132, Scale 2.5, 1344x768
@cgevent
Эта реклама Volvo была сделана за 24 часа одним человеком. Сетки + AE.
Теперь представляем ситуацию, когда заказчик приходит и просит прорекламировать свои матрасы, "чтобы как у Нолана было!".
С одной стороны, наступает просадка в заказах, у маленьких и не очень, постовых студий. Потому что зачем, если Васян сделает за 24 часа.
С другой стороны, мы имеем заказчика, который мозг вытрахает, если у вас не тот цвет травы или его товар выглядит хотя бы на миллиметр не так, как произведён на фабрике в Китае. А если не фул CG, то там и косты на супервайзеров, и на камеры, и на менеджеров, и на актёров, которые ещё не закончили курсы, но уже стоят охулиард. Т.е. все те ребята как получали, так и будут получать, в том числе и директора студий.
А экономить будут, я думаю, вы уже догадались, на бедолагах CG-цеха.
Но, как я уже говорил, это временная аномалия на рынке, которая может продержаться пару лет. А потом люди, студии или сквад, собирающийся на проект, чтобы запилить графику, снова займут свои места. Только это уже будут другие люди!
Kolors - новый SD3? Не совсем. Записки очевидца-3.
Теперь потренируемся на сферических кошечках.
Берем промпт из твиттора Эмада и суем его в Kolors и SD3.
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Kolors - новый SD3? Не совсем. Записки очевидца.
Я сейчас приподвывалю сюда, чем я занимался в выходные (кроме просмотра БМ и Фуриозы). А дальше у меня тьма материал про генерацию контента под запрос пользователя.
В общем, я развел Kolors локально (точнее на удаленном серваке с Убунтой), встало быстро. Но в коде у них просто командная строчка. Пришлось сделать веб-морду, как у них на демо на Хаггинг Фейсе.
По технике - она быстрая, быстрее, чем SDXL (по крайне мере на A100). Но жрет память как не в себя. Можно указать выгрузку ЛЛМ на цпу, и она честно старается, но все равно в пике отжирает 24гига видеопамяти. Если не указывать выгрузку, аллокирует 31 гиг, но, при множественных генерациях, постоянно дожирает память и на итоге начинает тормозить, потому что закончились 80ГБ!
В общем код сыроват, там какие-то куски SD и оборванные комментарии.
Но работает.
По генерации - хорошо. Только она очень .. старательная что ли. То ли это китайские датасеты, то ли китайская разметка, то ли они переборщили с синтетическими картинками при обучении. Очень странная кожа, но зато мелкие детали типа травы, волос, узоров - просто отлично.
Негативный промпт есть, но почти не нужен.
Лучше пользовать ея с CFGScale = 2-3, иначе она выжигает картинку. И гладкомордит. (вообще просится для лица 2, а для кожи и остального 4-5)
Очень сильная зависимость от Sampling Steps - это не просто улучшение качества, это может быть изменение с собаки на кошку. И только после 60 Step начинает сходиться процесс.
Сэмплер скрыт в коде, еще не смотрел.
В общем перво-наперво я стал укладывать девчонок на траву. И тут проблем никаких. Да, иногда вылезает анатомия, но в пределах нормы. Это вам не SD3.
NSFW есть, но вы точно не сможете им пользоваться без файнтюнов. Как и в SD3 там похоже есть слои, которые портят картинку, при срабатывании каких-то триггеров (в коде есть safety_checker но он пока заглушка). Лица тут же портятся, соски деформируются. Как в SD3, но в сильно меньше степени. Скорее, как в SDXL.
Туда точно просится Face Enhancer и Adetailer, некоторые картинки просто отличные, но лица явно просят доработки, что норм.
В общем держите пока девчонок. Остальное в один пост не влезает.
@cgevent
Хорошие новости из Китая - 2.
Создатели Клинга бахнули новую дифузионную модель для генерации картинок.
И на первый взгляд она выглядит плазменно хорошо.
Я уже погонял ее на HF, завтра разведу локально (но она жрет 19 гиг видеопамяти).
И вот мои ощущения.
1. Он не такая пугливая как SD3 относительно анатомии, но лица и части тела даются ей с некоторым трудом, когда загоняешь ее в жоский NSFW, видно, что ей это точно не нравится.
Но портреты генерит просто отлично. Я наваял суровых мужуков с пленочным зерном.
2. Хорошо, очень хорошо понимает промпт.
3. Здорово понимает отношения между объектами. Я раз десять генерил зеленый ball на красном кубе, не мог поверить, что она такая ловкая.
4. Всякия пейзажи - просто отлично.
5. Глядя на их галерею, есть ощущение, что глядишь на главную страницу Civitai - там сплошной фан арт. Это наверное неплохо - модель разносторонняя (но надо проверять)
В общем все, что нам обещали в SD3 тут похоже есть. Особенно понимание промпта, качество надо исследовать. Но уже есть разговоры и про контрол нет и тренировку.
Ну и самое главное, они клянуцца выложить это в опен сорс, правда с непонятной лицензией (уже выложили, пока я писал).
В общем плакало мое воскресенье, придется тестировать.
Совсем сладких девчонок присуну в коменты, тут меня телегам пристукнет. Держите результаты тестов и держите ссылок.
Пробуем сами тут:
https://huggingface.co/spaces/gokaygokay/Kolors
Читаем тут:
https://huggingface.co/Kwai-Kolors/Kolors
Гитхабчег:
https://github.com/Kwai-Kolors/Kolors
Галерея:
https://kolors.kuaishou.com/
Нода для Комфи(!):
https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
Хорошие новости из Китая.
Клинг обновился до версии 2 и выкатил веб-интерфейс(!), а не мобильное приложение, как раньше.
https://klingai.kuaishou.com (да, вам по прежнему нужен китайский номер для смс)
New function:
1、Camera Control
You can choose camera control like a motion lora.
2、More duration
generate 10s video 3 times/day
3、temperature control
4、Add keyframes at the end (Как в Люме)
5、negative prompt
Вообще огонь. Как по мне, Клинг бодро уделывает Runway GEN-3 во всех категориях кроме "сделайте мне медленный зумчик на красивой картинке".
Контроль температуры! (это ползунок безумия и отваги).
Но это еще не все! Они выкатили генератор картинок! И какой! Читаем дальше.
Привлечение инвестиций в эпоху ИИ: как собрать денег, если новые техностартапы появляются каждый день?
Пишу об ИИ-стартапах, иногда даже провожу питчи. Для развития стартапа кроме технологии нужны, естественно, деньги. В интернете много советов типа «добавьтесь к инвесторам в Линкедин» или «сделайте красивый питч-дек» (спасибо, кэп).
Конкретными рецептами привлечения инвестиций в стартапы в своем канале делится Андрей Резинкин (например, здесь готовый шаблон письма для инвесторов).
Андрей — действующий angel-инвестор, в портфеле которого Educate Online, EBAC, XOR и др.
Вот подборка постов, которые рекомендую смотреть в первую очередь:
1️⃣ Сколько денег просить у инвестора?
По-детски простой калькулятор, который рассчитывает сколько инвестиций нужно вашему стартапу:
/channel/startup_venture/274
2️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?
Excel-таблица со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
/channel/startup_venture/289
3️⃣ И почему порой пицца работает лучше инвесторов.
Нестандартная go-to-market стратегия, которая принесла стартапу миллион долларов: /channel/startup_venture/459
Если вам, как и мне, заходят авторские каналы с высокой концентрацией личного опыта — посмотрите канал Андрея.
#промо
Интересно, как Eleven Labs выпускает фичу за фичей, становясь этаким ИИ-комбайном в области ИИ-звука.
Недавно бахнули озвучку любых документов голосами знаменитостей или просто выбранными голосами (можете слушать пдфки или даже сайты).
https://elevenlabs.io/text-reader
А теперь выкатили фичу удаления шумов. Выглядит\звучит, конечно сладко, но надо тестировать. Такую фишку уже показывала Нвидия, причем примерно год назад (с детьми и ложками), но для Нвидии это просто демо их RTX и никакого продукта. А вот для 11Labs - это фичафича.
https://elevenlabs.io/voice-isolator
У Адобченко есть улучшайка голоса в их субпродукте podcast sudio, думаю скоро там появится такая же фишка.
Бонусом вам обратный продукт:
https://vocalremover.org
Вот ComfyUI докатился и до 3dsMax. С опозданием в годик-другой, но нам не привыкать :D
В плагин tyFlow встроили поддержку ComfyUI по аналогии с тем, как это сделано было для krita, blender и иже с ними.
Сложно назвать это новинкой, но проекция текстуры во вьюпорте работает без бубна - и на том спасибо.
youtube
@derplearning
Пока коротенечко:
Картинка SD, анимация тушки - Kling, озвучка - bark, lip sync - face fusion.
Все бесплатно. И кроме Клинга опенсорсно.
Ну, за влоггеров и аниматоров, не чокаясь.