cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

34412

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Итак, лайфхак для Семицветика в Гемини.

Pencil drawing of flower with exactly seven petals.

Получаем 8 штук. Если повезёт, тут ключевое - drawing, чтобы гемини не копировала ромашки.

Скачиваем, даём на вход эту картинку.
"Сколько лепестков видишь?"
Семь!

Закрываем чат, сжигаем и выбрасывем подальше

Открываем новый. Загружаем картинку.
Скоко?
Восемь!

Change number of petal to exactly seven.

Готово!

@cgevent

Читать полностью…

Метаверсище и ИИще

OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.

А в 2026м удалят API Assistants (потому что инструменты придут им на смену).

Читать полностью…

Метаверсище и ИИще

У меня одного Твиттор упал?

Или это проделки Мануса?

@cgevent

Читать полностью…

Метаверсище и ИИще

Есть две новости: хорошая и очень хорошая.

1. У Hedra.com вышла обновленная модель Character-3. Не могу сказать, что там прямо прорыв. Все как раньше - первая версия была прям вау, потому что на рынке было мало таких решений, а теперь я\мы зажрались и такие: "ничоособенного".

2. Hedra решила собрать у себя Hedra Studio и дать возможность генерить видосы другими генераторами (ну то есть закосить по Креа или Фриипик с целью обогащения на перепродаже API).

Только вот с перепродажей экономика странная.
Вам на входе (бесплатный логин гуглом) дают 400 кредитов.

Генерация Хуньянем стоит 70 кредитов.
Генерация самой Хедрой - 14 (без аудио) и 89(!) с аудио на входе.

А теперь внимание: генерация с помощью Veo2 стоить 1 (один, прописью) кредит.

Я проверил, да, 1 кредит.

Получается вы можете за 10 баксов в месяц иметь 1000 генераций и возможность докупать кредиты примерно по такой же цене.
И прыгать по аккаунтам и тратить про 400 бесплатных кредитов.

В чем подвох, кто платит за банкет?

Маркетинг коллаб Гугла и Хедры или хитрый способ нагнать лидов? (а потом сменить раскладки по кредитам, о которых на сайте ни слова)

Кстати, там есть все кроме Sora, даже Хуньянь Image2Video и голимый SkyReel. А вот Wan - нет.

При генерации с Veo2 ваши промпты будут безбожно переписаны, просто имейте это в виду.

P/S/ Можно генерить параллельно. Но выбор аспектов и разрешений - ограниченный.

@cgevent

Читать полностью…

Метаверсище и ИИще

Пока по коллективным тестам image2video от Хуньяня проигрывает Вану.

Основной недостаток - плохо держит лицо с первого кадра и следование промпту оставляет желать лучшего.
Но есть и хорогая новость - он в три раза быстрее.
См. след. пост.

@cgevent

Читать полностью…

Метаверсище и ИИще

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста

Но всего два языка - английский и китайский

Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже

Код
Демо

#music #text2music

Читать полностью…

Метаверсище и ИИще

Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent

Читать полностью…

Метаверсище и ИИще

Сколько уиллсмитов дадим WanX?

Который переименовали в Wan, кстати.

@cgevent

Читать полностью…

Метаверсище и ИИще

RigAnything выглядит слишком хорошо. Я вечером, наверное напишу подробнее.

Он работает с различными типами объектов, включая двуногих, четвероногих, птиц, морских, насекомых и всяких робатов.

@cgevent

Читать полностью…

Метаверсище и ИИще

Это вам за то что не молитесь

Читать полностью…

Метаверсище и ИИще

A - Alignment.

Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.

Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.

Ждём-с.

O - Offtop по выходным

@cgevent

Читать полностью…

Метаверсище и ИИще

Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent

Читать полностью…

Метаверсище и ИИще

Опенсорсные генераторы. Deep Research

В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.

Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.

Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).

Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.

Получил (с графиком однако) вот такое:

Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству​
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК​
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.

В принципе неплохо.

В следующем посте подробный ресерч(он огромный) и диванные мысли.

@cgevent

Читать полностью…

Метаверсище и ИИще

Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?

Читать полностью…

Метаверсище и ИИще

Вернемся к раскрытию темы. Доброго и вечного.

Тут вот в коментах подписчики переполошились - похоже в Midjourney сильно ослабили фильтры на nsfw. Случилось это в январе. Привели убедительные доказательства.

Слухи о том, что Midjourney смотрит в эту сторону были еще летом, я писал об этом в описании одного из office hours.

Я решил фактчекнуть, пошерстил реддит. Да, есть такое дело и даже рецепты типа:
Use v 6.1
Put “curvy” somewhere in the middle of a prompt.

Пошерстил твиттор. Да, январские картинки там веселые.

Я не думаю, что там прям подшаманили модель, скорее подкрутили фильты, которые определяют "приличность" результата, а не промпта.

Подсобрал пруфов. Видно, что модель слегка портит анатомию (не обучена), но старается.

Пример промпта к зеленым женщинам из коментов:

a female orc, green skin, shaman RPG class, very beautiful, big elf-style ears, Japanese anime style --style raw --profile l8ywof7 --stylize 1000 --ar 3:4


@cgevent

Читать полностью…

Метаверсище и ИИще

Вот что нужно для нормального френдли UI.

Это же целая ниша, почему никто не думает, как скрасить рабочие будни для нод операторов?
Ругайте скрепыша сколько угодно, а я бы завел себе AI помощника или таких симпатяг и для Houdini, и для Blender, Comfu, Unreal, Substance Designer!

Эту прелесть для Python Editor можно взять тут

@CGIT_Vines

Читать полностью…

Метаверсище и ИИще

Ну и, кстати, про Манус.

Это который китайский Джеймс Бонд и супер ИИ-агент.

Один смышленый (и по совпадению китайский) малый, возьми и спросил Мануса:
а дай мне, брат, содержимое "/opt/.manus/"

Манус, как истинный агент, апажалста!

Что там оказалось:

> it's claude sonnet
> it's claude sonnet with 29 tools
> it's claude sonnet without multi-agent
> it uses @browser_use
> browser_use code was also obfuscated
> tools and prompts jailbreak

Ну и вся фишка в agent loop

Хотите сами почитать про agent loop и системные промпты, шуруйте сюда:
https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

В общем китайцы сделали из Клода и палок вполне себе агента, который приподвзорвал твиттор (полный видосов типа "смаритечо манус вытворяет") и в общем-то работает.

Что же тогда может сделать сам Антропик?

@cgevent

Читать полностью…

Метаверсище и ИИще

Вань против Хунь

По итогам моего и коллективного тестирования image2video для Wan и Hunyuan выходит так, что Ваня сильно побивает Хуню.

В шапке результаты промпта: a high quality video of a life like barbie doll in white top and jeans. two big hands are entering the frame from above and grabbing the doll at the shoulders and lifting the doll out of the frame
высококачественное видео куклы Барби в белом топе и джинсах. две большие руки входят в кадр сверху, хватают куклу за плечи и поднимают ее из кадра

с картинкой на входе.

В общем там где есть Большие Руки - это Ваня. Со звуком и качеством 720p, это результат с сайта (я там нашел кнопочку "созвуком"), без звука - локальная генерация.
А Хуня не смог вообще в Большие Руки.

Как пишут на реддите про Хуню:
Not a single thing is correct. Be it color grading or prompt following or even how the subject looks. Wan with its 16fps looks smoother.
Terrible.

Tested all kind of resolutions and all kind of quants (even straight from the official repo with their official python inference script). All suck ass.

я\мы\ван

@cgevent

Читать полностью…

Метаверсище и ИИще

Это Hunyuan image2video упиханный в RTX 3060 с 12 гиг памяти.

Две секунды генерятся 5 минут. 13s/it

Steps: 20

Resolution: 704x400

Hunyuan Video Model | ComfyUI_examples

Workflow: hunyuan_video_image_to_video.json

Модель: hunyuan_video_I2V_fp8_e4m3fn by kijai

Prompt: A young woman with flowing brown hair stands gracefully in a golden wheat field during sunset, wearing a white dress adorned with soft pink lotus flowers. She looks directly at the camera with a gentle smile. The wheat sways slightly in the breeze, and her hair moves naturally with the wind. The sunlight enhances the soft glow on her face, creating a dreamy, cinematic effect. She subtly tilts her head, blinks, and gives a warm smile as the camera moves slightly closer to her.

@cgevent

Читать полностью…

Метаверсище и ИИще

Рубрика крутые подписчики.

Главный плюс чата с коментами - наличие практических советов и возможность найти ответы на вопросы.

Вынесу сюда пример уровня коментариев у нас в чате (да, это не для всех, но для тех, кто в теме)

Вопрос: как присунуть сгенеренный где-нибудь голос в генератор музыки?

Kenan: Трените голос в Элевен или где вам удобно.
После я беру сгенеренный голос семплирую его под пропевки в классическом аудио редакторе. Fl Studio, Cubase и т.д. все что вам удобно. Я использую Reason Studio
После того как засемплируете голос, вам нужно написать ноты (партитуру) под которую будет идти пропевка. В моем случае я беру оригинал произведения на который делаю кавер, на слух подпираю мелодию в аудиоредакторе начинаю семплировать заранее озвученные слова или вокалайзеры под нужные ноты.

После того как треки готовы, заливаю их в Суно. НО! Суно не пускает вас сделать из загруженного даже вами авторского трека персону, начинаем колдовать с ремастерами и ищем тот вариант который меньше всего заремастериться чтобы не повредить то что вы сделали. У меня это занимает от 20 - 50 генераций ремастеров. После того как из ремастера и кавера получается сохранить персону, начинаете искать варианты в которых меньше всего бекграунд звуков. Тут все зависит от того на сколько хорошо вы пишите промпт и отрицательный промпт чтобы на фоне кроме вокала ничего не было.

Далее надо для вашего кавера точно также написать ноты для каждой дорожки. После эти дорожки тоже заливаются в Суно (тут я рекомендую писать звуки в полифоническом миди формате и сохранять их как МП3, так что Суно, что Юдио лучше их преобразуют в нужные инструменты), некоторые штуки лучше делаются в Юдио кстати. К пример Hammond Organ идеально сделал Юдио. Тут думаю уже ясно что надо писать кучу промптов чтобы добиваться соло партий для каждой дорожки.

Но я все равно их дочищаю в RipX или через Adobe Audition там есть классная тулза спектральный анализ звука. Но если у вас качественный звук на дорожке RipX уменьшает вашу боль в сотни раз.
После того как вы собрали пак из всех треков, возвращаетесь в свой аудиоредактор и начинаете мастерить все дорожки с вокалом. Иногда помогает замастеренный трек, залить обратно в Суно и сделать ремастер (именно ремастер, не кавер). Ну вот короче как-то так)

@cgevent

Читать полностью…

Метаверсище и ИИще

В четверг был на квартирнике Касты, где солировали Влади и Шым.

Оказывается Миша Шым - давнишний подписчик канала. Чуть потрещщали за ИИ.

Нейродед как раз бороду отпустил, патлы расчесал и ну фотографироваться!

@cgevent

Читать полностью…

Метаверсище и ИИще

Миллиард на репетиторах и рекламодателях

Автор канала «Индекс дятла» изучил 300+ прогнозов известных предпринимателей со всего мира и выбрал для вас три изменения, которые ждут нас в этом году. А ещё предположил, как на этом можно заработать шестизначные суммы:

1) Google выпустит ИИ-репетитора для учеников 1-11 классов. И запустит передел рынка образования размером 5 триллионов долларов. Как заработать на этом? Например, помогать учителям с авторской методикой создавать цифровых двойников — AI-ассистентов, обученных на сотнях записей их уроков.

2) Выйдет первая «бесконечная» многопользовательская онлайн-игра. Новые уровни будут генерироваться под каждого участника в зависимости от его решений и опыта. Как заработать на этом? Например, создавать персонажей, которые будут нативно рекламировать ваш бренд или товар прямо в игре.

3) Pixar выпустит короткометражный мультфильм, полностью созданный с помощью ИИ. Он станет хитом и запустит революцию в кино. Как заработать на этом? Например, научиться писать сценарии для ИИ-анимации и продавать их рекламодателям, которые хотят сэкономить на роликах.

Следующие пять лет станут для одних временем Великой депрессии, а для других — Золотой лихорадки.

Присоединяйтесь к 22 тысячам тех, кто ищет возможности заработать на новых технологиях и изменениях. Подписывайтесь на «Индекс дятла». Каждый день — одна сумасшедшая, но стоящая идея на миллиард в вашу копилку здесь: @dindex.

Реклама ИП Торбичев Андрей Константинович ИНН: 235307703247 erid 2Vtzqw3YqBC

Читать полностью…

Метаверсище и ИИще

Киджай, конечно, машина.

Уже готов первый Комфи-вокфлоу для WanX.

Как я понял только image2video пока работает.
И модель пожата в fp8_e4m3fn

https://huggingface.co/Kijai/WanVideo_comfy/tree/main
Код:
https://github.com/kijai/ComfyUI-WanVideoWrapper

Как упихать это в 16 гиг посмотрите тут:
https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/2

Тестовое видео.. такое .. конечно.

@cgevent

Читать полностью…

Метаверсище и ИИще

Veo2 на fal.ai подешевел в ДВА раза.

Это как бы не есть хорошая новость, это никакая новость. Все равно дорого.

Но у меня странные ощущения: если можно на старте бахнуть конскую цену на сервис и на следующей день уронить ее в ДВА РАЗА, то как формируется эта цена?

"Просто деньги нужны?"
Или "забираем максимум с первой волны, а дальше смотрим"?

https://x.com/FAL/status/1893483527947329862

Читать полностью…

Метаверсище и ИИще

Мне кажется, это дико круто, поэтому я просто процитирую статью, написанную понятным языком:

Большинство биоинженеров подстраивают и переделывают то, что уже дала природа; они модифицируют существующие геномы и ферменты, создавая инструменты по индивидуальному заказу, подстраиваясь то тут, то там, чтобы двигать биологический прогресс вперед.

Модели искусственного интеллекта, однако, могут проектировать биологические системы так, как это не под силу человеку. Нейронные сети легко обнаруживают закономерности в огромных библиотеках книг и интернет-статей, чтобы изучить - или хотя бы имитировать - внутреннюю работу языка. То же самое они могут сделать и в биологии: AlphaFold, модель ИИ, обученная на тысячах белковых структур из Банка данных белков, может точно предсказывать акробатические складки белков и даже помогать людям создавать новые.

Сегодня Arc Institute (исследовательская некоммерческая организация в Пало-Альто, Калифорния) и NVIDIA выпустили более широкую модель ИИ для биологии под названием Evo 2, которая может делать то же самое для целых геномов. Согласно препринту, это одна из "самых масштабных полностью открытых языковых моделей на сегодняшний день". Релиз включает "открытый код обучения, код вывода, параметры модели и данные обучения OpenGenome2".


Статья
Preprint

Код

@cgevent

Читать полностью…

Метаверсище и ИИще

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP

Читать полностью…

Метаверсище и ИИще

Видеогенераторы опенсорсныя. Конец видеомарафона желаний.

Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.

Первое место. Хуньянь.

Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.

Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.

Второе место. LTXV.

Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.

Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.

На этом все.

Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.

Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.

@cgevent

Читать полностью…

Метаверсище и ИИще

Дальше слово Антону:

В поисках лучшего img2video AI-генератора для продакшена я потратил кучу времени и денег, чтобы разобраться, какой сервис мне подходит.

Главные критерии поиска:

1. Качество. Сюда я включаю не только качество получаемого видео и анимации, но и консистентность. Генератор не должен менять или преобразовывать начальный исходный кадр, а также стремиться сохранить форму объекта/персонажа. Это критически важно, так как ограничение в 5–10 секунд можно преодолеть, добавляя последний кадр сгенерированного видео в первый нового.

2. Контроль. Сюда я включаю послушность сервиса, его способность подчиняться промпту, а также все дополнительные инструменты, предлагаемые сервисом, такие как Frame by Frame, Blend и т.п.

3. Цена. Тут всё очевидно: чем доступнее инструмент, тем выше оценка.

Для эксперимента я сделал по 10 генераций в каждом сервисе с одинаковым промптом. Проверял как бесплатные (кроме SORA — там нет бесплатной версии), так и подписочные инструменты.

ТОП-3 AI-генераторов для продакшена:

🥇 1 МЕСТО. Kling.AI 1.5 и 1.6 — безоговорочный лидер среди img2video.
Это единственный сервис, где не пришлось выбирать из 10 версий. Уже с первого рендера версия 1.6 идеально справилась с задачей. В нём есть всё, что нужно для создания крутого реалистичного контента, но если вы занимаетесь 2D анимацией, тогда...

🥈2 МЕСТО. Minimax/Hailuo — хороший, но не без недостатков.
Этот генератор перегоняет кадр через свой Img2Img, что слегка меняет исходные лица и объекты. А это делает невозможными*невидимые склейки при монтаже. Подойдёт, если ваш шот не больше 10 секунд. Сервис, безусловно, хорош в text2video, неплохо подчиняется промптам камеры и лучше Kling.AI в 2D-анимациях, что дало ему "народную любовь". Но для фотореалистичного продакшена подходит плохо из-за плохой консистентности.

🥉 3 МЕСТО. SORA могучий, ужасный, но уже не безнадёжный.
Когда появился SORA, он стал главным разочарованием AI-видеомейкеров: дорогой, тупой, с отстающим качеством и неработающим контролем.

Но за пару месяцев его значительно подтянули. В генерациях он всё ещё хуже Kling.AI или Minimax, но у него есть неплохой img2video и уникальные инструменты контроля, позволяющие апскейлить и улучшать видео инструментом remix с разным шагом влияния. То есть можно сделать основу в том же Kling.AI, а затем допиливать в SORA, убирая артефакты и повышая детализацию.

Дальше идут все остальные.

Места я раздавать не хочу, но скажу так: в продакшене все эти ребята не нужны.

Pika — почти хорошо.
Бесплатная Pika 1.5
— бессмысленна и беспощадна. Ужасное качество, игнорирование промпта, бесполезна для серьёзных задач.

А вот Pika 2.1 уже показывает достойный результат, примерно на уровне старой версии Kling.AI. Подходит для тестов и мемов через pikadditions, но слишком много брака, что повышает его ценник, я даже не смог сделать 2 стабильные генерации. В продакшен такое не возьму.
А 28$ за удаление вотермарки? Нет, спасибо!

Luma Dream Machine — удивлён, что он ещё жив.
Генератор хорошо сохраняет содержимое исходного кадра, что уже плюс. Но качество камеры и анимации — одно из худших среди всех протестированных сервисов. Хуже только следующий участник.

Runway — переоценённый и бесполезный для продакшена.
На мой взгляд, этот сервис не стоит потраченного времени и денег, т.к он:

— Уничтожает картинку.
— Анимации отвратительные.
— Качество ещё хуже.
— Безумно дорогой для своего уровня.

Из плюсов — высокая скорость работы и удобный контроль, позволяющий ставить промежуточные кадры и делать img2video. Но если вам нужен контроль, лучше ещё раз посмотрите на SORA.

Исходники всех генераций оставил в комментариях.

Читать полностью…

Метаверсище и ИИще

Имба для удалёнщиков — Pickle

Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.

Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.

Пообещайте, что не будете пользоваться этой штукой 😗

getpickle.ai

@ai_newz

Читать полностью…

Метаверсище и ИИще

Внимание!!!!

o3 сгенерировала код для анимации к p5js, показывающей, как срать не снимая свитер!!!!

Спасибо за внимание.

Читать полностью…
Подписаться на канал