Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Что показали:
🌹 Обновили ChatGTP Canvas:
https://chatgpt.com/?model=gpt-4o-canmore
Это что-то вроде умного Notion/Google Doc, где слева вносишь правки через чат, а документ/код всегда справа, и обновляется моделью или пользователем, а не переписывается с нуля:
– Режим Canvas теперь доступен всем
– Модель может оставлять комментарии к вашему тексту или коду, а не просто редактировать его
– Теперь Canvas работает с кастомными GPT’s (вот бы ими еще занимался кто-то в OpenAI)
– Canvas может исполнять Python код, например, когда нужна какая-та дата аналитика или скрипт не работает, его сразу можно отправить в ChatGPT
В общем, OpenAI опять ряд стартапов сегодня закрыла 😮
Oracle experienced a 336% increase in GPU consumption, driven by record-level AI demand.
В своем отчете упоминают о 65,000 NVIDIA H200 GPUs. Это не мало, в сравнении с другими супер-комьютерами, на графике.
Кроме шуток, можно все серии Санта-Барбары отрисовать заново.
С использованием 65,000 NVIDIA H200 GPU весь процесс перерисовки всех 2137 серий "Санта-Барбары" в Full HD может быть завершён примерно за 36 минут. При использовании 65,000 NVIDIA H200 GPU, полная смена сюжета "Санта-Барбары" с сохранением хронометража может быть выполнена за примерно 18 часов. Ждем.
Бобер судьбы
Рубрика крутые подписчики.
Тут вот Михаил ворвался в чат со свежим, пахнущим ветром и бобрами клипом.
И это примерно в 80 раз лучше, чем клип Канье Уэста, о чем я собственно и писал недавно.
Да, конечно, есть артефакты и легкая неуправляемость перформанса (которую, впрочем, можно списать на стилистику).
Но клип примечателен тем, что в нем уже проглядывают прототипы будущих ИИ-клипов - качество и контроль отрастет, музыка уже сейчас бобёрски божественна, и скоро сложно будет отличить не только картинки, но и именно музыкальные клипы.
И эта работа - хороший такой троллинг большинства музыкальных клипов, которые отчаянно вторичны и копируют сами себя годами. Скоро их будут миллиарды.
Для тех, кто в теме - это Suno v4, midjourney, kling, capcut.
Легендарное про бобров читаем тут.
@cgevent
Ну с наступающим Новым Сором!
Тут Леша Лотков пригнал вот такое диверсити в чат.
Помните фильм Bad Santa?
Интересно, что скажут системы распознавания картинок в Гугле.
@cgevent
OpenAI официально показали Sora!
Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".
Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.
Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.
Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.
Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.
sora.com
@ai_newz
Хрен вам, а не Sora.
Держите список стран, на которые раскатают Sora.
Никакой Европы и UK.
Но есть Сербия, Черногория, Армения, Грузия, Казахстан.
Есть и хорошая новость, я вот собираюсь метнуться в Дахаб на НГ, и Египет таки есть в списке стран.
https://help.openai.com/en/articles/10250692-sora-supported-countries
@cgevent
Страницу потерли, но я вам сохранил список тут: https://pastebin.com/x00E5xZK
Кожаная метка
А вот это уже симптоматично. Вместо того, чтобы гоняться за распухающим объемом контента, произведенного с помощью ИИ (мне особенно "зашли" бесконечные стримы, произведенные с помощью NotebookLM и визуализированные с помощью Heygen или Hedra, источник бесконечного булшита на любые темы), ютюбчик хочет отмечать именно кожаные видео, не тронутые грязными лапами ИИ.
Тут, конечно, стартаперы должны зашевелиться с идеями типа "Стриминг-Бутик с кожаными видео only." Но, как вы понимаете, в мире, где основные метрики - это количество, а не качество контента, эта идея немедленно будет взломана.
А идея делить контент на кожаный и ИИшный (имхо), довольно утопична. Просто потому что "а зачем?". Потребление контента кожаными - вот основная цель бизнесов, зарабатывающих на трафике, рекламе и стриминге. Зачем рубить сук?
Более того, кожаные уже давно не в состоянии отличать сгенеренный контент от рукотворного.
Интересно, что монтаж вроде как можно, а вот эффекты уже нельзя:
Видео не обязательно должно быть неотредактированным, чтобы получить кожаную метку, но, согласно странице поддержки, каждый этап процесса должен поддерживать C2PA и не допускать:
- Редактирования, которое нарушает цепочку происхождения или делает невозможным отслеживание видео до его первоисточника. Например, если вы снимаете изображение с метаданными C2PA, а затем сохраняете его в фотоальбоме своего телефона, который не поддерживает C2PA версии 2.1 или выше, это может нарушить цепочку происхождения
- Значительные изменения основной природы или содержания видео, включая звуки или визуальные эффекты.
- Изменения, которые делают видео несовместимым со стандартами C2PA (версии 2.1 и выше).
В общем я не понимаю - зачем?
Давайте оставим только прямые склейки? Ну ок...
https://www.theverge.com/2024/10/15/24271083/youtube-c2pa-captured-camera-label-content-credentials
@cgevent
Мне не очень нравится сервис Viggle - слишком узкая область применения, проскальзывания, ну и общее качество - такое.
Но тут вот у них вышла Model V.3 и там они замахнулись на анимацию лица и аватаризацию.
Сам я не буду пробовать, но если под ваши мемные задачи это подойдет, но поглядите сюда:
https://viggle.ai/home
Remix, Multi Character и особенно Relight выглядят,конечно, нарядно, но ноги по прежнему скользят, и вот такие вот меркетинговые сентенции вызывают вопросы:
Viggle is powered by JST-1, the first video-3d foundation model with actual physics understanding.
А я пока разыскал в твитторах довольно любопытное видео, где они дерзко сравнивают себя с Runway Act One на примере Arcane.
Следующим примером дам вам пример другого любопытного сервиса.
@cgevent
Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.
Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.
По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.
В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.
Дальше будет только лучше.
PS: в гайде кстати сказано, что только людей можно анимировать.
Твит
Сайт
Гайд
Вы будете смеяться, но у нас еще один генератор картинок. От Маска.
Совсем недавно прошла новость, что в Grok от xAI можно генерить картинки с помощью Flux.
Так вот, сегодня они выкатили свой генератор картинок под названием Aurora. И те пользователи, у кого есть Grok, могут выбрать эту модель в выпадающем меню чата с Гроком.
Давайте разберемся для начала, как получить к нему доступ.
Тут два дня назад прошла также новость, что у Грока появился бесплатный тариф, где лимит 10 сообщений за два часа.
Но.
Вопрос в том, где раскатали этот тариф? Правильно - в Европе и UK недоступно. В Индии - доступно.
Чтобы проверить, запустите приложение Твиттора на мобиле и жмакните внизу на косую черту(иконка Грока).
Меня выбрасывает в предложение подписаться на Грок Премиум, ибо Европа. Соответственно проверить не могу, бесплатного тарифа не завезли.
Поэтому пособирал для вас картинок.
Неожиданно героем тестов Авроры стал Сэм Альтман.
Что до качества: несмотря что в пиар компании есть явный мессадж типа "круче флюкса", нет, не круче.
В пиар компании есть также мессадж "дикий фотореализьм и упор на лица", но нет, Flux Ultra в режим Raw сильно круче.
Так в чем сила, Грок?
- Безбашенность и отсутствие цензуры на лица известных личностей
- Заточенность на быструю генерацию фан-контента для твиттора
- Незамороченность. Минимум настроек и ловкая работа с короткими промптами (думаю внутри доводчик промптов)
Заточенность на лицах заставляет его терять детали из промпта, ну и следование промпту, особенно длинному, у него, конечно, хуже, чем у Флюкса.
Но камон, это не инструмент, это часть продукта. Вы вряд ли будете использовать Аврору для производства контента. А вот огромная орава твитторских будут пользовать его для набивания ленты контентом. Не зря у Авроры есть Fun Mode.
Так что это продуктовая новость, нежели технологическая.
У кого есть Премиум подписка на Грок, кидайте примеры в коменты.
А я вам щас сравнений пособираю.
@cgevent
ИИ-режиссер.
Кстати, вот довольно интересный проект и даже с кодом.
Работа с базой видосов, только вместо video-as-files используется подход video-as-data
Там и семантический поиск по видео, и VideoRAG, и редактирование.
Director - это как бы LLM-Chat c видео. Фреймворк для создания видеоагентов, которые могут решать сложные видеозадачи, такие как поиск, редактирование, компиляция, генерация и т. д., и мгновенно передавать результаты. Типа: загрузить это видео и отправить основные моменты в телегу, обобщать видео, искать определенные моменты, создавать клипы, добавлять наложения, генерировать миниатюры и многое другое.
И да, у них есть text2movie, поглядите видосы.
https://videodb.io/
Код тут - https://github.com/video-db/Director
Спасибо Нейронавтику за наводку.
@cgevent
Моя TRELLIS!
Пока мы тут алкаем Sora, я вам принес новый 3Д-генератор. И какой!
1. Опенсорсный!
2. Довольно убойного качества.
3. Это Микрософт.
Пока он работает только по входной картинке, что уже неплохо, но они обещают скоро докинуть TRELLIS-text-xlarge на 2B параметров, что для text-to-3D очень круто.
А тренировались они на полумиллионе моделей и похоже не только на помойках типа objaverse.
Они умеют выводить во все, что шевелится в 3Д: Radiance Fields, 3D Gaussians, and meshes.
И анонсируют даже редактирование и модификацию сгенерированных моделей через промпты (покричим на модельки?). Оторви руку, замени ногу, дай в руки палицу - есть примеры на сайте.
Выглядит сладчайше. Все черрипики есть у них на сайте, следующим постом я вам вкину народное творчество из TRELLIS, а тут хочу поделиться тем, что уже попробовал его(а не только твиттор перепечатал), и он меня удивил.
Дал ему на вход довольно иезуитскую картинку с флюксовым бьюти-тараканом - он его пережевал и выдал геометрию с очень тонкими деталями. Кстати, он понимает картинки с альфой или пользует removebg, чтобы отрезать фон, имейте в виду.
Он выдал видос со сплатами и выплюнул меш. Топологию прилагаю. Не айс, конечно, нужен ретоп.
Но это опен-сорс и похоже на голову лучше-всех-опен-сорс в области генерации 3Д.
Очень жду большую модель.
И это идеально оформленный Гитхаб репозитарий. После китайских "навалили-разбирайтесь", тут все расписано даже для тупых нейродедов.
Черрипики и красоту смотрим тут: https://trellis3d.github.io/ - можно сетки посмотреть.
Ставим отсюда: https://github.com/Microsoft/TRELLIS
Более того, есть демо: https://huggingface.co/spaces/JeffreyXiang/TRELLIS-text-xlarge
Ночью ворочалось нормально.
Го тестировать и 3дшить.
@cgevent
Вот что показали сегодня:
🌹 O1 теперь доступна всем платным пользователям (я с ней уже игрался тут):
— быстрее
— умнее
— поддерживает картинки
🌹 Подписка за 230 евро в месяц (или $200, клевый у них курс) куда входит:
— Все преимущества тарифа Plus
— Неограниченный доступ к o1, o1-mini и GPT-4o
— Неограниченный доступ к войс моду
— Доступ к режиму o1 pro, который использует больше вычислительных ресурсов для лучших ответов на самые сложные вопросы (еще дольше будет думать)
Если честно, подожду отзывов, я не против если o1 pro
окажется лучшей моделью когда-либо сделанной
Держите примеров из Tencent Hunyan Video Model
Сразу глядите на бегемота.
Похоже все-таки придется ставить. Да, она медленная, да прожорливая. Но 13B - это 13B. Поэтому качество радует.
Из минусов: image2image будет, похоже, только в 2025 году.
Их плюсов:
- самая расцензуренная из всех опенсорснутых
- у них есть video2video и pose2video. Поглядите на бегемота и медведя. Это, кстати, великий Kijai упихал в Комфи в 20GB VRAM, чтобы получить 101 frames at 768x432.
- text2video не требует шаманства с промптами
Кстати, народ на реддите упихивает генерации в 16 гиг и даже поговаривает про 12 гиг. В Комфи. Но это часы генераций, не минуты.
Время рендерферм возвращается?
Забирайте Комфи сборку отсюда:
https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
@cgevent
Genie 2 – A large-scale foundation world model
Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.
Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.
Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.
Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".
Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.
Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.
Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.
Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.
Блогпост
@ai_newz
Кстати, про Санта Барбару и Pal\Secam
Те старперы, которые застали эру видеокассет, должны помнить, что VHS - это 320 линий по вертикали.
Для новых нормальных - это приблизительно 480х320 для NTSC и 576х~310 для (PAL/SECAM).
В таком разрешении у меня Hunyan Video генерит 5 секунд меньше минуты.
LTX Video на H100 наверное будет быстрее реалтайма в таком разрешении.
Пока мы тут обсуждаем Сору и 1080p, пацаны уже могут генерить Санта Барбару в реальном времени на одной карточке.
Получается каждому Свою Санта-Барбару и Бобра впридачу в реалтайме?
Пришел с работы и ну смотреть новую серию.
@cgevent
Ну и давайте немного подытожим Сору.
Сейчас телеграмчик приподвспухнет клипами "гляшовсоресделали".
Вы можете сэкономить себе время, воспроследовав вот в такой сабреддит:
https://www.reddit.com/r/SoraAi/
Там народ наваливает этого добра примерно пять раз в час. Можете оценить НЕ черрипики.
А я тут с дивана погенерю слабоумных мыслей.
1. Ожидания, конечно, были больше. Это просто императивное утверждение. Ну большего мы ждали от OpenAI
2. Пока нет промпт-гайда для Соры или хотя бы какой-то массы постов на реддите и в твитторе, чтобы уловить шаманство промптинга, говорить и сравнивать Сору с остальными рано.
Пока это рулетка, о чем пишут все генерирующие. На один и тот же промпт может быть и длинный план, и (чаще) три порезаных плана в этих же 20 секундах. Может быть ацкое качество или такой же ацкий морфинг всех конечностей.
Сейчас будет много клипов, сравнивающих Сору с остальными на одинаковых промптах - это малость нерелевантно, у каждого генератора свои ухватки.
3. Надо сказать все-таки и о плюсах: качество картинки (когда выпадает шанс) - топ, консистентность - топ, длина клипов - топ.
4. Про жесточайшую цензуру я уже написал. Ну и как учит нас история с DALL·E 3 (из которой уже песок сыплется), с цензурой будет только хуже. Вот это вот шарахание от лиц и изображений людей принимает параиноидальные формы, а раскатывание лиц на планы за 200 баксов выглядит и вовсе лицемерно.
5. Тут же добавлю, что сообщения типа "это начальный релиз, мы щас будем допиливать" не внушают оптимизьма. Допиливать будут той же командой (в отличие от опен-сорса, где допиливание - это коллективный разум). Плюс это "допиливание" длится с февраля! То, что чего допилились не очень впечатлило. Ну и допиливание цензуры никогда не бывает в сторону послабления.
7. Про цены - 200 баксов на рулетке выжгут 500 генераций и вы попадете в медленную очередь. Безлимиты за 99 у конкурентов выглядят получше, особенно учитывая количество брака.
8. Ну и последнее. Я, честно говоря, очень ждал каких-то ловких и уникальных продуктовых фич. Чего-то, что значительно отстроило бы Сору от конкурентов.
Каких-то элементов монтажа и композа.
Работу с таймлайном.
Возможность, например выделить часть клипа и перегенерить его по корректирующему промпту. Не вот это вот "сохраним, отрежем, подадим на вход, склеим", а в виде удобной фичи, сохраняющей контекст клипа.
OpenAI до сих пор не научились в продукты, хотя с момента громких заявлений про GPT Store прошло больше года.
Но, впрочем, мы их ценим не за продукты, а за технологии.
А выход Сора сейчас бустанет рынок видеогенераторов еще немного. Не удивлюсь, если Чорный Лес что-то скоро покажет.
@cgevent
Сора, конечно, знает толк в .. развлечениях.
Тема сисек не то чтобы раскрыта, она творчески переосмыслена и выведена в иное измерение.
По какой-то причине это гораздо лучше, чем 6 пальцев.
@cgevent
Про Сору и цензуру.
OpenAI решила не разрешать генерации видео с использованием фотографий или кадров реальных людей в качестве input. OpenAI заявляет, что предоставит доступ к такой функции "подмножеству" пользователей Sora, но не будет широко распространять эту возможность, пока не получит возможность доработать свой "подход к безопасности".
Пока известно, что в это "подмножество" попали олигархи с планом Pro за 200 баксов. Остальных ищем в твитторе.
Также тут можно почитать, как они выкрутили на максималки фильтры по NSFW:
https://openai.com/index/sora-system-card/
OpenAI также не позволит пользователям выкладывать сгенерированные видео, содержащие клипы или изображения людей, в ленту на главной странице сайта Sora. Ну то есть шарить их на сайте Sora в галерею.
Также в Sora есть фильтр, позволяющий ИИ-определить, изображен ли на сгенерированном видео человек младше 18 лет. Если это так, OpenAI применяет "более строгий порог" для модерации, и как правило, блочит генерацию.
Все видео, созданные Sora, содержат метаданные, указывающие на их происхождение - в частности, метаданные, соответствующие техническому стандарту C2PA, про который писал сегодня.
OpenAI также заявляет, что использует "оперативное переписывание (ваших) промптов", чтобы не позволить Соре создавать видео в стиле живого\известного автора. А вот тут сейчас жоско было
Пишут: В творчестве существует очень давняя традиция отталкиваться от стилей других художников, но мы понимаем, что у некоторых авторов могут возникнуть вопросы.
У нас тоже есть вопросы. К Соре.
@cgevent
Анонс(а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)
Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.
Если вы в кодинг, то умные подписчики в коментах очень приподнахваливают форк Cline под названием Roo-Cline:
https://github.com/RooVetGit/Roo-Cline
Цитата: "оригинальный cline сразу ощущается как intel pentium 3"
Я не буду расписывать, что такое Cline - an autonomous coding agent. Чтобы не пугать нормальных людей.
@cgevent
Войя - виртуальный продакшен с айфоном
Если ваши интересы выходят за рамки мемных генераций из Viggle, поглядите на Voia.
Попробовать нельзя, есть запись в waitlist: но их намерения звучат неплохо:
Voia позволяет снимать в любом месте, искусственный интеллект регулирует освещение и создает 3D-среды - и все это с вашего iPhone и из облака. Наша предварительная визуализация (previz) позволяет планировать, визуализировать и совершенствовать сцены до начала съемок, обеспечивая эффективность и творческий контроль.
Есть Unreal Engine & Blender Integration, а основной мессадж - в 10 раз дешевле, в три раз быстрее.
В шапке есть длинноватое видео про съемку реальной рекламы, те, кто в теме, возможно найдут там правильные термины.
В общем, поглядите. Этакий Wonder на минималках.
https://www.voia.com/
Sora v2, мать моя женщина...
Кажется, весь видео процессинг скоро изменится навсегда.
Будет доступна "совсем скоро".
Минутная генерация
Текст, текст+картинка, текст+видео -> видео
Отсюда https://x.com/RuudNL/status/1865425438991945938
Сравнение Grok Aurora и Grok+Flux
Думаю сами поймете, кто справа, а кто слева.
Три вида промптов по деталям, легкие, средние и хэви-метал.
Источник
@cgevent
Вот что показали сегодня:
O1/O1-mini теперь можно файнтюнить – то есть можно взять свой датасет, условно научный или юридический (или любой другой), и сделать лучшую модель в узкой области; самое интересное, что уже 20 (!) примеров решенных задач датасета, уже достаточно для файнтнюна модели в узкую область
Обычно такие модели дороже в инференсе, и сам файнтюн стоит денег – доступно будет в следующем году
А я, тем временем, продолжаю тестировать o1 pro – буду переодически писать апдейты
Вот держите вам НЕ черрипиков из TRELLIS.
Его уже завезли на fal и везде, видео об этом приложил.
Меня порадовало видео из Блендора, где полученных таким образом болванов (по одной картинке, наминутчку) используют для превизов.
Понятно, что модельки сходу непригодны к анимации, но текстурки он тащит довольно ловко.
И это, еще раз, опен-сорс от Микрософта. Очень крутого качества.
@cgevent
И да, про Sora тоже будет!!
Мне это напомнило Ильфа и Петрова - 12 стульев.
Смешно будет, если Sora поставят именно на 12-й день.
Ох, ждем.
https://www.theverge.com/2024/12/4/24312352/openai-sora-o1-reasoning-12-days-shipmas
@cgevent
Джим Блинн, мозг и видеогенераторы.
Коль скоро помянул рендерфермы только что, то повторю свой пост про закон Джима Блинна (того самого чьим именем назван шейдер Blinn), расскажу, что это такое и навалю с дивана мыслей.
Если кратко: Время рендера одного кадра не меняется со временем и не зависит от текущего развития софта железа.
Подробнее: время просчета одного кадра графики для кино не зависит от технического оснащения студии – оно определяется сроками сдачи проекта. Если, например, время рендеринга кадра превысит условные 10 минут, то весь материал не успеет просчитаться. Проще говоря, чтобы обработать всю красоту, железа всегда будет мало (сколько бы его ни было): графика слишком сложная, и это всегда компромисс между замыслом и дедлайном. Поэтому каждый год эффекты становятся все сложнее и, скажем так, выразительнее.
В первой "Корпорации Монстров" от Pixar у Салливана было 2 миллиона волос(кривых).
В четвертой «Истории игрушек» были кадры с шестью миллиардами листьев и триллионом сосновых иголок.
Понятно, что никаких железок никогда не хватит, чтобы отрендерить всю нашу вселенную. С рейтрейсингом и каустиками.
И тут мне приходит в голову не очень умная, но красивая аналогия.
Никаких железок не хватит, чтобы обсчитать модель мозга, со всеми этими триллионами нейросвязей. В лоб.
Но ИИ прекрасно симулирует мышление, не имея никакой модели мозга. Он симулирует процесс, а не работу мозга.
Также SORA генерит видосы с тенями, отражениями, sub surface scuttering и даже каустиками, не имея ни малейшего понятия про индекс преломления, радиосити, pathtracing или антиалиасинг. У нее есть world model, и она не имеет ничего общего с мозгом с устройством рейтрейсинга и оптики в целом.
Вопрос в том, какая картинка нас "устроит".
И тут начинается другая тема о том, что поколение подрастающее на ТикТоковской картинке, скоро начнет снимать кино. И насмотренность у них совсем иная (не на кино) и картинка тоже будет иная. И возможно их устроит картинка от ИИ. Он же обучен на тиктоках...
Если же вернуться в декабрь 2024, то мы видим, что каждый следующий видеогенератор требует еще больше VRAM и времени просчета. Похоже закон Джим Блинна действует и тут. Существующего качества картинки всегда будет мало. По крайней мере для кино (откуда пришел закон Блинна).
Ну потому что в метриках значится "впечатлить зрителя". А он, зритель, до сих пор пальцы пересчитывает, мерзавец.
Вот и зарятся датацентры на атомные реакторы. Чтобы угнаться за временем просчета кадра.
P.S. Фотки делал в Ванкувере, на презентации Пиксара в 2018 году. Тогда еще мультики в 3Д делали...
@cgevent
Также Гугл снова потизерил свою видео-модель Veo, которую они спешно показывали в мае, чтобы еще раз утвердиться в роли догоняющего. Сейчас они высунули краешек модели в тестирование на своем Vertex AI для бизнес-аккаунтов.
Хотя там шиллятся всякие ништяки типа 1080p и генерации длиной в минуту, мне это не сильно интересно.
Модели Гугла дико зацензурены, пугливы, диверснуты на всю голову.
Ну и я не вижу уникальных фич - еще один генератор с характерными глюками и родовым сломо.
Ну и если им есть куда встраивать Gemini (у них полно продуктов для этого), то в какую часть своей экосистемы они будут встраивать видео-генерацию - мне неведомо. Шортсы для ютюба?
Лучше я вам сейчас привалю сладостей от дядюшки Хуньяня.
https://www.theverge.com/2024/12/4/24312938/google-veo-generative-ai-video-model-available-preview
@cgevent
Hailuo I2V-01-Live: в действии! И в каком!
Рубрика крутые подписчики.
Вчера писал про новую модель Hailuo I2V-01-Live: Transform Static Art into Dynamic Masterpieces
А сегодня Мигель прислал мне вот такой манифест.
Это идеально ложится на «All You Need Is Love» от Битлз - когда я смотрю, как мир реально сходит с ума то здесь, то там, такие ролики держат меня на плаву.
Спасибо Мигелю и за свежайшие тесты новой модели, и за идею и за эмоциональный интеллект.
А мы срочно благодарим Мигеля и бежим пушить его инсту неистовыми лайками, или что там, в инсте есть:
https://www.instagram.com/mimagie.fr/
@cgevent