Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
У полночь близится выборы прошли, а Германа Соры все нет.
Вот держите свежее видео из Соры от "креаторов".
Помните, как в феврале (этого года, на минутчку) мы просто потеряли дар речи от первых демо Соры.
Прошло 9 месяцев. Сора так и осталась шамбалой от OpenAI, а на нас обрушились версии за версиями новых генераторов.
И вот сейчас я смотрю на это видео и понимаю, что уже ничего не ёкает. Во-первых пластичный и ленивый мозг уже адаптировался и привык к хорошему. А во-вторых Клинг с Минимаксом до сих пор иногда заставляют подскакивать, а Сора уже нет. В-третьих, почти везде уже появились хоть какие-то элементы управления.
А Сора молчит.
В-четвертых, это видео - это десятки и сотни прогонов Соры.
А вышеупомянутые китайцы иногда из коробочки выдают такое, что до сих пор ух.
В общем, я зажрался, вы, я думаю, тоже. Но Сора больше не дофаминит.
А жаль.
Хотите еще пожать плечами - поглядите сюда: https://www.youtube.com/watch?v=2-mBRq-_aQ4
Это тоже свежак, двухнедельный.
Да, нарядно. Но не штырит.
А жаль.
И мне кажется, но с людьми в Соре стало прям хуже? Или у меня кожаные галлюцинации?
Единственно, что удивляет - это длина планов. Прям длинные консистентные куски.
@cgevent
Я, наверное, оставлю эту новость без комментариев.
NEAR представлил ИИ -ассистента на конференции Redacted в Бангкоке в выходные, наряду с планом по созданию крупнейшей в мире модели искусственного интеллекта с открытым исходным кодом.
Модель с 1,4 триллионами параметров будет в 3,5 раза больше, чем текущая версия Llama.
https://cointelegraph.com/news/near-plans-to-create-world-s-largest-1-4-t-parameter-open-source-ai-model
Илья Полусухин продемонстрировал возможности ИИ-помощника, создав с его помощью предысторию, веб-сайт и логотип для нового мемкоина Frog, а затем мгновенно запустив его на версии Pump.fun от Near.
https://cointelegraph.com/news/near-protocol-ai-assistant-book-flights-order-takeout
@cgevent
Прошло примерно 8 часов и у меня досчитался трехсекундный клип на демоспейсе от Easy Animate, о котором я писал вчера.
Я пожалуй пойду домучивать CogVideo V1.5, потому что пока даже 12B параметров от Алибабы не впечатляют.
Промпт: Two white women are walking side by side along a beautiful, sandy beach on a bright and sunny day. Both have long, flowing blonde hair that catches the sunlight, giving it a natural shine. They are laughing joyfully, sharing a moment of carefree happiness. The scene captures their genuine expressions and the way they’re enjoying each other’s company. Behind them, the sea stretches out with strong, crashing waves rolling toward the shore, adding a dynamic, lively energy to the scene. The sky is clear, with only a few soft clouds visible, emphasizing the sunny, vibrant atmosphere of a perfect beach day.
@cgevent
Вернемся к картинкам и коду. Точнее, к процедурному подходу.
Подсмотрел тут в твитторе интересный код для процессинга. Как бы твари из первой матрицы для демосцены.
Забрал этот write-only код, скинул его в chatGPT и говорю: "братиш, дай мне html код с рульками для входных параметров(не назвал их), чтобы я мог в браузере порезвиться"
-Апажалста..
(с первого раза).
Сижу, резвлюсь.
В общем забираете код ниже, сохраняете его как neuroded.html, идете в хром, Ctrl-O, выбираете этот файл и ну крутить рульки.
А я вам сейчас напишу пространный пост про нейропроцедурное моделирование.
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Interactive Processing Visualization</title>
<script src="https://cdnjs.cloudflare.com/ajax/libs/p5.js/1.4.0/p5.js"></script>
<style>
.controls {
margin: 10px;
font-family: Arial, sans-serif;
}
label {
margin-right: 15px;
}
</style>
</head>
<body>
<div class="controls">
<label>k Factor: <input type="range" id="kFactor" min="0" max="1" step="0.01" value="0.5"></label>
<label>Time Increment: <input type="range" id="timeIncrement" min="0" max="0.2" step="0.01" value="0.05"></label>
<label>Stroke Weight: <input type="range" id="strokeWeight" min="1" max="10" step="1" value="2"></label>
</div>
<script>
let a = (x, y, d = mag(k = x / 8 - 25, e = y / 8 - 25) ** 2 / 99) => [
(q = x / 3 + k * kFactor / cos(y * 5) * sin(d * d - t)) * sin(c = d / 2 - t / 8) + e * sin(d + k - t) + 200,
(q + y / 8 + d * 9) * cos(c) + 200
];
let t = 0;
let kFactor = 0.5;
let timeIncrement = 0.05;
let strokeW = 2;
function setup() {
createCanvas(400, 400);
background(6);
stroke(255, 96);
}
function draw() {
t += timeIncrement;
strokeWeight(strokeW);
background(6, 20); // Add slight fading to create a trailing effect
for (let y = 99; y < 300; y += 5) {
for (let x = 99; x < 300; x++) {
point(...a(x, y));
}
}
}
// Listen for slider input changes
document.getElementById('kFactor').addEventListener('input', (e) => {
kFactor = parseFloat(e.target.value);
});
document.getElementById('timeIncrement').addEventListener('input', (e) => {
timeIncrement = parseFloat(e.target.value);
});
document.getElementById('strokeWeight').addEventListener('input', (e) => {
strokeW = parseInt(e.target.value);
});
</script>
</body>
</html>
Вернемся к метаверсам.
Пока лыжные маски от Эппле пылятся на полках складов (ну не хотят кожаные мерзавцы покупать за 3500$ тяжелый разрушитель причесок) или в гаражах(купленные и брошенные), Метачка выкатывает новое демо Ориона - легких (относительно) очков, которые надеваются на нос, а не на голову, не портят прическу и осанку, и, судя по демо, умеют почти все лыжномасочное.
Но надо понимать, что это прототип. И что продукт запланирован аж на 2027 год.
И, как пишет UploadVR, «это больше похоже на Gameboy Advance или DS, а не на PS3 или даже PS2 или PS1». Это означает упрощенный интерфейс с другой архитектурой и упрощенные, менее амбициозные приложения.
Orion OS будет работать на Horizon OS, где архитектура и интерфейс приложения сильно отличаются от Квестов из-за разного форм-фактора. Поскольку первый потребительский продукт, как сообщается, запланирован на 2027 год, Meta потратит следующие три года на выяснение того, какие интерфейсы и подходы подходят для уникального форм-фактора очков дополненной реальности.
Но елы-палы, за три года у нас ИИ научится писать приложения под любые форм-факторы, мощности процессора и даже психотип пользователя.
В интересное время живем, конечно.
Только вот с Эппле неловко вышло
https://www.uploadvr.com/meta-orion-ar-operating-system-video/
Кстати, по слухам от Марка Гурмана, Эппле может попытаться сделать легкие очки к 2027 году.
А Самсунжик объединяется с Гуглом, чтобы сделать свои рейбенчики, только еще и с Gemini на борту. Интересно, сколько раз переименуют Gemini к 2027 году?
@cgevent
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
Опенсорсные Видеогенераторы, притормозите, пожалуйста, я не успеваю.
Эпически обновился код для EasyAnimate от Алибабы (да, это они файнтюнили CogVideoX-Fun).
Генерация видео до 1024x1024, 49 кадров, 8 кадров в секунду, 12B параметров(!), MMDIT и image2video.
Есть поддержка Комфи из коробки. Но памяти вам понадобится 24 гига.
60GB на диске!!
И вишенко - у них там заявлен ControlNet - EasyAnimateV5-12b-zh-Control
Есть только одна проблема - когда это все оттестировать?
Все есть, бумага, демо, код, вебсайт(старый, v3).
https://github.com/aigc-apps/EasyAnimate
Я поставил демо на просчет, но оно, похоже, посчитается чуть позже, чем никогда.
Поэтому вот вам черипики с их гитхаба, он самый обновленный.
@cgevent
В этом смысле работа Google Recapture выглядит поинтереснее.
На входе видео, а выходе реконструкция сцены и видео с других ракурсов.
Такие работы уже были среди китайских бумаг, но у Гугла это выглядит как работающий, если не продукт, то демо.
Но, как обычно у Гугла, ни кода ни демо.
https://generative-video-camera-controls.github.io/
@cgevent
У нас новый опенсорсный фаворит в области видеогенерации.
CogVideoX1.5-5B поддерживает 10-секундные видеоролики в 1360х768, а CogVideoX1.5-5B-I2V - создание видео с любым разрешением.
Нагенерил вам нейродеда, всяких тварей, девушек на пляже и всякоразного. Понятно, что в анатомию и NSFW он не умеет. Но я пока потестировал чистый текст2видео. Что же будет с Image2Video?!
И качество на голову выше, чем у всяких Мочи, Пирамид и Аллегров.
До image2video доберусь в понедельник. Всем хорошего воскресенья.
https://github.com/THUDM/CogVideo
Две вишенки. В Комфи и diffusers пока не завезли. Отжирает 75 гигов VRAM.
@cgevent
Вот вы видели новые варианты управления камерой в Runway.
В опенсорсных моделях это будет появляться в виде контролНетов и Лор. И это будет не то чтобы недружелюбно.
Это будет просто зоопарк.
На видео пример работы, внимание, "DimensionX left orbit Lora" для CogVideo.
Лора для поворота налево.
Выглядит круто, особенно для опенсорсного генератора.
Но просто представьте как вы втыкаете очередную лору в CogVideo Lora node в Комфи, чтобы пошевелить ушами.
И во что все это превращается.
Я уже давно ною про вопросы управляемости видео-генерациями, но похоже пока ничего лучше чем video2video, где на входе кожаное видео не придумали.
А кожаное видео, зараза, надо уметь снимать. И кожаные нужны для него тоже, если это не котики.
Все, нейродед проворчался.
Лору, кстати, можете забрать тут
@cgevent
В России беспощадная ипотечная ставка, в Турции инфляция 70% и почти мёртвый рынок, в Европе - конские налоги и перегретые цены. Где теперь покупать недвижимость?
⠀
Независимый аналитик Андрей Негинский рекомендует рассмотреть 3 перспективных региона:
1. ОАЭ. Экономическая и политическая стабильность, низкие налоги, пассивный доход от аренды 6-7% годовых в $. Редкими квартирами в Дубае и других эмиратах Андрей делится в блоге (уже 73.000 подписчиков).
2. Бали. Не перегретый рынок, растущая экономика, доходность до 40% годовых при перепродаже. Апарты от 70 тыс $ и виллы от 150 вы найдете в этом канале про Индонезию.
3. Таиланд. Низкая инфляция, легкая конвертация валюты, стоимость аренды растет на 10% в год. Квартиры и виллы с интересным дизайном - на канале о Таиланде.
⠀
Подписывайтесь на каналы про ОАЭ, Бали и Таиланд, чтобы следить за новостями рынка недвижимости и не упустить лучшие объекты.
#промо
Что-то это уже слишком хорошо для липсинка.
У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait
Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.
Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/
@cgevent
❗️РСХБ ищет стартапы, которые могут разработать цифровые продукты и сервисы для следующих задач Банка и агрохолдингов:
- Создание ИИ-ассистентов и ботов
- Парсинг и кластеризация данных
- Веб-приложения с геймификацией
- Решения автомодерации отзывов, товаров и услуг
- Генерация контента и изображений с GenAI
- Автоматизация импорта, интеллектуального поиска и анализа данных с помощью ИИ
- Сервисы для создания лендингов и сайтов
- Инструменты проектирования и планировщики, системы визуального проектирования архитектуры информационных систем
📍12 ноября в 16:00 Россельхозбанк совместно со Сколково приглашает заинтересованные компании на онлайн-митап, где представители подразделений РСХБ и агрокомпаний поделятся особенностями внутренней работы, расскажут о взаимодействии с отраслевыми игроками, крупным и среднем бизнесом, а также озвучат запросы и задачи, под которые ищут ИТ-компании для разработки внутренних цифровых сервисов.
Вы узнаете как эффективно взаимодействовать с РСХБ, стать резидентами Венчурной студии и использовать возможности инфраструктуры Банка для поиска заказчиков и партнеров.
Присоединяйтесь к встрече 12 ноября в 16:00!
Регистрация на онлайн-митап
Статус резидента Венчурной студии РСХБ обеспечивает:
🌾 проекты на разработку от Банка и агрохолдингов,
🌾 финансирование пилотных проектов,
🌾 содействие в привлечение инвестиций, в том числе через АгроИнвест Клуб РСХБ, и помощь в структурировании сделок,
🌾 доступ к сообществу партнеров и клиентов Банка,
🌾 индивидуальные условия по продуктам Банка,
🌾 долгосрочное взаимовыгодное сотрудничество с Банком в качестве крупного заказчика и надежного партнера.
Задачи и направления проектов представлены на сайте.
Если ваша компания разрабатывает цифровые продукты и сервисы для B2C и B2B, имеет рабочее решение или прототип, а также опытную команду для реализациипроекта в Банке - подавайте заявку до 15 ноября!
Подать заявку в Венчурную студию РСХБ
#промо
Loras in Krea
Похоже тренинг Лор становится user-friendy фичей в разных генераторах, включая даже видеогенераторы (см новость про видеолоры для Клинга).
Да, это и рарбше было доступно, но помните все эти вопросы, от который новые нормальные падают в старый нормальный обморок, сколько эпох, какие теги лучше данбуру или ллм, как подписывать, как размечать, койя или острис, может флюксжим? Ну вы поняли.
Сейчас все идет к однокнопкам.
В Креа, кстати, раньше был полный файнтюнинг модели. С Сценарио тоже - раньше всех, наверное.
Но я о том, что это сейчас будет просто, а не сложно.
И да, в Креа можно тренить Лоры для Флюкса! Каково?
the following code will grant access to the first 100 to claim it:
EARLYBIRD
access here: https://krea.ai/train
И зацените музику...
@cgevent
Подписчики, конечно, радуют.
Как они это делают с помощью text2image? Ведь попадают же.
Я вот тут подумал, не пора ли переименоваться в НейроДеда? КиберДед есть (Андрей Масалович). А НейроДеда в инфопространстве вроде нет. Или я плохо искал.
Пойду сменю аватарку в чате с комментариями. И прям задумался, не переименовать ли канал. Хотя смм-щики говорят, что вроде не стоит.
P.S. Домрик, спасибо, дорогой.
@cgevent
Как внедрить ИИ в бизнес-процессы: почему многие компании до сих пор его опасаются и не понимают?
С момента запуска ChatGPT в 2022 году ИИ стремительно вошел в бизнес-среду. По данным McKinsey, AI снижает операционные расходы на 20%, а Gartner отмечают, что компании, использующие AI, вдвое чаще увеличивают выручку. Но многие все же сталкиваются с трудностями и бросают попытки внедрения на полпути.
Что тормозит процесс? Главные причины — мифы и завышенные ожидания. Руководители часто не понимают, как измерить пользу от AI и встроить его в корпоративную культуру. А сотрудники не видят, какие инструменты, кроме ChatGPT, могут помочь в их задачах.
Комплексный подход: "сверху вниз" и "снизу вверх". Лидеры должны понимать AI с технической, бизнесовой и командной точки зрения. Например, ИИ-ассистент может снизить нагрузку на службу поддержки, но не решит все проблемы клиентов. Важно определить, какие процессы стоит автоматизировать и каких результатов ждать, будь то ускорение обработки данных или снижене нагрузки на менеджеров.
Оценка и ROI. Важно контролировать эффект от внедрения AI. Только так имплементация будет комплексной и последовательной. Например, ритейлер, использующий AI для анализа поведения покупателей, увеличил продажи на 30% за счет персонализации предложений. Начать можно с измерения ROI на тестовых процессах через простые метрики, как время обработки заявок.
Интеграция и обучение. Чтобы AI стал частью работы, важно обучить команду и показать полезные примеры. Компдексное внедрение AI-решений во многих компаниях удавалось после обучающих сессий с примерами для разных отделов, адаптированных по их бизнес-функции.
Реальные инструменты вместо мифов. ChatGPT — лишь один из множества инструментов. И часто даже его компании не используют на 100%. Комбинируя его его с ноу-код решениями, можно автоматизировать ключевые бизнес-процессы, которые отнимают много времени у людей. Начните с автоматизации рутинных задач, чтобы высвободить ресурсы команды на более значимые задачи.
Что можно сделать прямо сейчас? Чтобы проще внедрить ИИ и быстрее провести трансформацию бизнеса в сторону инноваций и автоматизации, команда Skailab совместно с Иннопорт запускает курс по Искусственному интеллекту для предпринимателей и специалистов.
Программа курса уникальна тем, что подходит как для стартегов, так и для практиков:
Каждый модуль содержит:
1) Теоретическую часть для десижен-мейкеров (например, как посчитать ROI, построить план внедрения)
2) Практическую часть с разработкой AI-решений, которые адаптируются под именно ваши задачи (например, построить AI-ассистента, который будет обзванивать вашу клиентскую базу и предлагать скидки)
Узнать больше и записаться можно здесь: https://clck.ru/3EZ87D
А промокод METAVERSE_AI даст 30% скидку
#промо
Так, у нас тут еще один генератор картинок от Тиктока.
Но не простой. Это еще и редактор картинок текстом. Там, как бы идеи из OmniGen.
Выделяете область и говорите "перерисуй вот так-то и так-то".
В отличие от OmniGen кода нет, деталей мало, а демо безнадежно висит.
Но есть очень нарядный веб-сайт с массой черрипиков.
https://team.doubao.com/en/special/seededit
Но без кода как-то совсем уж неинтересно.
@cgevent
Нейропроцедурное моделирование
Наткнулся на видео от Pepe Buendia по процедурным городам в Гудини.
Ну, честно говоря, Миха Лёсин показывал такое на CG EVENT еще в 2007 году, но это не так важно.
А важно то, что весь этот наш GenAI выдает нам, как правило, пиксели и видосы. Финальный материал.
И мы потом такие, контролНет, инпайнт, все дела, чтобы снова попасть в финальный материал, то есть в пиксели.
А что если хочется сказать: а сгенери сцену в Гудини, чтобы сделать вот такой вот город-сад (напихать референсов), выведи рульки наружу (как положено в Гудини) и сохрани ея для меня.
Если свести это к метазадаче: а сгенери мне код для (нужное подчеркнуть), который дает вот такую картинку. Но это уже совсем нобелевка.
Народ пока лепит 3Д генераторы, но на выходе - нередактируемая хтонь.
А хочется на выходе иметь не пихсели или вертексы, а рульки и педальки. Как результат работы ИИ. Чтобы можно было докручивать.
Уже писал, что встречал подобное только у Влада в https://www.tech-va.com/
где нейросетки на выходе выдают рульки и параметры для Нюка.
Понятно, что можно сказать, дай мне код на питоне, чтобы в блендоре сделать кубик.
Также видел поделки на базе Daz3D, но там они просто по тегам таскают персонажей из библиотеки.
А хочется на вход промпт и картинку как референс, а на выходе Geometry Nodes, например.
Или ноды для TouchDesigner.
Ну или частный случай: на входе портрет из флюкса, на выходе - ползунки для метахьюмана. Можно же натренить?
@cgevent
Ну в общем Apple Vision Pro - всё. К рождеству.
После Ориона на меня набросился твиттор вот с такими новостями. Рекомендательные алгоритмы у них огонь, конечно.
Apple резко сократила производство гарнитуры Vision Pro и может полностью прекратить выпуск текущей версии устройства к концу 2024 года (полтора месяца).
Также Apple недавно сообщила Luxshare, китайской компании, которая является сборщиком Vision Pro, что ей, возможно, придется свернуть производство в ноябре.
Более того, Apple, по-видимому, приостановила работу над вторым поколением Vision Pro как минимум на год, чтобы сосредоточиться на разработке более дешевой гарнитуры.
https://www.macrumors.com/2024/10/23/apple-may-stop-producing-vision-pro-by-end-of-2024/
@cgevent
Помните, как Суно флексили, колотя лейкой по перилам?
Тут вот интересная работа от Адобченко.
Настукиваешь ритм (у них это зовется ритм-промпт), потом описываешь барабаны (тембр-промпт), и ну получать партию барабанов.
Тут бы выпить за барабанщиков, ан нет. Кожаные ручки тут заменить сложно, стучать надо уметь.
Ссылочка на гитхаб, но кода нет. Есть много сэмплов.
Все это собрано на коленке, точнее на с помощью небольшой MaskGIT-подобного трансформера, обученного всего на 10 часах барабанных партий из набора данных MUSDB18.
Скорее демо, чем прод, но идея отличная. Интересно, как Адобченко это вонзит в свои продукты.
https://oreillyp.github.io/tria/
@cgevent
AutoVFX: Да простит меня Даня, но щас вот за VFX. Не чокаясь.
Это очень забавная работа китайских студентов из Иллинойса.
Но это прям полноценная попытка сделать однокнопочный Гудини или Майю. Вместе с Нюком до кучи.
Замысел на миллион - загружаете видео и голосом говорите, каких эффектов навалить и как приподвзорвать объекты в сцене.
И оно такое - апажалста.
Я сначала дам цитату, а потом разберу работу, уж больно лихие амбиции (в духе этого канала)
"Мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Используя нейро-3Д-моделирование сцены, генерацию кода на основе LLM и физическую симуляцию, AutoVFX способен обеспечить физически корректные, фотореалистичные эффекты, которыми можно управлять непосредственно с помощью инструкций на естественном языке."
Каково?
Поглядите примеры тут:
https://haoyuhsu.github.io/autovfx-website/
А теперь пробежимся, из какого опен-сорса и палок они собирают эту монструозную конструкцию.
Gaussian Splatting submodules
diff-gaussian-rasterization
segmentation & tracking modules
Grounded-Segment-Anything and GroundingDINO
recognize-anything
lighting estimation modules
PyTorch3D
Trimesh
Tracking-Anything-with-DEVA
По дороге ставится Блендор!
We use BakedSDF implemented in SDFStudio for surface reconstruction. Please make sure to use our custom SDFStudio for reproducibility. We recommend to create an extra environemnt for this part since CUDA 11.3 has been tested on this repo.
Это больше похоже, конечно, на эксперимент и дипломную работу, но безумство и отвага меня восхищают.
Почитайте их Гитхаб, это прям дерзко:
https://github.com/haoyuhsu/autovfx
@cgevent
У нас сегодня марафон по 2D-to-3D, поэтому потерпите.
Очень круто выстрелил Snap со своим сверхплотным 3D Tracking for Any video.
https://snap-research.github.io/DELTA/
Обратите внимание, что у них на демках есть генеративные видео.
Выглядит немного гиковато, но тут и камера трекер, и обжект трекер, причем объекты произвольные, от бабочек до кожаных. Деформируемые, в общем.
Те, кто в теме, загляните сюда:
https://snap-research.github.io/DELTA/pose_est.html
грузится долго, но примеры очень интересные.
Снап невыносимо круты в плане ресерча и даже обещают код.
@cgevent
DimensionX - крутилки камеры для image2video.
Писал два дня назад про это. Немного расшифрую.
Интересная опенсорсная работа. У них там внутри два "режиссера" - режиссер(ы) по пространству и режиссер по времени (S-Director и T-Director). Точнее по пространству у них выводок режиссеров - но пока работает только один, который крутит камеру влево(!). Какие будут остальные крутиляторы надо почитать в статье.
В этом смысле, конечно, интересно посмотреть на их T-Director - это как бы image2video - генерация видео до 145 кадров.
Они берут картинку и генерят множество вариаций с разных углов камеры (S-Directors) и анимацию (объектов на картинке, T-Director).
Оформлено это как Лора для CogVideoX. И пока это просто облет статичной картинки причем в одном направлении, влево.
Очень хочется поглядеть как будет выглядеть их оживление image2video.
https://github.com/wenqsun/DimensionX
@cgevent
Нейродед в обед.
Тут вот на реддите наколхозили что-то типа image2video для Mochi-1 в ComfyUI.
Запускают на 12 гигах.
Там конечно, не image2video, а скорее image2image с плохо управляемым denoise.
Но я порезвился, благо считается 1 минуту, если есть 80 памяти и тайлинг просто отключаешь.
Нарезал вам нейродеда. Причем на последних тестах давал длительность 97 кадров, но когда дал 163 или 256 кадров мозги конечно сварились, это видно в конце.. Воркфлоу есть по ссылке на реддит.
Когда даешь ему блондинку, он немного капризничает, но мне одному кажется, что блондинке на видео нравится, как получился нейродед? Она что-то говорит, но я не могу разобрать. Причем на seed=0 она всегда говорит одно и тоже, при любых входных блондинках.
Задумался.
@cgevent
SUNO V4 SOON
Никто не знает когда, реддит и твиттор знатно булькают на этот счёт.
Пока есть кратенькая заметочка на Декодере и там же небольшой отрывок.
И утечка у Ника Флоата, которую юзеры приняли за намек на Midjourney Music.
Обещают меньше песка в вокале и жести в звуке.
Ждем-с.
@cgevent
Ну, за кожаных моделей.
Я уже писал про бренд одежды Mango, которые вовсю используют генеративых девушек и не только девушек для рекламы одежды.
Сейчас просто подоспели циферки экономии: реальная модель может стоить 35 долларов в час, в то время как агентство, у которого есть парк генеративных моделей, может брать 29 долларов в месяц за использование своих компьютерных двойников.
35 в час и 29 в месяц. Ничего личного. Экономика.
у меня все.
https://nypost.com/2024/10/31/lifestyle/fashion-models-pushed-to-the-side-as-ai-glam-bots-take-over/
@cgevent
Вчера случилось принять участие в разговоре про сценарии использования умного дома — и участники (включая меня) грустили по поводу ограниченности этих сценариев (особенно если не рассматривать связанные с медиапотреблением).
А сегодня натыкаюсь на интересный сценарий, который вчера никому из нас в голову не пришел: умная колыбель.
И правда — колыбелька, которая умеет малыша именно так укачивать, как ему нравится — и по его движениям ловить тот момент, когда он готов расплакаться, но еще не начал это делать и укачивание способно предотвратить плач — великая вещь. Если получится, конечно, но искушенные инвесторы из a16z в это верят и вкладываются. А их слова “a new wave of ‘parenting co-pilots’ built with LLMs and agents” очень хорошо иллюстрируют, какие домашние сценарии мы пропускаем, увлекшись решением, в общем, скорее профессиональных чем семейных задач.
https://techcrunch.com/2024/11/07/ai-powered-parenting-is-here-and-a16z-is-ready-to-back-it/
Причем Лоры в Krea.ai не только на персонажей, но и на стили.
Народ уже резвится.
@cgevent
CogVideoX1.5-5B-SAT
Апгрейд CogVideoX. Генератор видео по тексту и по картинке.
CogVideoX1.5-5B поддерживает 10-секундные видеоролики высокого разрешения (1360 * 768). Пишут что для такого разрешения надо 66ГБ VRAM
CogVideoX1.5-5B-I2V поддерживает любое разрешение (!??). Видимо, речь о разрешении входной картинки
Демки нет. кто умеет - запускаем самостоятельно
#image2video #text2video
Посмотрите, как Runway представляет курение сигарет.
Надо было через бонг курить