cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37805

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!

Собрал для вас редкие и полезные каналы про нейронки:

НероProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.

Tips AI | IT & AIпишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.

Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.

Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.

Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.

Читать полностью…

Метаверсище и ИИще

1000+ практиков нейросетей соберутся вместе 7 декабря в Санкт-Петербурге!

Конференция «Питерский промпт» — мероприятие про нейросети от ребят, которые делают ивенты в сферах маркетинга, мероприятий и онлайн-образования более 10 лет. Цена более чем лояльная — начинается от 3 900 рублей.

Отличная возможность познакомиться вживую с теми, кто активно работает руками, пишет промпты и внедряет нейросети в бизнес, аналитику, маркетинг и продажи.

Среди тем докладов:

— создание торгового робота для работы с российскими акциями на Московской бирже
— как написать книгу с помощью ИИ
— автоматизация работы с YouTube, RUTUBE, VK Видео с помощью AI
— как нейросети помогают управлять бизнесом и развивать самого себя
— нейросети в продажах: коммуникация с клиентами

А ещё будут доклады о том, как использовать нейросети в недвижимости, образовании, онбординге и найме сотрудников и даже в юриспруденции.

Участвовать можно как офлайн, так и онлайн. Все подробности здесь — https://spbprompt.ru/

Читать полностью…

Метаверсище и ИИще

Тестируем SANA локально.

Первое - она реально быстрая. Причем ей наплевать на разрешение. Она молотит 2048х2048 почти с такой же скоростью что и 1024х1024. Более того, 4096х4096 тоже не сильно отличается по скорости.
Для тестирования промптов, разрешений, параметров - это просто рай. Ты не ждешь вообще.

Второе - установка. Тут вам придется помучиться. Поддержки Комфи пока нет. В инструкциях у них есть пара ошибок. Один pyhton вместо python чего стоит. Но у них есть градио морда, которую таки можно запустить и тестировать локально.

Третье. Качество. И тут мы быстро усмиряем ожидания и помним, что главное преимущество - скорость, нетребовательность и тренируемость.
Если вкратце:
Промпт понимает лучше чем SDXL, но хуже чем Флюкс или SD3.
Качество - среднее между SDXL и SD15. Трудно сказать однозначно, большой разброс по качеству. Но точно не Флюкс или Идео. До них очень далеко.
Кожа и лица - пластик, но с хорошими деталями в портретах. Глаза и зубы - очень нестабильно.
Из интересного - НЕ любит короткие промпты. Лучше работает с длинными. С короткими прикидывается SD15.
Вот что хорошо - это абстракции, арт, всякоразно концептно. Тут неплохо и скорость убийственная.
Есть стили - но они недоделаны.
Анатомия - надо больше тестов, но по моим ощущениями даже лучше, чем SD3. Но тоже с большой нестабильностью.
NSFW из коробки. Нет. Тем не менее, чуть лучше чем Флюкс или SD3, которые портят все, что видят (не хотят видеть). Но практически неуправляемо.

И тут можно сделать пару диванных выводов.

Очень быстрая модель. Недоученная, но с большим потенциалом на обучение. Ибо не требует конских ресурсов.
Может быть она станет новой SD15 в плане файнтюнов?

Подождите поддержки в Комфи (обещано) и ну тестировать.

Ну или ныряйте сюда: https://github.com/NVlabs/Sana

А пока поделитесь утечками.

@cgevent

Читать полностью…

Метаверсище и ИИще

ComfyUI-CogVideoXWrapper в деле
Повешу на ночь, пока никто не видит.

Нуштош, все работает с полпинка.
Обновил Комфи.
В custom nodes git pull https://github.com/kijai/ComfyUI-CogVideoXWrapper
Взял первый же I2V пример из https://github.com/kijai/ComfyUI-CogVideoXWrapper/tree/main/examples

И все завелось. Причем в любых разрешениях. Даже в вертикальных.

Памяти жрет всего 15гиг. 2 секунды считает 4.5 минуты на A100.

И совет. Поменяйте Scheduler на XPDM, киджай видать забыл. Качество в разы лучше.

@cgevent

Читать полностью…

Метаверсище и ИИще

Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.

Ох, куда катится мир... в какие картинки.

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.

Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.

Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.

Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/

Читать полностью…

Метаверсище и ИИще

А наш любимый генератор музики релизнул таки версию 4.

И как же круто, что мои всевездесущие подписчики уже разобрали его по косточкам.

Цитирую:

Пока по Суно 4 такие впечатления:

Вокал - огонь
Железо в ударных все еще песочит, хоть и меньше...
Акустическая гитара и перегруженная гитара все еще песочат

Электронные стили звучат почти безупречно

Ремастер хорошо работает только с треками сгенернными в Суно же, внешние треки не удалось зармастерить нормально... видимо он какие то данные еще хранит по сгенеренным трекам
.

Пока только для платных бояр.

Завтра пришлю вам пару приятных треков.

А ещё родился новый музыкальный термин "депесочер".

@cgevent

Читать полностью…

Метаверсище и ИИще

⚡️Всероссийский Хакатон ФИЦ 2024

🚀Попробуйте себя в одном из предложенных кейсов:
1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки в рамках произвольно заданных ограничений размера блока.

2. Контекстный перевод названий научных работ: Разработать и реализовать переводчик, который будет переводить названия научных работ с русского на английский.

3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов и произвести прогноз на следующий календарный месяц.

4. Система контроля и управления доступом: Разработка системы контроля и управления доступом в реальном времени. Система будет включать API для управления сотрудниками, точками доступа и интеграцию с системой видеонаблюдения.

И другие 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon

Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн.

🏆Призовой фонд: 6 000 000 руб.
🔥Дедлайн регистрации: 26 ноября, 23:59
📅Даты отборочного этапа: 29 ноября - 2 декабря
🦾Даты финала: 3 - 4 декабря

Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon

Читать полностью…

Метаверсище и ИИще

Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.

Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.

Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5

Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.

@cgevent

Читать полностью…

Метаверсище и ИИще

Magic Quill: A Free AI Image Editor

Еще одна попытка нащупать нишу в редактировании нейрокартинок.

Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.

Чем и занимается Magic Quill

И это редкий случай, когда есть и код, и демо, и весь фарш.

Хорошая работа.

https://magicquill.art/demo/

@cgevent

Читать полностью…

Метаверсище и ИИще

Кидаешь в chatGPT просто кусок кода из репозитария CogVideo:

def generate_video_interface(
prompt: str,
model_path: str = "THUDM/CogVideoX1.5-5B",
lora_path: str = None,
lora_rank: int = 128,
num_frames: int = 81,
width: int = 1360,
height: int = 768,
image_or_video_path: str = "",
num_inference_steps: int = 50,
guidance_scale: float = 6.0,
num_videos_per_prompt: int = 1,
dtype: str = "bfloat16",
generate_type: str = "t2v",
seed: int = 42,
fps: int = 16,
output_path: str = "./output.mp4",
):


И говоришь: "братиш, сделай вебморду на Gradio, чтобы все это ручками рулить"

- Апажалста.

С первой попытки. Без ошибок.

Куда катится мир?

@cgevent

Читать полностью…

Метаверсище и ИИще

Русскоязычный умелец научился создавать 🔞 моделей через нейросети и зарабатывать на них. Об этом он рассказывает в своем авторском Телеграм-блоге >>

Так же он дает бесплатно инструкцию, как начать.

Переходите 👉/channel/+-TH3MQKurcs1YWQx

#промо

Читать полностью…

Метаверсище и ИИще

Так, потерпите, меня пробило на грибы и Runway.

Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.

Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.

Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!

Шел 2024 год. Люди массово переселялись в картинки.
Сорс.

@cgevent

Читать полностью…

Метаверсище и ИИще

Уточнение к предыдущему посту, не 19, а 20 секунд. И это относится к режиму video2video.

Заодно поглядите, как можно использовать https://www.skyglass.com/ для персонажа и фона, а затем навалить gen-3 video2video сверху. Голос, кастати, от elevenlabs.

Как-то я запереживал за игры и авторское кино.

@cgevent

Читать полностью…

Метаверсище и ИИще

А вот еще одна примерочная, только не в виде китайских работ, демо на хф или репозитариев на гитхабе со смешными картинками.
А в виде готового допиленного продукта.

На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.

@cgevent

Читать полностью…

Метаверсище и ИИще

Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб

Читать полностью…

Метаверсище и ИИще

SANA и цензура.

Когда будете устанавливать SANA у вас будут ошибки из-за того, что код пытается скачать модель Gemma как текст енкодер, а доступ на хаггинг фейс требует логина. Вам нужно будет добыть логин токен и прописать его в конфиги модели (yaml).
Но самое интересное, что Гемма используется для цензуры!!!
Она пасет ваши промпты и если видит глупости, то шлет вам сердечки.
Зацените картинку и не забудьте выпилить цензуру из кода.

https://github.com/NVlabs/Sana

@cgevent

Читать полностью…

Метаверсище и ИИще

Пару часов назад появился код для той самой SANA от Нвидия, которая должна летать на слабых машинах и выдавать 4к за секунды.
Комфи нет, поддержки дифузерс нет. Но есть градио со ссылками на секретные веса на хаггингфейсе.

Го пробовать.

https://github.com/NVlabs/Sana

@cgevent

Читать полностью…

Метаверсище и ИИще

Ну немного хитов от ТИИхонов Рекордс.

Как пишет Леша:
а) попробовать сделать хит для девичьей группы
б) посмотреть, как суно работает с не-смысловыми строками
в) попробовать earworm

Он говорит, что это Блестящие, а я такой - это скорее Сливки. Потом - а может Виагра? Или Серебро?
Пауза... А как их различают..?

Короче, как по мне - просто готовый хит, если слушать ушами продюсера.

Мне немного не хватает компрессора эмоций, но на этой жанровой территории это не так важно.

А вот крючки для уха удались.

И кожаные тексты пока вне конкуренции.

И это старый Suno. Ждем ремастера.

@cgevent

Читать полностью…

Метаверсище и ИИще

Теперь все узнают, куда он смотрел.

DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.

За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..

Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.

Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX

@cgevent

Читать полностью…

Метаверсище и ИИще

А между тем, наконец-то вышла поддержка той самой версии CogVideo-5B-1.5 для Comfy, которую я тут приподспамливал уже неделю.

Код полностью пересобран, старые воркфлоу не работают, зато уже вшита поддержка костылей от Алибабы в виде CogVideoX-Fun.

Ну и самое главное, в image2video можно задавать не только первый, но и Финальный кадр!

Установка заставит вас поседеть (хотя Комфи юзеры давно уже седые и лысые). Но оно того стоит.

Много умных и малопонятных слов вот тут, в разделе Update 8.

Возможно вы даже пролезете в 12гигов врам.

https://github.com/kijai/ComfyUI-CogVideoXWrapper

Читать полностью…

Метаверсище и ИИще

GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.

С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.

GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.

Гитхаб

Читать полностью…

Метаверсище и ИИще

Зря я наехал на опенсорс тут.

CogVideo распутал картинку тоже легко.

@cgevent

Читать полностью…

Метаверсище и ИИще

К вопросу о понимании мира видеогенераторами.

Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.

Это очень круто.

Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.

Сорс

@cgevent

Читать полностью…

Метаверсище и ИИще

BlockadeLabs, о которых я много писал осваивают новые территории.

На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.

Я пытаюсь нащупать ценность их нового продукта, подскажите мне.

https://www.blendbox.ai/

@cgevent

Читать полностью…

Метаверсище и ИИще

Локальный CogVideo-5B V1.5 ImageToVideo

Повешу до утра, пока никто не видит.

Но он хорош.

https://github.com/THUDM/CogVideo

🔥🔥 News: 2024/11/15: We released the CogVideoX1.5 model in the diffusers version. Only minor parameter adjustments are needed to continue using previous code.

@cgevent

Читать полностью…

Метаверсище и ИИще

Наведём немного порядка с CogVideoX V1.5

Основная путаница тут, в том что сначала вышла версия на библиотеках SAT, а код на основе Diffusers был выпущен только в пятницу. И то, слегка косой, надо было ставить его из другой ветки. Именно он, позволяет упихивать модель в память и сделать, наконец, поддержку для ComfyUI, которой официально ПОКА НЕТ, на момент написания этого поста, есть только тестовый бранч.
Я погонял код на основе Diffusers (из командной строки, вам надо скачать веса в safetensors отсюда https://huggingface.co/THUDM/CogVideoX1.5-5B и не забыть про -I2V).
Действительно, если оставить по умолчанию как у них в примерах:
#pipe.to("cuda")
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

То генерация действительно упихивается в 8.6 гигабайт VRAM, но идет БЕСКОНЕЧНО долго. Мне нужны доп тесты, но пока это 80 минут на A100.

Если выключить офлоад, слайсинг и тайлинг, и отправить на куду, то система оживает и отжирает свои 37 гиг и бодро справляется за 14 минут.

Kijai вот-вот доделает официальный https://github.com/kijai/ComfyUI-CogVideoXWrapper
Ждите Update 8 (не 7) и тогда можно будет пробовать в Комфи.


Вот вам пока видосов на основе этих тестов.

@cgevent

Читать полностью…

Метаверсище и ИИще

Создаем генеративные 3Д-миры.

А теперь смотрите, какой неожиданный выход можно сделать из этих новых 20-секундных video2video on Runway. Помните я тут писал, что теперь можно каждому дать свой метаверсик, просто пропустив все, что он видит в умных очках через нейрорендер типа vieo2video.

Так вот, можно этот метаверсик еще и восстановить в 3Д.

Что здесь происходит?
Берется болванка головы в Блендоре и делается облет камерой на 20 секунд.
Этот черновой рендер-облет кормится в video2video от Runway
Получается Девушка на стиле.
Дальше 20 сек растягиваются на 40 сек (в данном случает с помощью RunwayML's super slow-motion interpolation)
И это просто идёт на вход в Polycam to generate the 3D model.

Нейрофотограмметрия, кусающая свой хвост.

Надо сказать, что изначально LumaLabs занималась примерно тем же, перед тем как заскочить в поезд видеогенераторов.

Ну и я когда смотрю на все эти видеогенерации, то постоянно думаю, как как оттуда достать все эти их неявные трехмерные представления?

А вот так примерно...

@cgevent

Читать полностью…

Метаверсище и ИИще

Странно, Runway AI без всякого шиллинга в твитторах только что тихонько выпустил 19 секундные генерации!
Без продолжалок, а целиком.

Вот ам Skull Island. Сделано с помощью Blender 3D и Gen-3 Turbo video to video.

С новым контролем камеры выглядит все интереснее.
Автор тут

@cgevent

Читать полностью…

Метаверсище и ИИще

Немного новых Hedra и Suno.

Suno V4 прям радует. Вокал хорошо почистили. Звучит достаточно изолированно.

А вот Хедра меня не радует. Они бросились обвешивать продукт аудио и голосовыми фичами, а вот главная фича - генерить говорящее лицо остается примерно на уровне бета-версии.
Нет, они, конечно, добавили фичу типа "теперь можно генерить аж 12 минут", но для говорящих лиц особого понимания мира не требуется, они же не бургеры кусают, поэтому это несложно.

А картинка до сих пор мыльная, я каждый раз гоню в facefusion для резкости.
При этом диапазон крупности лица - тоже очень чувствительный.
Ну и я, конечно, дал не текст, а песню из Суно, и это конечно, провал.
Как дикторов наверное еще можно рассматривать.
Как певцов - вряд ли.

В общем, послушайте новое Суно...

P/S/ Послушал себя и понял, что зажрался. На входе просто аудиотрек, на выходе и мимика, и артикуляция и движения головой. Ну да, не попадают в мышечные усилия вокалиста. Но елы палы - это работает!

@cgevent

Читать полностью…
Подписаться на канал