Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Похоже Minimax превращается в этакий генеративный Хаб.
Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:
Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.
TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!
Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series
Более того, у них уже есть упакованные продукты:
свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828
Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)
А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."
В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.
Весь фарш тут:
https://www.minimaxi.com/en
@cgevent
Самурай! Это просто плазма.
Пока все молятся на SAM2 от Метачки, опенсорсныe ребята взяли код и запили SAMURAI.
Для тех, кто в теме - поглядите видео и прикиньте количество времени на ротоскоп.
Причем он держит перекрытия другими людьми, дым, резкие движения.
Мне в субботу лень переводить непереводимые термины, просто скину все фичи сюда, а вы поглядите в репозиторий на гитхабе.
SAMURAI vs. MetaAI's SAM 2!
Traditional visual object tracking struggles in crowded, fast-moving, or self-occluded scenes, as does SAM2.
Meet SAMURAI: a completely open-source adaptation of the Segment Anything Model for zero-shot visual tracking!
Here's why it's a game-changer:
🚫 No need for retraining or finetuning
🎯 Boosts success rate and precision
🤖 Motion-aware memory selection
💪 Zero-shot performance on diverse datasets
But that's not all:
🔬 Refines mask selection
🔮 Predicts object motion effectively
📈 Gains: 7.1% AUC on LaSOT, 3.5% AO on GOT-10k
🏆 Competes with fully supervised methods without extra training
https://github.com/yangchris11/samurai
@cgevent
Video Outpainting в Runway Gen-3 Alpha Turbo.
Вот это уже интересно по многим причинам.
Переделать лежачее видео в стоячее.
Отъехать камерой назад и вернуться обратно в кадр.
Сделать несколько outpaint отъездов и получить суперзум обратно.
Сделать несколько outpaint отъездов и поелозить панорамой по кадру.
Перекадрироваться.
Выпить за маттэ пейнтеров.
Новые композиции кадра с разными промптами на расширение кадра.
Самое интересное - как я понял при дорисовке кадра снаружи(outpaint) можно использовать не только промпт, но и reference image(s?)!!
Я подумал про то, насколько далеко до inpainting (принцип тот же) и в воздухе отчётливо запахло нейрокомпозом.
А соединив это с успехами Segment Anything мы можем получить этакий Omnigen, но только для видео.
И вот уже сидят композеры в своих темных комнатах и орут в мониторы "замени фон на лес, а персонажу перерисуй коня на верблюда и пол поменяй по дороге, на противоположный".
И все это для видео.
Куда катится мир?
@cgevent
Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.
Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.
Может притормозим?
Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/
@cgevent
И еще немного утечек от OpenAI.
Есть слух, что через неделю-другую будут новости про НовоСору.
А пока посмотрите новое видео из текущей Соры.
И что тут бросается в глаза?
Лицо.
По сравнению с последними видосами от Соры, где лица все ухудшались и ухудшались (точнее задвигались на дальние планы, где генеративные лица всегда выглядят плохо ибо теряют отметку "лица"), здесь просто огонь.
И тут явно порылся image2Video, которым Сора никогда особо не флексила.
Текстуры, проработка лица, консистентность - тут все явно на костылях, выходящих за рамки простого text2video (моя гипотеза).
В общем подбросим дофамин ожиданиями скорого релиза или хотя бы демо новой Соры.
А пока у них тихий апдейт качества ответов chatGPT-4o (да, 4о, а не о1).
Цитирую: "Творческие способности модели к написанию текстов повысились - они стали более естественными, увлекательными и адаптированными для повышения релевантности и читабельности. Она также лучше работает с загруженными файлами, обеспечивая более глубокое понимание и более тщательные ответы."
https://x.com/OpenAI/status/1859296125947347164
@cgevent
🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!
Собрал для вас редкие и полезные каналы про нейронки:
НероProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.
Tips AI | IT & AI — пишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.
Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.
Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.
Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.
1000+ практиков нейросетей соберутся вместе 7 декабря в Санкт-Петербурге!
Конференция «Питерский промпт» — мероприятие про нейросети от ребят, которые делают ивенты в сферах маркетинга, мероприятий и онлайн-образования более 10 лет. Цена более чем лояльная — начинается от 3 900 рублей.
Отличная возможность познакомиться вживую с теми, кто активно работает руками, пишет промпты и внедряет нейросети в бизнес, аналитику, маркетинг и продажи.
Среди тем докладов:
— создание торгового робота для работы с российскими акциями на Московской бирже
— как написать книгу с помощью ИИ
— автоматизация работы с YouTube, RUTUBE, VK Видео с помощью AI
— как нейросети помогают управлять бизнесом и развивать самого себя
— нейросети в продажах: коммуникация с клиентами
А ещё будут доклады о том, как использовать нейросети в недвижимости, образовании, онбординге и найме сотрудников и даже в юриспруденции.
Участвовать можно как офлайн, так и онлайн. Все подробности здесь — https://spbprompt.ru/
Тестируем SANA локально.
Первое - она реально быстрая. Причем ей наплевать на разрешение. Она молотит 2048х2048 почти с такой же скоростью что и 1024х1024. Более того, 4096х4096 тоже не сильно отличается по скорости.
Для тестирования промптов, разрешений, параметров - это просто рай. Ты не ждешь вообще.
Второе - установка. Тут вам придется помучиться. Поддержки Комфи пока нет. В инструкциях у них есть пара ошибок. Один pyhton вместо python чего стоит. Но у них есть градио морда, которую таки можно запустить и тестировать локально.
Третье. Качество. И тут мы быстро усмиряем ожидания и помним, что главное преимущество - скорость, нетребовательность и тренируемость.
Если вкратце:
Промпт понимает лучше чем SDXL, но хуже чем Флюкс или SD3.
Качество - среднее между SDXL и SD15. Трудно сказать однозначно, большой разброс по качеству. Но точно не Флюкс или Идео. До них очень далеко.
Кожа и лица - пластик, но с хорошими деталями в портретах. Глаза и зубы - очень нестабильно.
Из интересного - НЕ любит короткие промпты. Лучше работает с длинными. С короткими прикидывается SD15.
Вот что хорошо - это абстракции, арт, всякоразно концептно. Тут неплохо и скорость убийственная.
Есть стили - но они недоделаны.
Анатомия - надо больше тестов, но по моим ощущениями даже лучше, чем SD3. Но тоже с большой нестабильностью.
NSFW из коробки. Нет. Тем не менее, чуть лучше чем Флюкс или SD3, которые портят все, что видят (не хотят видеть). Но практически неуправляемо.
И тут можно сделать пару диванных выводов.
Очень быстрая модель. Недоученная, но с большим потенциалом на обучение. Ибо не требует конских ресурсов.
Может быть она станет новой SD15 в плане файнтюнов?
Подождите поддержки в Комфи (обещано) и ну тестировать.
Ну или ныряйте сюда: https://github.com/NVlabs/Sana
А пока поделитесь утечками.
@cgevent
ComfyUI-CogVideoXWrapper в деле
Повешу на ночь, пока никто не видит.
Нуштош, все работает с полпинка.
Обновил Комфи.
В custom nodes git pull https://github.com/kijai/ComfyUI-CogVideoXWrapper
Взял первый же I2V пример из https://github.com/kijai/ComfyUI-CogVideoXWrapper/tree/main/examples
И все завелось. Причем в любых разрешениях. Даже в вертикальных.
Памяти жрет всего 15гиг. 2 секунды считает 4.5 минуты на A100.
И совет. Поменяйте Scheduler на XPDM, киджай видать забыл. Качество в разы лучше.
@cgevent
Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.
Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.
И да, это 3dgs - гауссианы, полученные из postshot.
Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).
А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).
Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.
А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.
Ох, куда катится мир... в какие картинки.
@cgevent
Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.
Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.
Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.
Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/
А наш любимый генератор музики релизнул таки версию 4.
И как же круто, что мои всевездесущие подписчики уже разобрали его по косточкам.
Цитирую:
Пока по Суно 4 такие впечатления:
Вокал - огонь
Железо в ударных все еще песочит, хоть и меньше...
Акустическая гитара и перегруженная гитара все еще песочат
Электронные стили звучат почти безупречно
Ремастер хорошо работает только с треками сгенернными в Суно же, внешние треки не удалось зармастерить нормально... видимо он какие то данные еще хранит по сгенеренным трекам.
Пока только для платных бояр.
Завтра пришлю вам пару приятных треков.
А ещё родился новый музыкальный термин "депесочер".
@cgevent
⚡️Всероссийский Хакатон ФИЦ 2024
🚀Попробуйте себя в одном из предложенных кейсов:
1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки в рамках произвольно заданных ограничений размера блока.
2. Контекстный перевод названий научных работ: Разработать и реализовать переводчик, который будет переводить названия научных работ с русского на английский.
3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов и произвести прогноз на следующий календарный месяц.
4. Система контроля и управления доступом: Разработка системы контроля и управления доступом в реальном времени. Система будет включать API для управления сотрудниками, точками доступа и интеграцию с системой видеонаблюдения.
И другие 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon
Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн.
🏆Призовой фонд: 6 000 000 руб.
🔥Дедлайн регистрации: 26 ноября, 23:59
📅Даты отборочного этапа: 29 ноября - 2 декабря
🦾Даты финала: 3 - 4 декабря
Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon
Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.
Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.
Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5
Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.
@cgevent
Magic Quill: A Free AI Image Editor
Еще одна попытка нащупать нишу в редактировании нейрокартинок.
Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.
Чем и занимается Magic Quill
И это редкий случай, когда есть и код, и демо, и весь фарш.
Хорошая работа.
https://magicquill.art/demo/
@cgevent
Очень классный тред о том почему в очень многих областях Клод уже сильно лучше человека-терапевта. А именно, в области эмоциональной четкости и чуткости.
Это уже (меньше чем за сутки) привело к созданию как минимум десятка стартапов про ИИ-терапевтов. Несмотря на то, что их будут сотни и почти все умрут в течении года, здесь очень скоро появится продукт с сотнями миллионов MAU и миллиардной капитализацией.
И дело не только в масштабе рынка (программа минимум: автоматизировать все интеллектуальные сервисные профессии), а в том, что мир станет светлее, добрее и приятнее, когда большинство людей будет иметь эффективный и глубоко личный инструмент различения и работы со своим эмоциями.
Если и делать нейрорекламу Кока Колы, то только такую.
Согласитесь, смотрится куда круче нейрорекламы от самой Coca Cola.
LTXV выглядит нарядно на их же демках, но подписчики уже раскрыли тему.
С анатомией - также как везде. Никак.
Но зато шустрая.
@cgevent
Стоит ли инвестировать во внедрение ИИ? Для тех, кто в теме и читает ленту, вопрос звучит как риторический. Но для бизнеса это до сих пор неочевидно. Риски, непредсказуемость результатов, непонятные затраты.
27 ноября команды Школы управления СКОЛКОВО, Яндекса и Райффайзен Банка попытаются найти ответ на этот вопрос. В рамках открытой дискуссии директор программ по цифровой трансформации Школы Николай Верховский и Head of AI & CRM products Райффайзен Банка Илья Щиров обсудят:
– какие результаты от внедрения ИИ ожидают компании и почему реальность часто не соответствует этим ожиданиям;
– в чем заключается реальная ценность технологий для бизнеса;
– как обеспечить безопасность данных при использовании ИИ.
Также приглашенные эксперты разберут реальные кейсы внедрения ИИ и расскажут о вызовах, с которыми им пришлось столкнуться в процессе реализации трансформационных проектов.
📅 Среда, 27 ноября, 18:30
📍 офис Яндекса
Подробности и регистрация по ссылке.
Реклама: НОУ ДПО МОСКОВСКАЯ ШКОЛА УПРАВЛЕНИЯ «СКОЛКОВО», ИНН 5032180980 erid 2SDnjbvk9WB
Прошло 6 месяцев и в коде для приложения chatGPT наконецто заметили кусочки кода для Live Camera.
Помните, как на демо все общались с телефоном, как будет у него есть не только уши (voice mode), но и глаза(лайв-камера).
Код обнаружен в v1.2024.317 и там есть:
—Live camera functionality
—Real-time processing
—Voice mode integration
—Visual recognition capabilities
Когда и кому раскатают в первую очередь?
<string name="video_nux_beta_label">Beta</string>
<string name="video_nux_description">Tap the camera icon to let ChatGPT view and chat about your surroundings.</string>
<string name="video_nux_title">Live camera</string>
<string name="video_warning">Don't use for live navigation or decisions that may impact your health or safety.</string></code?
Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.
В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.
Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.
Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.
В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.
Анонс
Хаггинг
Гитхаб
SANA и цензура.
Когда будете устанавливать SANA у вас будут ошибки из-за того, что код пытается скачать модель Gemma как текст енкодер, а доступ на хаггинг фейс требует логина. Вам нужно будет добыть логин токен и прописать его в конфиги модели (yaml).
Но самое интересное, что Гемма используется для цензуры!!!
Она пасет ваши промпты и если видит глупости, то шлет вам сердечки.
Зацените картинку и не забудьте выпилить цензуру из кода.
https://github.com/NVlabs/Sana
@cgevent
Пару часов назад появился код для той самой SANA от Нвидия, которая должна летать на слабых машинах и выдавать 4к за секунды.
Комфи нет, поддержки дифузерс нет. Но есть градио со ссылками на секретные веса на хаггингфейсе.
Го пробовать.
https://github.com/NVlabs/Sana
@cgevent
Ну немного хитов от ТИИхонов Рекордс.
Как пишет Леша:
а) попробовать сделать хит для девичьей группы
б) посмотреть, как суно работает с не-смысловыми строками
в) попробовать earworm
Он говорит, что это Блестящие, а я такой - это скорее Сливки. Потом - а может Виагра? Или Серебро?
Пауза... А как их различают..?
Короче, как по мне - просто готовый хит, если слушать ушами продюсера.
Мне немного не хватает компрессора эмоций, но на этой жанровой территории это не так важно.
А вот крючки для уха удались.
И кожаные тексты пока вне конкуренции.
И это старый Suno. Ждем ремастера.
@cgevent
Теперь все узнают, куда он смотрел.
DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.
За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..
Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.
Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX
@cgevent
А между тем, наконец-то вышла поддержка той самой версии CogVideo-5B-1.5 для Comfy, которую я тут приподспамливал уже неделю.
Код полностью пересобран, старые воркфлоу не работают, зато уже вшита поддержка костылей от Алибабы в виде CogVideoX-Fun.
Ну и самое главное, в image2video можно задавать не только первый, но и Финальный кадр!
Установка заставит вас поседеть (хотя Комфи юзеры давно уже седые и лысые). Но оно того стоит.
Много умных и малопонятных слов вот тут, в разделе Update 8.
Возможно вы даже пролезете в 12гигов врам.
https://github.com/kijai/ComfyUI-CogVideoXWrapper
GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.
С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.
GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.
Гитхаб
Зря я наехал на опенсорс тут.
CogVideo распутал картинку тоже легко.
@cgevent
К вопросу о понимании мира видеогенераторами.
Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.
Это очень круто.
Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.
Сорс
@cgevent
BlockadeLabs, о которых я много писал осваивают новые территории.
На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.
Я пытаюсь нащупать ценность их нового продукта, подскажите мне.
https://www.blendbox.ai/
@cgevent