Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:
1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡
2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!
Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).
3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.
4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.
5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.
=====
И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: /channel/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:
Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.
Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.
И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»
Ждём 2025-го! o2, GPT-4.5/5, 😯
Для тех, кто совсем не в теме и малость офигевает от странного слова "риг" (не путать с играми престолов) поясню.
Вот есть у вас 3Д модель персонажа (обобщенного, это может быть глаз или ножницы).
И вам теперь надо его как-то пошевелить. Но не таскать же его за вертексы.
Вы вставляете внутрь него и вокруг него тьму управляющих объектов. Это прежде всего скелет внутри и разные кубики-шарики снаружи. Которые также управляют друг другом.
Чтобы не дергать за 100 000 вертексов на модели, а дергать за пару сотен кубиков, пытаясь привести персонаж в нужную позу.
То еще удовольствие.
Но мы тут выпиваем за риггеров (которые пишут и делают этот обвес) и молимся на нейрориг - это когда ИИ сам генерит все эти управляющие элементы (у себя в латентных мозгах), а наружу выводит рульки и педальки, за которые мы дергаем. Или за них дергает произвольное видео. И картинка меняется.
@cgevent
На text-to-image арене появилась совершенно новая и непонятная модель для генерации картинок blueberry_0, которая побивает всех на свете, включая FLUX и Ideogram
Это тонкий троллинг strawberry или это опенАИ сами троллят?
Судя по тому, как она уходит от фотореализьма, это может быть та самая Dalle-4o, про которую нам намекали в мае.
Но качество (по крайней мере на арене.. ну такое).
Давайте сюда теории заговора, что это за модель?
И нет, это не Mystic v2, Мистик - это просто Флюкс с украшалками.
https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
На реддите народ бьется в истерике уже сутки...
https://www.reddit.com/r/StableDiffusion/comments/1fp6w4n/_/
@cgevent
Как насчет LivePortrait, только не портрет а LiveBody?
Алибабищенко уже выкатывал EMO для анимации лиц, сейчас выкатил MIMO - для анимации всего тела.
Спойлер: кода, как и для EMO нет, есть пустой гитхабчег.
Ну то есть вы можете брать full body video одного персонажа, фотачку другого - и хоп, второй начинает двигаться как первый.
Это можно назвать как угодно - новый нейромокап, фулл-боди дипфейк, нейрориг и нейроскининг(для тех кто в теме).
Короче, ИИ берет и восстанавливает из видео позу - то есть двигающийся скелет (как бы нейромокап)
Потом на этот скелет он насаживает входную фотографию (или сгенерированную картинку из флюкса) - нейроскининг.
Картинка начинает плясать, как персонаж на входном видео - нейрориг.
Более того, она вписывается в исходное видео - нейрокомпоз.
Поглядите на баскетболиста.
В общем да, это обобщенный метадипфейк. На всё туловище.
Есть два минуса.
1. Кода нет. И зная Алибабского - вряд ли будет.
2. Это все НЕ видео модель, это продолжение идей Animate Anyone и кода AnimatedDiff. Поэтому карманы ездят по штанине, мелкие детали то появляются, то исчезают, а про пальцы мы не говорим.
Но подумалось мне, что мы можем подать результат в video2video от Рунвея и получить не кипящий вариант.
Время работает на ИИ. Скоро все будет. В одном флаконе. Подождите немного.
P.S. Кстати, кто не понял, на вход можно присунуть просто 3Д-скелет, если он у вас есть. Можете попробовать ваши гениальные анимации надеть на не менее гениальные фотографии и посмотреть, что будет.
https://menyifang.github.io/projects/MIMO/index.html
@cgevent
Вышел совершенно плазменный Face Fusion 3.0. Это уже не просто дипфейки, это комбайн для работы с лицом.
https://github.com/facefusion/facefusion
Круче всего выглядит Face Editor (работает через LivePortrait)
Также можно менять возраст - Age Modifier
Ну и Workflows (Job Queue System) - типа очереди на монтаж.
Поглядите вот тут эпический трейлер FF 3.0, полностью собранный в нем же.
shadyendeavor/videos" rel="nofollow">https://www.youtube.com/@shadyendeavor/videos
@cgevent
В Рунвей завезли вертикальные видео.
Пока только в модель Gen-3 Alpha Turbo.
Странно, что так поздно.
Или это ответочка на гугловскую интеграцию Veo в генерацию Sorts.
@cgevent
Ну и я соединил все сегодняшние посты про очки от Снапа, генерацию метаверсов голосом, импланты и новое нормальное зрение и понял, что больше не нужны очки или промпты.
Нужна кнопка.
"Еще!".
Для этого все уже есть.
P.S. А вы такие удивлялись, почему Хомяк взлетел? Это разминка перед кнопкой.
@cgevent
Держите Бутылок Клейна, Треугольников Серпинского и Сапогов Шварца.
Надо сказать, что с лентой Мебиуса ИИ (в кожаных руках) не справляется. Мы уже делали челлендж.
Теперь лайфхак.
После того, как я задолбался генерить чорные сапоги, я просто взял картинку из Википедии и дал ее в зубы chatGPT и спросил, шовидишь?
Ботинок Шварца, говорит.
Давай, говорю промпт, чтобы сгенерить такое.
Апажалста.
Тут мне и поперло. И со Шварцем, и с Клейном и с Серпинским.
С бутылкой он, конечно, тоже не справился, но сделал интересные формы, от которых у кожаных дизайнеров заныло под ложечкой.
А вот прочтения треугольника Серпинского - это прям очень здорово.
Этот тот случай, когда это можно подсовывать кожаным и говорить, "художник страдал, проваливаясь в острые чертоги своего разума, запертого в архетипах святой троицы".
Но во-первых, это красиво. И у меня такого теперь 200 мегабайт..
Ну и кстати, хотите еще фана?
Вот поглядите, как Крис Каштанова лихо пишет код на JavaScript для Иллюстратора с помощью OpenAI o1, чтобы делать в нем Треугольники Серпинского. МетаПостИИМодерн.
@cgevent
Ну и ждем ответочки на video2video от китайцев. Ибо по качеству картинки и видео они впереди.
Вынесу из коментов вот такие тесты от Бориса:
Провел сравнение промптов генерации видоса с нуля ранвея и минимакса. Ранвей хлам. У ранвея стоящая генерация на 10 итераций может и не появится, а вот у минимакса на 3-4 итерации вполне себе годится. На минимаксе полноценный клип можно собрать за пол дня, на ранвее помню дней 5 мучался и забил. Главный критерий оценки как обычно: сложность движения и количество пальцев. Минимакс лучший.
Сравните:
Промпт: Retro black and white old 19th century retro video with distractions. master plan. There was a small wooden boat floating on the sea, and there was a little girl wearing a Victorian dress sitting on the boat, holding a piece of bread in her hand. She broke off a few slices of bread and placed them in her hands above the water. Hundreds more hands stretched out from the sea. Top view, camera moves smoothly
@cgevent
Где искать работу?
Если вы ищете работу зарубежом, то канал Connectable Jobs будет полезен для вас!
Ребята собирают вакансии в международных стартапах с русскоязычными фаундерами и командами, публикуют информацию о бэкграунде фаундеров, размере команды и инвестициях, а также делятся прямыми контактами HR для отклика. Несколько актуальных вакансий:
— Senior Product Manager в BigID
— System Analyst в Salmon
— Junior Product Analyst в Nexters
Еще у ребят есть отдельный канал для разработчиков, а также платные подписки на ежедневные вакансии для продактов, аналитиков, маркетологов и дизайнеров.
Подписывайтесь и развивайте карьеру в будущем единороге!
Как и обещал еще пара неофициальных генераций из Firefly Video Model.
И они уже не такие сладкие, как на сайте Адобченко.
А тем временем, китайцы (уймите их наконец), выпустили еще один видеогенератор. И это новая команда.
Щас смотрите следующий пост.
@cgevent
⚙️ DIY
Этот деревянный журнальный столик Carpentopod ходит - у него для этого есть 12 ног.
Интересно, что программа ходьбы была сформирована эволюционным методом - в рамках написанного изобретателем ПО эволюционировали тысячи виртуальных вариаций ног, соревнуясь друг с другом. Чтобы выбрать лучшую версию, каждая получала бал "пригодности" на основе скорости ходьбы, клиренса и использования материала. Дополнительные баллы начислялись вариантам ног, у которых кончики двигались более горизонтально и более плавно в нижней трети цикла - это минимизировало подпрыгивание и проскальзывание.
Только лучшим вариантам разрешалось "смешивать гены", то есть параметры, чтобы синтезировать следующие поколения. Наряду со смешиванием, вводились генетические мутации, чтобы синтезировать принципиально новые решения и поддерживать вариации. Симуляция на C++ позволяла синтезировать десятки поколений в секунду, что позволяло видеть, как плохие первоначальные варианты превратились в высокооптимизированные.
@PROrobotics по материалам Decarpentier (по ссылке еще много подробностей, картинок и видео)
Передохнем от Флюкса, поговорим за жизнь.
Вот 9 месяцев назад OpenAI запустили GPT Store, а в марте пообещали даже начать платить разработчикам джипитишек.
Я уже писал пару раз, что скептически отношусь к параллелям между GPTStore и AppleStore.
И что грустная история с плагинами для chatGPT, которая превратилась в помойку для рекламы и была закрыта в апреле. И будет повторяться, если OpenAI не упорется в модерацию и наведение порядка.
Но OpenAI, похоже, не до того.
Тут журналисты пошукали в gptStore и сразу нашли клинических психологов, тренеров по фитнесу и диетологов, медицинские советы, системы обхода антиплагиата и, конечно, рекламу порно.
Поиск в магазине по запросу «NSFW» выдал результаты вроде NSFW AI Art Generator, который сразу ссылается на веб-сайт Offrobe AI, на котором четко указано его предназначение: «Генерировать порно с помощью ИИ для удовлетворения ваших темных желаний».
Или такое: GPT-шка под названием AI Immigration Lawyer описывает себя как «высококвалифицированного иммиграционного юриста AI с актуальными юридическими знаниями».
Ну то есть всё это вроде как нарушает политики OpenAI, но тем не менее не удаляется из стора.
Официальный ответ такой - у нас ИИ удаляет контент (и немного модераторы).
Как только появляется User Generated Content, система рейтингов и, упасихоспади, монетизация, кожаные (наперевес с ИИ) сломают любую систему. Ибо нажива. Смотрите вчерашнюю новость про ИИ-музику.
Ну и тем временем конкуренты уже запустили свои ответочки джипитишкам.
У Гугла это Gems для Gemini. У Антропика - projects и artifacts.
А у Гугла опыт модерации будет сильно побольше - PlayMarket работает исправно.
В общем, как я уже неоднократно ворчал, с ресерчем у OpenAI все отлично, а с продуктами - не очень. Либо крестик, либо трусы.
Новость забрал у Гриши Бакунова, уж больно выпуклая.
Скачиваем ИИ-музику с Melodio.
Вчера писал про новый генератор музики www.melodio.ai
Народ жалуется, что нельзя скачать результаты.
Можно. Просто надо иметь в виду, что это стриминг - ну то есть это как бы радио играет.
Он генерит примерно 15 кусков в формате aac, сшивает это в плейлист m3u8 и постоянно его обновляет новыми кусками, продолжая стриминг.
Гики могут в консоли Хрома открыть Network, там старым дедовским способом найти поиском m3u8, скормить его в VLC как Network Stream и сделать Save\Convert.
Нормальные люди могут поставить в Хром вот такой extension - https://webextension.org/listing/hls-downloader.html
Дальше генерим бесконечную пестню, играем, жмем на кнопку этого экстеншена, видим список всего добра, жмем внизу, Keep M3U8, а потом жмем наверху Download.
Он вам скачает что-то типа mkv.
Надо понимать, что он скачает около 2 минут - это скользящее окно вашего стрима из Melodio.
Пользуйтесь!
@cgevent
Банк Точка представляет вашего личного AI-Ассистента.
AI интегрирован прямо в интернет-банк.
Он может открыть депозит, перевести деньги, сделать выписку по счёту в удобном формате и посчитать налоги и всё это не выходя из диалога.
Общается на простом языке и отвечает моментально.
AI-ассистент — не замена специалистам поддержки Точки, которые остаются на связи с вами в режиме 24/7 без скриптов и ботов.
Он даёт вам новый пользовательский опыт в интернет-банке.
Ассистент работает на базе искусственного интеллекта, и обучается новым задачам каждый день.
Это меняет дело!
#промо
Привлечение инвестиций в эпоху ИИ
Много пишу об ИИ-стартапах, но для развития проекта кроме технологии нужны деньги.
Конкретными рецептами привлечения инвестиций в своем канале делится Андрей Резинкин.
Андрей — действующей венчурный инвестор, в портфеле которого такие AI-стартапы как Aitomatic, XOR, Intone и др.
Секретный соус канала Андрея — показать процесс привлечения инвестиций в стартап именно с точки зрения инвестора.
Вот несколько характерных постов, предлагаю начать с них:
1️⃣ Какой питч-дек зацепит инвестора?
Инструкция по созданию 12 ключевых слайдов, которую вы точно законспектируете:
/channel/startup_venture/520
2️⃣ Сколько денег просить у инвестора?
Рассчитываем, когда стартап выйдет в прибыль и сколько $ для этого нужно:
/channel/startup_venture/274
3️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?
Андрей делится google-таблицей со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
/channel/startup_venture/289
Вообще взгляд инвестора — это в некотором смысле «мета-анализ» ввиду огромного количества просмотренных стартапов. У Андрея есть эта насмотренность!
Если вам, как и мне, заходят авторские каналы с высокой плотностью полезностей — залетайте в канал Андрея.
#промо
Я слежу за всеми этими AI 3D Generators.
Все эти многочисленниые бумаги и демо на Хаггинг Фейсе помирают сразу после публикации. Я больше не вижу смысла даже упоминать их в канале.
Среди тех, кто не помер, Tripo 3D, Meshy и Rodin.
Потому что они смотрят немного дальше, чем генерация.
Уже сейчас становится понятно, что из генерации приезжает говномеш. До тех пор, пока все используют одни и те же говнодатасеты.
Возможно что-то изменится, когда Shutterstock, который пожрал TurboSquid(не знали?) или Getty Images сделают что-то принципиально иное, на основе своих 3Д-стоков, содержащих информацию не только про облако вертексов, а и про UV, топологию, текстуры, нормали и прочая. Автодеск делал такое в 2018 году, но они выпилили из интернета это видео, хотя я в Ванкувере сам его видел на Сигграфе.
Итого, смышленые вышеперечисленные игроки пытаются пришпандорить к своим говномешам ретоп(отличная новость, смотри видео от Meshy, хотя это просто скрипт), текстуры и даже шейдеры (Rodin) - благо тут можно приподшаманить с апскейлерами и ИИ. Кстати, они делают автоматический паблишинг на Sketchfab.
Но самое дерзкое, что они замахиваются на анимацию.
Поглядите на анимационные пресеты в Meshy. Там виден, мать его, ТАЙМЛАЙН.
Да, это все пляшущие 3Д-монстротянки. И до прода там пропасть. Но до тиктока - нет.
И мы видим любопытную ситуацию. Все эти генераторы начинают обрастать функционалом взрослых 3Д-пакетов. Ретоп, риг, скин, таймлайн, ключи и пр. И как бы двигаться в эту сторону (но тут проблема в том, что для нового нормального это все ДИКО СЛОЖНО, как и весь 3Д по сути, это вам не фотошоп).
С другой стороны есть взрослыя мальчики Максон и Автодеско. Ну и прям просится пара кнопок и промпт в ZBrush. Которые и сгенерят, и отретопят, и зашейдят. И можно будет это мять в ЗНАКОМОМ интерфейсе. А не вот в этих вот веб-поделках от программистов.
Но Максон как воды в рот набрал по поводу ИИ. Автодеск что-то вякнул про Бернини и затих.
Ну и тут я ожидаю, как обычно, что Адобченко всех пожрет.
Со своим Сабстансом. Прикупив по дороге пару стартапов.
@cgevent
В общем, с китайцами надо что-то делать. Они опять выпустили новый генератор видео.
Теперь уже от ByteDance\TikTok (чуете какой там датасет).
ByteDance выпустила две новые видеомодели, Seaweed и PixelDance V1.4, которые поддерживают t2v и i2v и могут генерировать видео длиной до 10 секунд.
PixelDance V1.4 - старшая модель, примеры в посте.
Новость не такая уж и "новая". Еще три месяца назад они подавали эту работу на CVPR:
https://makepixelsdance.github.io/
И примеры там из 2023.
Сейчас вышла версия 1.4 и она вроде как сильно получше. Хотя до Клинга далеко, конечно.
Попробуйте достучаться до нее вот тут:
https://jimeng.jianying.com/ai-tool/home
Производительность довольно хорошая, поддерживаются различные стили , а также горизонтальные и вертикальные размеры(!). В шапке сравнение Seaweed, Runway и Luma. Стабильность изображения очень хорошая, и нет проблем с изменением стиля изображения или цветовых характеристик с течением времени. По стилизации под 2D-аниме он по идее превосходит Luma и Runway.
@cgevent
По одеваторы и раздеваторы я много писал.
Сегодня речь скорее не о трендах, а о масс адопшене и интеграциях с телегой.
Смотрите, один из лучших ботов для одевания и раздевания Slook теперь умеет принимать Stars из телеги. Я не понимаю, как это сделано, но оно работает. У меня, благодаря вам, накопилось немного старзов, я их, конечно, использовал с большим умом.
Взял свои генерации во Флюксе, сделанные с меня же (об этом отдельная история, как "я" завирусился везде).
Присунул их в бот и получил спикера в униформе. Забавно, что он даже попадает в 3Д-мульт стиль, но в картун ему, конечно, попасть сложнее.
Поэтому родился быстрый пайплайн для тех, кому надо погорячее. Генерим во Флюксе, раздеваем в Slook. Да, он прекрасно кушает генерации.
Всем фана.
@cgevent
Каждый день про LLM и генеративные нейросети выходят десятки новостей и постов в соцсетях. Но кейсов, как искусственный интеллект мог бы решать реальные задачи бизнеса, не так много.
Команда «Технократии» опубликовала кейс о том, как они разработали умную базу знаний, которая помогает им онбордить новых сотрудников, отвечать на базовые вопросы о процессах в компании и разгружать сисадминов по типовым запросам.
Co-pilot ассистента они сделали на связке LLM и RAG, а в кейсе довольно простым языком рассказали, как работает технология RAG.
В общем, кейс интересный, вот тут все расписано подробно:
https://vc.ru/ai/1395061-my-razrabotali-umnuyu-bazu-znanii-primeniv-llm-i-rag-podhod
Ну и в соответствии с темой заявленной темой они даже сделали бота, который может отвечать на вопросы по теме создания ассистентов, можете потестировать:
/channel/TechnokratosAMABot
#промо
На волне всего этого топологического безумия, я полез посмотреть, а что там Леша Осипенко нагенерил с фракталами, помните я писал про него?
И малость офигел. У него там прям фрактальный рай.
Я, естественно, допросил его с пристрастием: как это возможно, говорю?
Вот тут ответы:
Существует несколько специализированных программ для визуализации фракталов, но я выбрал более сложный путь. Основная причина в том, что эти программы создавались без учета особенностей индустрии визуальных эффектов. Например, в них нельзя сделать симуляцию воды.
По этим причинам в 2021 году я стал разрабатывать внутри Blender свой собственный набор инструментов, который и сейчас продолжаю совершенствовать.
Тем не менее, я рекомендую Mandelbulber VFX Tools для Mandelbulber от Adrian Meyer — это лучшее готовое решение из всех, что я встречал. Я немного общался с автором в 2021 году, когда узнал про него. Как и Blender, это открытое программное обеспечение, которое абсолютно бесплатно.
Поглядите на все это фрактальное пиршество тут. Крутизна в том, что это не унылые картинки из Матлаба, а средневзвешенное между математикой, VFX и искусством.
Кстати, последняя Манделбалба выше - это кэш в Alembic:
- 150 кадров
- 10 293 687 полигонов
- 78 гигабайт
@cgevent
Ох, меня пробило на фракталы и разные топологичесие кунштюки.
Держите пока вот такую картинку.
Это вообще говоря, челлендж.
1. Сказать, что это такое.
2. Сгенерить это, не пользуясь этой картинкой, как подсказкой.
Ну ладно, те, кто учил в университете математику, сразу скажут, что это сапог Шварца. Поверхность, которая позволяет увидеть несостоятельность определения площади поверхности как точной верхней грани площадей вписанных в неё полиэдральных поверхностей, в противоположность тому, что длина кривой может быть определена как точная верхняя грань длин вписанных в неё ломаных.
https://ru.wikipedia.org/wiki.../
Но попробуйте ея сгенерить! Во Флюксе(как у меня), Midjourney или Ideogram.
У меня долгое время получались либо черные боты либо черные квадраты (Schwarz Surface).
Пришлось включать реверсный промпт инжиниринг.
А завтра я вам навалю, Бутылок Клейна, Треугольников Серпинского, Лент Мебиуса(кусок бутылки Клейна), и шузов от старика Шварца. И фракталов до кучи. Надо было как-то переключиться с video2video на что-то захватывающее.
@cgevent
В продолжение к нейрорендерингу.
У меня нет сил разбирать GameGen-O от, на минуточку, Tencent.
Поглядите тут:
https://gamegen-o.github.io/
Это не совсем игровой движок, как пишут к интернетиках. Это скорее сборщик и нейроподрендериватель открытых игровых миров. Ну то есть это создатель миров в любой стилистике.
И одним из его очень крутых применений может стать именно нейропревиз или нейрорендеринг видосов из этих миров.
То есть это нейросъемка любой нейролокации с видосом на выходе - как один из частных случаев применения этой махины.
Вижу новую профессию - нейроскауты нейролокаций.
@cgevent
"GameGen-O проходит двухэтапный процесс обучения, состоящий из предварительной подготовки базовой модели и настройки инструкций. На первом этапе модель предварительно обучается на OGameData с помощью продолжения text-to-video и video, что дает GameGen-O возможность генерировать видеоигры в открытом домене. На втором этапе предварительно обученная модель замораживается и настраивается с помощью обучаемой сети InstructNet, которая позволяет создавать последующие кадры на основе мультимодальных структурных инструкций. Весь этот процесс обучения наделяет модель способностью генерировать и интерактивно управлять контентом. В целом, GameGen-O представляет собой заметный первый шаг вперед в области создания видеоигр с открытым миром с помощью генеративных моделей. Он подчеркивает потенциал генеративных моделей в качестве альтернативы методам рендеринга, которые могут эффективно сочетать творческую генерацию с интерактивными возможностями."
Такого варианта монетизации нейросетей вы еще не видели 🤯
Этот человек, уже долгое время зарабатывает на создании девушек-моделей через нейросети.
Только одна модель, которую он делает в ИИ, в среднем приносит около 100.000₽ в месяц. А у него таких девушек уже 9 и 5 новых он запускает в сентябре!
У себя в блоге он раскрывает весь свой путь, суть заработка и дает бесплатно инструкцию, как начать. Переходите 👉/channel/+nbDnTowE6Rc2ZGIx
#промо
Что касается генерации лиц, то Firefly Video Model звезд с неба не хватает.
Клингон и Рунвей наверное будут посильнее в этом плане.
Ну и вспомните качество лиц у Соры.
Также надо понимать, что Адобченко и не лезет на эту поляну, это очень неоднозначная территория. Думаю они очень сильно, скажем так, курировали датасеты.
Как сильно будут лоботомировать Сору на этот счет - тоже неизвестно.
Тут вся надежда на китайцев.
Зато в оживляже фоток и продолжении видосов (второе видео) Адобченко, с его понятным UI будет очень хорошо себя чувствовать.
Подозреваю, что в анимации не фотореалистичных персонажей - тоже.
@cgevent
Конкурс AI-арта: призовой фонд - 400 USDT!
Тут моя соседка по Пафосу Стася, про которую я уже писал, взяла и замутила конкурс для ИИ-скажемтак-художников.
Стася совершенно огненная, генерит идеи со скоростью ИИ, поэтому я ей с удовольствием помогаю и поучаствую в отборе.
А пока читайте условия и расчехляйте ИИ
Пора обособиться от традиционных-диджитал художников и организовать собственные AI-соревнования 🫳🎤
Задача: сгенерировать окно IDLE RPG-игры с кор-геймплеем. Вроде Legend of Mushroom, AFK Arena, Hero Wars, Idle Heroes. Сеттинг игры - любой.
Девчонки дерутся с овощами? Пухлые казуальные рыцари против пухлых казуальных черепашек ниндзя? Чиби-грибочки? Всё что угодно, лишь бы это получилось ✨СТИЛЬНО✨
Дедлайн: 22 сентября в 23:59.
Подробности конкурса: /channel/girls_and_robots/21
+ на канале подробно расписываю, как интегрирую AI во все геймдевные ворк-флоу:
1) Как аишка помогла разобраться с реджектом Apple;
2) Как сгенерировать анимации;
3) Как сбацать креатив за несколько часов!
Нейродизайн и UX/UI для генерации картинок (иконок, логосов)
Прошло два года. Похоже до кого-то, кроме Адобченко начинает доходить, что вот это вот а1111дищще и комфиЮищще - это как бы не для людей.
Но у нас по-прежнему на поляне пляшут одни и те же игроки:
Помирающий Automatic 1111
Воскресший Forge
Ловкий Fooocus с неловким UI и нагромождением менюшек.
Комфи со Свармом
И выводок маригиналов типа SD.Next.
Все это - вот эти вот кнопки и слайдеры типа CFG Scale, Sampling Steps и прочая требуха, раскиданная слева или справа от картинки.
Invoke и Leonardo попытались прикрутить что-то типа рисовалки, но застряли где-то посередине. Родовые травмы присутствуют и там в виде очень загроможденного UI.
Также был\есть такой проект Playground.com
Знаменит тем, что они одними из первых сделали свою базовую модель, а не finetune Stable Diffusion. Последняя версия была Playground 2.5
Посмотрите, как это выглядело раньше:
https://playground.com/create
Примерно как у всех
Посмотрите, как это выглядит сейчас:
https://playground.com/design
Это то, как примерно должна выглядеть аскетичная AI Canva.
Вы можете выбрать любой дизайн(или сделать свой, или подгрузить свой) и "поговорить" с ним промптами - что изменить, что добавить. Изменить текст(!). Навалить стиль. Нормально ресайзнуть.
Загляните в постеры и другие категории.
Там есть протодизайн, а не голая генерация.
Там даже есть IOS APP.
Да, они просят денег после триала, но там хоть есть за что платить.
Хотя бы за попытку сделать UI для нормальных людей.
С моей точки зрения, попытка засчитана.
Под капотом там их базовая модель Playground V3 Beta. И если вам надо реализьм, а не постеры с иконками, то вы идете в старорежимный интерфейс:
https://playground.com/create
В общем мне нравится, что они радикально уходят A1111-стайл. Местами напоминает Adobe Express, но еще аскетичнее.
Попробуйте сами.
P.S. Пост не про качество генерации. А про UI\UX
@cgevent
Электричество и аренда.
История с майнингом немного повторяется, но уже в ИИ-разрезе.
Сразу с козырей.
Четыре небольших китайских поставщика облачных услуг берут около $6 в час за использование сервера с восемью процессорами Nvidia A100 в базовой конфигурации. Небольшие поставщики облачных услуг в США берут около $10 в час за ту же настройку.
Электричество и стоимость обслуживания (аренда, персонал) в Китае сильно дешевле.
И хотя проставки A100 и H100 официально запрещены в китай, в стране насчитывается более 100 000 процессоров Nvidia H100, судя по их широкой доступности на рынке. Тащат из Японии и других стран.
Это я к тому, что если стартапу надо много пощетать - куда он пойдет? За 6 или за 10?
Ну и китайским стартапам тоже есть куда пойти, вместо того, чтобы перепаивать 4070.
Электричество - главный козырь. А чипы пройдут любые файерволлы.
https://www.ft.com/content/10aacfa3-e966-4b50-bbee-66e13560deb4
@cgevent
Огненный липсинк и нейроаватары от ТикТока.
Я в канале много писал про всю эту братию и делал много тестов:
EMO от Алибабы, демки огонь, кода нет.
VASA от Микрософтченко.
V-Express от Тиктокченко, качество сильно смазано, но есть код!
Огненный "Следи за лицом!", появился код!!.
Халло - тут и качество неплохое, и код есть.
Про HeyGen и Hedra - тоже много писал и тестировал, но они закрытые.
И тот новый кандидат на оживляж портретов по входному тексту или аудиофайлу.
Встречайте - Loopy!
Шевелит не только губами (липсинк), но и всем лицом. Причем довольно ловко.
По сравнению с Хейгеном тут жизни больше на 200%.
На сайте сравнивают с Hallo, своим же VExpress и другими. Явно поживее.
Анимация аниме вообще огонь. Боковые ракурсы тоже удивляют. В общем явно прогресс.
При оживляже статуй можно заметить, как во рту ворочается розовый такой мясной язык - издержки того, что учили на кожаных лицах, а не персонажах из мифов древней Греции.
Но где код, Карл, где код?!?!
Алибабищенко так и не выкатил код своего EMO, в репе пусто, а шуму было очень много. Пока с кодом только Hallo и Vexpress.
Но Loopy, конечно, ловкий и живой. Ждем код.
https://loopyavatar.github.io/
https://arxiv.org/pdf/2409.02634
@cgevent