О реальных возможностях SORA или разбор ролика Air Head
Сразу говорю, мини-фильм посмотреть все же стоит, потому что судить обо всем надо самому, а не по словам каких-то блоггеров в телеграме, нужно отслеживать и запоминать вехи. Да и ИИ-кино потихоньку все чаще становится высказываниями, а не просто тестами возможностей.
Невероятно люблю, когда громкость релизов разбивается о технические подробности после (а тут прямо сильно после) бета-тестирования.
Классный пост о статье Майка Сеймура у Сергея Цыпцына с техническими нюансами изготовления роликов на SORA (по-прежнему никакой магии). Интриг вокруг SORA все еще очень много, но уже понятно, что качество гоняется через Topaz, композиция правится через After Effects, в еще цензура, кругом одна цензура.
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки до 12 мая, успейте зарегистрироваться.
ШАД для вас, если вы:
· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования
Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.
Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
Eto ya и поток новостей про нейронки 😐
Кажется пора перечитать свой же пост на эту тему.
Раз в год обязательно должна появиться новость про нейроиндусов. Раньше был 3D сервис Kaedim, который на старте позиционировал себя как исключительно AI, но после расследований стал "Kaedim's pipeline uses a combination of machine learning and a team of in-house artists".
Теперь Amazon со своим умным магазином. Но не все так однозначно.
Блогеры - все. Вы не поверите, это девушка полностью генерация!
Ох, ребята, иногда у меня подгорает с твиттерских "аи-блогеров" (ex. криптобро), обожающих бомбить громкими заголовками ради репостов, не проверяя информацию, а потом это мощно тиражируется.
Люди на видео реальны, вы даже можете нанять их, чтобы сделать видео здесь, например:
https://fiverr.com/amarie1717
Другими словами, "стартап", получил лицензию на нескольких людей "говорилок" и подключил HeyGen (пруф) для их анимации/кастомизации.
Все.
Тем временем нашел целый аккаунт в IG с «православными» нейрорилзами, самые популярные — где надо потрогать хлеб — набирают по миллиону просмотров и тысячи комментариев.
Выводов не будет, но вот пайплайн (не знаю, зачем вам, но вдруг пригодится) — Dalle-3 + Heygen.
20 000 — это население города Лебедянь в Липецкой области.
20 000 — это полностью заполненный фанатами Эда Ширана концертный стадион O2 Arena в Лондоне.
20 000 — это вы. Любимые нейроэнтузиасты и просто молодцы.
Поздравляю нас! ✨
Емое, чуть не забыл рассказать: подготовил стероидную версию тренд-репорта на 2024 год и буду рассказывать о ней на онлайн-конференции по нейронным сетям «Навыки будущего» от Skillbox уже в этот понедельник в 18:00. Советую прийти тем, кто всё ещё слабо понимает, что вообще происходит и куда мы все так весело летим.
Ну и посмотрите программу, там довольно много интересных тем. Планирую как минимум посмотреть, как GPT помогает в запуске стартапов (делаю стартап), а также 3D + Stable. Все это бесплатно, но иногда красивый человек (не я) будет рассказывать вам про курс (хороший).
Так что записывайтесь или не записывайтесь, управляйте своей жизнью сами!
Я тут ушел с основной работы, чтобы играть в плойку, отдыхать и набираться сил для своих проектов. Поэтому появилось некоторое количество времени, чтобы возродить некоторые рубрики канала. Это дайджест новостей/какие-то штуки, которые мне показались интересными на этой неделе.
Назовем это #ЧтоТоИнтересное (4-10 марта 2024)
1. #Claude (главный конкурент ChatGPT) прокачался до третьей версии, поумнел, освоил мультимодальность и вообще держится молодцом. Главное преимущество на данный момент перед GPT4 — возможность подавать на вход большой объем данных (можно закинуть договора или небольшую книжку). Как это остроумно можно использовать в пайплайнах, можно посмотреть у Дениса.
2.Также клодовцы выпустили коллекцию промптов для разнообразных задач — от создания сайтов до генерации игр. Бывалых промтовиков не удивишь, но какие-то заходы можно подсмотреть.
3. #Midjourney круто обновили функцию /describe, которая позволяет превращать вашу картинку в промт и теперь, в комбинации с V6, работает отлично. Надеюсь на этой неделе выкатят обещанных последовательных персонажей.
4. Также Midjourney заблокировали доступ к сервису для сотрудников Stability AI после сбоя, связанного с интенсивным сбором данных. Эмад (глава Stability) пообещал разобраться в хулиганстве.
5. Ну и еще скандал. OpenAI публично пропесочила Илона Маска за лицемерие и судебные иски, указывая (с пруфами) на его прошлые попытки контролировать компанию.
6. Google обновили свой генератор музыки MusicFX — добавили режим DJ. Кидаете запросы, из них генерятся треки, а дальше регулируете их на ходу. Для серьезного продакшена не сгодится, но поиграться можно (только нужен хороший интернет, у меня работает через раз).
7. Ну и красивое. Кто-то смонтировал 75 видео из #SORA в одно большое, нарядное видео. Это мы смотрим и ждем.
Стэй тюнед 🍎
Рубрика «взгляд в будущее»
Как вы знаете, в свежей Gemini 1.5 Pro контекстное окно составляет 1 миллион токенов, при этом модель умеет принимать на вход видео. 1 миллион токенов позволяет вместить:
— 1 час видео (1 кадр/с)
— 11 часов аудио
— больше 700 тысяч слов (вся «Война и мир» с запасом)
Пока Google делает внутреннее тестирование контекста в 10 миллионов токенов, первые пользователи получили доступ к базовой версии и экспериментируют. Основная киллер-фича — модель очень хорошо ищет факты во всем промпте. Если спрятать там один кадр или одну фразу в длинном контексте — более чем в 98% случаев модель их находит (лучше GPT-4).
И это позволяет помечтать о невероятных способах использования. Если раньше мы думали «о, ща напишу инструкцию и модель сделает задачу», то вот тут в треде показывают, как девушка загрузила видео с записью экрана работы в браузере, а затем попросила Gemini написать код для автоматизации. Модель почти справилась — потребовались минорные доработки (в духе установки библиотек и изменения пары строк).
Поняли?
1) Записываем экран удалёнщиков в течение полугода
2) Агенты смотрят записи и учатся
3) Агенты пишут код для автоматизации
4) Повторять до тех пор, пока остаются задачи, выполняемые человеком
Представьте что в GPT-6 можно загрузить 500 часов примеров выполнения ваших задач — как думаете, справится с большинством?
Оригинал (с видео)
НЕЙРОТРЕНДРЕПОРТ 2024 😋
Этот пост был написан в начале января, но я был слишком погоревший, чтобы его выкладывать. Сейчас же, вышло пару новостей, которые подтвердили его тезисы, я отдохнул, поэтому с новыми силами, возвращаюсь к постингу!
В целом.
Магия уходит, технологии остаются.
Вспоминаю свою упавшую челюсть от первых генерации в Midjourney V3 и первого опыта общения с ChatGpt 3.5 в 2022 году. Сейчас же нейросети — как утренний кофе — норма. Шаманской техномагии для избранных больше нет. Есть полезные сервисы интегрированные в повседневную жизнь людей. Конечно, пока далеко не всех, но это вопрос плавно решает плотная интеграции ИИ в привычные массовые экосистемы (Google, Adobe, Microsoft, телефоны и т.д). Потому что: удобно, быстро и полезно. Конечно, будут еще яркие вспышки т.н хайпа, когда придется подбирать челюсть с пола, например SORA или возможность генерировать анимешных девочек и дипломы силой мысли через Нейролинк Маска. Но в целом, нейронные сети в этом году окончательно станут новой нормой.
Это будет год видео.
2023 был разминкой. Здесь можно было написать одно слово: SORA. Но ведь еще нас ждет гиперконтролируемая модель от ТикТока, новые версии Gen и Pika, Stable Diffusion Video обрастающий новым функционалом от энтузиастов и многое другое. Цунами генеративных клипов, рекламы, порно, фильмов, образовательных материалов — на подходе. А про страх перед этой волной хорошо написал мой товарищ Сережа Валяев.
Это будет год скандалов.
Обратная сторона возросшей доступности и качества нейросетей. Мы с вами молодцы — используем их возможности во благо. Но есть и киберпреступнки, пропагандисты, дезинформаторы и прочий скам, которые получили новые игрушки. Быстрые и простые дипфейки, клонирование голоса, фотореалистичные генерации - все это приводит к тому, что становятся возможным украсть 25 миллионов долларов у транснациональной корпорации с помощью дипфейка или собирать 28 миллионов просмотров за три дня на фэйковых фото и десятки других случаев. Лагающая регуляция на подходе. OpenAI вводит метаданные и вотермарки для маркировки изображений. Теперь каждая ИИ-картинка на поддерживающих ресурсах будет отмечена вотермаркой. А ЕС вводит уголовную ответственность за дипфейки и нейропорно. Но это все корпоративные игры — благодаря Open Source решениям никто не застрахован от сценария, когда вашей бабушке придет кружок с вашим дипфейком и вашим голосом попросит прислать все накопления.
Привыкайте дважды проверять всё, что видите и слышите в интернете. Также расскажите об этом близким, которые не знакомы с нейросетями.
Это будет год мобильности.
Станем еще ближе к Джарвис Тони Старка. Языковые модели одновременно растут и пухнут, например, новая Гуловская Gemini 1.5 сможет есть больше миллиона токенов на вход (это примерно 700 тысяч слов) и оперировать с ними с высочайшей точностью. И одновременно становятся компактней и локальней, позволяя запускаться на вашем калькуляторе телефоне. Поэтому мобильные пионеры встроенного LLM: Samsung 24 и Google — это только начало. Совсем скоро можно будет запускать даже на часах. И это не говоря о том, что тренд на персонализацию и мультимодальность никуда не ушел.
Ну и конечно...
Нейроифлюенсеры, музыка, 3D, повышенный спрос на ML специалистов и нейродизайнеров, интеграция в бизнес, засилье нейроинфоцыган и другие интересные вещи. Здесь я уже подумал, что устанете читать.
В любом случае, будет весело. Так что пристегиваемся. 🦆
Благодаря подписчкам —преступление раскрыто.
Предпримчивый товарищ берет в интернете тела моделей (гуглится реверсивным поиском по картинке) и добавляет лицо.
Начинаем 2024 с похищения тел! 🥂
Все такие новости делите на два. Фотографии — окей, можно сделать с нуля. Видео такого качества — нет, так что примерный пайплайн — нашли красивую модель, снимают, меняют ей лицо. То есть вся история — это почти наверняка классический дипфейк, которому сто лет в обед, а не генерация с нуля. А может быть и вообще полностью реальный человек .🚬
Читать полностью…Отцы из #Midjourney выкатили альфа-версию V6! 🚬
Айда тестировать!
Чтобы активировать её, выберите V6 в меню настроек (/settings) или введите --v 6 после вашего запроса.
Что нового, дословно, от комманды Midjourney:
Нововведения базовой модели V6:
- Точное следование промту.
- Улучшенная согласованность, знания модели.
- Улучшенная обработка изображений и ремикс.
- Небольшая возможность рисования текста (вводите текст в "кавычках", --style raw или ниже --stylize может помочь).
- Улучшенные увеличители изображений в режимах 'subtle' и 'creative' (увеличение разрешения в 2 раза).
- Поддерживаемые функции на старте: --ar, --chaos, --weird, --tile, --stylize, --style raw, Vary (subtle), Vary (strong), Remix, /blend, /describe (только версия v5).
- Не поддерживаемые функции, которые появятся в ближайший месяц: Pan, Zoom, Vary (region), /tune, /describe (новая версия v6).
Стиль и запросы для V6:
- Запросы для V6 сильно отличаются от V5. Нужно 'переучиться'.
- V6 более чувствительна к запросам. Избегайте 'мусора' типа "award winning, photorealistic, 4k, 8k".
- Будьте конкретны в запросах. Менее атмосферно, но точнее.
- Для более фотографичных, нейтральных, буквальных результатов используйте --style raw.
- Нижние значения --stylize (по умолчанию 100) лучше понимают запросы, высокие (до 1000) - улучшают эстетику.
- Общайтесь в prompt-chat, чтобы научиться использовать v6
Важно:
- Это альфа-тест. Будут частые изменения без уведомлений.
- Не рассчитывайте на постоянство этой модели в будущем.
- Скорость, качество изображений, согласованность, следование за запросами и точность текста улучшатся.
- V6 медленнее и дороже V5, но ускорится с оптимизацией. Поддерживается режим Relax!
Король и Шашлык.
Абсолютно проклято, но в главном конкуренте волшебных нейрогуслей Suno — Udio в датасетах полно русского рока. Который... можно генерировать. Пока что обнаружены: КиШ, ДДТ, Аквариум, Летов. Баг это или фича — непонятно, но думаю, что скоро шарманку прикроют.
А я попробовал создать песню абсолютно вымышленной группы Король и Шашлык. Про шашлык. Вот а тайм ту би алайв.
Промт на стиль (не думаю, что он оптимальный): Folk punk, horror punk, Король и Шут, КиШ, Korol & Shut, Михаил Горшенев Folk punk, Horror punk, Король и Шут, КиШ, Korol & Shut, Михаил Горшенев — подсмотрел у этого господина.
Ссылка на ютуб если кому нужно.
#ЧтоТоИнтересное
Понял, что я все же не новостной канал и еженедельно писать дайджест довольно трудно. Но держать вас в курсе важного хочется. Поэтому рубрика трансформируется из еженедельной в "когда-наберется-что-то-крутое".
Текст 💬
💪 GPT-4 снова в топе. После недавнего обновления, GPT-4 Turbo от OpenAI улучшил свои навыки в математике, коде и мышлении, побил Claude Opus и вернул себе первое место в рейтинге Chatbot Arena.
🐸 Открытые модели наступают. Command R+ от Cohere и Mistral-8x22B демонстрируют впечатляющие результаты, бросая вызов закрытым моделям. UPD: + новая ЛЛама!
⌨️ Гуловский Gemini 1.5 с рекордным миллионом токенов на вход доступен и прекрасен. Почему о нем мало говорят — загадка. Видимо, надо сделать его платным? А пока только нужен VPN на Америку.
🤨 Яндекс запустил свой аналог Perplexity — Нейро — языковая модель + поиск. Ожидаемый шаг, поиск с AI под капотом — новый черный. Странно, что Гугл до сих пор не сделал.
🤯 ChatGPT против Юрия Лозы. Любопытное исследование показало, что ChatGPT может эффективно разубеждать людей, верящих в теории заговора, предоставляя им аргументированные опровержения.
Картинки 🖼️
😑 Вышел Stable Diffusion 3! Пока только в виде API. Выйдет ли в формате опен-сорса — загадка. Так как основной идеолог открытого кода — CEO Эмад был в начале года уволен. Я потестировал из коробки: "Ну окей", слабее Midjourney V6. Вся сила SD в его кастомизации, так что если не будет кода, кастомных моделей, то не очень понятно, зачем он нужен. Потыкать можно, например здесь.
🚬Adobe представили аналог ControlNet для Firefly и целую студию GenStudio — рекламный центр для брендов с нейросеточками.
😮 Российские сетки постепенно прокачиваются. Вышел Kandinsky 3.1 — мощнее, быстрее и реалистичнее. А YandexArt стал доступен по API. Обе попали в рейтинг визуальных моделей, Кандинский на 5 месте, Яндекс на 10. На первом — старый добрый Midjourney.
🥲 Фан-факт про Adobe Firefly. Оказалось, что "этический" Фаерфлай был частично обучен на картинках из Midjourney (которые пользователи массово загружали на адобовские стоки, которые и используются для обучения).
Видео 🎥
🎬 Adobe Premiere Pro с ИИ. Адоб, как всегда, берет самую мякотку и намазывает на привычные инструменты и процессы. Тут и добавление/удаление объектов с видео, возможность изменять продолжительность кадра, создавать динамичные отрывки по промптам. SORA и прочие навороты в комплекте.
💃 Viggle анимирует всё. Пока все ждут SORA, вариантов с видео немного — пошевелить картинки в Gen-2 или стилизовать с помощью AnimateDiff. Viggle — свежий воздух, оживляет любые картинки и заменяет персонажей в видео с помощью промптов.
🐸 Midjourney идет в 3D и видео. На office hours ребята озвучили, что работают над новыми моделями для создания 3D, видео и симуляции всего мира. Это мы ждем.
💀 Клип для группы Pain, созданный ребятами с @aifilmmaker. Классный пример соединения нейронок, привычных инструментов (вроде after effects) и художественного вкуса.
Аудио 🎧
🕺 Suno.ai разрывает инфополе после выхода третьей версии. Я уже давно использую, например для Слово Пиксара, но сейчас это стало массовой историей. Из последнего — запустили "Мою волну", по факту нейрорадио.
🎧 Udio, новый генератор музыки и песен, бросает Suno вызов. Может похвастаться более расширенными настройками. По качеству — примерно одинаково.
Общество 🌎
⚡️ Энергопотребление ИИ растет. Аналитики Morgan Stanley прогнозируют, что к 2027 году генеративный ИИ будет потреблять столько же электроэнергии, сколько Испания.
📊 AI Index Report 2024. Любопытный отчет от Стэнфорда о главных трендах в AI: рост затрат на обучение моделей, доминирование бигтеха в исследованиях, вопросы безопасности и этики, регулирование со стороны государств и многое другое.
😠 Дипфейк-инфлюенсеры в Instagram. Meta борется с фейковыми аккаунтами, которые используют нейросети для создания реалистичных изображений. Мы уже такое разоблачили, но как я писал в своем тренд-репорте — тема будет набирать обороты.
Рандомные баны в Midjourney.
Все чаще замечаю сообщение о случайных блокировках без предупреждений, даже у людей кто даже одной картинки не успел сгенерировать. Информации очень мало, поддержка молчит, поэтому решил провести расследование .
Если вас просто так заблокировали, пройдите небольшой опрос (или пришлите знакомому, который столкнулся с этой проблемой).
https://forms.gle/hoPNrppY4TjeYDMe7
Если вас не банили, то заполнять не надо!
ОТМЕНЯЮ ПОДПИСКУ НА CHATGPT4! 😐
Конечно, этот кликбейтный заголовок мог бы оказаться правдой, если бы не встроенные в ChatGPT4 функции веб-браузинга, GPT и Dalle3. Но если серьезно, то для работы с текстами я полностью перешел на новый #Claude 3 Opus, который обходится в те же 20 долларов в месяц. Для меня есть два главных преимущества:
Объем. Одно из классических достоинств Claude - возможность загружать множество жирных файлов для эффективной работы с ними.
Качество. Бесплатная версия Opus 3 Sonnet превосходит GPT 3.5, а платная, на мой взгляд, даже лучше, чем GPT4. В целом они довольно похожи, но Opus гораздо лучше справляется с русским языком, дает более развернутые ответы, отлично удерживает контекст и в общем производит впечатление удалого молодца.
Для наглядности (и развлечения), сделал в Notion side-by-side тест, чтобы проверить разные спобности: редактуру, перевод, креативность, понимание контекста, детализация, стилизация и т.д.
Вообщем если вы хотите посмотреть как модели справились с такими задачами, как:
Напиши три короткий стихотворения на тему "Батин жаренный суп". В стиле Пушкина, в стиле Мяковского, в стиле Есенина.
Устрой напряженные дебаты с двумя позициями. Василий представляет астрономию, а Генадий - астрологию. В конце они должны начать драться на ножах.
Ты - инопланетянин-антрополог, изучающий человеческую культуру. Напиши отчет о своих наблюдениях за странным земным ритуалом под названием "рабочий понедельник", описывая его с точки зрения внешнего наблюдателя, не понимающего контекста. Сделай абсурдные, но логичные с инопланетной точки зрения выводы о смысле и цели этого ритуала.
Небольшая, но приятная новость. Внезапно в #Dalle3 (в подписке plus) выкатили inpainting. Теперь можно менять часть изображений.
Работает, как и везде. Кликаете на картинку, выделяете область, пишите промт. И теперь у вас вместо гопника гигантский антропорфный кот, который ест хлеб.
UPD: Свое редактировать нельзя (для этого есть нейрофотошоп и стейбл).
UPD 2: Выкатывают постепенно.
<рекомендация>
Собрались как-то авторы нейросетевых каналов в одном чате и решили друг друга нахваливать. Так и появился этот пост-рекомендация канала эйай ньюз @ai_newz. Артем — крутой чувак, работающий Senior AI Research Scientist в Meta. Если я пишу через призму креативных индустрий, Артем — дата саенс и прочие ML приколдесы. Давно читаю и вам советую.
#каналы
</рекомендация>
Посмотрел ролики креаторов, которым раздали #SORA (прикладываю свой любимый, про парня с головой шариком).
Пару мыслей.
Уже сейчас мы живем в условиях дичайшей информационной перегрузки, когда объем доступного контента намного превышает наши возможности по его потреблению. С развитием генератива этот разрыв будет только нарастать. Когда создание высококачественного видео (через пару месяцев) станет доступно буквально "на кончиках пальцев", мы утонем в океане контента.
В этих условиях на первый план выйдет проблема фильтрации и кураторства. Главным дефицитом станет внимание аудитории и навигация в этом океане контента. Возрастет роль алгоритмов рекомендаций, персонализации, умных поисковых систем, кураторов, которые помогут находить действительно ценный и релевантный контент.
Подписка на курируемые подборки контента может стать более ценной, чем подписка на сам контент.
Кроме того, я об этом часто говорю (но не перестану!), в мире переизбытка контентного шума еще более важным станет умение рассказывать истории, создавать уникальные миры, концепции, вселенные, которые будут привлекать и удерживать аудиторию. Компании и авторы будут конкурировать не просто контентом, а целостным опытом, комьюнити, миром, в который можно погрузиться.
Главным конкурентным преимуществом станет не форма, а содержание, идея и контекст. На первый план выйдует как раз человеческие черты - эмоциональность, уязвимость, несовершенство, юмор, искренность. Чем совершеннее будет генеративный контент, тем больше мы будем ценить контент "настоящий", созданный живыми людьми.
Как быть к этому готовым?
1. Развивайте навыки сторителлинга, креативности, концептинга.
2. Делайте ставку на человеческое. Аутентичность, эмоциональная честность, юмор, самоирония - все это останется нашим конкурентным преимуществом.
3. Инвестируйте в личный бренд и репутацию. В мире, где контент генерируется "по требованию", люди будут опираться на авторитет, экспертизу, заслуживающие доверия имена.
Bob Dylan - The Times They Are A-Changin' starts playing 🐰
#ЧтоТоИнтересное (11-17 марта 2024)
1) Мощно зафорсился сервис Face-to-many, который с помощью контролнета аутентично превращает всех подряд в персонажей олдскульных видеоигр. Сегодня попробовал сделать — просит данные биллинга, видимо, из-за спроса. Если вы любите такую стилистику (я люблю), советую проверить лоры и модели вот этого господина, чтобы запускать всё это локально.
2) Самый известный генеративный апскейлер Magnific AI научился переносить стили (1 видео). Результат — отличный, сфер применений — масса.
Тем временем один товарищ в Твиттере деконструировал пайплайн их апскейлера и выложил всё у себя в треде. Если коротко: MultiDiffusion, ControlNet tiles и лоры на детали. Если вы хотите бесплатный Magnific у себя в автоматике — прошу в тред за мякоткой.
В комментарии пришёл основатель Magnific с большим постом о том, что Krea, Leonardo и т. д. нас копируют, но у нас круче. Но в целом, у каждого апскейлера должна быть своя фишка, не нужно пытаться копировать других.
3) Почему-то забытый сообществом Ideogram обновился (аж 28 февраля).
Кто пропустил, это txt-to-img модель от бывших сотрудников Google. Отличное качество, но самая главная фишка — с текстом на генерациях Ideogram справляется лучше (второе видео), чем предстоящий Stable Diffusion 3.
4) OpenAI и производитель терминаторов роботов Figure показали первое совместное демо (3 видео). GPT отвечает за восприятие и общение с человеком, а "спинной мозг" Т-800 робота превращает эту информацию в движения.
Стэй тюнд! 🚀
Под покровом ночи #Midjourney выкатили долгожданную функцию Character Reference, позволяющую создавать изображения последовательных персонажей на основе вашего референсного изображения. Вот основные моменты из анонса:Используйте --cref URL после вашего запроса с URL-адресом изображения персонажа.
--cw изменяет "силу" совпадения от 0 до 100 (по умолчанию 100 - копирует лицо, волосы и одежду).
Функция лучше работает с персонажами, созданными Midjourney, а не с реальными фото.
Можно комбинировать несколько URL для смешивания персонажей.
Также можно комбинировать с --sref для ссылки на стиль.
Сделал пару тестов со своей фоткой и... Ну, дримбус может спокойно дрим дальше. Самый частый сценарий применения подобной функции — это использование реальных фото. И здесь как раз слабо. Хорошо забирает основные черты, но полное сходство получится примерно никогда. Но если отходить от фотореализма в стилистическую абстракцию, то вполне может быть полезным инструментом для сторителлинга.
В приложении один пример из тестов — character sheet
— довольно показателен.
Предложили попробовать Фильтрумы у Шедеврума. Попробовал и рассказываю!
Сразу скажу, я не пользуюсь Шедеврумом в своих процессах. Но всегда советую его тем, кто вообще никогда не сталкивался с диффузионками, но хотел бы вкатиться в генерацию картинок. Потому что проще не бывает: UI, подсказки, промптинг на русском. Ну и лайки-подписки, которые позволяют не терять интерес к процессу. Это крутой продуктовый пример, когда сложная начинка завернута в очень простую и понятную обертку. Ну а потом сразу в Comfy, хехе (нет).
Так вот, так называемые Фильтрумы продолжают эту концепцию упрощения для массовой аудитории. Если коротко, то это img-to-img с опциональным controlnet (edge). Грузите картинку, пишите промпт, крутите ползунок местного denoise strength, получаете модифицированную картинку.
Классика, но есть продуктовый фишка. Вы можете сохранить свой удачный промпт, а другие им пользоваться. Это сущность и есть фильтрум.
Я сразу сделал идеальный — ВОЛЧАРЫ 🐺. Позволяет превращать себя в Стетхама в героя пацанских цитатников. Дополнительная область прикола — смотреть, как по-разному люди его используют. Посмотреть можно здесь. Ну и попробовать, конечно.
А я пойду делать шрекофикатор.
Киллер-фича #Midjourney V6 🤔
За всем потоком новостей я её пропустил, а вы не пропускайте. Style Transfer - возможность использовать любую картинку как стилевой референс. То есть, вы можете написать промпт, кинуть URL изображения, и на выходе получится генерация, учитывающая стилистику этого изображения.
Сделал несколько примеров с промптом: CAT WITH KNIFE + (стилевой референс).
Чем это отличается от обычного добавления картинок в промпт? 🤨
По классической схеме с картинки бралось и смешивалось всё. То есть, если бы я кинул Марго Робби как обычный референс, то на выходе получилась бы розовая женщина-кошка с ножом.
Стилевой референс - про стиль, эстетику, но не конкретный объект или сюжет.
Почему это круто? 😋
Больший контроль и возможность сохранения стилевой последовательности, чего сейчас приходится добиваться танцами с бубном. Midjourney плавно переходит от "сделать капец красиво" к "сделать капец красиво и как надо".
Как использовать стилевые референсы?
После вашего промпта введите --sref вместе с URL изображения
Что еще?
Можно использовать НЕСКОЛЬКО изображений, например --sref urlA urlB urlC
Можно установить ВЕС каждого стиля, например --sref urlA::2 urlB::3 urlC::5
Можно установить СИЛУ стиля через --sw 100 (100 - это по умолчанию, 0 - выключено, 1000 - максимум).
Я пойду дальше проводить эксперименты, а вы кидайте в комментарии свои. 🍴
На Эмили Пеллегрини в запрещенном инстаграме за четыре месяца подписались 141 тыс. человек, а ее аккаунт на Fanvue (с откровенным контентом) принес 10 тыс. долларов за шесть недель. И хотя фото и видео Эмили выглядят реалистично, она полностью сгенерирована ИИ.
Создатель дипфейк-модели говорит, что ей в директ пишут футболисты, миллиардеры и бойцы ММА: «Они думают, что она реальна. Приглашают ее в Дубай, чтобы встретиться и поесть в отличных ресторанах».
По словам разработчика, он придумал внешность Эмили с помощью ChatGPT: «Я спросил ChatGPT, о чем мечтает среднестатистический мужчина, и он ответил: „каштановые длинные волосы и длинные ноги“, поэтому я сделал ее именно такой».
Подписывайтесь на Афишу Daily 🙃
/imagine results of the year 🐱
Знаковые проекты за этот год:
Аниверсии.
Первое в мире lyric music video, которым даже флексил глава Stabilty на какой-то конференции.
Простоквашино, но это ситком 80-х.
Попытка сделать Громозеку.
"Тайна третьей планеты", но это часть вселенной Star Wars.
Щит с рекламой канала в г. Урюпинск.
Придуман и создан первый в мире нейроинфлюенсер для бренда.
"Что за границами культовых альбомов?"
Запущен тренд с переозвучкой мемов.
Большое интервью для Т-Ж.
Режиссура и создание клипа для Сергея Мезенцева.
"Забытые игры".
Слово Пиксара.
В цифрах:
Почти 20 тысяч молодцов.
Сотни упоминаний в СМИ, включая международные.
Запущены несколько трендов.
Проведено 4 больших образовательных воркшопа для крупных компаний (кстати, пишите, если вам такое нужно).
А вообще:
Год не был бы таким ударным, если бы не вы, дорогие подписчики, которые следили за обновлениями, лайкали, репостили, общались в комментариях и обменивались опытом. Вы — самые главные AI молодцы. С Новым годом! 🥂
Слово Пацана? А может быть лучше Слово Пиксара?
Сделал добрую версию того самого. Да еще и с песней.
Ссылка на ютуб, если захотите пошерить где-то еще (буду благодарен).
Пайплайн: тонна SD + две тонны Фотошопа + центнер Suno AI (для пеcни) + киллограм GEN-2 (для видео) + монтажка.