Telegram-канал cgevent - Метаверсище и ИИще: Неотсортированное - каталог телеграмм

cgevent | Неотсортированное

Подписаться на канал

Telegram-канал cgevent - Метаверсище и ИИще

37800

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

30 июня 2024 11:53

После нейрогимнастики, подкину вам нейровелогонок.
Да, я понимаю, развидеть это уже нельзя, но Luma - тоже художник и она так видит. Точнее вот так у нее в башке хранится представление о велогонках. Просто она разговаривать еще не умеет, а только мычит. А мы ждем от нее связной чистой речи. Дайте ей логопеда, позанимайтесь с ней, подкиньте ей литературы - чужих хороших промптов. И девочка заговорит. А пока - мычит. Но смешно.

Читать полностью…

Метаверсище и ИИще

29 июня 2024 12:53

Продолжение предыдущего поста.
Да, уже можно генерить эти ключевые кадры с помощью ИИ (смотрите вчерашний пост про машинки). И можно просить ИИ сделать "анимацию нашего мира", подавая эти кадры и описывая мир текстом. Но дальше встают извечные вопросы: "а как сделать так, чтобы зрителю понравилось так, чтобы не было вторично". Ну и дальше по списку: тайминги, история, арки, кульминации. Пока интернетик полон скорее визуальных новелл\комиксов\трейлеров с легким шевеляжем.
Но есть гипотеза, что ИИ сможет взять на себя вот это вот все. Синопсис, сценарий, концепты, раскадровки, определение оптимального тайминга в переходах, написание промптов, ну и те самые съемки\рендер. Надо его только подкормить киношным жаргоном и данными (хотя и сейчас уже достаточно).
Ну и мне видится такой пайплайн:
Есть монтажная колбаса с дорожками, где расставлены ключевые кадры раскадровок (которые можно двигать по таймингу). ИИ генерит переходы между ними. На каждый такой клип\кадр можно кликнуть "перегенери с учетом вот такого промпта". Грубо говоря, внеси правки клиента\режиссера.
Причем кнопки "внеси правки" расставлены везде, от сценария, до генерации концептов и ключевых кадров. Точно также как режиссер орет "поддайте эмоции, брёвна" или продюсер шипит "перепиши концовку".
На входе кнопка "сделай кино для меня", на выходе персонализированный контент. Для особо одаренных, которые без попкорна, в середине много кнопок "внеси правки".
И последний момент - для того чтобы осмысленно вносить правки, жбакая по кнопкам, надо бы выучиться на сценариста, режиссера, ну или хотя бы иметь конскую насмотренность и наслушанность. А иначе будут мемы.

Как справедливо пишет автор видео "технологически круто, но где управление процессом?"

Читать полностью…

Метаверсище и ИИще

29 июня 2024 10:27

Runway GEN-3 начали раскатывать в общий доступ.
Там, похоже, пока нет цензуры на (вывод) людей, портретные планы выглядят очень хорошо.
Но смущает отчаянный слоу моушен на всех генерациях и полное отсутствие хоть какой-то динамики в кадре.
Хотя это я с жииру бешусь, зажрался в последний месяц с лумой, клингом и хедрой.
Го тестировать, кому выдали доступ.

Читать полностью…

Метаверсище и ИИще

28 июня 2024 15:54

Ну, за шрифтовых дизайнеров.

Смотрите, какая, оказывается, штука есть у Гугла!
Генератор шрифтов. Промптом пишете описание шрифта, а он вам выдает россыпь PNG файлов с английским алфавитом. Поддерживаются только буквы и только английские.
Похожая фича есть в Adobe Firefly, то тут бесплатно.
Фон придется удалять ручками.
Осторожно, можно залипнуть, особенно придумывая названия шрифтов типа Fractal Madness. Я лично залип.
Кстати, похоже, что для генерации логосов и иконок это может оказаться очень полезной штукой. Пример с мороженным тому пример.
https://labs.google/gentype

Читать полностью…

Метаверсище и ИИще

28 июня 2024 12:18

Ну и вот вам пример работы новой фичи с двумя кадрами в Люма.
Обратите внимание, что ничего не кипит как в AnimDiff, а рябь на мелких узорах скорее напоминает отсутствие анти-алиасинга и недостатка проходов рендеринга.
Да, глазастые тридешнеги щас найдут стада блох. Но елы палы, вдумайтесь в ситуацию.
Все что есть на входе - промпт и может быть пара даже не концептов, а почеркушек скетчей(пример в шапке).
И все, Карл. И все!
Дальше одна кнопка в InvokeAI - готовы две фазы.
И одна кнопка в Люме.
Готов рендер.

А теперь отматываем на пару лет назад и пытаемся прикинуть, сколько уйдет времени на концепт, моделинг, текстуринг, шейдинг, лайтинг-мать-его, и рендеринг.

Давайте, ловите блох пока, кодеры тоже смеялись вначале над первыми кусками кода из ЛЛМ.
Спасибо Борзунде за материал.

Читать полностью…

Метаверсище и ИИще

28 июня 2024 11:59

Снова за нейрорендеринг.

Вот принес вам два видео из Люма и Креа.

Смотрите, давайте немного разберемся.
Креа делает видео на основе кода AnimateDiff, то есть генерит последовательность картинок, которые ничего не знают друг про друга. Там нет временной согласованности между кадрами, но есть много ухваток как сгладить этот момент.
Плюсы - изумительное качество картинки. Минусы - то самое кипение и артефакты, родовой признак всех потомков Warp Diffusion.

Люма делает сразу видео. Очень грубо говоря, она рендерит его из своей world model. И как все рендеры, обеспечивает временную согласованность кадров.
Плюсы - нет кипения и мельтешения, минусы - качество самой картинки (пока) типа отстой. Пока.

Если еще грубее и проще. Креа Видео натренирована на картинках, Люма натренирована на видосах (хотя в Креа много сделано для хорошего сглаживания между кадрами).

Ну и тут можно порассуждать, что у генераторов видео, натренированных на видосах в мозгах возникает некая 3Д-сцена (хотя это не 3Д, а некое "ИИ-понимание как устроен наш трехмерный мир"), которую генератор рендерит по нашему запросу, мы просто "подлетаем" к некоторому участку внутреннего мира модели с помощью промпта и говорим, полетай рядом и пошевели объекты - все как в классическом 3Д. И оно рендерит.

Ну и дальше я опять начну ныть, что в классическом 3Д у нас есть все инструменты для управления анимацией.

А теперь представьте, что их нет, и мы может анимировать объекты только таская их за вертексы, то есть перемоделивая их в ключевых кадрах. Нет ни рига, ни деформеров, только вертексы объектов, за которые можно таскать и то приблизительно, с помощью команд типа "немного вправо".

И пока видеогенераторы, это такое 3Д без рига и контроля. Да уже есть ключевые кадры и референсные изображения на вход. И стрелки "немного вправо" в виде Motion Brush. Но на этом пока все.

Зато они рендерят Согласованные кадры. Пусть в качестве Coarse, но скоро подвезут нейроантиалиасинг и ControlNet. Вопрос интерфейсных решений.

Читать полностью…

Метаверсище и ИИще

27 июня 2024 18:40

Google выкатил Gemma 2

Как и обещали на Google I/O модель вышла в июне. Выпускают два размера: 9 и 27 миллиардов параметров. Обе достаточно маленькие, так что их можно запустить дома на одной геймерской видяхе. Показывают себя на бенчах они хорошо: 9B обгоняет LLaMa 3 8B, будучи не сильно больше, а 27B подбирается по качеству к Mixtral 8x22B.

27B версию тренили на 13 триллионах токенов, а вот 9B лишь на 8, но там дистиллировали из модели побольше.

Модель последние два дня тестили на арене, под названием im-also-a-late-june-chatbot. Пока говорить что-то рано, разброс слишком большой, но вроде вышло неплохо. Лишь бы не было кучи проблем, как было с оригинальной Gemma.

Веса
Блогпост
Техрепорт

@ai_newz

Читать полностью…

Метаверсище и ИИще

27 июня 2024 16:12

Пайплайн-вакансия.

Мой хороший приятель Леша Дук ищет в команду или на аутсорс спецов по генеративному ИИ.
Надо не сколько генерить картинки, а выстроить пайплайн. Причем в архвизе.

Задачи: интеграция ИИ на базе Stabilr Diffusion в пайплан архитектурного проектирования и визуализации. Дообучение переобучение моделей подготовленными датасетами. Создание ИИ сервера обработки и генерации изображений и инерфейсов для пользователей.

Так задача резиновая, то пишите Леше вот сюда @alex6666, если вы генеративный спец или команда таковых.

Читать полностью…

Метаверсище и ИИще

27 июня 2024 15:48

Ну за спортивных комментаторов.

Я когда-то писал про то, как Тинькофф банк покрал у актрисы озвучки голос для "синтеза".
И она услышала потом свой голос отнюдь не в рекламе банка.
Я там говорил, что в принципе, это приведет к большей поляризации среди актеров (не только озвучки).
Знаменитости получат еще пару нулей в контракте за оцифровку голоса или внешности, а начинающие получат дешевый(во всех смыслах) путь залететь в базы данных и призрачный шанс быть увиденными и услышанными в цифре.
Тут вот NBC взяли известного спортивного комментатора Эла Майклса(Al Michaels), вручили ему хороший контракт, оцифровали его голос и скормили его ИИ.
А теперь ИИ будет делать для подписчиков сервиса персонализированный плейлист с самыми важными для них событиями за предыдущий день. Голосом Майклса, у которого премия Эмми, на минуточку.

Это я к тому, что у начинающих актеров денег будет меньше, а у звезд - больше. Но есть вопрос: когда кожаные звезды приподвымрут, нужны ли будут новые молодые кожаные звезды? Или к тому времени ИИ подучится делать прицельно эмпатичных харизматичных и успешных звезд с убойными голосами и внешностью. От которых нельзя оторваться.

https://www.nbcsports.com/pressbox/press-releases/peacock-unveils-personalized-olympic-recaps-featuring-the-voice-of-legendary-sports-announcer-al-michaels-generated-with-a-i

Читать полностью…

Метаверсище и ИИще

26 июня 2024 10:42

Ну за Вордпресс? Не совсем.

Тут Notion выпустил как бы конструктор сайтов. Там все сладко, 10 000 шаблонов, сео-оптимизация, подключение гугл-аналитики.
Ну и самое главное - кастомные домены!
Народ в твитторе уже выпивает за вордпресс, но есть пара моментов.

На бесплатном тарифе у вас вряд ли это получится.

На платном тарифе (10 баксов в месяц) вы будете платить еще 10 баксов в месяц(!) за кастомный домен. Итого 240 баксов в год.

Сравните с оплатой хостинга с вордпрессом на борту.

Для бизнеса или стартапа - вариант норм, для енд-юзера - не уверен.
https://www.notion.so/product/sites

Читать полностью…

Метаверсище и ИИще

25 июня 2024 21:13

Симулятор сайтов на стероидах Клода 3.5 и gpt4o.

Принес вам плазменное огнищще.

Помните, в прошлом веке люди рисовали картинки (неделями), потом нарциссически их выкладывали в веб-галереи, и ну радовацца и наслаждацца.
Помните, в прошлом веке люди (в больших количествах) делали сайты. На Front Page, например))
А потом выкладывали их на хостинг, и ну работать, кликать, рекламировать, в общем зарабатывать.

Потом пришел ИИ, и вот уже в галереи выкладываются ИИ-картинки, конкурсы выигрывают ИИ-работы, и в галереи мы лазим подсмотреть промпт. Чтобы нажать кнопку Сделать Красиво.

А теперь представьте себе, что галерею веб-сайтов, сделанных одной кнопкой с помощью ИИ. То есть можно жать на рычажок, генерить сайты, выкладывать их в галерею и ну хвастацца или зарабатывать. Кстати, в шапке поста скрин сайта с работающими ссылками, кодом и симуляциями, который я сделал одной кнопкой, точнее одним урлом.

Короче, это все теперь реально.

Держите мета-веб-сайт, который генерит веб-сайты. Как картинки, по промпту, точнее по УРЛу. Вводите доменное имя типа "конецглазамкрасивокак.graph", а он вам генерит сайт, понимая, что вы хотели зашить в имя сайта.
Пожалуйста, немедленно поглядите, что там люди генерят. Это просто за гранью. ИИ иногда творит просто чудеса.

И совсем уж вишенка - вы можете выбирать LLM типа Клода 3.5 или cpt4o или более старые модели для генерации кода сайтов. Непонятно за чей счет пока.

Вот сгенерил симулятор жидкости в вебе (fluidsimulations.com):
https://websim.ai/c/FmzE44ciGdY7KDUdR
Он сделал ВСЕ! Включая раздел Simulations с КАРТИНКАМИ!
https://websim.ai/c/yNAvcLSCw8GT3xOBB
Симуляции разрывают процессор, но работают. Я в шоке.
https://websim.ai/c/CEu6IB8Heqxsgs1zd

(надо залогиниться, чтобы переход по ссылкам работать).

В общем я залип. И вам того желаю!
https://websim.ai/

Совет. Чем длиннее имя сайта, тем больше информации он вытащит оттуда.

Читать полностью…

Метаверсище и ИИще

25 июня 2024 19:46

Асики для LLM. Но не для всех.

Соху: Полмиллиона токенов в секунду для Llama 70B!

Помните были асики для майнинга?
Теперь есть такие же для трансформинга.
Компания Etched сделал специальные чипы для просчета именно архитектуры трансформер. CNNs, RNNs или LSTMs там ускоряться не будут. Stable Diffusion 1.5 тоже кстати.

Короче, один сервер с 8-ю чипами Sohu молотит как, внимание, 160 Nvidia H100! То есть он в 20 раз быстрее, чем H100.
Этот чип в ДЕСЯТЬ раз быстрее, чем еще не появившийся Nvidia Blackwell (B200) GPU.

Конечно, это все заверения разработчиков чипа.
Основной посыл - зачем платить за монстров, доедающих закон Мура, когда можно купить чип для конкретной задачи, а точнее даже архитектуры.

У них на сайте довольно правильные слова про спрос и предложение, так что очень ждем: где, когда и почем.

Они, кстати подняли 120M и за два года запилили чип.

https://www.etched.com/announcing-etched

Читать полностью…

Метаверсище и ИИще

25 июня 2024 10:23

Некоторые боятся что ИИ заменит их, а другие, наоборот, с нетерпением ждут

ИИ-врач AIME — это один из тех проектов, который может значительно улучшить качество жизни сотен миллионов людей на планете.

Команда провела тесты эффективности ИИ-доктора по 32 категориям (диагностика, эмпатия, качество предложенного плана лечения, эффективность принятия решений). По 28 из 32 бот показал результаты лучше, чем живой доктор. По остальным — сравнимый результат.

Для обучения бота использовался подход self-play, когда 3 независимых агента (пациент, врач, критик решений врача) провели более 7 миллионов приёмов. Для сравнения, в среднем терапевт за всю свою карьеру делает неколько десятков тысяч приемов пациентов. Именно поэтому уже сегодня ИИ-доктор позволит оказать качественный сервис для 99% населения планеты, которые не могут позволить личного врача, а через несколько лет будет лучше большинства терпевтов/радиологов/педиатров и т.д. — но только никогда не уставший, условно-бесплатный, имеющий мгновенный доступ к любой медицинской литературе и обученный на сотнях миллионов интеракций с пациентами.

Конечно, в медицине главное это "не навреди", поэтому после публикации отчета в январе команда работает над улучшением продукта, безопасностью и готовится к получению необходимых лицензий от FDA и прочих. Массово такие продукты появятся не прям завтра, но технически это уже возможно.

Читать полностью…

Метаверсище и ИИще

24 июня 2024 16:02

Как ИИ влияет на бизнес и экономику прямо сейчас?

Об этом в своем канале рассказывают «Яков и Партнёры» — лидеры стратегического консалтинга в России.

Читайте, чтобы узнать:

📌 Как будет развиваться ИИ в России и в мире

📌 Когда инвестиции в генИИ успели опередить вложения в метавселенные

📌 Что крупные компании думают о внедрении генИИ

📌 Какой процент компаний из сферы e-commerce применяет технологии генеративного ИИ

Еще больше интересных инсайтов и прогнозов — в их канале. Подпишитесь , чтобы получать все новые исследования и прогнозы из первых рук.

Читать полностью…

Метаверсище и ИИще

24 июня 2024 15:37

Из комментов тоже достаю.
Рейтинг качества Text-to-Speech софта
https://huggingface.co/spaces/TTS-AGI/TTS-Arena
Соответственно идете по списку сверху внизу и выбираете решение, подходящее по цене.
Например, Топовый ElevenLabs стоит 100 баксов за 10 часов в месяц (500000 символов)
https://elevenlabs.io/pricing

PlayHT со второго места - 40 баксов за 5 часов и 100 баксов за анлим
https://play.ht/pricing/

Читать полностью…

Метаверсище и ИИще

29 июня 2024 21:29

Н Е Й Р О Г И М Н А С Т И К А

Читать полностью…

Метаверсище и ИИще

29 июня 2024 12:47

Мемная культура в массы.

Широкие народные массы открывают для себя понятие ключевых кадров и прелестей морфинга.
В 2Д и 3Д софтах уже сто лет есть понятие key frame - фиксированный набор циферок в каком-то кадре. Этот набор может задавать позу персонажа, позицию объекта, положение камеры или картинки(в монтажке), поворот изображения, да все что угодно. Лишь бы этот набор был один и тот же для разных кадров(моментов времени). А дальше софт сам интерполирует промежуточные кадры и значения циферок к них, плавно перетекая из одного набора в другой. Получается анимация. Персонажа, картинки, камеры, объекта, зума и пр.
А теперь у нас на входе не набор циферок (хотя на самом деле он самый - набор ембедингов в латентном пространстве), а набор картинок. Грубо говоря, раскадровка. А Luma или Креа делают переход между ними, только не попиксельно, а в пространстве "смыслов и понятий", причем эти понятия находятся в голове черного ящика ИИ.
Я помню, когда появился Elastic Reality (лет 30 назад), все бросились делать клипы а ля Black or White Майкла Джексона. Клип действительно взрывал кожаные мозги, потому что был первым. Потом приелось.

Щас юзеры делают довольно забавные вещи - в шапке 20 известных мемов поданных, как начальный и конечных кадр. И так 20 раз. Получаем клип.
Первый раз действительно смешно, мемная культура работает на успех.
Но щас мы наедимся нового морфинга на стероидах и возникнет хороший вопрос, а что дальше. Поговорим в следующем посте.

Читать полностью…

Метаверсище и ИИще

28 июня 2024 16:08

Сравнил шрифты от Google и от Адобченко. Гугловый выглядит явно концептуальней. Но адобовский уже готов к использованию в Adobe Express хоть сейчас. Можно лепить на любой макет. Ну и Гугловый - это все таки не шрифт, а набор картинок.
Промпт был

3D VR space and metaverse

Но адобе запрещает слово VR в промптах, что бы это не значило...

Читать полностью…

Метаверсище и ИИще

28 июня 2024 12:30

MOFA-Video: Нейрориг, точнее его отсутствие.

Вот поглядите на еще одну работу - так китайские и японские аспиранты видят работу аниматоров будущего. Это сарказм про интерфейсные решения.

Идея правильная - дать как можно больше управлялок: MOFA-Video анимирует одно изображение с помощью различных типов управляющих сигналов, включая траектории, традиционные кифреймы, а также и их комбинации.

Поглядите на сайте примеры, но мне это уже не очень интересно, ибо это шевеляж пикселей - на входе картинка и некие указания на анимацию, на выходе - шевеление пикселей на картинке. Да, это не олдскульный морфинг пикселей в 2Д-пространстве картинки, это морфинг эмбедингов в латентном пространстве. Но на выходе все равно шевеление пикселей, пусть нелинейное и очень умное.

Сайт сделан нарядно, но после анонса GEN-3 - это просто одна из китайских работ.

https://myniuuu.github.io/MOFA_Video/

Читать полностью…

Метаверсище и ИИще

28 июня 2024 12:05

Ну и вот попытка подсмотреть, как в голове у видео-ИИ устроена модель мира.

Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие.

Я уже писал философский пост о том, что LLM (возможно) через все эти текстовые датасеты срисовали то, как мы мыслим, ибо язык - инструмент мышления, а не общения.

Через все эти размеченные видео и картинки у ИИ в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков.

Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков.

Пока были только генераторы картинок, речь шла скорее о симуляции воображения. С появлением временного измерения запахло симуляцией работы всего нашего мира. Точнее симуляцией того, что происходит у нас в голове (как там в реальности мы не знаем, вон змеи не видят неподвижное и живут без этой части мира в голове).

Ну и интересно поразмышлять о том, какие миры у него в башке будут близки друг к друг другу по "смыслу". Помните на у него на картинках от короля к королеве идет такой же вектор как от мужчины к женщине в его мозгах. Ответ может быть неочевидным. И шорткаты между мирами могут вас удивить.

Читать полностью…

Метаверсище и ИИще

28 июня 2024 11:00

Ключевые кадры в Dream Machine и будущие монтажки.

В твитторе Люмы очень интересный апдейт.
Теперь можно задать начальный и конечный кадр, припихнуть рядом тестовый промпт и Люма сгенерит "управляемое" видео, попав в конечный кадр.
Это сильно круто и вот почему.
Во всех демонстрируемых видео-генераторах, как правило, весь контроль картинки лежит на промпте. Иначе говоря, мало того, что вы пытаетесь описать саму картинку в промпте (как в генераторах картинок), так вам еще надо задать движение, причем не одного объекта, а всех участников банкета, от камеры и света до переднего и заднего планов. Текстом. Пока вы делаете видосики для того, чтобы радовать подписчиков в инсте или телеге, можно не париться, ИИ все сделает сам, но если вам нужен контроль процесса и вы делаете что-то осмысленное, то вам понадобятся некие управляторы.
Пока мы видели Motion Brush, ключевые кадры, и слышали, что Сора умеет перегенерировать выделенную часть клипа. Все это некие костыли, которые рано или поздно должны как-то имплементироваться в знакомый интерфейс монтажки\композа.
И я надеюсь, что стартаперы не будут переизобретать премьер или нюк, хотя вот это вот рисование стрелочками, куда должно пойти движение, меня уже пугает. В монтажках для этого есть анимация по ключам.
В общем пока у нас конфетный период восторгов, но скоро придут будни, когда придется ходить на работу и использовать весь этот зоопарк. И тут время помолиться о нормальном интерфейсе.
Поглядите на все это великолепие тут, там много красоты, а я щас еще накидаю неумных мыслей про Dream Machine, Krea и 3Д-рендер.
https://x.com/LumaLabsAI/status/1806435502096310656

Читать полностью…

Метаверсище и ИИще

27 июня 2024 16:14

ИИ-Хакатон для ИИ-агентов.
На конференции GigaConf 2024 Сбер продемонстрировал AI-агентов, которые сами ставят себе задачи, пишут код для их решения, анализируют и визуализируют результаты.
AI-агенты в онлайн-режиме решали математические задачи и генерировали графики. Участники мероприятия придумывали свои задачи и получали их решение от AI-агентов или наблюдали, как один агент придумывает сложные задачи, а другой — ищет решение и показывает результат.
Область применения AI-агентов не ограничивается каким-то конкретным направлением деятельности: они способны автоматизировать и оптимизировать большинство рутинных процессов и выполнять роль цифровых сотрудников в разных профессиональных сферах.
Бизнес может создавать AI-агентов, способных решать задачи конкретной компании или сферы деятельности. Например, для ретейлеров можно создать агентов, которые организуют автоматическую генерацию информационных карточек товаров с последующим их размещением на различных площадках. Компании, оказывающие клиентский сервис, могут создать помощников, которые будут поддерживать весь процесс лидогенерации — от сбора контактных данных до работы в CRM-системе.
Попробовать создать своего агента можно с помощью open-source-фреймворка для разработки приложений на основе больших языковых моделей GigaChain и GigaChat API.

Читать полностью…

Метаверсище и ИИще

27 июня 2024 16:04

Figma AI, Canva AI

Тут Фигма фичерит новые ИИ-фишки

ИИ делает концепт Make Design, потом сам находит похожий образ с помощью Visual/Asset Search, потом ваяет прототип Make Prototype. Даже слои именует!

А пару недель как-то тихо назад прошел анонс от Канвы - и у них там все еще круче. Целый пайплайн с кодовым названием Magic.

А я тут ставил Adobe Express, чтобы посмотреть, как туда вкручен Firefly.

И с точки зрения нормального негиковатого пользователя, вкручен хорошо. Я потренировался на школьниках, они интуитивно сразу пользуют и не спрашивают про CFG Scale и VAE.

Это я к чему. ИИ заползет в голову нормального пользователя через знакомые продукты. И пусть там не будет 95 процентов функционала ComfyUI, но оно ему надо?

А у Адобченко, Фигмы и Канвы есть понимание, что ему надо, вот они и будут выкатывать ИИ в малых дозах, достаточных, чтобы удержать пользователя.

Читать полностью…

Метаверсище и ИИще

26 июня 2024 11:21

Пилим сайт-для генерации картинок одной кнопкой. С работающей бесплатной генерацией.

Пока вы откладываете денег на Notion, я с помощью ИИ сделал сайт-генератор-картинок с помощью Stable Diffusion.

Вчера писал про https://websim.ai/

Если не попробовали - срочно пробуйте, это фан, и шлите примеры в коменты.

А я пощупал его на предмет цензуры. И что вы думаете? Он сделал мне сайт для генерации картинок!! С кнопкой Генерить, которая работает!

Залогиньтесь Гуглом, чтобы попробовать самим, или посмотрите вот так:
Главная: https://websim.ai/c/AgJkbG2ZgsqA4uhEK

Сама генерация: https://websim.ai/c/3bC609kINHHHgRnpW

Пример генерации с принцессой: https://websim.ai/c/6NZf0tvLoFzuHsSRQ

Галерея: https://websim.ai/c/xotAeizARLv2IOcCi

Извините за домен, только так я его смог заставить сделать рабочий генератор, причем в одной из версий, он мне сделал кнопку подписаться, страницу оплаты, ввод карты и прочая!

А теперь внимание, когда я(или вы) жму кнопку Generate, сайт лезет на Replicate и реально генерит там картинку! Я думаю, что с помощью Stable Diffusion 1.5 (не смог добраться до апи вызова, может у вас получится).

Самое удивительно, что если в урл при генерации добавлять &width=768 то оно слушается!!

Репликейт не отдает совсем уж жоские картинки. Поэтому начните с котиков.

Ну и я не могу взять в толк, за чей счет банкет? Вся эта генерация сайтов с помощью Клода и gpt4o, вызовы на репликейт, хостинг адова количества сайтов.

Точнее, знаю, это Тиаго Дуарте, который сделал все это за выходные.

P/S/ И сайт очень смешно втирает за полезность адалт-контента. Воистину ИИ скопировал все наши лучшие стороны.

В общем, пробуйте делать свои генераторы. Одной строкой.

Читать полностью…

Метаверсище и ИИще

25 июня 2024 22:27

Первая реклама с Sora американской сетки для продажи игрушек

>Делаешь технологию чтобы работяги могли запускать гусей за копейки

>И без того крупный бренд берет технологию и экономит на людях делая рекламу с Sora

Чтож, будет срач

Читать полностью…

Метаверсище и ИИще

25 июня 2024 20:01

Я уже писал, что часть команды Stability объединилась с разработчиками Комфи, анонсировав разработку универсального и гибкого интерфейса для генеративных моделей.
По ходу история с SD3 так избесила всех поборников опен-сорса, что движение набирает обороты.

Встречаем Open Model Initiative, призванную объединять разработчиков, исследователей и организации для сотрудничества в продвижении открытых и лицензируемых моделей искусственного интеллекта.
Туда вошли:
ComfyOrg, Invoke, Civitai и даже LAION (датасеты изображений).

Ждем Фокуса, Автоматика и других.

Меня больше всего радует вот это: "Создание общих стандартов для улучшения будущей совместимости моделей и методов совместимости метаданных, чтобы инструменты с открытым исходным кодом были более совместимыми в экосистеме." - Меньше зоопарка, больше UX.

Полный список деклараций вот тут (включая защиту прав художников)

Читать полностью…

Метаверсище и ИИще

25 июня 2024 14:20

Метис: как бы chatGPT от Амазона.

Вчера, когда писал про датацентры, невольно задумался: вот у Амазона вычислительной дури практически больше всех. Но мы давно не слышали никаких апдейтов про их языковые или другие модели.

Были новости про LLM Titan AI, а более мощная версия под названием Olympus, как сообщается, находится в разработке. Есть также Rufus, помощник, призванный помочь вам делать покупки и просматривать обширный каталог товаров Amazon.

Я также писал о превращении Alexa в чатбот, который может стоить от 5 до 10 долларов в месяц и позволит пользователям просить Алексу о более продвинутых функциях, таких как составление электронных писем или заказ в Uber Eats, с помощью одной подсказки.

И вот, наконец, судя по утечкам, у Amazon появился внутренний проект под названием "Метис". Это чат, offering conversation using text and image-centric answers. Говорят, что Метис может обмениваться ссылками, отвечать на последующие запросы и генерировать собственные изображения.

Сообщается, что Amazon хочет, чтобы бот также мог использовать расширенный поиск, позволяющий ему находить и предлагать информацию, которой он не был специально обучен. В качестве примера в отчете приводится предложение актуальных цен на акции.

В сети уже окрестили его chatGPT killer. Ну ок, а почему не Gemini killer или Claude killer?

В общем ждем ответочку от Амазона, им явно есть на чем тренировать модели. Было бы что тренировать.

https://www.tomsguide.com/ai/forget-chatgpt-amazon-reportedly-working-on-new-metis-ai-chatbot

Читать полностью…

Метаверсище и ИИще

24 июня 2024 23:46

Марс атакует!

Новая опенсорсная модель текст ту спич.
140 языков.
Клонирование голоса по сэмплу в шесть секунд.
А ещё MARS5 позволяет выполнять "глубокое клонирование", которое улучшает качество клонирования и выходных данных, но при этом требует немного больше времени для создания аудио.

За актеров озвучки уже пили. Ладно, просто помолчим, пока он нас клонирует.

Всё есть тут:
https://github.com/Camb-ai/MARS5-TTS

P.S.
In general, at least 20GB of GPU VRAM is needed to run the model on GPU (we plan to further optimize this in the future).
Есть платный апи.

Читать полностью…

Метаверсище и ИИще

24 июня 2024 15:53

Пора завязывать со всеми этим клавиатурами и мышами. И пока Маск пилит свою иголочку, энтузиасты собирают свои нейроинтерфейсы. Причем такие, с помощью которых можно проходить
и второго, и первого Босса в ELDEN RING Shadow of the Erdtree.
Когда смотришь это, чуешь отчетливый аромат Матрицы.
Девушка сидит и просто кладет личико на ладошки и о чем-то там думает.
А теперь вспомним, как типичный геймер орет, подскакивает и потеет.
Мне вот интересно, какие у нее энергозатраты и ощущения.
Насколько я знаю, такой уровень нейро-обратной связи серьезно меняет определенные способности мозга. Также интересно, как эти новые способности влияют на "старые" способности. Что прокачивается параллельно?
Очень круто, явшоке.
Видео мне прислали со ссылкой вот сюда:
https://twitter.com/perrikaryal/status/1804649206310752418
А вот тут сама девушка пилит свой интерфейс. Неинвазивный притом!
https://www.youtube.com/watch?v=UXzncNh7rr8

Читать полностью…

Метаверсище и ИИще

24 июня 2024 15:36

Джедай от Нвидии.

Joint-image Diffusion Models for Finetuning-free Personalized Text-to-image Generation

В общем они предлагают как бы (как я понял), что-то среднее между RAG и Лорами, для создания консистентных изображений. Основной козырь - отсутствие долгого файнтюна моделей.
Сравнивают в основном с Дримбусом.
Основной акцент в работе - на создание синтетический датасетов.
Типа дали как референс курточку или сумочку и нагенерили датасет с этими ассетами, с сохранением консистентности.

Не очень понятно, куда и когда это будет прикручено.
И выглядит очень нарядно, поглядите тут:
https://research.nvidia.com/labs/dir/jedi/

(там между строк есть один момент - если дать на вход не 1-2, а 20-30 референсных картинок, то производительность катастрофически падает)

Но вот вам интересная новость.

Есть такая независимая модель для картинок Pixart Sigma. Натренирована знаете где? В Хуавее. Это не чекпойнт, это своя архитектура. Всего 0.6B параметров, а ухватки, как у SDXL (2.6B).
Так вот, написал эту модель в одно умное лицо Junsong Chen, который до прошлой недели числился как Research Intern в Хуавее. А теперь он Research Intern в Нвидия.
Пишет, что проект Pixart Sigma будут продолжать. Причем он - опен-сорсный.

Может пора уже увидеть что-то красивое (и опенсорсное) для картинок от Нвидия??

Читать полностью…

Подписаться на канал