cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37799

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Полезное и серьезное.

Сергей Марков закончил свою большую книгу по ИИ «Охота на электроовец: большая книга искусственного интеллекта».
И без вякого хайпа выложил ее в общий доступ (epub, docx, pdf)
Если вам интересно разобраться с архитектурами нейросетей - то вам сюда:
https://markoff.science/

Андрей Карпаты подогнал новый 4-часовой курс, ну или урок, как создать GPT-2 с нуля. Буквально с нуля, с пустого питонговского файла:
https://youtu.be/l8pRSuU81PU
Также у него есть "как создать GPT с нуля за два часа":
https://youtu.be/kCc8FmEb1nY

Читать полностью…

Метаверсище и ИИще

Запускать GPT-подобные языковые модели на всяких там дорогих видео-картах это уже прошлый век – чувак с нуля собрал модель на 85000 параметров используя маковский аналог экселя «Numbers» ☕️

https://github.com/dabochen/spreadsheet-is-all-you-need

Видимо, языковые модели это новый Doom, будут пытаться запустить всюду

Читать полностью…

Метаверсище и ИИще

Дорогие тренировки.

Обожаю Visual Capitalist, да и датавиз в целом. Прочищает мозг иногда.
В общем, стоимость тренировки одного ИИ-ребенка, это примерно как вырастить городок кожаных детишек.
Поглядите, куда мы катимся (или забираемся, как посмотреть).

Below, we show the training cost of major AI models, adjusted for inflation, since 2017:

Year Model Creators/ Training Cost
2017 Transformer Google $930
2018 BERT-Large Google $3,288
2019 RoBERTa Large Meta $160,018
2020 GPT-3 175B (davinci) OpenAI $4,324,883
2021 Megatron-Turing NLG 530B Microsoft/NVIDIA $6,405,653
2022 LaMDA Google $1,319,586
2022 PaLM (540B) Google $12,389,056
2023 GPT-4 OpenAI $78,352,034
2023 Llama 2 70B Meta $3,931,897
2023 Gemini Ultra Google $191,400,000

https://www.visualcapitalist.com/training-costs-of-ai-models-over-time/

Читать полностью…

Метаверсище и ИИще

ИИ-реклама

Тут у нас новый флешмоб.

Вчера отгремела китайская Сора под названием Kling, а сегодня народ уже делает рекламу пива Mad Max Beer с помощью видеогенераторов.
Началось с Kling, потом подтянулись сторонники Леонардо, ждем остальных.

Хотя с точки зрения новизны тут все те же сломо, панорамики и тилты. Но выход их машины у Клинга явно круче остальных.
Подробности тут. Пишут, что скучной работы на час от силы.
https://x.com/chenkun198282/status/1799009607714795978
Спасибо Женьку на наводку.

Читать полностью…

Метаверсище и ИИще

Тут в коментах после падения chatGPT и участившихся банов вопрошали про ботов аггрегаторов.

А их развелась, как и положено ботам, тьма. Одни требуют оформлять подписку на каждый чих, другие не работают без VPN, третьи просто просят денег на доступ к бесплатному chatGPT.
Пообщался с народом, накидали ссылок на разные боты.
На итоге после отсева шлака имеем: BotHub, Chad, ChatInfo и Copy Cat.

1. BotHub - это агрегатор разных нейросеток, выбор большой, работает как через веб-интерфейс, так и телеге. 15+ различных моделей, включая GPT-4, Claude, Midjourney, Gemini, Mistral и Llama, с разными и ценовыми параметрами.
Плюсы BotHub - гибкая система оплаты без подписок, сгорающих токенов и
абонентских плат, богатый выбор моделей, библиотека готовых ассистентов,
возможность обработки документов, работа через API. Минус - на пробном тарифе недоступен ChatGPT, иногда отваливается Midjourney.
2. Chad - популярный агрегатор, предлагающий доступ к GPT-4, Midjourney,
Stable Diffusion и DALL-E.
Неплохой интерфейс с русской локализацией и возможностью работы без VPN. Однако подписная модель с ежемесячной оплатой и лимитом на количество слов не всем зайдет. Плюс нет доступа к последней Midjourney v6, хотя почти везде он есть. Вроде нет Telegram-бота, хотя это уже прям стандарт.
3. ChatInfo - бюджетное решение для работы с GPT-3.5 и генерации изображений.
Продает пакеты запросов с фиксированной ценой, что удобно для разового
использования. Но только GPT-3.5, непонятки в отношении модели для генерации изображений и странный сайт.
4. Copy Cat - это прям хороший Telegram-бот, который предоставляет доступ
к GPT-3.5, GPT-4, Midjourney и Stable Diffusion.
Среди плюсов - поддержка голосовых команд, возможность работы на разных языках,
бесплатный ежемесячный лимит и широкая тарифная сетка. Но дорогой, на разные модели свои подписки.

Наверное самый ловкий - это BotHub. Но покидайте в коменты, кто чем пользуется. Особенно за пределами бесплатного GPT-3.5.

Читать полностью…

Метаверсище и ИИще

Удивительно, конечно, как люди романтизируют кожаных и до сих пор думаю, что ИИ - это стохастический попугай. "Вот когда он превзойдет человека на большинстве задач, тогда и поговорим".
Человек в это время: о хомяки, надо брать. И ну заниматься любимым делом, тапать в телефон.
Почитайте следующий пост. Он грустный. Пока мы тут обсуждаем, какой процент олимпиадных задач ИИ уже решает, кожаные хомяки решают совсем другие задачи. В которых любой вибратор превосходит человека. Что ведет нас к неудобному вопросу: какой процент людей участвует в математических и других олимпиадах. Может AGI уже здесь, если мы говорим про "большинство задач".

Читать полностью…

Метаверсище и ИИще

ИИ-хииты и ИИ-копирайт

Вот держите хит от Suno. Это мне его Суно-радио подсунуло. Это же крепчайший трек.
Я просто приделал к нему Панду из вчерашнего Клинга, получилось чистое ИИ. Звучит плотнейше.

Но самое забавное, что Шазамчик долго жевал свои иконки, но потом-таки разродился соответствием и выдал мне вот такой матч с этим треком:
https://www.youtube.com/watch?v=HX5niL-l-vQ

Да, непохоже ни разу, но ИИ виднее, видать там скрытые мантры одинаковые.
И тут масса вопросов:
Во-первых найденный трек в ютюпчике сильно смахивает на ИИ, хотя валяется на Apple Misic с 2017 года.
Во-вторых, писать такие амбиентные треки ИИ уже сейчас умеет получше многих.
Ну и в-третьих, похоже что предстоят веселые битвы разных ИИ. Всякие детекторы плагиата будут орать "это чужой трек!", хотя он только что вышел из-под пера другого ИИ.
Я уже писал, что фейсбучек меня забанил, когда я присунул ему трек из суно - это говорит, копирайтный материал, пират ты мерзкий.
В общем нас ждут веселые времена, когда ИИ-юристы будут хлестаться с другими ИИ-юристами и бедными пользователями Suno и Udio, распознавая в каждом ИИ-чихе чужой контент и повод нажиться. Пилите стартап с патентными ИИ-тролями, короче, озолотитесь.

Читать полностью…

Метаверсище и ИИще

Легкие деньги

В последнее время, из-за мейнстримизации нейросетей, всё чаще стал замечать рекламу разных курсов с тезисами из серии "ЗАРАБОТАЙ 1000000 РУБЛЕЙ ЗА ДВА ДНЯ С ПОМОЩЬЮ ИИ 🤑🤑🤑". Потрясающе! Но полный шлак. Давайте быстро расставим точки над AI и быстрым заработком.

Думаю, большинство моих подписчиков - молодцы и уже достаточно в теме, чтобы понимать, что к чему. Поэтому скиньте этот пост тем, кто только смотрит в сторону AI-штук и курсов по их изучению.

Короче говоря, товарищи маркетологи используют один из множества мифов о нейросетях (рассказываю о них на своих лекциях, но, видимо, нужно сделать отдельный пост). Конкретно - о магической кнопке , которая за вас будет делать всю работу, а вы будете пить манго-шейк на тайском пляже. Fucking NO.😅

Нейросеточки - просто инструменты, которые усиливают вашу экспертизу и уже наработанные компетенции. Всё.

Если вы: 1) ничего не умеете, 2) ни в чем не разбираетесь - нейронки вам никак не помогут. Вы просто не сможете 1) доработать результат, 2) проверить результат. Если вы что-то умеете, то можете делать работу быстрее, брать дополнительный фриланс, запустить свой AI-based стартап, стать AI-блогером. Стратегий много. Но ничего из этого даже близко не пахнет лёгкой прогулкой.

Если уже реклама - фейк, с чего вы взяли, что в самом таком курсе вас ждёт качественный контент, а не водичка? 😎

Читать полностью…

Метаверсище и ИИще

Держите еще роликов из китайской Соры, убойно. Это вам не Veo от Гугла.
Там, похоже действительно есть понимание физики и свой world model.
Явшоке.
Поглядите на цветы и на птицу.

Читать полностью…

Метаверсище и ИИще

КЛИНГ!

Ох ничего себе, китайская ответочка для SORA.
Генерация роликов на 2 минуты(!), в 1080(!) и 30FPS.

Свой механизм трехмерный пространственно-временной механизм совместного внимания, чтобы лучше моделировать сложные пространственно-временные движения и генерировать видео с длинными движениями, при этом подчиняясь законам физики.

Спопсбность имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики.

Собственная разработке 3D VAE - от крупных планов до панорам.

Своя технология 3D реконструкции лица и всего тела вместо со стабилизацией фона.

Это пока все, что удается вытащить с их сайта.

Если у вас есть китайский номер, то вы можете даже попасть к ним в бету.

Поглядите примеры тут (они жутко тормозят - все алкают китайской Соры):

https://kling.kuaishou.com/

Ну и Вилл Смит теперь может нормально точить макарошки - поглядите, как мужик поедает удон.

Читать полностью…

Метаверсище и ИИще

Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739

Читать полностью…

Метаверсище и ИИще

В мобильном приложении chatGPT - апгрейд.

Зайдите в настройки и включите Background Conversations. Теперь вы можете продолжать общаться с ChatGPT голосом, даже если вы вышли-переключились из приложения и пользуетесь другими приложениями на телефоне - или если экран выключен.
Представьте, что вы застряли на уровне в игре или продираетесь через какой-то ацкий UX-процесс - просто включаете Фоновый чат и получаете от ChatGPT подсказки или инструкции в режиме реального времени, не прерывая процесс.
https://www.gizchina.com/2024/06/05/chatgpt-just-got-smarter-discover-the-new-background-chat-feature/

Читать полностью…

Метаверсище и ИИще

В воскресенье проводил сотый The Hub (500-600 чел на минуточку). Приподвзажигал про ИИ, как водится. Как писал выше, озадачил всех конкурсом по ИИ-генерации меня в процессе, разыграл Re:Hub футболки. Поразительно, как люди работали поводырями искусственного интеллекта, выступая его глазами с помощью промптов.
Вот так он меня видит на сцене в глазах ИИ-смотрящего, в этот раз это был Кандинский.
Первая фотка прям похожа, видать ИИ про меня что-то знает. Ну и у зрителей все хорошо с самоиронией. Один из промптов "Огромный зал хомяков слушают про AI".
Они еще и видео успели сделать.

Читать полностью…

Метаверсище и ИИще

GPT-4 vs классический OCR.

Очень интересная статья на Хабре про разбор чатов. Одно дело, когда чаты у вас на блюдечке с текстовой каёмочкой, а другое дело, когда это скриншоты переписок из всех неведомых мессенджеров и аппов. Крайне полезный анализ, как можно использовать gpt-4o vision для распознавания такого добра и стоит ли игра свеч. Для всех, кто занимается дейтингом, кастомер саппортом и даже HR-ром будет очень любопытно почитать.
Для затравки выкушу цитату, а остальное(реализация, экономика, скорость) - по ссылке.
(ну и про предразметку - просто гениально)

GPT-4o при несложном промптинге (если закрыть глаза на скорость, стоимость и координаты, тем не менее, понимает кучу нюансов, которые через стандартный OCR и постобработку на нашей стороне сделать либо сложно, либо невозможно):
точно фильтрует всё лишнее «из коробки»;
понимает, где реплаи, а где нет;
выписывает время каждого сообщения (что важно, чтобы понять, кто кому отвечает сразу, а кто тянет время);
понимает, было ли сообщение отредактировано;
замечает реакции на сообщения (может выписать, какие);
сообщения из одних только эмодзи, стикеры;
картинки внутри переписки, кружочки, голосовые;
и многое другое...
Ну это же охереть как полезно для более тонкого понимания динамки коммуникации!
В общем, игра определённо стоит свеч!



https://habr.com/ru/articles/819719/

Читать полностью…

Метаверсище и ИИще

Битва за текст.


Тут авторы взяли и вструмили OCR (распознавание текста на картинках) в процесс генерации. А также сделали отдельный датасет.
Все это с целью улучшения генерации текста.
Но выглядит как эксперимент, причем только для Stable Diffusion 1.5
Говорят, что можно смерджить их веса с любой моделью и обещают интеграцию с A1111.
Сдается мне, что взрослые мальчики из больших компаний на букву O и G уже давно так делают.
https://github.com/tyxsspa/AnyText

Читать полностью…

Метаверсище и ИИще

Помните огнищенские примеры анимации лиц по одной фото от Алибабищенко и Микрософтченко?
Добавил их в шапку поста.


Аватары и говорящие головы на основе традиционного 3Д обречены за непреодолимую зловещую долину, а вот нейроаватары на основе картинок и видео развиваются очень быстро.
Но.
Ни Алибаба, ни Микрософт не выкладывают код.
А вот Тикточек - выкладывает.

Держите ответочку от Тиктока, пусть по качеству там еще есть вопросы (связанные, скорее, с апскейлом и блюром), но в работе озвучен ОЧЕНЬ интересный момент.
На входе в таких решениях обычно есть картинка, звук, возможно какая-то разметка, иногда глубина, информация о позе (часть из этого детектится автоматически). Так вот, все эти входные "сигналы" имеют разный вес, и часто звук "забивается" жесткой позой или другим параметром. А тут авторы научились балансировать сигналы между собой, чтобы варьировать "вольность" следования звуку.
И самое главное - бахнули код.
В шапке примеры с разным влиянием звука на финальное видео.
Можно разводить хозяйство локально.
На гитхабе внизу приписка про коммерческое использование..
https://tenvence.github.io/p/v-express/
https://github.com/tencent-ailab/V-Express/

Читать полностью…

Метаверсище и ИИще

SD интерфейс Forge - всё.

Большая часть кода, особенно касающаяся оптимизации и скорости, переезжает в следующий апдейт A1111.
Forge обновится и это обновление сделает его несовместимым со всеми экстеншенами.

В общем Forge теперь молотит внутри A1111.

Подробнее тут:
https://github.com/lllyasviel/stable-diffusion-webui-forge/discussions/801

Читать полностью…

Метаверсище и ИИще

Эппле немного охренели, и решили заребрендить скучную аббревиатуру AI.
Теперь это Apple Intelligence. Просто и со вкусом.
Ну чтобы как с ксероксом - сделай ксерокс. А теперь "используй AI"

Антропик(в шоке) - ашотакможнобыло?!?!?!

Работать будет только на iPhone 15 Pro и 15 Pro Max, и на iPad и Mac c процессорами M1 и новее.
https://www.bloomberg.com/news/articles/2024-06-07/apple-wwdc-2024-what-to-expect-ai-ipados-18-macos-15-siri-updates-more

Читать полностью…

Метаверсище и ИИще

ИИ спасет мир. Часть 1.

Продолжим тему, когда ИИ-начинает жучить кожаных за плагиат. Вчера писал, как Шазамчик лихо находит совпадения с только что сгенерированной музыкой.
Сегодня вернемся к текстовым анти-плагиаторам.
Смышленый малый скормил кусок библии в определитель ИИ-шности текста и получил жоский вердикт "это писал ИИ". На некоторых кусках определяется как 100% ИИ.

Этому в принципе есть некоторое количество технических объяснений. Таких как индекс цитирования например.
Но мне нравится сама гипотеза!!! Вначале был ИИ!

Очень много идей можно навернуть вокруг этого факта.

Я же вкину вот такой сценарий: кожаные стали сознательными получив (об Бога, от ИИ, от мутации) язык, как средство рефлексии и размышления. Начали облекать мысли в слова(компрессируя смыслы с потерями), нагородили печатный станок, а потом и целый интернетик, потом собрали все эти словечки обратно в кучу и присунули в обратно, в некий аналог мыслительного процесса, названный ими искусственным интеллектом. И получили странные неприятные вопросы о природе сознания, неопределяемого кожаными словами. И о природе самих себя.

Ну и ребятки из начала нулевых (не 2000х, а трушных нулевых) сильно бы удивились, если бы узнали, что авторство их священных текстов через 2000 лет припишут некоему сверх-интеллекту. Что в принципе ничего не меняет в картине мира.

Ну и вынесу сюда вот такой вот промпт, он божественно прекрасен.

And God typed "Make a black round object, no background, zoomed in, first person. Then add some light, but keep it separate from the darkness. 16:9 35mm film grain, award winning photo, emotional"

Апокрифы тут:
https://x.com/burny_tech/status/1798788535144861769

Читать полностью…

Метаверсище и ИИще

🐹 Как разводят на хомяке

Совершенно удивительно, насколько в открытую гоев разводят на шекели на этот раз.

Для тех кто не в курсе: в телеграме появился бот с игрой (ссылку, естественно, давать не буду) — тапаешь на хомяка, зарабатываешь монетки. Гои, сломив голову, кинулись фармить и приглашать друзей (естественно, куда без реферальной системы). И естественно, с обещанием последующей конвертации в реальные деньги.

Жадность людей, помноженая на высший уровень дегенератства игрового процесса (тапать по экрану) напрочь отключает мозг. Але! Как слышно! Вас буквально назвали ХОМЯКАМИ! А первое действие в игре называется «ПОБРИТЬ ХОМЯКА»! Хомяками в крипте называют тех, с кого бреют бабки более умные люди.

Давайте разберемся, как это работает, и где тут развод.

1. Деньги не берутся из воздуха. Нельзя зарабатывать тапая по экрану, и нельзя зарабатывать гуляя в виртуальных кроссовках (Stepn помните? Как дела?). Количество денег ограничено и их можно только перераспределить. Единственные, кто могут делать деньги из воздуха — это государства (они могут напечатать денег, повысив инфляцию и, соответственно, цены, но сейчас не об этом).

2. Если вы не платите за товар — вы и есть товар. А если «платят» вам — тем более. На текущем этапе задача системы — сбор аудитории и раздувание хайпа. Вам будут предлагать вступить в телеграм-каналы, подписываться на твиттеры, приглашать друзей и так далее, выдавая бонусы за каждое действие.

3. Когда хайп будет раздут достаточно, монетки залистят на бирже и вы увидите рост курса. Несмотря на то, что их можно будет вывести, обменяв на реальные деньги — жадность затмит вам глаза, и вы будете ждать еще большего повышения цены. Основатели таких проектов умеют считать: кто-то выведет (для этого в систему заливается немного ликвидности — реальных денег), но основная часть людей оставит монетки у себя.

4. Запускается вторая и самая важная волна хайпа — зачем тапать по экрану, если можно вкинуть 10 000 ₽ и получить несколько миллионов (или какой там будет курс) монеток? Гои начинают вкидывать реальные деньги. Вам будут рассказывать про огромную капитализацию системы (что такое капитализация, пожалуй, надо будет сделать отдельный пост) и про ее надежность.

5. Основатели забирают часть кеша. Цена падает.

6. Цикл повторяется несколько раз до смерти системы.


А теперь выводы:

Если вы обычный человек, вам это не нужно вообще. Тем более, не нужно вкидывать туда реальные деньги. Потратите часы и дни времени на обезьяний труд и нажретесь рекламы ради призрачной возможности вывести $100. Это время можно провести с гораздо большей пользой, изучая полезные навыки и профессии, которые могут принести вам стабильный доход.

Медийные личности с отсутствующей совестью и репутацией могут попробовать накормить говном свою аудиторию, но тут я никаких советов дать не могу.

Что касается трейдинга этих монет на биржах — это одно большое казино и колоссальная трата вашего нейроресурса. Чтобы вы заработали $1000, нужно чтобы 1000 человек потеряли по $1 (условно). В реальности, соотношение, как правило, еще больше. И тут возникает вопрос: вы уверены, что сможете войти в 0.0001% тех, кто в этом казино выиграет?

Вопросы?


🔴 @reptiloidnaya × #крипта #hamsterkombat #notcoin

Читать полностью…

Метаверсище и ИИще

Подождите-подождите, а почему все молчат?
Udio решила надрать задницу Suno и сделала бомбический image2image, ну то есть audio2audio.
Подаете на вход свои треки, звуки, стуки или свисты. Главное, чтобы были свои - копирайтные он отвергает (но мы знаем как подшаманить).
Он делает свою аранжировку по входному аудио и промпту.
Более того, он делает теперь очень длинное продолжение, в том числе этого вашего аудио-добра. Народ уже кормит ему треки из Суно на 10-20 секунд и просит продолжить. Какой циинизм!
Ну и есть примеры, когда он просто добавляет вокал к клавишной партии - поглядите, там Нора Джонс очень сильно поперхнулась сейчас.
Примеры с басистами (как и анекдоты про басистов) тоже прекрасны. Одинокий басист слэпует у себя дома, а ИИ ему создает всю остальную аранжировку, без всяких издевательств со стороны гитариста и клавишника.
И представьте, все это можно рекурсивно снова и снова подавать на вход. Вместе с любым ИИ-контентом.

Посмотрите 8 очень прикольных примеров использования этого добра:
https://twitter.com/minchoi/status/1798719601490182410

Особенно круто выглядит музыка из игры, пропущенная через Udio.

P.S.
- какая разница между басистом и барабанщиком?
- пол доли.

Читать полностью…

Метаверсище и ИИще

Понял, что когда сажусь работать, больше не лезу в Youtube Music (лучший). А просто открываю https://suno.com/explore и тыкаю в какой-нибудь dark acid jazz и дальше идет отличный фон. Причем у меня нет ощущения, что я слушаю какую-то иную музыку, ну то есть некожаную. Ухо не режет, квадрат держит, вокал чистый. Более того, у меня ощущение, что количество шлака или проходных треков там меньше. Я ничего не проматываю, более того, звучит (очень часто) свежо.
И тут мы вернемся в 60-е, золотой век музыки, когда количество хитов на единицу музыки было в десятки раз больше чем сейчас. Все дело в том, что музыканты писали треки один лучше другого, не экономя шедевры. А потом пришли большие деньги, ушлые продюсеры и циничный капитализм. Было посчитано, что гораздо выгоднее разбить 8 хитов на 4 альбома, по два хита на альбом (открывашка и предпоследний). А остальные треки заполнить серыми проходными песнями. В общем появилось соотношение хит\шлак, и плохой\проходной музыки стало сильно больше.
В общем я слушаю радио Суно и пока там количество проходняка меньше. Иногда в эфир врываются треки на русском (тоже неплохие, кстати), это добавляет неожиданности. Похоже Суно учили на хорошем датасете, а не проходняке.

Читать полностью…

Метаверсище и ИИще

А вот на полторы минуты ролик, такого пожалуй, никто кроме SORA не умеет.

Читать полностью…

Метаверсище и ИИще

Держите роликов из китайской Соры, по-моему отлично. Это вам не Veo от Гугла.
Там, похоже действительно есть понимание физики и свой world model.
Явшоке.
Гляньте на розу.

Читать полностью…

Метаверсище и ИИще

Танцуют все!

Слушайте, мне вот интересно, это у ресерчеров (китайских в основном) такой флешмоб или челлендж?
Все эти AnyAnimate, MusePose, UniAnimate, MuseV и еще десяток работ...
Они бьются друг с другом на задаче с танцующими тянками, и выглядит так, что это какая-то:
- очень важная проблема
- культовая задача, которую все хотят порешать
- какой-то бенчмарк для анимации
- экономически важная технология

Я никак не могу усмотреть ни одного из этих пунктов, но я также не могу усмотреть хоть какого-то приемлемого качества на результатах их коробки.
Я честно пытался сплясать.

Вот держите еще одного плясуна от Алибабского:
https://unianimate.github.io/

Там гордо пишут, что мы умеем крутиться на 360, держать сумочку (как никто кроме Соры), и руки и лица у нас круче чем у MusePose.

Но лица и особенно руки там полный треш.

Поясните мне за ценность всех этих разработок? Это какой-то китайский дэнс Тьюринга?

Читать полностью…

Метаверсище и ИИще

ToonCrafter - огнищще, конечно.
Его уже прикрутили к ComfyUI. Можно запускать локально:
https://github.com/kijai/ComfyUI-DynamiCrafterWrapper
Видеопамяти жрет до хрена - формально 16 гигабайт для 512x326 resolution, народ репортит что 26GB to 30GB in reality
Но посмотрите, как он делает интерполяцию между кадрами. Это же божественно.
Все подробности про ToonCrafter тут.

Читать полностью…

Метаверсище и ИИще

Бывший сотрудник Open AI Леопольд Ашенбреннер опубликовал большой документ (165 страниц) под названием SITUATIONAL AWARENESS (ОСВЕДОМЛЕННОСТЬ О СИТУАЦИИ). Скачать можно здесь, а посмотреть большое 4-часовое интервью Леопольда можно здесь. Я хочу сделать акцент на некоторых аспектах вопроса, который поднимает Ашенбреннер в своей работе. Итак:

✅ Общий искусственный интеллект (AGI) — это ИИ подобный человеческому интеллекту и способный к самообучению, вероятно, появится уже к 2027 году. Переход от AGI к Сверхинтеллекту займет не больше года (переход будет почти мгновенным). Вероятность появления Сверхинтеллекта к 2028 очень высока. По крайней мере на это уйдет вряд ли больше десятилетия.

✅ В Сан-Франциско перешли от $10 миллиардных вычислительных кластеров к $100 миллиардным и даже триллионным кластерам. Каждый шесть месяцев добавляется новый ноль. Это указывает на экспоненциальный рост вычислительных мощностей и ресурсов, необходимых для развития ИИ.

✅ AGI — это будет самый могущественный геополитический ресурс ближайшего будущего. Погоня за ним настолько же важна, как погоня за изобретением ядерного оружия во время Второй Мировой Войны. Никто не будет останавливать разработки в этой области из тех, кто уже включился в эту гонку.

✅ Nvidia, Microsoft, Amazon и Google уже сегодня запланировали суммарных инвестиций в развитие AGI на $100 млрд в квартал. И это, как мы все понимаем, только начало большой гонки.

✅ Объем инвестиций в ИИ к 2030 году ежегодно составит $8 триллионов.

✅ Наибольшую опасность представляет сама возможность появления Сверхинтеллекта, который может выйти из-под контроля человека (что логично). Это может привести к непредсказуемым последствиям, таким как значительное усиление неравенства или даже угроза для человечества.

Читать полностью…

Метаверсище и ИИще

Нейродед в обед.

Часто разбавляю свои выступления интерактивом. Народ с удовольствием занимается любимым делом - неистово тыкать пальцами в телефон. Я кидаю в зал ссылку на Кандинского или Идеограм (быстро и бесплатно), а они кидают в ответ безумные генерации. А я стримлю это на экран. В этот раз усложнил задачу и бахнул конкурс-челлендж: забабахать дедушку-психа, вещающего со сцены про ИИ. Эти мерзавцы справились на отлично. Щас накидаю вариантов. Но Ваня Гавренков, наш фотограф, поймал просто отличный момент. Удивительно, как люди в зале без спец подготовки, быстро осваивают промптинг и умудряются затроллить меня в картинках.

Читать полностью…

Метаверсище и ИИще

Ускорение Stable Diffusion в семь раз?
https://m.youtube.com/watch?v=5KO4BHJSAZk#bottom-sheet
Кому-то удалось поставить TensorRT и получить ацкое ускорение?
Тут выкатили ноды для ComfyUI:
https://github.com/comfyanonymous/ComfyUI_TensorRT
Поглядите плиз.
Ну и у меня не сшивается информация - вроде TensorRT не поддерживает ControlNet. А на видео им щеголяют направо и налево.
А ещё Нвидия советует обновить драйвера и получить ещё больше ускорения в генерация х.

Читать полностью…

Метаверсище и ИИще

Вот держите еще один анимационный ИИ-пайплайн из Sims и палок.

Автор (за 2 дня!) собрал 3Д сцену в Sims 4(!), потом отснял себя в коробке (с крыши сарая, чтобы попасть в изометрию), потом удалил фон в Runway Remove Background, потом нагенерил текстур для пола в Midjourney, приподанимировал их в Runway, скомпозил себя(видео) поверх Sims и на итоге навалил на все это фильтр типа clayanimation в goenhance.ai

Ну что, за Aardman Animation?

Вот тут поглядите на все этапы процесса, познавательно. Особенно разрезание коробки.
https://x.com/0xFramer/status/1797794017251328293

Читать полностью…
Подписаться на канал