cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37789

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Adobe выкатили бету Project Neo.

С его помощью можно в изометрии собрать из 3D объектов сцену, установить нужный ракурс, и потом экспортировать в редактируемом векторном формате или растре.

На втором видео пример, как в Neo делается шаблон, а дальше он вкидывается в Firefly для генерации в разных стилях на его основе.

PS: есть обратный пример — Meimu, где из SVG можно получить 3D.

Сайт

Читать полностью…

Метаверсище и ИИще

Помните в прошлом ноябре я выпивал за йога-инструкторов?

Смышленый малый прикрутил GPT-4 Vision к камере и вопрошал у GPT-4 - чокак я делаю асаны, норм?


Не менее смышленые парни запилили стартап с очень тупой, но эффективной механикой. Хочешь разблочить свой телефон? Упал, отжался!
Чем больше отжался, тем дольше можешь залипать в телефоне.
Огонь.
Он еще и позу распознает. Впору ему еще и корректировать локти и плечи.
Не зря их Ycombinator забейкал.

Качаем тут: https://www.getclearspace.com/
Только для IOS, андроидоведы и так плечистые ребята.

P.S. Ну и вот оно будущее.
Хочешь сладкого? Пробеги километр!
Покурить? Давай пранаяму на 20 минут!
Прибухнуть? Чистка печени, фотки в студию.
Пыхнуть? Покажи рецепт, норкоман.

Иначе никакого телефона и понижение социального рейтинга. Большой ИИ следит за тобой.

Читать полностью…

Метаверсище и ИИще

4K60FPS
На длинных выходных продолжу длинные рассуждения про насмотренность, картинку и попадание в ожидания зрителя.
Вынесу из коментов вот такую цитату от Михаила Н.,
"Приведу ещё одну аналогию: современные объективы умеют без виньеток, хроматических аберраций и засветов на линзах. Но в кино всё это есть, и есть специальные плагины для генерации этих, на самом деле, дефектов (например, зерна, идентичного плёночному). Потому, что зритель к ним привык, наша насмотренность предполагает, что киношная картинка — она вот такая. В играх уже не так. Меня, например, высаживает отсутствие моушнблюр и FPS сильно больше 24-х, но это меня. Для геймеров это привычно. Ну, а для тиктокеров будет привычным нейровидео. Но и то и другое и третье — одинаково далеко от реальности. Кстати, и картинка у нас в мозгу тоже".

Тут ключевое "далеко от реальности". Оставим за рамками вопросы солипсизма и подтвержденного существования той самой реальной реальности, и сосредоточимся на "моде на реальность" или "стандартов реальности".

Я уже подробно написал об этом тут:
"И вот ты нарулил гениальную симуляцию волны, убил небольшую часть жизни и большую часть здоровья, получилось просто бомба. Идешь такой гордый, показываешь режиссеру.
...
А он такой - отлично, только можно, чтобы это было похоже на рой пчел?!"


Режиссерам (мамкиным и взрослым) совершено наплевать на вашу "физическую корректность". Им надо воздействовать на зрителя, вызывать эмоции.

Кроме того есть вот эти вот "стандарты картинки" (зерно, блюр, см выше).

Смотрите, еще в 1978 году прогрессивные режиссеры сказали, а давайте будем снимать не 24 кадра в секунду (отстой же древний), а в 60fps (ну или 48 на худой конец). Гораздо позже Камерон с Джексоном тоже экспериментировали с фреймрейтом.
https://en.wikipedia.org/wiki/List_of_films_with_high_frame_rates
Вроде как должно быть все более гладко, чотенько и красиво.

А зритель посмотрел и такой: "это что за съемка на бетакам? шозадешовая картинка?!".

В общем не пошло. Просто зритель привык к своему кино с диким зерном, жутким блюром и глубиной резкости и чтобы что-то изменилось, в кино должны прийти поколения, выросшие на других картинках. И я не ворчу, как меня обвиняют в коментах, я констатирую факт.

И да, когда я смотрю на видосы в 4K60fps они мне кажутся пластиковыми. Я просто древний, и глаз мамонта привык к PAL/SECAM.

А пока мы лепим флэры, аберрации, зерно, туда где их нет, чтобы сделать зрителю "привычно". Хотя в реальности и в наших глазках они не предусмотрены.

И мне интересно, что будет лепить на картинку ИИ, чтобы картинка безоговорочно нравилась кожаным зрителям (с учетом возраста и содержания телефона).

Читать полностью…

Метаверсище и ИИще

Ну за кожаные видеоклипы. Ну почти...

Чтобы создавать видео к музыкальным композициям из предыдущего поста, нам точно нужны опенсорсные модели с полным отсутствием цензуры (ну и в целом современные музыкальные клипы явно содержат в себе контент, который не пропустит ни один закрытый облачный генератор видео)

А пока смотрим на как бы первый музыкальный клип от Пола Трилло, сделанный в Сора.
Мне клип понравился своим стартом, но сильно утомил после первой минуты. Один прием на весь клип - это слишком минималистично.
Оказывается автор рассказывал идею бесконечного масштабирования времени, следящего за молодой парой на протяжении четырех десятилетий. Я не считал историю.

Но нам же интересны технические подробности, поэтому идем сюда и читаем:
Было создано 700 клипов, а использовано около 55 или 56 из них.
Около 10% сгенеренного материала действительно вошло в финальное видео.
Генерация с помощью Sora может занять от 15 минут до часа, в зависимости от продолжительности ваших клипов и размера разрешения. И самое главное - загрузки серверов.
Пол говорит, что не делал постпродакшена, но угрохал уйму времени на монтаж и отбор материала. Он также выдвигает идею, что вот у вас есть бюджет и сроки, и вы его тупо выберете полностью, просто заполняя освободившееся время экспериментами. Некий аналог закона Джима Блинна.

Ну и самое главное для нас, время производства - шесть недель.

Гораздо больше подробностей про Сору у меня в посте про AirHead, у Майка были гораздо лучше вопросы, почитайте.
https://vimeo.com/941713443

Читать полностью…

Метаверсище и ИИще

Тут Антропик наконец выкатил мобильное приложение для Клода.
Только iOS (мерзавцы).
Также анонсировали Team Plan - за 30 баксов доступ для пяти человек одновременно с общими чатами и обменом информацией внутри такой команды.
В приложении нет голосового ввода, это прям минус. Нельзя ехать в машине и вести с ним разговоры о судьбах мира.
Подробнее тут:
https://www.anthropic.com/news/team-plan-and-ios

Читать полностью…

Метаверсище и ИИще

Сравнил восемь image-to-3d нейронок на картинках, сгенерированных в Dall-E.

1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian

Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.

У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.

3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.

Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.

Читать полностью…

Метаверсище и ИИще

Огненная анимация с помощью weight scheduling, ControlNet и IPAdapter

Неделю назад отложил себе вот такой убойный ролик от Matt3o на запостить, но мой ИИ не дремлет, вчера притащил мне ютюбчик, где рассказано, как такие штуки делать (новостная гугл лента хорошо надрессирована годами).

Я долго рассматривал эту анимацию. Понимаю, что меня как-то крячит, глаз норм, а мозг орет, что что-то неправильно. В общем смотрите на ухо.
Но прогресс конечно потрясающий. Отрисовать поворачивающуюся голову в разных фазах - одно их самых сложный упражнений для кожаных художественных студентов. А ИИ учится очень быстро.

Там правда ацкий комбайн из ComfyUI и еще десяточки приблуд. Смотрите на свой страх и риск.

https://www.youtube.com/watch?v=jc65n-viEEU

Читать полностью…

Метаверсище и ИИще

Подборка демоспейсов для редактирования изображений

#imageediting

Читать полностью…

Метаверсище и ИИще

Web-Midjourney Alpha

Те, кто неистово генерят картинки в Midjourney начали получать доступ в Веб-интерфейс. Там не только генерилка, а будущая социальная сеть. И все эти адовые флаги в дискорде вынесены в рульки и педальки. А еще там есть Rooms для совместных генераций. ИИ оргии в общем.
Кто добрался до веб-версии, пишите свои ощущения в коменты. Сюда покидаю скринов (спасибо, Дима).

Интересно, что они упоролись по пальцам настолько, что иногда там проглядывают отпечатки пальцев на коже. Интересно их было бы их пошазамить пробить по базе. Вдруг найдется, наконец, этот ИИ-мерзавец, который заставляет нас постоянно выпивать за уходящие профессии.

Читать полностью…

Метаверсище и ИИще

GPT-4 - самая тупая модель, которую кому-либо из вас когда-либо придется использовать снова.

"GPT-4 is the dumbest model any of you will ever ever have to use again, by a lot."

Сама, два вопроса:

1. За что мы платим 20 баксов в месяц?
2. Где нетупая модель?

https://twitter.com/smokeawayyy/status/1785899419076112761

Читать полностью…

Метаверсище и ИИще

Вышла llama-3-8b с контекстным окном в 1 миллион токенов.
И это можно запускать локально у себя на компе. Клод с своими 200К нервно закуривает в облаке.
Куда катится мир!
Посмотрите, пожалуйста, в следующем посте, что теперь можно вытворять с таким контекстом.
https://www.reddit.com/r/singularity/comments/1cgsmqt/you_can_use_llama3_8b_with_1_million_tokens/

Читать полностью…

Метаверсище и ИИще

Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4 🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше 🤷‍♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.

Читать полностью…

Метаверсище и ИИще

Помните как год назад Уиилл Смиит ел спагетти?
Была также версия с пиццей, год назад.
А теперь оцените прогресс за год в ИИ-поедании пиццы (слева и справа).
Свежая версия подъехала на реддит:
https://www.reddit.com/r/aivideo/s/ACvEQqafVz

Прогресс, конечно, не как в картинках, а Сору нам только в мечтах показывают.

Где это сделано ищите по логотипу вверху справа. Смотреть со звуком. ИИмоции у него на лице - огонь, конечно.

Сора, выходи из внутреннего тестирования! Иначе наркоманские видео заполнят интернет и проникнут в датасеты.

Короче, подписчики предлагают измерять прогресс в ИИ-видео в вилсмитах. Год назад было 0.1, щас где-то 0.4 вилсмита.
Когда начнет пиццей в рот попадать с первого раза будет 0.8 вилсмитов.

Читать полностью…

Метаверсище и ИИще

Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно:

Читать полностью…

Метаверсище и ИИще

Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!

Читать полностью…

Метаверсище и ИИще

Бесплатный ИИ-ассистент с голосовым вводом и любой LLM на айфоне.

Для Siri есть такая приблуда как Shortcuts
https://apps.apple.com/us/app/shortcuts/id915249334
Чувак забирает с помощью нее голос, пробрасывает его в облако, где крутится Cloudflare Worker, который в свою очередь быстро пользует llama-3, для ответа на вопросы.
Получается бесплатный chatGPT.
Вместо Ламы может быть любая открытая модель.
Собрано за час на коленке.
И выложено в сеть, на Гитхаб.
https://github.com/Sh4yy/personal-ai
Я не знаю, какой там у него интернет, но скорость ответа поражает.

Хотите узнать как прикрутить к часам, почитайте тут (для гиков).
https://twitter.com/_overment/status/1787414915432460442

Читать полностью…

Метаверсище и ИИще

Слушайте, а у кого-то еще есть AMD-видео-карты?
Понятно, что в ноутбуках они могли достаться вам "довеском".
Но вот так, чтобы осознанный выбор при покупке?

В первом квартале 2024 года AMD зарегистрировала существенное падение доходов от игровых продуктов на 48%.

Операционная прибыль от видеочипов составила $151 млн, что значительно меньше, чем $314 млн, полученных годом ранее.

Генерация картинок и видео на видеокартах AMD - это квест с бубнами и непонятной производительностью.

Проект ZLUDA перестал получать поддержку АМД и опенсорснулся.

Зато с обычными процессорами все хорошо.
Выручка подразделения ЦОД подскочила на 80% до $2,3 млрд.

https://www.computerra.ru/296881/vyruchka-amd-ot-prodazhi-videochipov-upala-na-48/

Читать полностью…

Метаверсище и ИИще

Джим Блинн, мозг и кино.

Коль скоро помянул закон Джима Блинна (того самого чьим именем назван шейдер Blinn) в прошлом посте, расскажу, что это такое.

Если кратко: Время рендера одного кадра не меняется со временем и не зависит от текущего развития софта железа.

Подробнее: время просчета одного кадра графики для кино не зависит от технического оснащения студии – оно определяется сроками сдачи проекта. Если, например, время рендеринга кадра превысит условные 10 минут, то весь материал не успеет просчитаться. Проще говоря, чтобы обработать всю красоту, железа всегда будет мало (сколько бы его ни было): графика слишком сложная, и это всегда компромисс между замыслом и дедлайном. Поэтому каждый год эффекты становятся все сложнее и, скажем так, выразительнее.

В первой "Корпорации Монстров" от Pixar у Салливана было 2 миллиона волос(кривых).
В четвертой «Истории игрушек» были кадры с шестью миллиардами листьев и триллионом сосновых иголок.

Понятно, что никаких железок никогда не хватит, чтобы отрендерить всю нашу вселенную. С рейтрейсингом и каустиками.

И тут мне приходит в голову не очень умная, но красивая аналогия.

Никаких железок не хватит, чтобы обсчитать модель мозга, со всеми этими триллионами нейросвязей. В лоб.

Но ИИ прекрасно симулирует мышление, не имея никакой модели мозга. Он симулирует процесс, а не работу мозга.

Также SORA генерит видосы с тенями, отражениями, sub surface scuttering и даже каустиками, не имея ни малейшего понятия про индекс преломления, радиосити, pathtracing или антиалиасинг. У нее есть world model, и она не имеет ничего общего с мозгом с устройством рейтрейсинга и оптики в целом.

Вопрос в том, какая картинка нас "устроит".
И тут начинается другая тема о том, что поколение подрастающее на ТикТоковской картинке, скоро начнет снимать кино. И насмотренность у них совсем иная (не на кино) и картинка тоже будет иная. И возможно их устроит картинка от ИИ. Он же обучен на тиктоках...

Читать полностью…

Метаверсище и ИИще

Рендер или видео. Точнее Лейбл или Suno.

Принес вам убойный материал, чтобы почитать, а главное послушать на выходных. Ну и если у вас норм с английским и чувством умора - чтобы сдохнуть от смеха.

В апреле Ютюбчик с завидным упорством стал рекомендовать в северной америке (и не только) винтажное видео в духе 50-х под названием (держитесь): I Glued My Balls to My Butthole Again (Я снова приклеил свои яйца к заднице). Дальше я не буду переводить названия, ибо даже толерантный телеграм меня забанит.
Для начала быстро послушайте:
https://www.youtube.com/watch?v=yuoFsi2iIi0

Звучит идеально. Но тексты мне вспороли неокортекс, и я полез ресерчить. И нашел очередную кроличью нору.
Итак, был обнаружен музыкальный бренд Obscurest Vinyl. Причем с полным фаршем под капотом. Аккаунты во всех соц сетях, гуглинг артистов выводит на музыкальные сервисы типа last.fm, где это лейбл представлен. Потрясающие аутентичные обложки. В общем все как у людей. Идеальное попадание в саунд 50-х.
Ну а теперь посмотрим на названия композиций и послушаем тексты:
My Arms Are Just Fuckin' Stuck Like This
Ain’t That a Kick in the Cunt
You Look like You Could Use a Fucking Lamp
It's Raining Bullshit

И зацените обложки!!!

В общем это дико смешно, особенно под музыку, дико грубо, неполиткорректно, туалетно и жоско. Но когда это в ангельском винтажном исполнении - это просто иезуитски смешно.

В общем я почуял ии и пошел ресерчить (кому лень читать, да это Suno)
Сначала вышел на Fiverr, где дизайнер Glenn R показывал свои обложки прям с этих композиций.
https://www.fiverr.com/obscurestvinyl
Потом обнаружил интервью годовой давности с ним, именно про обложки, и ничего про музыку:
https://blog.threadless.com/obscurest-vinyl-reveals-the-secrets-behind-the-greatest-records-youve-never-heard/

Ну а дальше пришлось перерыть твитторы и реддиты, чтобы раскопать, как Гленн Робинсон провернул все это.

Он графический дизайнер. Перерабатывая старые фотографии и рекламные объявления неизвестно каких времен, он какбытипа творчески переосмысливает прошлое, создавая винтажные обложки для альбомов самых ацких музыкальных групп, которые никогда не существовали. Его абсурдные картинки и названия принесли ему более ста тысяч подписчиков и представлены в его магазине Threadless Artist Shop.

А потом он увидел Suno!

А теперь подробности:

В то время как музыка генерируется ИИ, тексты - нет. Он сам пишет 100% текстов, а для создания музыки использует Suno, потому что не знает ничего о теории музыки и не умеет пользоваться DAW.

Ни одна из иллюстраций к песням не сгенерирована искусственным интеллектом. Они на 100% нарисованы им вручную. Он использует старые фотографии из книг, журналов и интернета в качестве вдохновения для обложек своих альбомов.

Он использует Suno, однако не раскрывает секрет того, как ему удается преодолеть цензуру на нецензурщину (поскольку не хочет, чтобы разработчики Suno могли легко исправить это).

А теперь вишенка на торте - Шазам прекрасно распознает все эти ИИ-пестни и ведет нас за ручку в ютюбчик. Круг замкнулся. ИИ пишет песни, ИИ их распознает, ИИ их рекомендует.
(Ждем когда опенсорсные нецензурированные модели начатся писать стихи такого уровня).
В общем послушайте, это феерично. Вот вам ссылок:
ObscurestVinyl" rel="nofollow">https://www.youtube.com/@ObscurestVinyl
https://www.reddit.com/r/ObscurestVinyl/
https://www.instagram.com/obscurestvinyl
obscurestvinyl" rel="nofollow">https://www.tiktok.com/@obscurestvinyl

И оцените охваты. Всем веселых выходных.

Читать полностью…

Метаверсище и ИИще

​​Пока что технология image-to-3d находится в зачаточном состоянии и напоминает результаты, которые выдавали первые версии stable diffusion. Реконструкции поддаются только сравнительно простые изображения монолитных предметов.

Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.

Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.

P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.

Читать полностью…

Метаверсище и ИИще

Сладкий 3Д-сток

Возможно кому-то пригодится, 1127 чистых, ИИ-немодифицированных 3Д-моделей с идеальной топологией и развертками. Может кто-то захочет потренировать свой ИИ на нормальных ассетах (маловато конечно), а не на месиве из Objaverse.
Это BaseMesh обновился, сменил хостинг и запилил новый движок.
Хорошая навигация, вьюер и категоризатор.
А мы продолжим за 3Д и ИИ в следующем посте, где будет сравнение восьми(!) image-to-3d нейронок на картинках, сгенерированных в DALL·E 3.

https://www.thebasemesh.com/model-library

Читать полностью…

Метаверсище и ИИще

Улучшения в генераторе музыки Udio:

* Модель теперь может держать голове контекст 2 минут трека вместо 30 секунд ранее. А значит структурно композиции будут более консистентными и не терять нить на 3-ей минуте.

* Генерить можно до 15 минут, что подойдёт для прог-рока, эмбиента, гоа-транса, или даже подкастов.

* Чтобы не заблудиться ответвлениях, генерируемые варианты теперь сгруппированы в дерево: видно где дочерний трек, а где родительский.

* И наконец-то можно выделить конкретный кусок композиции, на основе которого нужно расширить трек, а ненужное вырезать.

Всем накинули 200 кредитов.

Погнали генерить музыку!
Подробнее про Udio

Читать полностью…

Метаверсище и ИИще

Ну, за комиксы!
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Поначалу выглядит просто бомбоносно. Особенно видосики с медведём и тетенькой из Соры. Но если приглядеться, то количество пуговиц меняется, волосы перекрашиваются и всякатака мелочь вылезает.

Я уже побежал к большому бару, выпивать за аниматоров (медведь хорош), но остановился в маленькой рюмочной, чтобы накатить за комиксы. Ибо для комиксов вот эта вот консистентность уже вполне себе работает и можно генерить персонажей по референсам, которые будут сохранять похожесть. Поглядите примеры на сайте для комиксов, это круто. А с видео, как обычно, есть вопросы (и да, надо написать про VIDU).

Ну и как обычно бесит китайская непосредственность: не то, что кода или демо нет, нет даже статьи на архивчике. Есть просто сайтик с веселыми картинками. Ну и это команда Тиктокченко. От них кода не дождешься.
Смотрим примеры и ловим блох тут:
https://storydiffusion.github.io/
Думаем, как пристроить к раскадровкам.

Читать полностью…

Метаверсище и ИИще

Unity 6 наперевес с ИИ в виде Sentis.

https://blog.unity.com/engine-platform/unity-6-preview-release

В шестерку напихали много чего, но нас ведь интересуют ИИ-фишки прежде всего.

Если вкратце, то теперь вы можете брать модели с Hugging Face, ужимать их и присовывать в свои проекты. Чтобы они крутились локально, могли взаимодействовать друг с другом, управлять персонажами, распознавать картинки и пр.

Я стал переводить и понял, что по английски звучит понятнее, вот держите:

The Unity 6 Preview ships with Unity Sentis, a neural engine for integrating AI models into the runtime. Sentis makes new AI-powered features possible, like object recognition, smart NPCs, graphics optimizations, and more.

We now support AI model weight quantization (FP16 or UINT8) in the Unity Editor if you want to reduce your model size by up to 75%. Model scheduling speed was also improved by 2x, along with reduced memory leaks and garbage collection. Lastly, we now support even more ONNX operators.

Now you can instantly find “grab and go” AI models for Unity Sentis from Hugging Face to ensure easy integration. We introduced a new Functional API that helps to build, edit, and chain AI models.

Ждем ответочки от Эпика.

И кстати, Mattew Bromberg, former EA and Zynga Executive назначен новым CEO Unity.
https://youtu.be/SExCOuTggCQ?t=1005

Читать полностью…

Метаверсище и ИИще

Новое обновление про полезные локальные модели:
Вчера вышла версия llama-3-8b с контекстным окном в 1 миллион токенов (!). Это значит, что задачи анализа большого количества текста можно теперь делать локально (точно на английском, с другими языками я это не тестил), до этого я ходил в Claude 3 Opus 200k.

Зачем это нужно?
Расскажу на живом примере: мы готовим новый продукт к анонсу, это что-то вроде AI фото студии но на вход мы берем всего одно фото пользователя, не 10-20; что сильно дешевле чем файнтюн модели дримбудкой, а значит, мы можем снизить цену на продукт для юзеров.

У продукта уже есть конкуренты — это классно, потому что это значит, что в нише есть выручка. Конкуренты уже успели обрасти органическим трафиком – это мы и учитываем при запуске нового продукта:
Я выгрузил из SEO анализатора органический трафик по которому находят наших конкурентов в гугле, скормил все это в контекстное окно как часть промпта и запросил у LLM популярные стили генераций, по которым пользователи ищут наших конкурентов.

В итоге, на запуске, мы получили топ-10 стилей которые точно востребованы в интернете.

Ради теста я сравнил результаты своего анализа между Claude 3 Opus 200k и Llama-3-8B-Instruct-Gradient-1048k, и могу сказать что локальная модель отлично справилась для своего размера и действительно смогла написать важные стили, похожие на то что выдал Opus. Так что теперь вы можете делать анализ больших корпусов текста дома.

Сама модель тут (gguf версия для адептов llama.cpp)

P.S. Для этой задачи важно ставить температуру 0, а то напридумывает деталей моделька. Указывая контекстное окно в 100k+ будьте готовы что памяти компа вам не хватит.

P.P.S. Как водится, делюсь промптом который специально собрал для llama3 формат под эту задачу, там видно куда нужно поместить большой объем текста.

#пропродукт

Читать полностью…

Метаверсище и ИИще

ИИ для харкорных композеров.

Как обработать группу снимков одним щелчком мыши, как автоматически маскировать, отслеживать объекты, автоматически нажимать клавишу, автоматически применять удаление. Как применять различные модели машинного обучения и как создавать новые модели, адаптированные к вашему материалу.

Все это на русском с подробными объяснениями от Влада Ахтырского. В начале хороший ностальгический проброс в Ванкувер 2018, где мы с Владом отжигали на Сигграфе. До ковида, войны и вот этого вот всего.

Для тех, кто шарить за взрослый композ и знает, что такое деспил.

И да, это та сама кнопка "Сделать Всё" в виде системы Junior.
https://www.youtube.com/watch?v=YRktwxF6CPU

Ну, за джунов.

Читать полностью…

Метаверсище и ИИще

Умельцы из твиттера сделали инфографику о том, как топ ChatBot Arena менялся за последний год.

Чат-гпт все ещё держится, но ей дышать в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве.

Что такое ChatBot Arena – тут.

@ai_newz

Читать полностью…

Метаверсище и ИИще

Учите программирование в любом возрасте.

Я
тут порылся в сохраненном и неопубликованном и нашел ответ на вопрос из поста выше.
Похоже, что для того, чтобы было меньше таких заголовков из последнего поста, надо учить кожаных программированию (в любом возрасте).
Есть вот такая работа:
Если LLM - волшебник, то код - волшебная палочка: Обзор того, как код позволяет большим языковым моделям служить в качестве интеллектуальных агентов

Вывод такой: если замешивать в обучение не только "обычные" тексты, но и большое количество кода, то модель точно становится умнее и приобретает навыки критического мышления и декомпозиции задач. Последнее очень важно для медленного "размышления" в отличие от быстрых принятия решений.

Если подробнее, то:
Включение кода в датасеты повышает навыки программирования у моделей, позволяя им писать код на нескольких(!) языках. Тут вроде банально, но с разными языками очень круто.

Структурные ответы: генерировация контента с помощью жестко-структурированных данных, таких как HTML или таблицы. Тут тоже предсказуемо. Но глядя на то как некоторые кожаные мычат, пытаясь сформулировать простые мысли, хочется послать их на курсы бейсика.

Дальше интереснее, обученные на добавленном коде LLM демонстрируют навыки сложного рассуждения и тех самых chain of thoughts. Декомпозиция и размышление.

Авторы предполагают, что такие LLM легче превращаются в продвинутых интеллектуальных агентов, способных принимать решения и самостоятельно решать задачи.

Я понял, что написал какой-то рекламный проеспект курсов по программированию:

Учите программирование (сами и с детьми) и вы:
будете умнее
получите скилл критического мышления и сопоставления фактов
научитесь не мычать, а внятно излагать свои мысли
приобретете способность делать речерч в своей кожаной голове, а не только реагировать на тиктоки

И все это просто подмешав немного кода в вашу кожаную голову.

Маркетологи забирайте, дорого!

Сама работат вот тут:
https://openreview.net/pdf?id=8dmNOD9hbq

Читать полностью…

Метаверсище и ИИще

Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4

Читать полностью…

Метаверсище и ИИще

Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.

Читать полностью…
Подписаться на канал