Telegram-канал cgevent - Метаверсище и ИИще: Неотсортированное - каталог телеграмм

cgevent | Неотсортированное

Подписаться на канал

Telegram-канал cgevent - Метаверсище и ИИще

37799

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

16 февраля 2025 15:02

A - Alignment.

Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.

Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.

Ждём-с.

O - Offtop по выходным

@cgevent

Читать полностью…

Метаверсище и ИИще

12 февраля 2025 11:08

Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent

Читать полностью…

Метаверсище и ИИще

10 февраля 2025 21:52

Опенсорсные генераторы. Deep Research

В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.

Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.

Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).

Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.

Получил (с графиком однако) вот такое:

Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.

В принципе неплохо.

В следующем посте подробный ресерч(он огромный) и диванные мысли.

@cgevent

Читать полностью…

Метаверсище и ИИще

07 февраля 2025 17:19

Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?

Читать полностью…

Метаверсище и ИИще

03 февраля 2025 16:02

Вернемся к раскрытию темы. Доброго и вечного.

Тут вот в коментах подписчики переполошились - похоже в Midjourney сильно ослабили фильтры на nsfw. Случилось это в январе. Привели убедительные доказательства.

Слухи о том, что Midjourney смотрит в эту сторону были еще летом, я писал об этом в описании одного из office hours.

Я решил фактчекнуть, пошерстил реддит. Да, есть такое дело и даже рецепты типа:
Use v 6.1
Put “curvy” somewhere in the middle of a prompt.

Пошерстил твиттор. Да, январские картинки там веселые.

Я не думаю, что там прям подшаманили модель, скорее подкрутили фильты, которые определяют "приличность" результата, а не промпта.

Подсобрал пруфов. Видно, что модель слегка портит анатомию (не обучена), но старается.

Пример промпта к зеленым женщинам из коментов:

a female orc, green skin, shaman RPG class, very beautiful, big elf-style ears, Japanese anime style --style raw --profile l8ywof7 --stylize 1000 --ar 3:4

Читать полностью…

Метаверсище и ИИще

31 января 2025 14:00

Основатели AI-стартапов здесь? Пост специально для вас

Сейчас AI явно проживает «золотую эру», но запустить успешный AI-продукт с нуля, чтобы клиенты за него платили, а инвесторы дали денег — задачка со звёздочкой. Фаундер натыкается на кучу вопросов:

▪️Где найти инвестора?
▪️Как подготовить питч-дек стартапа?
▪️Мой AI-продукт в глазах инвестора «вау» или «так себе»?
▪️Как вообще вывести продукт на рынок и собрать первую команду?

Андрей Резинкин отвечает на эти вопросы в канале Money For Startup. Андрей — ранний инвестор в AI-стартапах XOR, AiTOMATIC, InTone и др. и рассказывает про стартапы с точки зрения инвестора. А это взгляд, которого часто не хватает фаундеру.

Начните с гайда для фаундеров:

👉 Что нужно знать фаундеру на каждом этапе развития стартапа?

Каждый пост Андрея - пошаговый план действий для тех, кто рискнул начать AI-стартап или всё мечтает об этом.

Подписывайтесь, чтобы увидеть свой проект с позиции инвестора и прокачать свой стартап.

#промо

Читать полностью…

Метаверсище и ИИще

31 января 2025 12:09

RiffDiffusion - песка почти нет, звучит чуть суховато, но надо колдовать в промптом, интересная стереобаза, кстати.

intense folk, blues, new orleans, soulful blues, soul, New Orleans voodoo, Cinematic soulful blues, R&B, ethereal chants, raspy male blues singer, vocal powerhouse, haunting cello, gospel backing choir, mystical percussion, upright bass, resonator guitar

На сайте все подряд, а вот в твитторе RiffDiffusion прям пользовательские черрипики
https://x.com/riffusionai/status/1884984944382099649

"Мы делаем этот инструмент бесплатным до тех пор, пока живы наши графические процессоры."

Звучит как план!!

@cgevent

Читать полностью…

Метаверсище и ИИще

28 января 2025 18:55

OpenAI потихоньку переобувается GosuslugiAI.

Сегодня мы объявляем о выпуске ChatGPT Gov, новой адаптированной версии ChatGPT, предназначенной для предоставления государственным учреждениям США дополнительного доступа к пограничным моделям OpenAI.

Агентства могут развернуть ChatGPT Gov в своем собственном коммерческом облаке Microsoft Azure или в облаке Azure Government поверх сервиса OpenAI Microsoft Azure (открывается в новом окне). Самостоятельное размещение ChatGPT Gov позволяет агентствам легче управлять собственными требованиями к безопасности, конфиденциальности и соответствию нормативным требованиям.

https://openai.com/global-affairs/introducing-chatgpt-gov/

@cgevent

Читать полностью…

Метаверсище и ИИще

26 января 2025 18:42

Вы будете смеяться, но у нас новый генератор видео (и картинок).

И это не китайские интерны, это .. китайские слоняры!

Алибаба сделала свой Qwen Chat и теперь там не только тексты, но и генерация картинок (как в chatGPT, Mistral LeChat, Gemini), более того, там же есть генерация видосов!

Бесплатно (лимиты пока не знаю), логин Гуглом возможен, генерит видео в 5 секунд.

Более того, там несколько моделей, среди которых опенсорсная Qwen2.5-1M с контекстом в Один Миллион токенов.

Мне все это отчаянно нравится - если каждый чат будет иметь теперь картинко- и видео-гегератор, я только за!

Ждём ответок от остальных.

https://chat.qwenlm.ai/

Пойду помучаю с телефона, не дают в выходные подетокситься.

@cgevent

Читать полностью…

Метаверсище и ИИще

24 января 2025 13:26

OpenAI: AGI близко, Оператор скоро заменит кожаных бездельников.

Кожаные: дайте два! мы будем генерить в два раза больше мемов (за 2х200 долларов в месяц)!

Сэм: доктор, у меня суицидальные мысли.

@cgevent

Читать полностью…

Метаверсище и ИИще

23 января 2025 12:51

Ну, за Холивуд.

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.

Прошло 7 лет.

И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:

"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."

Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.

А потом берут Юнити и визуализируют это!!!

В принципе остается подать это в video2video и кино готово!

Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.

Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.

Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.

https://filmagent.github.io/

@cgevent

Читать полностью…

Метаверсище и ИИще

20 января 2025 11:19

Еще немного рубрики крутые подписчики.

Мне нравятся такие эксперименты. В принципе это похоже на классическое кожаное обучение - берем чью-то работу в 3Д или в концепте и просто воспроизводим ее.

Тут еще интереснее, @Ambition_AI сделали с нуля копию существующего и снятого на камеру рекламного ролика с помощью видеогенерации. Хороший способ проверить, можно ли генерить рекламу с помощью ИИ и посчитать расходы.

За референс взяли ролик авиасейлс "самурай". По нему сгенерировали общую сцену (промпт по визуалу из оригинального ролика), затем с помощью ранвея и его контроля камеры достали второй ракурс, который подходит на шот из ролика. Апскейл во флюксе и магнифике, перегоны и связка редукс + филл позволили добиться аутентичности персонажа и чуть чуть уйти от "ИИшности" лица. Анимация шотов в Клинг 1.6.

Такие упражнения полезны тем, что ты вынужден решать задачу попадания в рамки тех задания, а не просто восторженно или угрюмо наблюдать, куда вывезет непредсказуемая креативность видеогенератора.

Те, кто смотрят сериалы с переводом, быстро узнАют ролик. Чтобы сэкономить вам время в поисках статистического попугая, намекну, что ИИ лихо скреативил маски, которые 4 года назад мы надевали в самолетах. Все помнит, засранец. А мы-то уже и забыли.

@cgevent

Читать полностью…

Метаверсище и ИИще

16 января 2025 12:54

К вопросу о том, где мы были полтора года назад

Сравнение Runway GEN2 и Google Veo 2.

Добавить тут нечего. Кроме вопроса: где бы будем в конце 2026?

Скрал у Саши

@cgevent

Читать полностью…

Метаверсище и ИИще

14 января 2025 17:18

Ого, кто-то прикрутил ИИ к Unreal Engine.

Создание ассетов и сцен промптами.
Редактирование сцен промптами.
Blueprint assistant с рекомендациями, оптимизациями и даже natural language graph creation

Ludus.Blueprint is our AI-powered Blueprint assistant that helps with node suggestions, optimization recommendations, and natural language graph creation. Ludus.Chat enables text-to-scene conversion, allowing you to create and modify scenes using natural language commands.

На бесплатном плане только чат с документацией.

Enterprise customers get additional access to project-specific customizations and self-hosted solutions.

А еще у них планируется ассистент кода - Allow AI do the heavy lifting in your code development with our AI finetuned for Unreal Engine's C++ standard. Project-aware code generation, autocomplete, and multi-file editing. Available as an in-engine plugin and in your favorite IDE!

На первый взгляд выглядит как Cursor для UE5. Ну или UE для чайников.

Но никаких подробностей про LLM внутри я не нашел.

Странный проект.

https://ludusengine.com/

@cgevent

Читать полностью…

Метаверсище и ИИще

12 января 2025 09:31

Tripo3D: обновили интерфейс своего 3D генератора и сделали его более удобным.

Теперь можно контролировать количество полигонов (Face Limit) в настройках генерации, для баланса между качеством и скоростью.

На вход можно подавать как текст (который можно улучшить), так и одну картинку или множество изображений.

Сайт — сгенерите первую модель получите 300 кредитов. Или вот код: USR9E6

Читать полностью…

Метаверсище и ИИще

15 февраля 2025 22:52

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP

Читать полностью…

Метаверсище и ИИще

10 февраля 2025 22:42

Видеогенераторы опенсорсныя. Конец видеомарафона желаний.

Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.

Первое место. Хуньянь.

Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.

Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.

Второе место. LTXV.

Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.

Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.

На этом все.

Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.

Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.

@cgevent

Читать полностью…

Метаверсище и ИИще

10 февраля 2025 10:56

Дальше слово Антону:

В поисках лучшего img2video AI-генератора для продакшена я потратил кучу времени и денег, чтобы разобраться, какой сервис мне подходит.

Главные критерии поиска:

1. Качество. Сюда я включаю не только качество получаемого видео и анимации, но и консистентность. Генератор не должен менять или преобразовывать начальный исходный кадр, а также стремиться сохранить форму объекта/персонажа. Это критически важно, так как ограничение в 5–10 секунд можно преодолеть, добавляя последний кадр сгенерированного видео в первый нового.

2. Контроль. Сюда я включаю послушность сервиса, его способность подчиняться промпту, а также все дополнительные инструменты, предлагаемые сервисом, такие как Frame by Frame, Blend и т.п.

3. Цена. Тут всё очевидно: чем доступнее инструмент, тем выше оценка.

Для эксперимента я сделал по 10 генераций в каждом сервисе с одинаковым промптом. Проверял как бесплатные (кроме SORA — там нет бесплатной версии), так и подписочные инструменты.

ТОП-3 AI-генераторов для продакшена:

🥇 1 МЕСТО. Kling.AI 1.5 и 1.6 — безоговорочный лидер среди img2video.
Это единственный сервис, где не пришлось выбирать из 10 версий. Уже с первого рендера версия 1.6 идеально справилась с задачей. В нём есть всё, что нужно для создания крутого реалистичного контента, но если вы занимаетесь 2D анимацией, тогда...

🥈2 МЕСТО. Minimax/Hailuo — хороший, но не без недостатков.
Этот генератор перегоняет кадр через свой Img2Img, что слегка меняет исходные лица и объекты. А это делает невозможными*невидимые склейки при монтаже. Подойдёт, если ваш шот не больше 10 секунд. Сервис, безусловно, хорош в text2video, неплохо подчиняется промптам камеры и лучше Kling.AI в 2D-анимациях, что дало ему "народную любовь". Но для фотореалистичного продакшена подходит плохо из-за плохой консистентности.

🥉 3 МЕСТО. SORA— могучий, ужасный, но уже не безнадёжный.
Когда появился SORA, он стал главным разочарованием AI-видеомейкеров: дорогой, тупой, с отстающим качеством и неработающим контролем.

Но за пару месяцев его значительно подтянули. В генерациях он всё ещё хуже Kling.AI или Minimax, но у него есть неплохой img2video и уникальные инструменты контроля, позволяющие апскейлить и улучшать видео инструментом remix с разным шагом влияния. То есть можно сделать основу в том же Kling.AI, а затем допиливать в SORA, убирая артефакты и повышая детализацию.

Дальше идут все остальные.

Места я раздавать не хочу, но скажу так: в продакшене все эти ребята не нужны.

Pika — почти хорошо.
Бесплатная Pika 1.5 — бессмысленна и беспощадна. Ужасное качество, игнорирование промпта, бесполезна для серьёзных задач.

А вот Pika 2.1 уже показывает достойный результат, примерно на уровне старой версии Kling.AI. Подходит для тестов и мемов через pikadditions, но слишком много брака, что повышает его ценник, я даже не смог сделать 2 стабильные генерации. В продакшен такое не возьму.
А 28$ за удаление вотермарки? Нет, спасибо!

Luma Dream Machine — удивлён, что он ещё жив.
Генератор хорошо сохраняет содержимое исходного кадра, что уже плюс. Но качество камеры и анимации — одно из худших среди всех протестированных сервисов. Хуже только следующий участник.

Runway — переоценённый и бесполезный для продакшена.
На мой взгляд, этот сервис не стоит потраченного времени и денег, т.к он:

— Уничтожает картинку.
— Анимации отвратительные.
— Качество ещё хуже.
— Безумно дорогой для своего уровня.

Из плюсов — высокая скорость работы и удобный контроль, позволяющий ставить промежуточные кадры и делать img2video. Но если вам нужен контроль, лучше ещё раз посмотрите на SORA.

Исходники всех генераций оставил в комментариях.

Читать полностью…

Метаверсище и ИИще

05 февраля 2025 18:37

Имба для удалёнщиков — Pickle

Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.

Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.

Пообещайте, что не будете пользоваться этой штукой 😗

getpickle.ai

@ai_newz

Читать полностью…

Метаверсище и ИИще

01 февраля 2025 22:48

Внимание!!!!

o3 сгенерировала код для анимации к p5js, показывающей, как срать не снимая свитер!!!!

Спасибо за внимание.

Читать полностью…

Метаверсище и ИИще

31 января 2025 12:23

Вот так я провожу свои дни.

Открываешь коменты, а там 500 запросов на добавление в чат.
И начинаются они вот так.

Я щас удалю все, если вы кожаный и адекватный, добавляйтесь заново, постараюсь отличить вас от ботов и магов. Хотя это непросто по вашим аватаркам.

Если совсем уж замуж невтерпеж, пишите в личку.

@cgevent

Читать полностью…

Метаверсище и ИИще

29 января 2025 16:02

Ну, за танцоров.

В Китае празднуют победу ДипСика Новый год.

Я, как ни странно, ровно дышу к теме робатов. Никогда не мог понять стремления делать их антропоморфными - более неуклюжей, медленной и негибкой твари, чем кожаный еще поискать надо. Одна из гипотез - антропоморфных удобно тренировать на видеоданных про кожаных и для кожаных.

Ну и пока ни один робат-пылесос не задавил хозяина, а представьте двух-метровую махину "кухонный помощник Optimus", который упал на любимую псину или жену\мужа? Адвокаты быстро прикроют лавочку-индустрию таких помогаторов по дому.

Но вот смотрите, где они точно не навредят, так это в шоу бизнесе. Пусть радуют народ. Кормить, поить, репетировать - не надо. Требуется 1000 танцоров? - алло, гараж, склад номер 2 откройте. Какой автобус? Сами дойдут!

В принципе и в зал их тоже можно посадить, вон они как лихо хлопают, а в конце (кто досмотрит) даже чепчики бросают.

Хореографией займется GenAI - давно уже постил, что по входной музыке научили генерить движения для болванов в Блендоре на основе простой мокап базы.

В цирке тоже пригодятся. Пятерное сальто назад без страховки.

И тут я задумался про синхронное плавание (которое не очень почитаю за спорт) - и такие картинки у меня в голове...

@cgevent

Читать полностью…

Метаверсище и ИИще

26 января 2025 19:57

Видеогенерация в Qwen Chat занимает чуть меньше времени, чем бесконечность. Еле дождался.

Надо, конечно, колдовать с промптами...

@cgevent

Читать полностью…

Метаверсище и ИИще

24 января 2025 14:00

THIS IS NOT A TOOL TO BOOK FLIGHTS!!!

Ух, я нашел чувака в твитторе, которого, как и меня, страшно бесит, что все рассуждения про Оператор начинаются с заказа столиков в ресторане и билетов на самолет.

Что он делает:
Говорит Оператору пойти на сайт Google AI Studio (цинично раз)
Просит Оператора попросить Гемини написать инструкции\техзад. по созданию сайта (цинично два)
Оператор идет на Replit и делает сайт.

В идеале, если бы сайт был по заказу этих гребаных столиков.

THIS IS NOT A TOOL TO BOOK FLIGHTS!!!
THIS IS AN INTELLIGENT AGENT THAT CAN DO COGNITIVE WORK FOR HUMANS IN THE INFORMATION LAYER OF HUMANITY THAT WE CALL THE WEB.

Бро!

@cgevent

Читать полностью…

Метаверсище и ИИще

23 января 2025 21:30

Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»

Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.

Читать полностью…

Метаверсище и ИИще

21 января 2025 16:10

Code Maestro

Недавно писал, про ИИ в UE.

Но там пока только доступ к чат-боту с доками и покрытая мраком генерация ассетов.

А сейчас принес ответочку для Unity (и в перспективе для UE).

Называется все это Code Maestro и выглядит это просто убойно.

Идея простая, взять кодогенерацию, но в конкретной нише и запилить ИИ-агентов, которые будут знать специфику (в данном случае геймдева) конкретной ниши и, как следствие, сильно превосходить кодогенераторы "общего назначения", типа Курсора и Копилота.

Я связался с авторами, и Макс говорит, что они не успевают онбордить новых пользователей, а лучший отзыв от одного из senior dev после полного освоения состоит в том, что он готов платить до 1000$/мес так как он бы смог работать с той же эффективностью на 2,5-3х работах))

Поглядите видос в шапке, а также другие видео на сайте. Он очень познавательный, особенно про правила хорошего тона. Впечатляет то, что кодогенерация заточена именно под геймдев (в виде плагина в Rider IDE) и знает узкую специфику, а не просто кодовую базу из интернета. И делает очень хороший код. И самое главное Сode Маestro анализирует целиком весь проект, и знает досконально весь его контекст. Включая все ассеты и связи.

Кому интересно, срочно записывайтесь в ранний доступ тут, проект уже работает.

@cgevent

Читать полностью…

Метаверсище и ИИще

16 января 2025 13:08

Сорри, но я снова про видеогенераторы, ибо они все взбесились.

VIDU 2 хвастается новыми фишками:

- Ускоренное создание видео: Видео создается всего за 10 секунд.
- Повышенная согласованность: От первого до последнего кадра
- Низкая цена: Всего 0,7 цента за секунду (хмм)
- Внимание: в непиковом режиме неограниченное количество бесплатных генерация в непиковые часы.

Правда как попасть в непиковые часы непонятно.

И снова я вам принес не демо ролик из их твиттора, а аниме-пример.

Я не большой эксперт в аниме, но похоже совместимость персонажа там достигается попроще (главное глазищщи и подбородок) и снова подумалось, что вот эти вот филеры в аниме уже можно заполнять генеративом. А уж с такой музикой Suno точно справится.

В общем раньше бывало "а облака возьмем со стоков". А теперь: "аниме путешествие за город сгенерим в Vidu"

@cgevent

Читать полностью…

Метаверсище и ИИще

14 января 2025 18:30

Вот это СМЕКАЛОЧКА!

Из-за того, что Открытый чемпионат Австралии по теннису не владеет всеми правами на трансляцию в ютуб, организаторы нашли оригинальное решение. Они используют технологию, которая в реальном времени отслеживает движения игроков и мяча на корте, а после создают анимированную версию матчей, напоминающую стиль игры Wii Sports и уже ее пускают в эфир.

тут можно почитать подробнее

Читать полностью…

Метаверсище и ИИще

13 января 2025 19:32

Кстати, почему я не люблю МакКинзи

Повторю пост, которому 2.5 года.

К 2030 году мы будем заниматься киберпанком два-три раза в день.

Примерно так выглядят многочисленные прогнозы и отчеты по рынку "метаверсов", которые публикуют многочисленные агентства. Не устояли от искушения хайпануть даже уважаемые МакКинзи.
Они пишут, что рынок Метаверса достигнет 5 триллионов долларов(!) к 2030. Дословно.

Это больше подавляющей части известных вам рынков.
Вместо того, чтобы просто написать, что рынок всего, что связано с интернетом достигнет 5 триллионов долларов к 2030, солидные люди употребляют термин, которому НЕТ определения.

Я вот могу написать отчет, что монетизация эгрегоров вырастет к 2030 году в 64 раза.
Ведь это удобно. Если нет определения метаверса, то потом можно лихо подогнать свои же прогнозы под реальные цифры - "мы же говорили, ведь метаверс это же еще и реклама, трафик, гемблинг и адалт. Не говоря про DeFi, Dao и P2E".
И вот уже подобные отчеты строчат NewZoo и другие, а HTC выпускает Метаверс-телефон.

https://www.mckinsey.com/~/media/mckinsey/business%20functions/marketing%20and%20sales/our%20insights/value%20creation%20in%20the%20metaverse/Value-creation-in-the-metaverse.pdf

https://newzoo.com/insights/trend-reports/newzoo-report-on-metaverse-blockchain-gaming-nft-2022

Хде метаверс, МакКинзи? Где мои бабки?

@cgevent

Читать полностью…

Метаверсище и ИИще

10 января 2025 18:41

Держите вдогонку тянущийся экран от Самсунга.

Я помню, что когда проводил первые ивенты, мечтал об экранах, которые можно свернуть в трубочку и засунуть в HDMI.
Пришел, повесил, подключил.
Без всяких проекторов, настроек, кабелей по 25 метров.

Не знаю для чего нужны именно тянущиеся экраны, кроме совы и глобуса, но я впечатлен.

@cgevent

Читать полностью…

Подписаться на канал