Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
A - Alignment.
Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.
Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.
Ждём-с.
O - Offtop по выходным
@cgevent
Вы будете смеяться, но у нас опять новый видеогенератор!
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent
Опенсорсные генераторы. Deep Research
В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.
Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.
Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).
Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.
Получил (с графиком однако) вот такое:
Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.
В принципе неплохо.
В следующем посте подробный ресерч(он огромный) и диванные мысли.
@cgevent
Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?
Читать полностью…Вернемся к раскрытию темы. Доброго и вечного.
Тут вот в коментах подписчики переполошились - похоже в Midjourney сильно ослабили фильтры на nsfw. Случилось это в январе. Привели убедительные доказательства.
Слухи о том, что Midjourney смотрит в эту сторону были еще летом, я писал об этом в описании одного из office hours.
Я решил фактчекнуть, пошерстил реддит. Да, есть такое дело и даже рецепты типа:
Use v 6.1
Put “curvy” somewhere in the middle of a prompt.
Пошерстил твиттор. Да, январские картинки там веселые.
Я не думаю, что там прям подшаманили модель, скорее подкрутили фильты, которые определяют "приличность" результата, а не промпта.
Подсобрал пруфов. Видно, что модель слегка портит анатомию (не обучена), но старается.
Пример промпта к зеленым женщинам из коментов:
a female orc, green skin, shaman RPG class, very beautiful, big elf-style ears, Japanese anime style --style raw --profile l8ywof7 --stylize 1000 --ar 3:4
Основатели AI-стартапов здесь? Пост специально для вас
Сейчас AI явно проживает «золотую эру», но запустить успешный AI-продукт с нуля, чтобы клиенты за него платили, а инвесторы дали денег — задачка со звёздочкой. Фаундер натыкается на кучу вопросов:
▪️Где найти инвестора?
▪️Как подготовить питч-дек стартапа?
▪️Мой AI-продукт в глазах инвестора «вау» или «так себе»?
▪️Как вообще вывести продукт на рынок и собрать первую команду?
Андрей Резинкин отвечает на эти вопросы в канале Money For Startup. Андрей — ранний инвестор в AI-стартапах XOR, AiTOMATIC, InTone и др. и рассказывает про стартапы с точки зрения инвестора. А это взгляд, которого часто не хватает фаундеру.
Начните с гайда для фаундеров:
👉 Что нужно знать фаундеру на каждом этапе развития стартапа?
Каждый пост Андрея - пошаговый план действий для тех, кто рискнул начать AI-стартап или всё мечтает об этом.
Подписывайтесь, чтобы увидеть свой проект с позиции инвестора и прокачать свой стартап.
#промо
RiffDiffusion - песка почти нет, звучит чуть суховато, но надо колдовать в промптом, интересная стереобаза, кстати.
intense folk, blues, new orleans, soulful blues, soul, New Orleans voodoo, Cinematic soulful blues, R&B, ethereal chants, raspy male blues singer, vocal powerhouse, haunting cello, gospel backing choir, mystical percussion, upright bass, resonator guitar
На сайте все подряд, а вот в твитторе RiffDiffusion прям пользовательские черрипики
https://x.com/riffusionai/status/1884984944382099649
"Мы делаем этот инструмент бесплатным до тех пор, пока живы наши графические процессоры."
Звучит как план!!
@cgevent
OpenAI потихоньку переобувается GosuslugiAI.
Сегодня мы объявляем о выпуске ChatGPT Gov, новой адаптированной версии ChatGPT, предназначенной для предоставления государственным учреждениям США дополнительного доступа к пограничным моделям OpenAI.
Агентства могут развернуть ChatGPT Gov в своем собственном коммерческом облаке Microsoft Azure или в облаке Azure Government поверх сервиса OpenAI Microsoft Azure (открывается в новом окне). Самостоятельное размещение ChatGPT Gov позволяет агентствам легче управлять собственными требованиями к безопасности, конфиденциальности и соответствию нормативным требованиям.
https://openai.com/global-affairs/introducing-chatgpt-gov/
@cgevent
Вы будете смеяться, но у нас новый генератор видео (и картинок).
И это не китайские интерны, это .. китайские слоняры!
Алибаба сделала свой Qwen Chat и теперь там не только тексты, но и генерация картинок (как в chatGPT, Mistral LeChat, Gemini), более того, там же есть генерация видосов!
Бесплатно (лимиты пока не знаю), логин Гуглом возможен, генерит видео в 5 секунд.
Более того, там несколько моделей, среди которых опенсорсная Qwen2.5-1M с контекстом в Один Миллион токенов.
Мне все это отчаянно нравится - если каждый чат будет иметь теперь картинко- и видео-гегератор, я только за!
Ждём ответок от остальных.
https://chat.qwenlm.ai/
Пойду помучаю с телефона, не дают в выходные подетокситься.
@cgevent
OpenAI: AGI близко, Оператор скоро заменит кожаных бездельников.
Кожаные: дайте два! мы будем генерить в два раза больше мемов (за 2х200 долларов в месяц)!
Сэм: доктор, у меня суицидальные мысли.
@cgevent
Ну, за Холивуд.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.
Прошло 7 лет.
И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:
"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."
Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.
А потом берут Юнити и визуализируют это!!!
В принципе остается подать это в video2video и кино готово!
Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.
Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.
Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.
https://filmagent.github.io/
@cgevent
Еще немного рубрики крутые подписчики.
Мне нравятся такие эксперименты. В принципе это похоже на классическое кожаное обучение - берем чью-то работу в 3Д или в концепте и просто воспроизводим ее.
Тут еще интереснее, @Ambition_AI сделали с нуля копию существующего и снятого на камеру рекламного ролика с помощью видеогенерации. Хороший способ проверить, можно ли генерить рекламу с помощью ИИ и посчитать расходы.
За референс взяли ролик авиасейлс "самурай". По нему сгенерировали общую сцену (промпт по визуалу из оригинального ролика), затем с помощью ранвея и его контроля камеры достали второй ракурс, который подходит на шот из ролика. Апскейл во флюксе и магнифике, перегоны и связка редукс + филл позволили добиться аутентичности персонажа и чуть чуть уйти от "ИИшности" лица. Анимация шотов в Клинг 1.6.
Такие упражнения полезны тем, что ты вынужден решать задачу попадания в рамки тех задания, а не просто восторженно или угрюмо наблюдать, куда вывезет непредсказуемая креативность видеогенератора.
Те, кто смотрят сериалы с переводом, быстро узнАют ролик. Чтобы сэкономить вам время в поисках статистического попугая, намекну, что ИИ лихо скреативил маски, которые 4 года назад мы надевали в самолетах. Все помнит, засранец. А мы-то уже и забыли.
@cgevent
К вопросу о том, где мы были полтора года назад
Сравнение Runway GEN2 и Google Veo 2.
Добавить тут нечего. Кроме вопроса: где бы будем в конце 2026?
Скрал у Саши
@cgevent
Ого, кто-то прикрутил ИИ к Unreal Engine.
Создание ассетов и сцен промптами.
Редактирование сцен промптами.
Blueprint assistant с рекомендациями, оптимизациями и даже natural language graph creation
Ludus.Blueprint is our AI-powered Blueprint assistant that helps with node suggestions, optimization recommendations, and natural language graph creation. Ludus.Chat enables text-to-scene conversion, allowing you to create and modify scenes using natural language commands.
На бесплатном плане только чат с документацией.
Enterprise customers get additional access to project-specific customizations and self-hosted solutions.
А еще у них планируется ассистент кода - Allow AI do the heavy lifting in your code development with our AI finetuned for Unreal Engine's C++ standard. Project-aware code generation, autocomplete, and multi-file editing. Available as an in-engine plugin and in your favorite IDE!
На первый взгляд выглядит как Cursor для UE5. Ну или UE для чайников.
Но никаких подробностей про LLM внутри я не нашел.
Странный проект.
https://ludusengine.com/
@cgevent
Tripo3D: обновили интерфейс своего 3D генератора и сделали его более удобным.
Теперь можно контролировать количество полигонов (Face Limit) в настройках генерации, для баланса между качеством и скоростью.
На вход можно подавать как текст (который можно улучшить), так и одну картинку или множество изображений.
Сайт — сгенерите первую модель получите 300 кредитов. Или вот код: USR9E6
Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.
https://github.com/deepbeepmeep/HunyuanVideoGP
Видеогенераторы опенсорсныя. Конец видеомарафона желаний.
Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.
Первое место. Хуньянь.
Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.
Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.
Второе место. LTXV.
Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.
Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.
На этом все.
Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.
Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.
@cgevent
Дальше слово Антону:
В поисках лучшего img2video AI-генератора для продакшена я потратил кучу времени и денег, чтобы разобраться, какой сервис мне подходит.
Главные критерии поиска:
1. Качество. Сюда я включаю не только качество получаемого видео и анимации, но и консистентность. Генератор не должен менять или преобразовывать начальный исходный кадр, а также стремиться сохранить форму объекта/персонажа. Это критически важно, так как ограничение в 5–10 секунд можно преодолеть, добавляя последний кадр сгенерированного видео в первый нового.
2. Контроль. Сюда я включаю послушность сервиса, его способность подчиняться промпту, а также все дополнительные инструменты, предлагаемые сервисом, такие как Frame by Frame, Blend и т.п.
3. Цена. Тут всё очевидно: чем доступнее инструмент, тем выше оценка.
Для эксперимента я сделал по 10 генераций в каждом сервисе с одинаковым промптом. Проверял как бесплатные (кроме SORA — там нет бесплатной версии), так и подписочные инструменты.
ТОП-3 AI-генераторов для продакшена:
🥇 1 МЕСТО. Kling.AI 1.5 и 1.6 — безоговорочный лидер среди img2video.
Это единственный сервис, где не пришлось выбирать из 10 версий. Уже с первого рендера версия 1.6 идеально справилась с задачей. В нём есть всё, что нужно для создания крутого реалистичного контента, но если вы занимаетесь 2D анимацией, тогда...
🥈2 МЕСТО. Minimax/Hailuo — хороший, но не без недостатков.
Этот генератор перегоняет кадр через свой Img2Img, что слегка меняет исходные лица и объекты. А это делает невозможными*невидимые склейки при монтаже. Подойдёт, если ваш шот не больше 10 секунд. Сервис, безусловно, хорош в text2video, неплохо подчиняется промптам камеры и лучше Kling.AI в 2D-анимациях, что дало ему "народную любовь". Но для фотореалистичного продакшена подходит плохо из-за плохой консистентности.
🥉 3 МЕСТО. SORA— могучий, ужасный, но уже не безнадёжный.
Когда появился SORA, он стал главным разочарованием AI-видеомейкеров: дорогой, тупой, с отстающим качеством и неработающим контролем.
Но за пару месяцев его значительно подтянули. В генерациях он всё ещё хуже Kling.AI или Minimax, но у него есть неплохой img2video и уникальные инструменты контроля, позволяющие апскейлить и улучшать видео инструментом remix с разным шагом влияния. То есть можно сделать основу в том же Kling.AI, а затем допиливать в SORA, убирая артефакты и повышая детализацию.
Дальше идут все остальные.
Места я раздавать не хочу, но скажу так: в продакшене все эти ребята не нужны.
Pika — почти хорошо.
Бесплатная Pika 1.5 — бессмысленна и беспощадна. Ужасное качество, игнорирование промпта, бесполезна для серьёзных задач.
А вот Pika 2.1 уже показывает достойный результат, примерно на уровне старой версии Kling.AI. Подходит для тестов и мемов через pikadditions, но слишком много брака, что повышает его ценник, я даже не смог сделать 2 стабильные генерации. В продакшен такое не возьму.
А 28$ за удаление вотермарки? Нет, спасибо!
Luma Dream Machine — удивлён, что он ещё жив.
Генератор хорошо сохраняет содержимое исходного кадра, что уже плюс. Но качество камеры и анимации — одно из худших среди всех протестированных сервисов. Хуже только следующий участник.
Runway — переоценённый и бесполезный для продакшена.
На мой взгляд, этот сервис не стоит потраченного времени и денег, т.к он:
— Уничтожает картинку.
— Анимации отвратительные.
— Качество ещё хуже.
— Безумно дорогой для своего уровня.
Из плюсов — высокая скорость работы и удобный контроль, позволяющий ставить промежуточные кадры и делать img2video. Но если вам нужен контроль, лучше ещё раз посмотрите на SORA.
Исходники всех генераций оставил в комментариях.
Имба для удалёнщиков — Pickle
Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.
Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.
Пообещайте, что не будете пользоваться этой штукой 😗
getpickle.ai
@ai_newz
Внимание!!!!
o3 сгенерировала код для анимации к p5js, показывающей, как срать не снимая свитер!!!!
Спасибо за внимание.
Вот так я провожу свои дни.
Открываешь коменты, а там 500 запросов на добавление в чат.
И начинаются они вот так.
Я щас удалю все, если вы кожаный и адекватный, добавляйтесь заново, постараюсь отличить вас от ботов и магов. Хотя это непросто по вашим аватаркам.
Если совсем уж замуж невтерпеж, пишите в личку.
@cgevent
Ну, за танцоров.
В Китае празднуют победу ДипСика Новый год.
Я, как ни странно, ровно дышу к теме робатов. Никогда не мог понять стремления делать их антропоморфными - более неуклюжей, медленной и негибкой твари, чем кожаный еще поискать надо. Одна из гипотез - антропоморфных удобно тренировать на видеоданных про кожаных и для кожаных.
Ну и пока ни один робат-пылесос не задавил хозяина, а представьте двух-метровую махину "кухонный помощник Optimus", который упал на любимую псину или жену\мужа? Адвокаты быстро прикроют лавочку-индустрию таких помогаторов по дому.
Но вот смотрите, где они точно не навредят, так это в шоу бизнесе. Пусть радуют народ. Кормить, поить, репетировать - не надо. Требуется 1000 танцоров? - алло, гараж, склад номер 2 откройте. Какой автобус? Сами дойдут!
В принципе и в зал их тоже можно посадить, вон они как лихо хлопают, а в конце (кто досмотрит) даже чепчики бросают.
Хореографией займется GenAI - давно уже постил, что по входной музыке научили генерить движения для болванов в Блендоре на основе простой мокап базы.
В цирке тоже пригодятся. Пятерное сальто назад без страховки.
И тут я задумался про синхронное плавание (которое не очень почитаю за спорт) - и такие картинки у меня в голове...
@cgevent
Видеогенерация в Qwen Chat занимает чуть меньше времени, чем бесконечность. Еле дождался.
Надо, конечно, колдовать с промптами...
@cgevent
THIS IS NOT A TOOL TO BOOK FLIGHTS!!!
Ух, я нашел чувака в твитторе, которого, как и меня, страшно бесит, что все рассуждения про Оператор начинаются с заказа столиков в ресторане и билетов на самолет.
Что он делает:
Говорит Оператору пойти на сайт Google AI Studio (цинично раз)
Просит Оператора попросить Гемини написать инструкции\техзад. по созданию сайта (цинично два)
Оператор идет на Replit и делает сайт.
В идеале, если бы сайт был по заказу этих гребаных столиков.
THIS IS NOT A TOOL TO BOOK FLIGHTS!!!
THIS IS AN INTELLIGENT AGENT THAT CAN DO COGNITIVE WORK FOR HUMANS IN THE INFORMATION LAYER OF HUMANITY THAT WE CALL THE WEB.
Бро!
@cgevent
Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»
Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.
Code Maestro
Недавно писал, про ИИ в UE.
Но там пока только доступ к чат-боту с доками и покрытая мраком генерация ассетов.
А сейчас принес ответочку для Unity (и в перспективе для UE).
Называется все это Code Maestro и выглядит это просто убойно.
Идея простая, взять кодогенерацию, но в конкретной нише и запилить ИИ-агентов, которые будут знать специфику (в данном случае геймдева) конкретной ниши и, как следствие, сильно превосходить кодогенераторы "общего назначения", типа Курсора и Копилота.
Я связался с авторами, и Макс говорит, что они не успевают онбордить новых пользователей, а лучший отзыв от одного из senior dev после полного освоения состоит в том, что он готов платить до 1000$/мес так как он бы смог работать с той же эффективностью на 2,5-3х работах))
Поглядите видос в шапке, а также другие видео на сайте. Он очень познавательный, особенно про правила хорошего тона. Впечатляет то, что кодогенерация заточена именно под геймдев (в виде плагина в Rider IDE) и знает узкую специфику, а не просто кодовую базу из интернета. И делает очень хороший код. И самое главное Сode Маestro анализирует целиком весь проект, и знает досконально весь его контекст. Включая все ассеты и связи.
Кому интересно, срочно записывайтесь в ранний доступ тут, проект уже работает.
@cgevent
Сорри, но я снова про видеогенераторы, ибо они все взбесились.
VIDU 2 хвастается новыми фишками:
- Ускоренное создание видео: Видео создается всего за 10 секунд.
- Повышенная согласованность: От первого до последнего кадра
- Низкая цена: Всего 0,7 цента за секунду (хмм)
- Внимание: в непиковом режиме неограниченное количество бесплатных генерация в непиковые часы.
Правда как попасть в непиковые часы непонятно.
И снова я вам принес не демо ролик из их твиттора, а аниме-пример.
Я не большой эксперт в аниме, но похоже совместимость персонажа там достигается попроще (главное глазищщи и подбородок) и снова подумалось, что вот эти вот филеры в аниме уже можно заполнять генеративом. А уж с такой музикой Suno точно справится.
В общем раньше бывало "а облака возьмем со стоков". А теперь: "аниме путешествие за город сгенерим в Vidu"
@cgevent
Вот это СМЕКАЛОЧКА!
Из-за того, что Открытый чемпионат Австралии по теннису не владеет всеми правами на трансляцию в ютуб, организаторы нашли оригинальное решение. Они используют технологию, которая в реальном времени отслеживает движения игроков и мяча на корте, а после создают анимированную версию матчей, напоминающую стиль игры Wii Sports и уже ее пускают в эфир.
тут можно почитать подробнее
Кстати, почему я не люблю МакКинзи
Повторю пост, которому 2.5 года.
К 2030 году мы будем заниматься киберпанком два-три раза в день.
Примерно так выглядят многочисленные прогнозы и отчеты по рынку "метаверсов", которые публикуют многочисленные агентства. Не устояли от искушения хайпануть даже уважаемые МакКинзи.
Они пишут, что рынок Метаверса достигнет 5 триллионов долларов(!) к 2030. Дословно.
Это больше подавляющей части известных вам рынков.
Вместо того, чтобы просто написать, что рынок всего, что связано с интернетом достигнет 5 триллионов долларов к 2030, солидные люди употребляют термин, которому НЕТ определения.
Я вот могу написать отчет, что монетизация эгрегоров вырастет к 2030 году в 64 раза.
Ведь это удобно. Если нет определения метаверса, то потом можно лихо подогнать свои же прогнозы под реальные цифры - "мы же говорили, ведь метаверс это же еще и реклама, трафик, гемблинг и адалт. Не говоря про DeFi, Dao и P2E".
И вот уже подобные отчеты строчат NewZoo и другие, а HTC выпускает Метаверс-телефон.
https://www.mckinsey.com/~/media/mckinsey/business%20functions/marketing%20and%20sales/our%20insights/value%20creation%20in%20the%20metaverse/Value-creation-in-the-metaverse.pdf
https://newzoo.com/insights/trend-reports/newzoo-report-on-metaverse-blockchain-gaming-nft-2022
Хде метаверс, МакКинзи? Где мои бабки?
@cgevent
Держите вдогонку тянущийся экран от Самсунга.
Я помню, что когда проводил первые ивенты, мечтал об экранах, которые можно свернуть в трубочку и засунуть в HDMI.
Пришел, повесил, подключил.
Без всяких проекторов, настроек, кабелей по 25 метров.
Не знаю для чего нужны именно тянущиеся экраны, кроме совы и глобуса, но я впечатлен.
@cgevent