Telegram-канал cgevent - Метаверсище и ИИще: Неотсортированное

Метаверсище и ИИще

04 декабря 2024 13:58

Вы будете смеяться но у нас новый видеогенератор.

Амазон приподоткрыл веки и бахнул анонс своего нового семейства моделей Nova.
Все написали про LLM, а про картинки и видео позабыли.

А между тем, амбиции такие:

Amazon Nova Canvas - это современная модель генерации изображений, которая создает изображения профессионального уровня из текста или изображений, предоставленных в подсказках. Amazon Nova Canvas также предоставляет функции, облегчающие редактирование изображений с помощью текстового ввода, а также элементы управления для настройки цветовой схемы и макета. Amazon Nova Canvas превосходит такие генераторы изображений, как OpenAI DALL-E 3 и Stable Diffusion, по результатам сравнительной оценки, проведенной третьей стороной, а также по ключевым автоматизированным показателям.

Amazon Nova Reel - это современная модель для создания видео, которая позволяет клиентам легко создавать высококачественное видео из текста и изображений. Она идеально подходит для создания контента в сфере рекламы, маркетинга или обучения. Клиенты могут использовать подсказки на естественном языке для управления визуальным стилем и темпом, включая движение камеры, поворот и масштабирование. Amazon Nova Reel превосходит аналогичные модели по качеству и согласованности, согласно оценкам, проведенным третьей стороной, которая отдала предпочтение видео, созданным Amazon Nova Reel, по сравнению с видео, созданными Runway's Gen-3 Alpha. В настоящее время Amazon Nova Reel генерирует шестисекундные видеоролики, а в ближайшие месяцы будет поддерживать создание видео длительностью до двух минут.

Все это уже доступно в Amazon Bedrock, подсобрал для вас примеров.

На видео с дрона выше:
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view flying over a coastal landscape"

Но самое интересное, что в 2025 году они готовят модель типа "всё-во-всё". Трушная мультимодальность.

В 2025 году мы представим две дополнительные модели Amazon Nova, включая модель преобразования речи в речь и нативную модель преобразования мультимодальности в мультимодальность, или "любой в любой". Модель "речь в речь" будет понимать потоковую речь на естественном языке, интерпретировать вербальные и невербальные сигналы (например, тон и каденцию) и обеспечивать естественное человекоподобное взаимодействие, а модель "всё-во-всё" сможет обрабатывать текст, изображения, аудио и видео, как на входе, так и на выходе. Это упростит разработку приложений, в которых одна и та же модель может использоваться для выполнения широкого спектра задач, таких как перевод контента из одной модальности в другую, редактирование контента и обеспечение работы агентов ИИ, способных понимать и генерировать информацию во всех модальностях.

Наиболее подробно тут:
https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws

@cgevent