Telegram-канал denissexy - Denis Sexy IT 🤖: Технологии

Denis Sexy IT 🤖

29 марта 2024 19:18

Блогпост OpenAI про голосовой движок, про который писал на неделе. Называется очень интересно, «Навигация по проблемам и возможностям синтетических голосов».

В VoiceEngine заложена якобы маленькая модель (хотя по меркам OpenAI a small model это поди как другие в прод не могут пихнуть, кек 😀), которая переводит 15-секундный семпл оригинального голоса и некоторый текст в звучащий натурально голос, озвучивающий заданную фразу в манере говорящего. Систему начали разрабатывать в конце 2022-го года, и именно голоса из него можно услышать в ChatGPT (в мобильном приложении есть прям отдельный режим, и на сайт недавно озвучку добавили). Самая клёвая фишка — это перенос голоса на другие языки. Все семплы на лендинге звучат, ну, нормально, но по-китайски, французски и португальски я не говорю, потому не могу оценить адекватно.

Как и во множестве блогпостов OpenAI, авторы подчёркивают, что хотят вести публичную дискуссию об ответственном использовании синтетических голосов и адаптации общества к этим новым технологиям.

Так, например, OpenAI находится на короткой ноге с правительством США и международными партнёрмаи. В ходе бесед все пришли к пониманию, что должна присутствовать аутентификации голоса, которая подтверждает, что исходный голос (используемый для генерации) сознательно добавлен в VoiceEngine. Также должен поддерживаться список запрещённых голосов, которые нельзя синтезировать. С его помощью будет происходить обнаружение и предотвращение создания голосов, уж слишком похожих на знакомые нам по разным видным деятелям.

Что ещё предлагается в мире:
— Банкам и другим компаниям с доступом к чувствительной информации начать отключать технологию аутентификации по голосу (привет Тинькоф)
— Начать проработку политик защиты голоса (помните новости про актеров озвучки?)
— Информировать общество о возможностях и ограничениях технологии, обсуждать возможности обмана с помощью генерируемого контента
— Продвинуть разработку и внедрение методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с искусственным интеллектом.