Адрес для входа в РФ: exler.world
ИИ-модель, точно имитирующая голос
Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E — она преобразует текст в речь, точно имитируя голос человека, а образцом может служить запись продолжительностью всего в три секунды. При этом ИИ сохраняет эмоциональную окраску речи образца.
Авторы проекта говорят, что система окажется полезной при разработке приложений с возможностью высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами контента вроде GPT-3. Хотя они также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил.
При создании модели использовалась разработанная Meta технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он бы мог звучать за пределами трёхсекундного образца. Обучение модели производилось на библиотеке LibriLight, собранной Meta* — она же, в свою очередь, была построена на 60 000 часов англоязычной речи более чем 7000 носителей: данные были позаимствованы преимущественно из коллекции LibriVox.
Из-за опасности злоупотреблений технологией Microsoft не стала публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут. В компании добавили, что аналогичным образом будут поступать и с другими проектами, если они несут потенциальную угрозу злоупотреблений. (Отсюда.)
Технология, конечно, очень интересная, и ее много для чего полезного можно будет использовать, но нельзя не отметить, что грань между реальностью и фейком становится совсем призрачной, если буквально по трехсекундному образцу можно создать совершенно реалистично звучащую искусственную копию и заставить ее говорить все что угодно.
Вот здесь на сайте проекта представлены разнообразные образцы. Speaker Prompt - образцы речи, Ground Truth - запись необходимого текста в исполнении человека, с которого был записан образец, Baseline - традиционный преобразователь текста в речь, VALL-E - работа нового ИИ.
Там также показано, что система может не только придавать голосу нужный эмоциональный окрас, но и имитировать звуковое окружение - телефонный разговор, помехи на улице и так далее. Там много примеров - в том числе, и с имитацией акустического окружения.
twitter.com
1. Шантаж станет абсолютно бессмысленным.
2. Число успешных разводов если и увеличится, то только в краткосрочной перспективе.
3. По идентификации, останется как есть сейчас.
Ключевой момент сюжета: установка, разработанная профессором Ламонтом, которая по короткой записи оригинала может синтезировать любой голос, заставляя его произносить набранный на клавиатуре текст. Синтез настолько точен, что электронные машины, которые в мире будущего заменили судей в уголовных процессах, признаЮт синтезированные записи в качестве доказательств на процессе.
- Переведи ты мне на карту все свои пенсионные накопления.
Удивился старик, испугался. Он айтишничал тридцать лет и три года и не слыхивал, чтоб старуха говорила. Так как померла его старуха.
Видимо, трёхсекундного сэмпла всё же маловато будет. Индивидуальные/диалектные особенности произношения отдельных фонем сглаживаются по сравнению с Ground Truth.
Через 15 лет кто-то вспомнил мультик "WALL-E"? Закончились в MS креативщики... пичалька!
- Правда, внучек! Ну, не совсем сбил - недозаправил..
- Я.
- Но это же наш, советский танк!
- Я, я!
Вспомните "мама я попал в аварию, голос из-за удара об руль изменился , сижу в полиции, передаю телефон следователю, срочно нужны деньги погасить ущерб".
Это пример из личного опыта. Мои родители собирали деньги, пока не догадались мне перезвонить.
Вы представляете, чем это грозит?
Мне только вчера звонили из "миграционной службы", обратились по имени-фамилии и были посланы, так как не знали государственного литовского языка.
Из какой страны звонили, думаю нетрудно догадаться.
Увы, мошеннические схемы, основанные на социальной инженерии, были и будут. Синтез голоса усугубит, но не коренным образом.
Но я вам гарантирую, в небольших конторах вопросы переводов решаются быстро, бухгалтер женщина за 50 получила звонок от нервного начальника сделать перевод на счёт, который пришёл только что ей на почту, счёт прислал клиент. 80 процентов перезвонит начальнику, ну а 20 процентов безропотно переведут.
Жертва сама себя убедит, что говорили "твоим голосом".
Увы, знаю на личном опыте, маму развели так. Причем, я с ней про такое говорил, ликбезы проводил, но все равно.
А вот то что некоторые банки начали голосовую идентификацию делать это беда...
Хороший план.
Надёжный.
Поэтому голос, как один из дополнительных факторов - ничуть ни хуже многих других решений. И главное - от клиента для того, чтобы им воспользоваться ничего не требуется.