VALL-E умеет имитировать чужой голос по его трехсекундному образцу

На днях Microsoft опубликовала работу с описанием разработанной в компании системы синтеза искусственной речи, способной имитировать чей-то конкретный голос. Подобные технологии известны достаточно давно — особенность нынешней (она называется VALL-E) в высоком качестве этой имитации. Чтобы в этом убедиться, достаточно послушать многочисленные примеры. В первом столбце — образец устной речи, чей голос требуется сымитировать. А в трех остальных — запись текста, озвученного:

  • автором образца (в качестве идеальной имитации его собственного голоса);
  • выпущенной в конце 2021 системой YourTTS (в качестве т.н. базового уровня);
  • системой VALL-E.

Но что особенно важно, нынешняя система искусственного синтеза речи способна обучиться имитации чужого голоса по фрагменту продолжительностью всего в 3 секунды. Для сравнения, вышеупомянутой YourTTS требуется не меньше 20 секунд, а лучше не менее 45 секунд — при этом её качество заметно хуже.

VALL-E обучалась на 60 тыс часах записей (в 100 раз больше, чем у других современных моделей синтеза искусственной речи), озвученных 7 тыс человек. Тренировка ИНС производилась на 16 стареньких графических ускорителях Nvidia Tesla V100 (2017) с 32 Гб видеопамяти.

Возможная область применения подобных технологий достаточно широка. Прежде всего она будет востребована при озвучивании кинофильмов, компьютерных игр, книг и т.д. — в том числе голосами уже не живых актеров. Подобной возможностью наверняка воспользуются и обычные люди — как для развлечения, так и с более серьезными намерениями. Например, можно дать послушать детям сказку, которую читает искусственный голос их покойной бабушки. Кстати, в одном из эпизодов сериала «Черное зеркало» как раз обыгрывается сюжет на тему имитации покойных родных и близких. Если не сегодня, то возможно уже в самые ближайшие годы можно будет имитировать «видеозвонок на тот свет». Когда тоскующий по умершему родственнику или другу человек разговаривает со своим близким, чьи голос, внешность и даже особенности личности воспроизведены системами искусственного интеллекта.

Ну и конечно же подобными технологиями воспользуются мошенники, а-ля «Мама, у меня неприятности — срочно кинь денег на этот номер, потом всё объясню…» Причем если первое время они будут отправлять голосовые сообщения или имитировать диалог нарезкой готовых реплик, то в дальнейшем это вероятно будет работать на лету — мошенник говорит своим голосом, который как бы переозвучивается в режиме реального времени. Как и в случае голосовых переводов, когда вы своим голосовом разговариваете с иностранцем на его родном языке, которым сами не владеете. Другим негативным применением синтезаторов искусственной речи станут фейки — к сожалению, в скором времени распознать подделку «снятого на видео» заявления какого-нибудь публичного деятеля станет невозможно. Что лишний раз подчеркивает простую истину: значимость и полезность информации в значительной (если не решающей) степени определяется качеством её источника. Но хочется верить, что хороших последствий у такого рода технологий будет все-таки больше, чем плохих.