Adobe VoCo: фотошоп для ораторов

Компания Adobe, знаменитая в частности своим фоторедактором Photoshop, представила на конференции Adobe MAX свою новую технологию. Проект под названием VoCo позволяет вносить редакторские поправки в аудиозапись выступления. Программа распознает (представляет в текстовом виде) запись речи и дальше пользователь просто вписывает нужные слова. На презентации было продемонстрировано, как в живой записи фразы «И я поцеловал своих собак и свою жену» были сделаны несколько поправок: «И я поцеловал свою жену и свою жену«, «И я поцеловал свою жену и своих собак«, «И я поцеловал Джордана и своих собак». Каждый раз при проигрывании нового текста он звучал тем же голосом и с той же интонацией, без всяких признаков подлога:

Почти наверняка в этой программе задействована система искусственного интеллекта (например, глубокие нейронные сети), но подробности не сообщаются — только то, что для обучения достаточно прослушать выступление данного человека на протяжении двадцати минут.

Возможности, которые сулит развитие этого революционного проекта, трудно переоценить. Как минимум это позволит исправлять ляпы и оговорки в записях живых выступлений, устраивать розыгрыши, а то и фальсифицировать записи чужих телефонных переговоров. Еще интереснее перспективы, связанные с искусственным генерированием полных фраз и даже текстов. Только вообразите: программе дают послушать выступление ушедшего из жизни актера — и его голосом озвучивают какую-нибудь новую книгу. Вы не хотите утомлять глаза прочтением большой статьи — можно будет запустить её озвучание приятным вашему слуху исполнителем. Одновременно значительно улучшится качество голосовых помощников вроде Siri, Кортаны или Google Ассистента — они будут произносить свои ответы на запросы с более живой и естественной интонацией.

Впрочем конкретные планы Adobe в отношении своего нового детища и его реальные перспективы пока неизвестны, возможно они прояснятся в ближайшем будущем.

AdobeThe Verge