Сверточная нейросеть WaveNet сделала речь Google Assistant более естественной

Опубликовано 18:54 09.10.201720:27 29.09.2018 автором Иван Подсекальников

На днях британская компания DeepMind (приобретенная американским гигантом Google) поделилась достижениями WaveNet, разработанной ею сверточной нейросети. Выложенные примеры звучания Google Assistant до и после обучения с помощью WaveNet показывают явный прогресс в степени естественности звучания английской речи (помимо японской, оценивать которую я не берусь). Формальные оценки по пятибалльной школе выглядят куда скромнее:

Голос 1 (обучение на 65 ч записанной речи) — с 4.186 до 4.347 (3.8%)
Голос 2 (21 ч) — с 4.089 до 4.314 (5.5%)
Голос 3 (9 ч) — с 3.418 до 4.326 (26.6%)
Голос 4 (японский, 28 ч) — c 4.072 до 4.236 (4%).

Не считая Голоса 3, в численном выражении разница может показаться незначительной, но для сравнения голос живого человека оценивается в 4.667 — всего на 7.4% больше наилучшего из нынешних результатов (4.347).

Полученный результат особенно впечатляет с учетом того, что он был получен за год. Помимо заметного улучшения в качестве, в тысячу раз выросла скорость генерации — если изначально WaveNet за одну секунду производил 0.02 секунд речи, то теперь — 20 секунд.

Значимость качества генерирования устной речи трудно переоценить. Помимо улучшенного взаимодействия с голосовыми помощниками, такая технология позволит значительно расширить применение функции текст-голос для более комфортного прослушивания новостей и даже книг. Возможно даже голосами давно умерших людей, если сохранились записи их выступлений (вообразите новости РБК, зачитываемые дорогим Леонидом Ильичом).

С образцами звучания Google Assistant до и после обучения на WaveNet можно ознакомиться по ссылке ниже.

DeepMind

Сверточная нейросеть WaveNet сделала речь Google Assistant более естественной

Добавить комментарий Отменить ответ

Рубрики