Google разработала технологию распознавания голосов, которые говорят одновременно

Несмотря на значительные успехи в области распознавания устной речи, достигнутые благодаря нейросетям, по-прежнему актуальной остается проблема распознавания устной речи в шумном окружении — особенно, когда одновременно говорят несколько человек. На днях Google представила аудио-визуальную модель, которая позволяет выделить из этого многоголосья конкретного человека и убрать посторонние голоса с шумом.

Для обучения сверточной нейросети были отобраны в YouTube сто тысяч видео лекций и разговоров. Из них, в свою очередь, были нарезаны две тысячи часов видео с выступлением какого-нибудь одного человека, постоянно присутствующего в кадре во время выступления. Из этих фрагментов были смонтированы видео, в которых эти люди говорят одновременно или на фоне наложенного шума. Получив таким образом большой объем заранее распознанных многоголосных или зашумленных выступлений, Google смогла обучить на них сверточную нейросеть распознаванию голоса в любых аналогичных видео. Причем пользователь этой технологии может самостоятельно выбрать кого из выступающих он хочет послушать таким образом, как-будто тот говорит в тишине.

Недостатком этой технологии является необходимость постоянного присутствия в кадре (так, чтобы было видно движение губ) человека, чье выступление вы хотите послушать отдельно от остальных. Поэтому в условиях телевизионных ток-шоу, когда ракурс съемки часто меняется и далеко не всегда охватывает всех выступающих, данная технология скорее всего не подходит.

Google