Ученые научились отсеивать шум с помощью глубинного обучения

Исследовательская группа из Университета штата Огайо, возглавляемая профессором ДеЛианг Вангом (DeLiang Wang), поделилась очередным достижением искусственного интеллекта. Разработанная учеными система глубинного обучения позволила добиться значительного снижения стороннего шума в голосовых записях. Объектом исследований стали два вида шума, сплошной (например, как от транспорта) и одновременный разговор множества людей, а также две категории людей: с нормальным слухом и с нарушением слуха. Полученная система шумоподавления показывает следующие изменения в распознавании до и после обработки голосовой записи:

  • Люди с нарушением слуха, запись на фоне разговора множества людей: с 29% до 84% (в отдельных случаях — с 10% до 90%)
  • Люди с нарушением слуха, запись на фоне сплошного шума: с 36% до 82%
  • Люди с нормальным слухом, разговор множества людей: с 42% до 72%
  • Люди с нормальным слухом, сплошной шум: с 37% до 80%.

Почему испытуемые с нормальным слухом обработанную запись различают хуже людей с нарушением слуха не вполне понятно — возможно это обусловлено тем, что после обработки речь звучит несколько искаженно и поэтому менее привычна для нормального восприятия. Как бы то ни было, налицо значительное улучшение в распознавании — чего, по словам профессора Ванга, нельзя было добиться традиционным методом спектрального вычитания.

Следует иметь в виду, что разработанная исследовательской группой система была обучена на определенных видах шума, поэтому для более универсального применения потребуется дальнейшая тренировка. С этой целью группа приобрела базу данных с десятью тысячами образцами.

Главными потребителями этой технологии в первую очередь станут люди с нарушением слуха — в случае оснащения ею их слуховых аппаратов будет усиливаться только нужный звук. По оценкам Всемирной организации здравоохранения, от частичной потери слуха страдает 15% взрослого населения, или около 766 млн. человек, при чем по мере старения населения эта цифра будет расти. Но и не испытывающие подобных проблем люди наверняка оценят возможность слышать из разных устройств очищенную от шума информацию — будь то радиостанции военных, полицейских и спасателей или обычные смартфоны. Способны ли мобильные процессоры, встроенные в слуховые аппараты, радиостанции и смартфоны, справиться с такой нагрузкой — вопрос отдельный. Скорее всего принципиальных препятствий для этого нет, поскольку некоторые из современных чипов (например, Snapdragon 820) уже используют технологии шумоподавления — просто они базируются на более традиционных методах.

С подробным описанием технологии, созданной группой профессора ДеЛианг Ванга, а также образцами аудиозаписей отдельных фраз до и после обработки, можно ознакомиться по ссылке ниже.

IEEE Spectrum