IBM рапортует о новых успехах ИИ в распознавании речи
На днях IBM объявила о новом достижении искусственного интеллекта в распознавании речи. В далеком 1995 году уровень ошибок в популярном бенчмарке (в данном случае наборе аудиофайлов с записью телефонных разговоров на английском языке) SWITCHBOARD составлял 43%, в 2004 — уже 15.2%, а в сентябре 2016 — 6.6%. И вот теперь IBM поставила очередной рекорд, добившись 5.5%. Успех обеспечила комбинация долгой краткосрочной памяти с языковыми моделями WaveNet и тремя т.н. сильными акустическими моделями.
Для сравнения человек в среднем неправильно распознает каждое двадцатое слово. Расчетно это составляет 5%, но IBM в качестве среднестатистической ошибки у человека приводит разные цифры — в одном источнике 4%, в другом — 5.1%. В свою очередь Microsoft, чей собственный рекорд в октябре 2016 составил 5.9%, именно эту цифру расценивает в качестве уровня человеческой погрешности.
В другом бенчмарке, CallHome, уровень ошибки разработанной командой IBM Watson системы составляет 10.3%, тогда как человеческий уровень оценивается в 6.8%. Если эта тенденция сохранится, то превосходство искусственных систем распознавания речи над человеком — вопрос времени. Подчеркиваю, что речь идет именно о распознавании устной речи (по сути — представления в письменном виде), а не её осмысления. Последнее является чрезвычайно сложной задачей, решение которой в обозримом будущем пока ничто не предвещает.
Развиваются и встречные технологии, по искусственному синтезированию человеческой речи. На днях китайский поисковый гигант Baidu объявил, что его система преобразования текста в голос Deep Voice обучается за считанные часы с минимальным вмешательством человека. А недавно появились сведения, что интеллектуальный помощник Alexa, созданный в Amazon, в ближайшем будущем будет не только отвечать за запросы своего хозяина, но и вступать в диалог первым, озвучивая важные уведомления, напоминания и т.д. Способность голосовых ассистентов к взаимодействию с людьми на естественном языке в смартфонах (или скажем очках дополненной реальности) со временем может стать главным критерием качества мобильного устройства, вытеснив на задний план такие характеристики как процессор, дисплей или камера.