Технология Microsoft сравнялась с человеком в распознавании устной речи

MS-AI-research-team

Компания Microsoft объявила сегодня об историческом достижении в области искусственного интеллекта — доля ошибок, допускаемых её системой компьютерного распознавания (преобразования в письменный текст) устной речи, достигла 5.9%, что примерно соответствует человеческому уровню. О динамике развития таких технологий говорит хронология предыдущих достижений: в сентябре этого года всё та же Microsoft сообщала о достижении уровня в 6.3%, приблизительно тогда же IBM заявила о 6.6%, а двадцать лет назад искусственная система распознавания живой речи ошибалась в 43% случаев. По словам Гарри Шама (Harry Shum), возглавляющего в Microsoft исследования в области искусственного интеллекта, еще пять лет назад он счел бы такой успех невозможным. Можно рассчитывать, что одними из первых его оценят пользователи голосовой помощницы Cortana.

Работа над подобными технологиями ведется еще с 1970-х годов, по инициативе DARPA, правительственного американского агентства передовых оборонных исследовательских проектов. В их основе лежит система искусственного интеллекта, развитие которой получило мощный импульс в 2012 году благодаря Алексу Крижевскому и его глубокой нейронной сети AlexNet.

Что касается созданной в Microsoft системы, то в её основе разработанный компанией нейросетевой инструментарий CNTK (Computational Network Toolkit), чей исходный код доступен всем желающим. В качестве аппаратной платформы использовались традиционные в таких задачах графические сопроцессоры.

Несмотря на достигнутые успехи, в Microsoft не собираются расслабляться и планируют направить усилия на распознавание речи в шумной среде, идентификацию говорящего когда беседуют сразу несколько человек, а главное — на понимание смысла речи. Решение последней задачи, признался Гарри Шам, по-прежнему является делом весьма далекой перспективы.

Microsoft