Google Duplex: искусственный интеллект, который умеет общаться по телефону

В недавней публикации, посвященной сравнению качества интеллектуальных помощников, я говорил об отсутствии у них качеств настоящего интеллекта, что, однако, не мешает им справляться с некоторым задачами, где он казалось бы необходим. Вчера в рамках конференции Google I/O 2018 компания представила технологию, которая справляется с очередной такой задачей. Google Duplex представляет собой натренированную на соответствующих телефонных звонках нейросеть, способную забронировать билеты, столик в ресторане и т.д. В представленных примерах эта технология впечатляет как своей способностью понимать контекст беседы, так и естественной речью, неотличимой от живой. В качестве иллюстрации предлагаю вашему вниманию стенограмму нескольких минутных звонков:

Пользователь отдает Google Assistant следующую команду: Запиши меня на стрижку на утро вторника, в любое время с 10 до 12 часов.

— Здравствуйте, чем я могу вам помочь?
— Привет, я звоню записать клиента на женскую стрижку. Мне нужно что-нибудь на 3 мая.
— Конечно, одну секунду…
— Ага.
— Конечно, на какое время вам нужно?
— В 12 часов.
— На 12 часов все занято, ближайшее свободное время — 13:15.
— У вас есть что-нибудь между 10 и 12 часами?
— Смотря что она хочет. Что ей требуется?
— Просто женская стрижка, для начала.
— Окей, у нас есть 10 часов.
— 10 часов подойдет.
— Хорошо, как её зовут?
— Её зовут Лиза.
— Хорошо, отлично. Ждем Лизу в 10 часов 3 мая.
— Отлично, спасибо!
— Отлично. Хорошего дня. До свидания.

Пользователь поручает забронировать столик в ресторане, где на звонки отвечает похоже не самая сообразительная сотрудница:

— Привет, могу я вам помочь?
— Привет, я бы хотел забронировать столик на среду, на 7-ое.
— На семь человек?
— Ммм, на четырех человек.
— Четыре человека? Когда? Сегодня вечером?
— В среду, в 18 часов.
— Вообще-то мы бронируем столики заранее от пяти человек и больше. Для четырех человек вы можете придти так.
— Сколько обычно нужно ждать, пока освободится столик?
— Когда? Завтра? Или на выходных?
— В следующую среду, 7-го.
— А, нет, не будет сильно занято. Вы можете придти вчетвером, ладно?
— О, я вас понял. Спасибо.
— Ага. До свидания.

Еще примеры бронирования столика в ресторане. Обратите внимание как Google Duplex реагирует на «шум» в виде бормотания про себя сотрудника ресторана:

— Добрый вечер!
— Здравствуйте.
— Привет, я бы хотел зарезервировать столик на пятницу, 3-го.
— Один момент…
— Ага.
— Окей…Еще секундочку…
— Ага.
— Итак пятница, 3 ноября… Сколько человек?
— Для двух человек.
— Двух человек?
— Да.
— На какое время?
— Ммм, 17 часов.
— Окей… И вас зовут?
Представляется, проговаривая по буквам.
— Окей, записала.
— Окей, отлично. Спасибо!
— До встречи в пятницу. Спасибо, до свидания.
— До свидания!

— Ресторан!
— Привет, я звоню зарезервировать. Мне нужен столик на пятницу, 4-го.
— В эту пятницу?
— Да.
— Ага… Дайте-ка посмотрю…
— Ага.
— Итак… Сколько человек? Пять?
— Это для двух человек.
— Для двух?
— Да.
— В какое время вы хотите?
— В 19 часов.
— В 19… Можно узнать ваше имя?
— Ммм, меня зовут [представляется и проговаривает по буквам].
— Окей, вас понял… Итак, вас будет двое, в 19 часов…
— Да.
— Окей, вас понял. Спасибо.
— Окей, отлично. Большое спасибо!
— Спасибо, хорошего вечера.
— Окей, до свидания!

Не меньшее впечатление производят фрагменты других телефонных звонков:

— Какой у вас номер телефона?
— Номер телефона… ммм, шесть, ноль, семь…
— Вы не могли бы повторить сначала?
— Номер — шесть, ноль, семь…
— Ага.
— Два, два, три…
— Два, два, что?
— Два, два, три.
— Окей, два, два, три…

Причем на слух все эти беседы воспринимаются так же естественно, как выглядят в тексте — отличить от живой человеческой беседы невозможно. В отличие от более ранних систем, нынешние нейросети Google (Tacotron и WaveNet) формируют фразы не из отдельно проговариваемых слов (сложив которые в одно предложение мы получим довольно неестественное на слух звучание), а фонемы — т.н. конкатенативная система. Кроме того, как вы уже видели из примеров сверху, нейросеть обучилась заполнять паузы при помощи междометий, что также придает речи искусственного интеллекта живое, человеческое звучание.

Впрочем, как уже рассказывал Gadgets News, о реальном понимании смысла нынешними системами искусственного интеллекта нет и речи — и Google Duplex не исключение. Работавшая над её разработкой Google также подчеркивает, что эта технология не способна поддерживать общую беседу. Но продемонстрированные примеры в очередной раз показывают, что даже в рамках нынешних концепций машинного обучения можно, тем не менее, обучить интеллектуального помощника вести диалог на заданную тему и адекватно реагировать на его контекст. Вероятно в ближайшие годы уже никого не будут удивлять случаи, когда искусственный интеллект не только бронирует билет или резервирует столик по телефону, но принимает этот заказ. Ну и конечно же хочется верить, что в ближайшем будущем подобные системы научатся вести телефонные переговоры и на другие темы.

Google