Что нового умеет Google Assistant?
На днях в польском Кракове прошла организованная Google двухдневная конференция для разработчиков, GDD Europe 2017. Одной из наиболее интересных на ней стала демонстрация новых возможностей голосовой помощницы Google Assistant (или Google Ассистент), впервые представленной публике в мае 2016. Они дают общее представление о том, какого уровня достигли возможности искусственного интеллекта по части взаимодействия с человеком на естественном языке. Без лишних вступлений перейдем к диалогам, продемонстрированным руководителем группы разработчиков Google Ассистент в цюрихском офисе компании:
- Привет, Google, как дела?
- Отлично, спасибо что спросил. Чем могу помочь?
- Можешь пожалуйста сказать какой завтра будет погода в Кракове?
Здесь наша умная помощница зависла, но после повторной попытки ответила:
- Завтра в Кракове будет переменная облачность с минимальной температурой 10 градусов и максимальной 18 градусов.
Автор презентации отметил, что речь Google Ассистента стала более естественной, а сама она научился понимать достаточно сложные предложения. Идем дальше:
- Покажи мне аттракционы Кракова!
- Аттракционы Кракова включают (Google Ассистент перечисляет их вслух, включая Европа-парк)
- Покажи мне список каруселей Европа-парка!
- Карусели Европа-парка включают (Google Ассистент перечисляет их вслух, включая «Синее пламя»)
- Какое ограничение по росту для «Синего пламени»?
- Чтобы кататься на «Синем пламени» вы должны быть не ниже 1 м 31 см
Далее следует совсем изощренный вопрос:
- Как называется фильм, где играет Том Круз, и где он играет в бильярд, и пока он играет в бильярд он танцует?
- Вот информация о «Цвете денег». Бывший виртуозный игрок в бильярд Фелсон решает, что он хочет вернуться в игру…
Далее демонстрируется взаимодействие Google Ассистента с другими сервисами:
- Будь моим вьетнамским переводчиком!
- Поняла. Я буду переводить все следующие сообщения на вьетнамский. Чтобы остановить просто скажи «останови перевод»
- Привет, у меня проблемы, вы можете мне помочь?
Google Ассистента произносит фразу на вьетнамском языке
- Я потерял в поезде свой багаж
Аналогично — следует перевод этой фразы на вьетнамский.
- Останови перевод!
- Окей
Следующим сервисом, вслед за Google-переводчиком, стал Google Street View:
- Я бы хотел сейчас оказаться на Эйфелевой башне. Можешь пожалуйста перенести меня туда?
- Открывается Street View!
И на смартфоне действительно запускается Street View с видом с высоты Эйфелевой башни.
Далее была сделана попытка показать работу Google Ассистента со сторонними сервисами:
- Поговори с WebMD! (сайт, посвященный медицине и здоровью)
- Конечно! Получаем WebMD
Подключается приложение WebMD, с которым происходит следующий диалог:
- Добро пожаловать в WebMD! Я могу рассказать вам о состоянии здоровья, лекарствах или даже побочных эффектах. Что бы вам хотелось узнать?
- Каковы побочные эффекты от аспирина?
Здесь система дает сбой, и на вопрос отвечает не WebMD, а Google Ассистент:
- Вот сводка из RxList (онлайновый фармацевтический ресурс): сильная тошнота, рвота или боли в желудке, кровавый кашель или рвота, которая выглядит как кофейная гуща, жар, продолжающийся три дня и дольше…
На повторный запрос последовал аналогичный ответ.
Затем демонстрируются возможности персонифицированного взаимодействия Google Ассистент с пользователем:
- Какое движение из цюрихского аэропорта до моего дома?
- Движение из цюрихского аэропорта до твоего дома свободное, так что это займет 43 минуты
- Когда будет мой рейс сегодня?
- Твой рейс 1625 Люфтганза в Мюнхен сегодня в 16:50
- Как поживает моя команда?
- Барселона — вторая в группе А
- Какая моя любимая команда?
- Ты сказал мне, что тебе нравится Барселона (автор презентации пояснил, что сказал это несколько месяцев назад)
Еще сильнее впечатляют способности Google Ассистент к обучению самим пользователем — такая функция в пользовательской версии «потенциально» появится в следующем году:
- Когда погода больше 25 градусов (перевожу дословно), я могу плавать в цюрихском озере
- Окей, поняла
- Я могу поплавать в цюрихском озере в эти выходные?
- Нет, не можешь. Температура ниже 25 градусов
- Какая погода в Цюрихе в эти выходные?
- Вот прогноз по Цюриху (Google Ассистент выводит информацию, в которой температура составляет 20 градусов)
Следующий диалог призван раскрыть возможности Google Ассистент по пониманию пользователя в контексте ведущегося с ним диалога:
- Как высока Рысы? (гора, расположенная на польско-словацкой границе в Высоких Татрах)
- Вот что я нашла (Google Ассистент выводит результаты поиска по слову «рис»)
- Как высока Рысы?
- Вот что я нашла…
- Как высока Рысы?
- Вот прогноз по Цюриху… (дескать, отвяжись уже)
- Высочайшие горы в Татрах?
- Высокие Татры включают (следует перечисление гор, включая Рысы)
- Как высока Рысы?
- Я могу поискать ответы в Web…
- Высочайшие горы в Татрах?
- Высокие Татры включают…
- Как высока Рысы?
- Высота Рысы — 2,503 метров
Как видим, с третьей попытки (не считая сделанных до контекстного вопроса о Татрах) Google Ассистент наконец осилила вопрос и ответила на него правильно. Следующий пример также касается контекста:
- Изображения Томаса?
- Зацени следующие изображения
- Список членов команды «Бавария»?
- Список членов команды ФК «Бавария» включает (следует перечисление игроков, среди которых нет Томаса, но зато он выводится в списке на экране смартфона)
- Изображения Томаса?
- Изображения Томаса Мюллера! (выводятся на экран)
Еще один пример понимания контекста, более продолжительный:
- Где Эмпайр-стейт-билдинг?
- Адрес Эмпайр-стейт-билдинг: Нью-Йорк, Нью-Йорк, 5-я авеню 350, Эмпайр-стейт-билдинг…
- Я хочу видеть изображения!
- Изображения Эмпайр-стейт-билдинг (выводит)
- Насколько оно длинное?
- Длина Эмпайр-стейт-билдинг — 381 метр
- Кто его построил?
- Корпорация Starett
- Когда?
- Строительство Эмпайр-стейт-билдинг началось 17 марта 1930
- Какие итальянские рестораны там вокруг?
- Я нашла несколько мест (выводит список)
- Позвони в первое!
- Звоню в Ai Fiori (звонит)…
Следующие примеры контекстного понимания реализованы в связке с анонсированным в мае этого года приложением Google Lens, способным в режиме реального времени распознавать объект, который видит камера смартфона. Она была наведена на яблоко, вслед за чем последовал вопрос: «Сколько у него калорий?» — «В одном яблоке в среднем 95 калорий«. Затем ведущий достает из кошелька и раскладывает на столе три польские банкноты (две номиналом в 100 и одну — 50 злотых), наводит на них камеру и спрашивает: «Сколько это в швейцарских франках?» — «250 польских злотых соответствует 67 швейцарским франкам и 10 рапенам«.
Финальный пример продемонстрировал возможности Google Ассистент распознавать речь в условиях внешних помех. По просьбе автора презентации аудитория устроила шум, а в зале включили громкую музыку. Одновременно он что-то произнес в смартфон, и на экране появились вопрос о дате следующей игры ФК «Барселона» и ответ с соответствующей информацией.
Согласитесь, что перечисленные выше примеры, несмотря на несколько сырых моментов, демонстрируют довольно высокий уровень понимания интеллектуальной помощницей Google сложных запросов и контекста ведущейся беседы.