Искусственный интеллект на смартфонах: краткосрочные перспективы

На днях стартовали две крупные конференции для разработчиков, Microsoft Build 2019 и Google I/O 2019. Главными их анонсами, на мой взгляд, стали новые возможности искусственного интеллекта (в частности, интеллектуального ассистента) на смартфонах. Год назад Microsoft приобрела Semantic Machines, которая разработала «революционный новый подход к построение диалогового ИИ». В ролике ниже воспроизводится не реальный диалог пользователя с умным помощником, а видение Microsoft того как будет выглядеть этот диалог в следующем поколении интеллектуального ассистента от Microsoft.

Ниже приводится полная «стенограмма» этого диалога, состоявшегося после полученного пользователем сообщения о переносе делового совещания на сегодня:

  • Пользователь: «Что у нас на сегодня?»
  • Cortana: «Вот как выглядит твой день: прогулка в 8 утра, встреча с Анджелой в 10 часов, обед с Томом в полдень, и деловая встреча в 15 часов»
  • Пользователь: «Перенеси мою прогулку на завтра, то же время».
  • Cortana: «Конечно. Переношу прогулку на завтра, в 8 утра. Верно?»
  • Пользователь: «Да, звучит отлично»
  • Cortana: «Хорошо, перенесла на завтра»
  • Пользователь: «И запланируй совещание с Николасом и его менеджером с 9 до 13:30 сегодня, нам понадобится комната в Бельвью»
  • Cortana: «Хорошо, я приглашу Николаса Кона и Мишель Эстес на «Совещание», и назначу вашу встречу в городском центре 2605. Правильно?»
  • Пользователь: «Да… И перенеси встречу с Анджелой на завтра»
  • Cortana: «Хорошо, я запланировала вашу встречу. Вот пара вариантов завтрашней встречи с Анджелой Бат»
  • Пользователь: «А если позже в тот же день?»
  • Cortana: «Посмотрим… Как насчет этого?»
  • Пользователь: «Да, нормально. Она приглашена на сегодняшнее совещание?»
  • Cortana: «Нет, её нет среди приглашенных»
  • Пользователь: «Пожалуйста, отправь ей приглашение»
  • Cortana: «Хорошо, я переслала ей [приглашение на] совещание»

Пользователь получает сообщение от Ричарда: «Не забыла про пирог для вечеринки у Мерека?»

  • Пользователь: «Да, запланируй еще после последней встречи сегодня полчаса, чтобы забрать пирог на день рождения»
  • Cortana: «Конечно. Забрать пирог в 16:00, верно?»
  • Пользователь: «Да. И напомни — где у меня сегодняшняя обеденная встреча?»
  • Cortana: «Обед с Томом в кафе Liberty»
  • Пользователь: «Какая будет погода?»
  • Cortana: «В районе кафе в полдень сегодня будет в основном солнечно и 22 градуса тепла»
  • Пользователь: «Мы там сможем поесть на открытом воздухе?»
  • Cortana: «Да, в кафе Liberty имеется летняя веранда»
  • Пользователь: «Отправь маршрут моему автомобилю»
  • Cortana: «Маршрут до кафе Liberty отправлен твоему автомобилю»

Пользователь получает сообщение от Сайруса.

  • Пользователь: «Когда наш следующий отчет у Сайруса?»
  • Cortana: «Ваш следующий квартальный отчет у Сайруса Нафани во вторник, 11 июня, в 10 утра»
  • Пользователь: «Запланируй двухчасовое предварительное обсуждение с Бенджамином Макинтошем в пятницу накануне»
  • Cortana: «Хорошо… Так нормально?»
  • Пользователь: «Да, нормально»
  • Cortana: «Запланировала встречу с Беджамином»
  • Пользователь: «Спасибо!»
    Cortana: «Рада помочь».

Если сроки появления этих возможностей у Microsoft Cortana пока неизвестны, то в случае с Google Assistant они обещаны до конца года. На вчерашней презентации в рамках Google I/O 2019 были продемонстрированы следующие возможности.

1) Распознавание и голосовое озвучивание надписей. Вы наводите камеру смартфона на текст, и он произносится вслух, причем произносимые слова синхронно выделяются на экране. И конечно, текст можно произносить на языке перевода. Пока поддерживается 14 языков — включая русский.

2) Обратная функция — распознавание и воспроизведение текстом устной речи. Обе эти функции конечно реализовывались и прежде — фрагментарно в рамках Android или в отдельных приложениях. Сейчас речь идет уже о встроенной в Android и вероятно интегрированной со множеством приложений возможности. Отдельно было продемонстрировано успешное распознавание устной речи людей с нарушениями (например, переживших инсульт).

3) Новые, ориентированные на веб-серфинг, возможности Google Duplex. Например, вы поручаете Google Assistant забронировать для вас прокат автомобиля. Бот самостоятельно открывает нужный сайт и автоматически заполняет все необходимые формы, включая время поездки (по данным вашего Календаря). После чего запрашивает у вас подтверждение правильности данных и оформляет заказ.

4) В октябре прошлого года была представлена функция, когда Google Assistant вместо вас отвечает на звонок с неизвестного номера и выясняет, что нужно потенциальному спамеру. В этот раз Google показал нечто похожее, но уже позиционируемое компанией для людей с нарушениями слуха или речи. Письменные реплики такого пользователя «на лету» преобразуются в устную речь, которую Google Assistant озвучивает в беседе со звонящим человеком.

5) Правильное распознавание команд, отданных Google Assistant, от диктуемого ему текста — причем без ритуального произнесения фразы «Окей, Google!» Например, во время переписки с другом вы просите Google Assistant показать вам фото с животным, а потом поручаете отправить это фото другу. Или поручаете сообщить ему время вашего вылета, предварительно узнав расписание у Google Assistant. Но больше всего впечатлило, как во время презентации пользователь поручила Google Assistant написать письмо своей подруге, и в процессе диктовки текста велела ввести заголовок — умный помощник понял, что это адресованная ему команда, а не диктуемый текст.

6) Режим управления автомобилем. Когда он включен, то при входящем звонке Google Assistant спрашивает пользователя желает ли он на него ответить.

7) Остановка сигнала будильника командой «Стоп!» — как говорится, мелочь, но приятно.

Ну и пожалуй главная новость — многократное уменьшение объема данных голосового ассистента — с сотен гигабайт до полу-гигабайта, благодаря чему вся(?) работа Google Assistant будет выполняться локально на телефоне — намного быстрее и не требуя выхода в Интернет.

AI

Как уже неоднократно отмечали авторы Gadgets News, умный помощник (вроде Google Assistant, Apple Siri, Microsoft Cortana, Amazon Alexa или Яндекс Алисы) — это, в перспективе, главное направление дальнейшего совершенствования смартфонов. Конечно, с каждым новым поколением улучшаются процессоры и камеры. Раз в несколько лет появляются новые стандарты связи, а в ближайшие годы рынок почти наверняка заполонят многочисленные модели устройств со складным дисплеем. Но совершенствование всех этих параметров тормозится относительно медленным улучшением аппаратных технологий — тогда как развитие систем искусственного интеллекта лежит в плоскости программного обеспечения.

Нынешним образцам интеллектуальных помощников очень далеко до совершенства. Сегодня Google Assistant, считающийся лучшим среди них, не способен, например, ни на одно из следующих действий (многие из которых крайне востребованы слабовидящими людьми):

  1. сообщить заряд батареи (вместо этого он рекомендует слепому пользователю посмотреть в верхней части экрана или в настройках)
  2. сделать селфи (приложение камеры он запустит, но переключение с основной на фронтальную выше его сил)
  3. прочитать последнее входящее сообщение WhatsApp (не говоря уже о том, чтобы найти все последние сообщения от такого-то контакта, или сообщения на заданную тему, и т.д.)
  4. показать последний твит Илона Маска
  5. ответить на вопрос «В каком литературном произведении главная героиня кончает самоубийством, бросившись под поезд?»
  6. ответить на вопрос «Абхазия находится на Кавказе или в Средней Азии?»
  7. найти московский банк с самой низкой ставкой по ипотечным кредитам.

Первые пять запросов представляются довольно простыми. Включая вопрос об Анне Карениной — для ответа совсем необязательно читать роман Льва Толстого, достаточно воспользоваться поисковиком. IBM Watson умел это делать еще восемь лет назад, когда обыграл титулованных соперников в  телепередаче Jeopardy! (российский аналог — «Своя игра»). Но до Google Assistant и Яндекс Алисы образца 2019 года подобные навыки, похоже, не добрались.

С шестым запросом дела обстоят сложнее, поскольку от ИИ требуется понимание смысла в тексте, хотя и на довольно примитивном уровне. Ну и совсем нетривиальная задача — седьмой запрос, он требует как явного понимания смысла в тексте, так и сопоставления между собой этого смысла в разных источниках. Причем все это — разовые запросы, с пониманием контекста и ведением диалога дела обстоят и того хуже.

Поэтому лично для меня одна из главных интриг в области современных технологий — это как скоро и каким образом будет развиваться способность наших интеллектуальных помощников на смартфонах понимать смысл текста. Уйдут ли на это годы — или десятилетия? Будет ли достаточно постепенных косметических улучшений (вроде тех, что ежегодно анонсируют Google и Microsoft) — или без создания принципиально новой архитектуры никак не обойтись?..