ИИ-революция поисковиков: что хорошего и плохого она сулит потребителям и создателям Интернет-контента
Состоявшиеся на днях анонсы интеграции больших языковых моделей в поисковики Google и Bing ознаменовали начало очередной революции в создании и потреблении информации — подобной той, что случилась в девяностые годы прошлого века с распространением Интернета и появлением поисковиков с браузерами. Очень важно, что эта революция сразу начинается с участием сразу двух гигантов, Alphabet (Google) и Microsoft (Bing). Подобное соперничество (AMD vs Intel, AMD vs Nvidia, Microsoft vs Apple, Apple vs Google и т.д.) обязывает его участников прилагать максимальные усилия, чтобы одолеть конкурента. Причем в случае с «чистыми» поисковиками подобная дихотомия практически отсутствует: Google занимает 93% поиска, Bing — всего 3%. Но если интеллектуальные возможности последнего превзойдут таковые у первого, то это безусловно способствует улучшению позиций поисковика Microsoft.
Но что конкретно интеграция больших языковых моделей в поисковики сулит нам с вами? Как уже рассказывал Gadgets News, одной из трех глобальных проблем в современном потреблении информации является необходимость искать её — вместо того, чтобы получить готовый ответ на свой вопрос. Вот что я писал об этом в ноябре 2019 года:
Но представьте, что между вами и Интернетом есть посредник в виде интеллектуального помощника. Который способен за считанные секунды посмотреть и проанализировать миллионы ресурсов и миллиарды документов (тестовых, аудио, видео) на любом языке, отобрать заслуживающие доверия, извлечь из них и в удобной для вас (например, табличной или графической) форме представить требуемую информацию. Это под силу лишь искусственному интеллекту — причем такому, что принято называть сильным. Пока таких технологий нет, в лучшем случае они появятся через несколько десятилетий. Но когда это произойдет, наше потребление информации претерпит очередную революционную трансформацию.
Тогда мы перестанем искать информацию, а будем сразу получать готовые ответы на интересующие нас вопросы — в той мере, в какой на эти вопросы может ответить профильный специалист, располагающий неограниченным количеством времени и неограниченным доступом ко всей имеющейся в Интернете информации. Это будет выглядеть так, как если бы у каждого пользователя всемирной паутины имелся огромный штат специалистов, которые по каждому запросу своего руководителя проводили целые исследования.
Будущее информационной революции: что нас ожидает в ближайшие десятилетия?
И хотя по мнению многих специалистов до появления сильного искусственного интеллекта всё еще далеко (например, Михаил Бурцев считает, что в ближайшие полвека нам это не грозит), мое предположение, что такие технологии появятся не раньше чем через несколько десятилетий, возможно оказалось слишком осторожным. Во всяком случае на своей презентации Microsoft описала свой поисковый сервис именно таким — он будет не только искать информацию и выдавать ссылки на страницы с контекстным соответствием запросу пользователя, но и давать готовые ответы. Вот какие примеры были продемонстрированы на позавчерашней презентации Microsoft:
- наиболее влиятельные мексиканские художники и краткая информация о них
- значимые события такого-то спортивного состязания
- влезет ли такой-то диван в багажник такого-то автомобиля
- три лучших пылесоса для шерсти домашних животных, их достоинства и недостатки
- чем можно заменить яйцо при приготовлении пирога
- лучшие 65-дюймовые телевизоры.
На последнем пункте Microsoft продемонстрировала диалоговые возможности Bing. Получив список лучших моделей, пользователь спрашивает какая из них больше всего подходит для компьютерных игр. Получив сократившийся список, пользователь интересуется самыми недорогими моделями.
В другом примере Bing по запросу пользователя составляет программу 5-дневной туристической поездки в Мехико, затем по его просьбе сужает её до трех дней, перечисляет торговые центры, ночные клубы и т.д. В числе простеньких креативных способностей Bing — составить текст письма для друзей с описанием поездки и перевод его на испанский язык. В другом примере пользователь просит Bing составить недельную диету для его семьи, а потом выделить из неё список продуктов, с группировкой по категориям (фрукты, овощи, молочные продукты и т.д.) Или викторину из 10 вопросов на тему музыки 1990х годов.
А вот как выглядит интеграция сервиса непосредственно в браузер Edge (copilot). Пользователь открывает многостраничную финансовую отчетность некоей компании и просит перечислить ключевые моменты (выручка, прибыль и т.д.) Получив их, поручает copilot в табличном виде сравнить с аналогичными данными некоей другой компании. В другом примере пользователь выделяет на веб-странице фрагмент программного кода на одном языке, который copilot отображает в боковой панели и спрашивает что с ним делать. Пользователь поручает перевести код на другой язык программирования — и результат готов.
Что касается Bard, то на презентации Google демонстрировались такие запросы:
- Что надо учесть при покупке семейного автомобиля (ответ — бюджет, количество мест, требования, безопасность, тип топлива)
- Аргументы «за» и «против» покупки электрического автомобиля
- Какие созвездия интереснее всего для наблюдения.
Приведенные примеры не назовешь впечатляющими, особенно в случае Google. Причем в опубликованном в Твиттере примере была обнаружены ошибка — на запрос «О каких открытиях телескопа Джеймс Уэбб я мог бы рассказать своему 9-летнему ребенку?» Bard в числе прочего упомянул первые снимки планет за пределами Солнечной системы — что оказалось ошибочным утверждением. После этого акции Alphabet подешевели на $8 и рыночная капитализация компании сократилась на $100 млрд.
И тем менее, очередная информационная революция началась. Сначала поисковики будут отвечать на относительно простенькие запросы и при этом допускать ошибки. Опыт общения c ChatGPT показал, что в своей нынешней реализации большие лингвистические модели далеко не идеальны (особенно в логике и математике) и, что хуже, всего, крайне редко говорят «не знаю» когда действительно не знают. С одной стороны это роднит их интеллект с человеческим, а с другой — делает ненадежным источником информации.
Но постепенно запросы будут становиться все более сложными, а ответы на них — всё более точными. Их совершенствование возможно как по пути развития самих больших лингвистических моделей (своего рода «китайских комнат», которые строят ответы на статистических текстовых закономерностях), так и по пути интеграции этих моделей со специализированными системами. Как уже рассказывал Gadgets News, если GPT-3 (на базе усовершенствованной версии которого был создан ChatGPT) решил 18.8% математических задач из университетского курса, то другое детище OpenAI на базе ИНС, программа Codex, правильно ответила уже на 81% вопросов. Хороший результат показала также интеграция с ChatGPT программы Wolfram|Alpha, сочетающей базу знаний и набор вычислительных алгоритмов.
Поэтому весьма вероятно, что в какой-то момент (возможно, уже в ближайшие годы) окажется, что люди не столько ищут информацию в Интернете, сколько задают вопросы подобным сервисам и получают на них исчерпывающие ответы. В том числе в отношении аудио- и видеоинформации — на своей презентации Google уделила этому моменту особое внимание.
При условии качественной реализации это сулит рядовым пользователям сплошные выгоды. А вот в случае с теми, кто наполняет Интернет информацией, всё не так однозначно. С одной стороны, со временем они возможно получат в свои руки мощный инструмент генерации контента — написания текстов и программного кода, создания иллюстраций и т.д. А с другой стороны, как отмечают наши коллеги из Tom’s Hardware, непосредственно к этому контенту пользователи Интернета будут обращаться все меньше и меньше — им будет достаточно получить на свой запрос готовый ответ. Получается, что подобные сервисы будут как бы паразитировать на создателях уникального и полезного контента, не давая им ничего взамен. Нечто подобное уже привело к тому, что американское фотоагентство Getty Images, владеющее огромной коллекцией фотографий, подало в суд на Stable Diffusion за использование 12 млн фото из её фотобанка для обучения своего генератора изображений.
С анонимностью предоставленных ответов связана еще одна проблема — отсутствие четких критериев ранжирования источников. Точнее, у самих Google и Microsoft такие критерии конечно же имеются, но что они собой представляют — вопрос открытый. И если в отношении научной информации можно быть относительно спокойным, то в случае с политикой или рекомендаций по выбору того или иного товара будет как минимум недоверие к тому насколько объективно и беспристрастно формируются ответы с рекомендациями. Возможно лучшим решением этой проблемы станет открытость и прозрачность методологии фильтрации и ранжирования источников, задействованных при формировании ответа. Одновременно это возможно позволит урегулировать конфликт с правообладателями использованного контента — они могли бы получать свою долю от рекламных доходов Alphabet и Microsoft пропорционально использованию их (правообладателей) контента.
Кстати, в этом состоит еще одна глобальная проблема современного потребления информации, о которой я рассказывал в вышеупомянутой публикации. Речь идет о неполном доступе человечества к уже оцифрованной информации (из-за законодательных ограничений, дороговизны и т.д.) — одновременно с наличием пиратских ресурсов, позволяющих обойти часть этих ограничений. Решением этой проблемы могла бы стать дополнительная плата — например, в размере $200 в год (в среднем) с каждого из пользователей Интернета. Их количество достигает 5 млрд человек, соответственно общая плата составит $1 трлн. При наличии технологий, отслеживающих фактическое использование того или иного контента пользователями и вышеупомянутыми сервисами, этой суммы вполне хватит для достойного вознаграждения правообладателям всех выложенных в Интернет публикаций, музыки, и кино. Не исключено, что назревающая проблема паразитирования поисковых сервисов на принадлежащем правообладателям контенте ускорит предоставление всему человечеству недорогого доступа ко всей оцифрованной информации.