Глава OpenAI рассказал о проблемах и ближайших перспективах искусственного интеллекта
Едва ли OpenAI нуждается в представлении, но на всякий случай напомню, что это компания, которая разработала чат-бот ChatGPT. Со времени своего релиза в конце прошлого года он произвел настоящую сенсацию — «стохастические попугаи», которыми скептики иронически называли большие языковые модели, оказались на удивление умными. Предварительно обучившись на больших текстовых дата-сетах и пройдя «ручную настройку» в форме обучения с подкреплением на основе обратной связи (RLHF), ChatGPT научился предсказывать очередное слово (подробнее см. Что делает ChatGPT… и почему это работает?) в ответе на запрос настолько «по-человечески», что с некоторыми оговорками может претендовать на прохождение теста Тьюринга. Первая версия чат-бота была создана на базе GPT-3 (чью настроенную при помощи RLHF версию принято называть GPT-3.5) и открыта для публичного доступа в ноябре 2023, а в феврале 2023 вышла новая версия на базе GPT-4. Как уже рассказывал Gadgets News, эта модель оказалась не только более умной, но и мультимодальной — умеющей обрабатывать, наравне с текстовыми запросами, еще и изображения. Правда, пользователям эта версия ChatGPT доступна за деньги ($20 в месяц), при этом работать с изображениями они пока не могут — только с текстовыми запросами.
Стремительный прогресс в этой области разжигает всеобщий интерес к перспективам искусственного интеллекта. И вот на днях в стенах Университетского колледжа Лондона (UCL) состоялась встреча с возглавляющим OpenAI Сэмом Альтманом, на которой тот рассказал о текущих проблемах и ближайших перспективах искусственного интеллекта. Видеозапись встречи пока отсутствует, но с ключевыми заявлениями Альтмана можно ознакомиться в блоге одного из участников мероприятия.
Главная проблема OpenAI состоит в нехватке вычислительных ресурсов, а именно графических ускорителей. Из-за этого:
- страдает скорость работы с API, позволяющего встраивать чат-бот в свои продукты другим компаниям;
- на следующий год откладывается внедрение мультимодальности GPT-4 в ChatGPT;
- расширение запросов до 32 тыс токенов недоступно большинству пользователей.
Это радостная новость для Nvidia и AMD, на которых одна за другой накатывают волны ажиотажного спроса — сначала из-за криптовалютного бума, потом из-за ковидного локдауна, и наконец теперь из-за потребности в ресурсах для обучения и работы искусственного интеллекта. Благодаря последнему рыночная капитализация Nvidia взлетела с $350 млрд в начале года до почти триллиона долларов ($990 млрд 30 мая). Ажиотаж вокруг ИИ побуждает ведущего в мире производителя игровых видеокарт уделять ускорителям машинных вычислений все больше внимания — на днях Nvidia запустила в производство анонсированный в марте 2022 суперчип GH200, чье быстродействие в матричных операциях достигает 1 PFLOPS (FP16).
Что касается перспектив, то самым интересным и по-своему сенсационным стало обещание OpenAI уже в ближайшем будущем увеличить максимальный размер запроса с нынешних 32 тыс токенов до 1 млн токенов. Это значит, что если сейчас ИИ способен понимать контекст статьи на 50 страниц, то возможно через год-два он научится обрабатывать целые книги. И прочитав, например, «Войну и мир» Толстого, не подглядывая в Интернет сможет пересказать сюжет романа, дать характеристику его героям, порассуждать об их мотивации и т.д. От перспективы когда-нибудь «скормить» ИИ всю мировую литературу (особенно научную) захватывает дух. Правда, Альтман пояснил, что для преодоления ограничения в 1 млн токенов потребуются уже не дополнительные вычислительные мощности, а прорыв в исследованиях.
Другое обнадеживающее заявление касается размеров моделей. Недавно во многих статьях утверждалось, что «эпоха гигантских моделей ИИ уже закончилась». Об этом говорил непосредственно Сэм Альтман: «Я думаю, что мы подошли к концу эры, когда это будут гигантские, гигантские модели», — сказал он аудитории на апрельском мероприятии в Массачусетском технологическом институте, «Мы усовершенствуем их другими способами». Теперь уточняется, что это не совсем так. Внутренние данные OpenAI говорят о том, что законы масштабирования продолжают действовать, и увеличение размеров моделей способствует дальнейшему росту производительности. Однако прежние темпы масштабирования не могут быть сохранены, поскольку всего за несколько лет OpenAI сделала модели в миллионы раз больше, и в дальнейшем это будет невозможно. Это не означает, что OpenAI не будет продолжать попытки сделать модели больше, просто каждый год они будут удваиваться или утраиваться, а не увеличиваться на несколько порядков. Таким образом, нехватка производительности сказывается и здесь — хотя наверняка и будет частично компенсирована ростом эффективности больших языковых моделей, что уже не раз демонстрировалось.
Другим крупнейшим игроком в индустрии искусственного интеллекта является Alphabet (Google), чье изобретение трансформерной архитектуры собственно и заложило предпосылки для нынешней революции больших языковых моделей. В прошлом месяце компания анонсировала 2-е поколение своей модели PaLM, а также модель нового поколения Gemini, которая пока находится в стадии обучения. Gemini была создана с нуля, чтобы быть мультимодальной, высокоэффективной в интеграции инструментов и API, а еще способной запоминать и планировать. Google сообщает, что «уже на ранней стадии мы видим впечатляющие мультимодальные возможности, которых не было в предыдущих моделях».