GPT-4: главные факты об искусственном интеллекте нового поколения

Cегодня состоялась презентация GPT-4, 4-го поколения алгоритма обработки естественного языка, разработанного компанией OpenAI. В основе алгоритма — архитектура трансформеров, представленная Google в 2017. Год спустя OpenAI выпустила 1-е поколение GPT (июнь 2018), потом GPT-2 (февраль 2019), потом GPT-3 (май 2020). Таким образом, ожидание GPT-4 растянулось на три года, при этом интерес к новому поколению модели подогревался ажиотажем вокруг выпущенного в конце прошлого года чат-бота ChatGPT. Последний был создан на основе дообученной версии GPT-3, которую условно называют GPT-3.5.

В чем же особенность полноценного 4-го поколения этой модели?

Прежде всего — это способность принимать на вход не только текстовые запросы, но и изображения. Для чего это нужно, эффектно продемонстрировали на презентации: модели показали фотографию рукописной схемы сайта (здесь такие-то кнопки, здесь такой-то текст и т.д.) и попросили разработать (на HTML, CSS и JavaScript) веб-сайт — что GPT-4 мгновенно исполнил. Ну или можно просто попросить модель объяснить что необычного или смешного в показанной ей фотографии.

Другая особенность — значительное увеличение максимально возможного размера текстового запроса. Если ChatGPT на базе GPT-3.5 мог принимать на вход до 8 тыс токенов (слов), то GPT-4 может принимать до 32 тыс (около 50 страниц текста), что означает более широкий охват контекста.

GPT-4 обучена на несколько более свежей информации — если GPT-3 (и в частности ChatGPT) «застрял» в декабре 2020 года, то его преемник — в сентябре 2021.

К сожалению, на этом технические подробности заканчиваются:

Учитывая конкурентную среду и последствия для безопасности таких масштабных моделей, как GPT-4, в данном отчете не содержится никаких дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, методе обучения и т.п.

Это конечно удручает специалистов, но нас с вами пожалуй больше интересуют практические достижения, и тут GPT-4 есть чем похвастать. Например, если в имитации экзамена на лицензию адвоката (Uniform Bar Examination, UBE) полученная GPT-3.5 оценка входила в 10% худших результатов среди экзаменуемых юристов (213 из 400 баллов), то GPT-4 — в 10% лучших результатов (298 из 400). В медицинском экзамене (Medical Knowledge Self-Assessment Program, MKSAP) GPT-3.5 набирает 53%, GPT-4 — 75%. Особо следует отметить, что для оценки интеллектуальных способностей моделей здесь используются не специализированные бенчмарки для ИИ, а академические и профессиональные экзамены:

Синяя лестница на этой диаграмме отражает способность GPT-3.5 сдавать те или иные экзамены, и как видно по ступенькам слева, в ряде тестов модель показывает довольно слабый результат (например, в вышеупомянутом адвокатском Uniform Bar Examination — 10%). И вот теперь часть пробелов заполняют раскрашенные зеленым цветом результаты GPT-4 (Uniform Bar Examination — 90%).

GPT-4 превзошла не только предшественника, но и некоторые специализированные модели, «натасканные» на решение определенных задач. Например, в июне 2022 Google выпустила модель Minerva, созданную на базе PaLM (540 млрд параметров). Minerva была обучена как раз решению задач, включающих научные или математические данные, и математические задачи начальной школы она сдает с результатом 59%. Лучший результат среди подобных моделей вообще — 87%, в у GPT-4 (которая не обучалась специально решению задач) в этом бенчмарке — 92%.

Создатели GPT-4 признают, что новая модель не избавилась от своего главного недостатка — т.н. галлюцинаций (когда ответы содержат несуществующие факты или в них допущены логические ошибки). Вместе с тем они отмечают существенное улучшение точности (в смысле отсутствия «галлюцинаций» и логических ошибок) ответов: если у GPT-3.5 эта точность была на уровне 50-60%, то у GPT-4 — 70-80% (в среднем — лучше на 19%).

Напоследок стоит отметить повышенную осторожность GPT-4 — по сравнению с ChatGPT склонность модели отвечать на запросы о запрещенном контенте уменьшена на 82%.

Будет ли новая модель внедрена в чат-бот ChatGPT и как скоро это произойдет — пока не сообщается. Зато Microsoft подтвердила, что её поисковый сервис Bing AI уже целых пять недель работает на GPT-4. Правда, в списке ожидания на доступ к этому сервису лично я нахожусь еще со дня его анонса.

OpenAI