Глава OpenAI: невероятное превосходтво агентности

Едва состоялся релиз модели модели OpenAI o1, знаменующей достижение 2-го этапа на пути к созданию AGI, как глава компании, Сэм Олтмен, уже сообщает про «невероятное превосходство» в 3-м этапе. Как уже рассказывал Gadgets News, дорожная карта OpenAI (сначала фигурировавшая в слухах, а затем официально подтвержденная компанией) содержит пять этапов развития искусственного интеллекта:

  1. Чат-боты, разговорный ИИ
  2. ИИ, способный к рассуждениям (reasoning)
  3. Агенты, способные к выполнению действий
  4. ИИ-новатор, способный на изобретения
  5. ИИ, способный выполнять работу целой организации.

Строго говоря, Олтмен отсылает не к этой дорожной карте, а к пяти задачам, провозглашенным OpenAI еще в 2016, спустя полгода после своего основания. Эти задачи следующие:

  1. Метрики для измерения прогресса в области ИИ
  2. Создание домашнего робота
  3. Создайте агента с полезным пониманием естественного языка
  4. Победа в разнообразных играх с использованием агента.

За прошедшие 8 лет некоторые из этих целей утратили былую актуальность — что, впрочем, не означает их полного достижения. Например, домашних роботов нет и пока не предвидится — хотя мультимодальные системы с голосовым интерфейсом, способные анализировать поступающие к ним видео-данные, явно станут переломным моментом в истории этой индустрии. Современные приоритеты отражены в 5-этапной программе OpenAI, и так совпало, что там также присутствует агентность — и тоже на третьем месте.

В Википедии агентность определяется как способность человека к действию, способность выступать в качестве самостоятельного агента и делать осознанный и свободный выбор. В программе OpenAI 2016 года она описывается следующим образом:

Мы планируем создать агента, который сможет выполнять сложную задачу, заданную языком, и запрашивать разъяснения по задаче, если она неоднозначна. Сегодня [в 2016 году] существуют перспективные алгоритмы для контролируемых языковых задач, таких как ответы на вопросы, синтаксический разбор и машинный перевод, но нет ни одного для более сложных лингвистических задач, таких как способность вести разговор, способность полностью понимать документ и способность следовать сложным инструкциям на естественном языке. Мы ожидаем разработки новых алгоритмов и парадигм обучения для решения этих проблем.

Рискну добавить к этим достаточно расплывчатым определениям еще одно, даже более расплывчатое — агентность ИИ подразумевает его интерактивность. Которая как раз и подразумевает способность ИИ «запрашивать разъяснения по задаче, если она неоднозначна». В сочетание с reasoning, способностью рассуждать, такой ИИ вполне подпадает под функциональное определение AGI — как способность выполнять любую интеллектуальную работу, с которой справился бы человек.

И вот Сэм Олтмен заявляет про «невероятное достижение цели 3, хотя это и заняло некоторое время» — и это спустя всего несколько дней после релиза o1, претендующей на достижение 2-го этапа новейшей дорожной карты OpenAI (ИИ, способный к рассуждениям).

Означает ли это скорое пришествие AGI и начала взрывных перемен в экономическом, социальном, культурном и политическом устройстве нашего мира? Этого нельзя ни исключать, ни гарантировать — тем и удивительно наше время: мы живем в эпоху великих перемен и великой неопределенности. Проблема в том, что несмотря на явный потенциал того же reasoning, он все еще очень несовершенен, и скорее всего то же самое можно будет сказать про будущую агентность. В моем любимом примере подобного несовершенства автопилот может часами ехать по очень сложному маршруту, но в какой-то момент совершить нелепое ДТП — нечто подобное сейчас происходит с ИИ. Вышедшая на днях модель 01 способна решать довольно сложные, по человеческим меркам, задачи — но периодически допускает нелепые ошибки даже в очень простых.

Но судя по всему, Сэм Олтмен в этом отношении настроен оптимистично. На состоявшемся позавчера T-Mobile Capital Markets Day 2024 он сравнил o1 с GPT-2 (2019, 1.5 млрд параметров) и соответственно рассчитывает, что в ближайшие годы она достигнет уровня условной GPT-4 (2023, по разным оценкам от 1 до 1.8 трлн параметров). Но даже в ближайшие месяцы, с релизом полноценной o1, по словам Олтмена, станет гораздо лучше своей preview-версии. Причем если путь от 1-го до 2-го этапа занял несколько лет, то 3-й, по мнению Олтмена, будет достигнут относительно быстро.

Таким образом, на данный момент складываются как минимум четыре направления прогресса в области ИИ на базе больших языковых моделей (LLM):

  1. Рассуждения
  2. Агентность
  3. Альтернативные разработки (например, сочетание LLM c механизмом символьного вывода, основанного на правилах формальной логики, либо с алгоритмом обучения с подкреплением — как это реализовано, соответственно, в AlphaGeometry и AlphaProof)
  4. Масштабирование размеров моделей, обучающего дата-сета и т.д.

До сих пор именно масштабирование служило локомотивом развития ИИ на основе LLM, и вполне вероятно, что оно же позволит в ближайшие годы значительно улучшить качество таких параметров как рассуждения и агентность. Если это так, то более чем понятны нарастающие, с перспективой достигнуть астрономических высот, инвестиции IT-компаний в строительство дата-центров. Напомню, что согласно The Information одна только Microsoft разместила заказ на от 700 тыс до 1.4 млн графических ускорителей следующего поколения (вероятно, Nvidia H200), тогда как нынешние Grok-2 и Llama 3 обучались всего на 15-16 тыс Nvidia H100. Есть опасения, что для таких огромных дата-центров не хватит электроэнергии, поэтому IT-компаниям приходится инвестировать не только в графические ускорители, но и энергетику. Сегодня было объявлено о соглашении Microsoft с Constellation Energy, в соответствии с которым в 2028 году будет запущен один из двух энергоблоков АЭС Три-Майл-Айленд. Он был законсервирован в 2019 по причине экономической нерентабельности (второй энергоблок закрыт в результате аварии 1979 года). Мощность запускаемого энергоблока — около 835 МВт, и согласно подписанному соглашению, Microsoft будет покупать вырабатываемую им электроэнергию в течение 20 лет.

Что касается агентности, то пока нет даже намеков на то, когда она появится в публично доступных моделях. Но нельзя исключать, что это случится этой зимой — как уже рассказывал Gadgets News, на днях Сэм Олтмен поделился радостью ожидания «зимних созвездий». Под которыми, по всей видимости, подразумевается семейство моделей Orion.