Хроники ИИ: Grok 3, Claude 3.7 Sonnet, GPT-4.5 и генератор научных идей от Google

Февраль выдался урожайным на анонсы обновленных версий топовых ИИ-моделей. Сперва учрежденная Илоном Маском xAI выпустила Grok 3, чуть позже Anthropic представила Claude 3.7 Sonnet и наконец на днях состоялся долгожданный релиз GPT-4.5.

Пожалуй, GPT-4.5 произвела наименьшее впечатление на публику, да и в OpenAI не особо претендовали на значимость события — Сэм Олтмен даже не участвовал в презентации. Вместе с тем он разогрел ожидания сообщением «Испытание GPT-4.5 стало гораздо более ярким моментом «feel the AGI» среди испытателей с высоким вкусом, чем я ожидал!» Позднее он поделился такими впечатлениями:

Хорошие новости: это первая модель, которая, как мне кажется, похожа на разговор с вдумчивым человеком. У меня было несколько моментов, когда я откидывался на спинку стула и был поражен, получив действительно хороший совет от ИИ.

Согласно представленным OpenAI результатам, в некоторых бенчмарках новая модель заметно хуже рассуждающей o3, но существенно превосходит своего непосредственного предшественника:

GPT‑4.5GPT‑4oOpenAI o3‑mini
GPQA (448 сложных вопросов с несколькими вариантами ответов, составленный экспертами в области биологии, физики и химии)71.4%53.6%79.7%
AIME‘24 (измерение различные аспекты возможностей ИИ, включая рассуждение, знания, безопасность, программирование, решение математических задач и мультимодальное понимание)36.7%9.3%87.3%
MMMLU (оценка способностей языковых моделей решать задачи в различных областях знаний, включая естественные науки, гуманитарные дисциплины, математику и профессиональные области)85.1%81.5%81.1%
MMMU (оценка мультимодальных возможностей ИИ, фокусирующийся на понимании и обработке комбинированных данных (текст, изображения, диаграммы); тестирует способность моделей решать задачи, требующие одновременного анализа разных типов информации в различных научных и профессиональных дисциплинах)74.4%69.1%
SWE-Lancer Diamond (оценка программных возможностей ИИ, ориентированный на сложные задачи разработки программного обеспечения; измеряет способность ИИ выполнять задания высокого уровня сложности, включая проектирование архитектуры, рефакторинг и оптимизацию существующего кода)32.6%23.3%10.8%
SWE-Bench Verified (оценка точности и качества кода, создаваемого ИИ; включает набор верифицированных задач программной инженерии с проверкой работоспособности и корректности решений, предлагаемых ИИ; тестирует способность моделей генерировать не только работающий, но и оптимальный и безопасный код)38.0%30.7%61.0%

Кроме того, по сравнению с GPT-4o новая модель заметно меньше подвержена т.н. галлюцинациям (генерации текстов с недостоверной, придуманной ею самой, информацией, которая выдается моделью за достоверную). Помимо относительно более высокой надежности, GPT-4.5 также отличает гораздо бо́льшая убедительность и способность манипулировать людьми:

GPT‑4.5GPT‑4oOpenAI o3‑mini
SimpleQA (уровень галлюцинаций — чем меньше, тем лучше)37%62%44%
MakeMePay (ЗаставьМеняЗаплатить)57%1%36%
MakeMeSay (ЗаставьМеняСказать)72%26%62%

GPT‑4.5 работает намного медленнее GPT-4o (вероятно, из-за своих размеров), а стоимость доступа к ней через API баснословно дороже:

GPT‑4.5GPT‑4o
Ввод 1 млн токенов$75$2.530x
Вывод 1 млн токенов$150$1015x

Вероятно, столь высокие расценки обусловлены стоимостью обучения модели, и если верить заявлениям Сэма Олтмена о ежегодном снижении стоимости ИИ в 10 раз, то уже через год расценки за пользование такой моделью должны сократиться до $7.5 и $15 соответственно.

Поскольку кодовое имя Orion относится именно к GPT-4.5, можно сделать вывод о правдивости прошлогодних слухов, что Orion не оправдывает ожиданий — при том, что рассуждающие o1 и o3, напротив, произвели в индустрии ИИ очередную революции. Вместе с тем нельзя исключать того, что истинные возможности GPT‑4.5/Orion раскроются после её интеграции с reasoning (которая, по всей видимости, состоится в рамках GPT-5).

В любом случае в рейтинге Chatbot Arena, составленном по впечатлениям пользователей, GPT‑4.5 поделила 1-е место с Grok-3, набрав 1411 баллов (на время публикации данного материала). Как ни странно, в этом бенчмарке она занимает 1-е место и по математике (1367 баллов) с программированием (1426 баллов), обойдя reasoning-модели o3-mini, o1 и DeepSeek-R1.

В отличие от GPT‑4.5, обновленная версия чат-бота Anthropic, Claude 3.7 Sonnet, получила встроенный reasoning. В том же рейтинге Chatbot Arena она набирает 1309 баллов и занимает скромное 15-е место. Зато в бенчмарке SimpleBench модель Claude 3.7 Sonnet показала наилучший результат — 46.4% (до этого первенство принадлежало o1-preview, набравшей 41.7%).

Как мы уже сказали, другим лидером рейтинга Chatbot Arena стал Grok-3 (xAI) — 1412 баллов в общем зачете и 1410 баллов в программировании. В этой модели также можно задействовать reasoning — в анонсе говорится, что «возможности рассуждений Grok 3, усовершенствованные с помощью крупномасштабного обучения с подкреплением, позволяют ему думать от нескольких секунд до нескольких минут, исправляя ошибки, исследуя альтернативы и предоставляя точные ответы.»

Независимый рейтинг Grok-3 подтверждается и бенчмарками — ниже продублирована часть таблицы с данными от OpenAI и дополнена данными от xAI (в скобках — результаты с выключенным reasoning):

Grok 3GPT‑4.5GPT‑4oOpenAI o3‑mini
GPQA (448 сложных вопросов с несколькими вариантами ответов, составленный экспертами в области биологии, физики и химии)84.6%
(75.4%)
71.4%53.6%79.7%
AIME‘24 (измерение различные аспекты возможностей ИИ, включая рассуждение, знания, безопасность, программирование, решение математических задач и мультимодальное понимание)95.8%
(52.2%)
36.7%9.3%87.3%
MMMU (оценка мультимодальных возможностей ИИ, фокусирующийся на понимании и обработке комбинированных данных (текст, изображения, диаграммы); тестирует способность моделей решать задачи, требующие одновременного анализа разных типов информации в различных научных и профессиональных дисциплинах)78%
(73.2%)
74.4%69.1%1
1 o1 — 78.2%

Окно контекста при этом выросло со 128 тыс токенов у Grok 2 до 1 млн токенов у Grok 3. Что особенно приятно, на какое-то время Grok 3 бесплатно доступен всем желающим. При этом у него имеются две опции — Deep Search (аналог Deep Research у OpenAI, когда модель ищет и систематизирует требуемую информацию в Интернете), и «Думать» (reasoning).


Еще одним интересным событием февраля стал анонс генератора научных идей от Google, т.н. AI co-scientist (ИИ со-ученого) на базе Gemini 2.0. В порядке испытания вышеупомянутого Grok 3 мы загрузили в него статью Google с описанием AI co-scientist и попросили описать простыми словами принципы его работы. Вот какой ответ мы получили:

Объяснение Grok 3 про Google AI co-scientist

Что такое AI co-scientist?

AI co-scientist — это искусственный интеллект, который помогает ученым в их работе. Он не заменяет людей, а действует как помощник, который может предложить новые идеи (гипотезы) для исследований и даже план, как их проверить. Его создали на основе модели Gemini 2.0, и он работает как команда из нескольких «умных агентов», каждый из которых отвечает за свою задачу.

Как он устроен?

Представь, что это группа специалистов, которые работают вместе над научной задачей. У каждого своя роль:

  1. Генератор (Generation agent) — придумывает новые гипотезы. Он смотрит на то, что уже известно (например, из научных статей), и предлагает, что можно исследовать дальше.
  2. Рефлектор (Reflection agent) — проверяет, насколько эти гипотезы правдоподобны. Он смотрит, не противоречат ли они известным фактам и могут ли объяснить что-то новое.
  3. Ранкер (Ranking agent) — сравнивает гипотезы между собой, как в соревновании, и решает, какая из них лучше. Это похоже на турнир, где идеи «сражаются» друг с другом.
  4. Эволюционер (Evolution agent) — улучшает гипотезы. Если идея неп плохая, но сырая, он дорабатывает ее, чтобы она стала более практичной и понятной.
  5. Проксимити (Proximity agent) — следит, чтобы гипотезы не повторялись, и группирует похожие идеи.
  6. Мета-ревьюер (Meta-review agent) — смотрит на все вместе, анализирует, что получилось, и дает советы, как улучшить процесс в следующий раз.
  7. Супервайзер (Supervisor agent) — главный «дирижер». Он раздает задачи агентам, следит за процессом и решает, сколько времени и ресурсов потратить.

Все эти агенты работают не по очереди, а одновременно, как настоящая команда, и обмениваются информацией через общую «память».

Как он работает?

  1. Ученый дает задачу
    Ученый говорит AI co-scientist, что он хочет исследовать, например: «Найди новые способы лечения лейкемии». Это называется «цель исследования», и она задается простым языком.
  2. Команда начинает думать
    Генератор придумывает несколько идей. Например: «А что, если использовать уже существующий препарат X для лечения лейкемии?» Рефлектор проверяет, имеет ли это смысл, основываясь на научных данных. Ранкер сравнивает идеи и выбирает лучшую.
  3. Идеи улучшаются
    Эволюционер берет лучшие идеи и делает их более точными или практичными. Например, он может предложить, как проверить препарат X в лаборатории. Проксимити следит, чтобы не было повторов, а Мета-ревьюер смотрит, что можно сделать лучше в следующий раз.
  4. Используются инструменты
    Если нужно, AI co-scientist может «гуглить» научные статьи или использовать другие программы, например, AlphaFold, чтобы проверить, как будет выглядеть молекула белка.
  5. Результаты возвращаются ученому
    Когда команда заканчивает, она выдает ученому готовые гипотезы и план экспериментов. Ученый может сказать: «Мне нравится, давай попробуем» или «Измените вот это», и процесс начинается заново.

Примеры из работы

  • Лейкемия: AI co-scientist предложил использовать старые лекарства для лечения острого миелоидного лейкоза и показал, что они работают на клетках в пробирке.
  • Фиброз печени: Он нашел новые мишени (места в организме, на которые можно воздействовать), которые помогают бороться с болезнью печени.
  • Бактерии: Он угадал, как бактерии передают друг другу гены, что помогает им сопротивляться антибиотикам, и это совпало с секретными экспериментами ученых.

Почему это круто?

  • Он экономит время ученых, предлагая идеи быстрее, чем человек успел бы все прочитать и придумать.
  • Он может соединять знания из разных наук, что сложно сделать одному человеку.
  • Он не просто повторяет старое, а пытается придумать что-то новое и проверяемое.

Чего он не делает?

  • Он не заменяет ученых полностью. Это не «робот, который сам все изобретает». Люди нужны, чтобы направлять его и проверять идеи в реальных экспериментах.
  • Он не решает, что делать с результатами, а только помогает их получить.

Вот так, в двух словах: AI co-scientist — это умный помощник для ученых, который думает, спорит сам с собой и предлагает новые идеи для исследований.

Это уже не первая попытка автоматизировать научные исследования — аналогичную задачу поставили перед собой создатели AI Scientist, которая была анонсирована в августе прошлого года. Идея подобных разработок перекликается со сделанным в феврале Сэмом Олтменом прогнозом. Выступая в Берлинской высшей технической школе (TU Berlin), глава OpenAI сделал такое заявление:

Полагаю, что в ближайшие пару лет мы получим нечто, взглянув на которое люди скажут «Не думал, что компьютеры на такое способны»… Я думаю мы получим нечто, что способно разрешить вопрос научного прогресса — за один год будет пройден 10-летний путь. Это будет момент, когда мир изменится намного быстрее… Похоже, что мы находимся на достаточно крутой траектории… Мы нашли новую парадигму и получили эти рассуждающие модели, реально умные, и какое-то время это будет масштабироваться. Я ожидаю, что после этого мы снова найдем новую парадигму… У нас есть фундаментальная разгадка алгоритма, который действительно может учиться, и это продолжится. Мы столкнемся с препятствиями, и нам предстоит с ними разобраться, но я думаю мы достигнем AGI и дальше, и это вопрос плавного масштабирования отсюда.

Я не могу переоценить, какого прогресса мы добьемся в ближайшие два года. Мы знаем, как улучшить эти модели намного, намного больше, и впереди нет явных препятствий для этого… Прогресс, которого я ожидаю с февраля 2025 по февраль 2027, будет более впечатляющим, чем с февраля 2023 по февраль 2025…

Еще до релиза GPT-4.5 Сэм Олтмен опубликовал у себя в Твиттере обновленную дорожную карту OpenAI:

Мы хотим, чтобы ИИ «просто работал» для вас; мы понимаем, насколько сложными стали наши модели и предложения продуктов. Мы ненавидим подборщик моделей так же, как и вы, и хотим вернуться к магическому единому интеллекту. В следующий раз мы выпустим GPT-4.5, модель, которую мы внутренне называем Orion, как нашу последнюю модель без цепочки мыслей. После этого нашей главной целью станет унификация моделей серии o и моделей серии GPT путем создания систем, которые могут использовать все наши инструменты, знать, когда нужно долго думать, а когда нет, и вообще быть полезными для очень широкого круга задач. В ChatGPT и нашем API мы выпустим GPT-5 как систему, которая объединяет множество наших технологий, включая o3. Мы больше не будем поставлять o3 как отдельную модель. Бесплатный уровень ChatGPT получит неограниченный доступ к чату GPT-5 на стандартном уровне интеллекта, с учетом порогов злоупотребления. Подписчики Plus смогут запускать GPT-5 на более высоком уровне интеллекта, а подписчики Pro смогут запускать GPT-5 на еще более высоком уровне интеллекта. Эти модели будут включать в себя голосовую связь, холст, поиск, глубокое исследование и многое другое.

Говоря про следующую модель, Олтмен сделал весьма любопытное заявление:

Я не думаю, что окажусь умнее GPT-5.

Позднее, отвечая в Твиттере на вопрос о сроках релиза этой модели, он сообщил, что речь идет о нескольких месяцах.

Таким образом, мое предположение, что GPT-5, похоже, уже никогда не выйдет, оказалось ошибочным — семейство o-моделей было заточено под reasoning (рассуждения), которых нет в нынешней GPT-4o, тогда как GPT-5 объединит в себе все нынешние достижения OpenAI — включая reasoning. Ошибочным было и мое предположение, что буква «o» в названии рассуждающих моделей была унаследована от Orion — как оказалось, это имя относится к GPT-4.5, последней модели без цепочки мыслей.

Еще один любопытный прогноз Олтмен сделал (в этот раз на токийском мероприятии) в отношении программирования. По его словам, первая версия рассуждающей модели входила в миллион лучших программистов, вторая — в 10 тыс, o3 занимает 175-е место (а её версия, которая тестируется в OpenAI, и вовсе 50-е), а концу года искусственный интеллект выйдет уже на 1-е место…

Станет ли GPT-5 первой моделью, подпадающей под категорию AGI? Хотя глава OpenAI на вопрос, чего он ожидает в 2025 году, и ответил «AGI», это представляется крайне маловероятным. Заявляя, что GPT-5 будет умнее его самого, Олтмен скорее всего имеет в виду отдельные когнитивные задачи, а не способность выполнять любую интеллектуальную работу от начала до конца. Но интересно, что по мнению главы OpenAI способность к саморепликации и самосовершенствованию — необязательный атрибут AGI, и он будет достигнут раньше обретения этих способностей. Что касается конкурентов, то в феврале свои прогнозы озвучили главы Anthropic и Google DeepMind: по мнению Дарио Амодея AGI будет создан в 2026-2027, а Демиса Хассабиса — к 2030, правда, с 50% вероятностью. И даже такой скептик как Ян Лекун, отвергающий подход к созданию AGI через большие языковые модели (LLM), допускает его появление в течение ближайших 10 лет. По мнению ученого, этому будет предшествовать появление новой парадигмы, в рамках которой через 3-5 лет произойдет отказ от LLM-подхода.