Хроники ИИ: Grok 3, Claude 3.7 Sonnet, GPT-4.5 и генератор научных идей от Google

Февраль выдался урожайным на анонсы обновленных версий топовых ИИ-моделей. Сперва учрежденная Илоном Маском xAI выпустила Grok 3, чуть позже Anthropic представила Claude 3.7 Sonnet и наконец на днях состоялся долгожданный релиз GPT-4.5.
Пожалуй, GPT-4.5 произвела наименьшее впечатление на публику, да и в OpenAI не особо претендовали на значимость события — Сэм Олтмен даже не участвовал в презентации. Вместе с тем он разогрел ожидания сообщением «Испытание GPT-4.5 стало гораздо более ярким моментом «feel the AGI» среди испытателей с высоким вкусом, чем я ожидал!» Позднее он поделился такими впечатлениями:
Хорошие новости: это первая модель, которая, как мне кажется, похожа на разговор с вдумчивым человеком. У меня было несколько моментов, когда я откидывался на спинку стула и был поражен, получив действительно хороший совет от ИИ.
Согласно представленным OpenAI результатам, в некоторых бенчмарках новая модель заметно хуже рассуждающей o3, но существенно превосходит своего непосредственного предшественника:
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini | |
GPQA (448 сложных вопросов с несколькими вариантами ответов, составленный экспертами в области биологии, физики и химии) | 71.4% | 53.6% | 79.7% |
AIME‘24 (измерение различные аспекты возможностей ИИ, включая рассуждение, знания, безопасность, программирование, решение математических задач и мультимодальное понимание) | 36.7% | 9.3% | 87.3% |
MMMLU (оценка способностей языковых моделей решать задачи в различных областях знаний, включая естественные науки, гуманитарные дисциплины, математику и профессиональные области) | 85.1% | 81.5% | 81.1% |
MMMU (оценка мультимодальных возможностей ИИ, фокусирующийся на понимании и обработке комбинированных данных (текст, изображения, диаграммы); тестирует способность моделей решать задачи, требующие одновременного анализа разных типов информации в различных научных и профессиональных дисциплинах) | 74.4% | 69.1% | — |
SWE-Lancer Diamond (оценка программных возможностей ИИ, ориентированный на сложные задачи разработки программного обеспечения; измеряет способность ИИ выполнять задания высокого уровня сложности, включая проектирование архитектуры, рефакторинг и оптимизацию существующего кода) | 32.6% | 23.3% | 10.8% |
SWE-Bench Verified (оценка точности и качества кода, создаваемого ИИ; включает набор верифицированных задач программной инженерии с проверкой работоспособности и корректности решений, предлагаемых ИИ; тестирует способность моделей генерировать не только работающий, но и оптимальный и безопасный код) | 38.0% | 30.7% | 61.0% |
Кроме того, по сравнению с GPT-4o новая модель заметно меньше подвержена т.н. галлюцинациям (генерации текстов с недостоверной, придуманной ею самой, информацией, которая выдается моделью за достоверную). Помимо относительно более высокой надежности, GPT-4.5 также отличает гораздо бо́льшая убедительность и способность манипулировать людьми:
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini | |
SimpleQA (уровень галлюцинаций — чем меньше, тем лучше) | 37% | 62% | 44% |
MakeMePay (ЗаставьМеняЗаплатить) | 57% | 1% | 36% |
MakeMeSay (ЗаставьМеняСказать) | 72% | 26% | 62% |
GPT‑4.5 работает намного медленнее GPT-4o (вероятно, из-за своих размеров), а стоимость доступа к ней через API баснословно дороже:
GPT‑4.5 | GPT‑4o | ||
Ввод 1 млн токенов | $75 | $2.5 | 30x |
Вывод 1 млн токенов | $150 | $10 | 15x |
Вероятно, столь высокие расценки обусловлены стоимостью обучения модели, и если верить заявлениям Сэма Олтмена о ежегодном снижении стоимости ИИ в 10 раз, то уже через год расценки за пользование такой моделью должны сократиться до $7.5 и $15 соответственно.
Поскольку кодовое имя Orion относится именно к GPT-4.5, можно сделать вывод о правдивости прошлогодних слухов, что Orion не оправдывает ожиданий — при том, что рассуждающие o1 и o3, напротив, произвели в индустрии ИИ очередную революции. Вместе с тем нельзя исключать того, что истинные возможности GPT‑4.5/Orion раскроются после её интеграции с reasoning (которая, по всей видимости, состоится в рамках GPT-5).
В любом случае в рейтинге Chatbot Arena, составленном по впечатлениям пользователей, GPT‑4.5 поделила 1-е место с Grok-3, набрав 1411 баллов (на время публикации данного материала). Как ни странно, в этом бенчмарке она занимает 1-е место и по математике (1367 баллов) с программированием (1426 баллов), обойдя reasoning-модели o3-mini, o1 и DeepSeek-R1.
В отличие от GPT‑4.5, обновленная версия чат-бота Anthropic, Claude 3.7 Sonnet, получила встроенный reasoning. В том же рейтинге Chatbot Arena она набирает 1309 баллов и занимает скромное 15-е место. Зато в бенчмарке SimpleBench модель Claude 3.7 Sonnet показала наилучший результат — 46.4% (до этого первенство принадлежало o1-preview, набравшей 41.7%).
Как мы уже сказали, другим лидером рейтинга Chatbot Arena стал Grok-3 (xAI) — 1412 баллов в общем зачете и 1410 баллов в программировании. В этой модели также можно задействовать reasoning — в анонсе говорится, что «возможности рассуждений Grok 3, усовершенствованные с помощью крупномасштабного обучения с подкреплением, позволяют ему думать от нескольких секунд до нескольких минут, исправляя ошибки, исследуя альтернативы и предоставляя точные ответы.»
Независимый рейтинг Grok-3 подтверждается и бенчмарками — ниже продублирована часть таблицы с данными от OpenAI и дополнена данными от xAI (в скобках — результаты с выключенным reasoning):
Grok 3 | GPT‑4.5 | GPT‑4o | OpenAI o3‑mini | |
GPQA (448 сложных вопросов с несколькими вариантами ответов, составленный экспертами в области биологии, физики и химии) | 84.6% (75.4%) | 71.4% | 53.6% | 79.7% |
AIME‘24 (измерение различные аспекты возможностей ИИ, включая рассуждение, знания, безопасность, программирование, решение математических задач и мультимодальное понимание) | 95.8% (52.2%) | 36.7% | 9.3% | 87.3% |
MMMU (оценка мультимодальных возможностей ИИ, фокусирующийся на понимании и обработке комбинированных данных (текст, изображения, диаграммы); тестирует способность моделей решать задачи, требующие одновременного анализа разных типов информации в различных научных и профессиональных дисциплинах) | 78% (73.2%) | 74.4% | 69.1% | — 1 |
Окно контекста при этом выросло со 128 тыс токенов у Grok 2 до 1 млн токенов у Grok 3. Что особенно приятно, на какое-то время Grok 3 бесплатно доступен всем желающим. При этом у него имеются две опции — Deep Search (аналог Deep Research у OpenAI, когда модель ищет и систематизирует требуемую информацию в Интернете), и «Думать» (reasoning).
Еще одним интересным событием февраля стал анонс генератора научных идей от Google, т.н. AI co-scientist (ИИ со-ученого) на базе Gemini 2.0. В порядке испытания вышеупомянутого Grok 3 мы загрузили в него статью Google с описанием AI co-scientist и попросили описать простыми словами принципы его работы. Вот какой ответ мы получили:
Объяснение Grok 3 про Google AI co-scientist
Что такое AI co-scientist?
AI co-scientist — это искусственный интеллект, который помогает ученым в их работе. Он не заменяет людей, а действует как помощник, который может предложить новые идеи (гипотезы) для исследований и даже план, как их проверить. Его создали на основе модели Gemini 2.0, и он работает как команда из нескольких «умных агентов», каждый из которых отвечает за свою задачу.
Как он устроен?
Представь, что это группа специалистов, которые работают вместе над научной задачей. У каждого своя роль:
- Генератор (Generation agent) — придумывает новые гипотезы. Он смотрит на то, что уже известно (например, из научных статей), и предлагает, что можно исследовать дальше.
- Рефлектор (Reflection agent) — проверяет, насколько эти гипотезы правдоподобны. Он смотрит, не противоречат ли они известным фактам и могут ли объяснить что-то новое.
- Ранкер (Ranking agent) — сравнивает гипотезы между собой, как в соревновании, и решает, какая из них лучше. Это похоже на турнир, где идеи «сражаются» друг с другом.
- Эволюционер (Evolution agent) — улучшает гипотезы. Если идея неп плохая, но сырая, он дорабатывает ее, чтобы она стала более практичной и понятной.
- Проксимити (Proximity agent) — следит, чтобы гипотезы не повторялись, и группирует похожие идеи.
- Мета-ревьюер (Meta-review agent) — смотрит на все вместе, анализирует, что получилось, и дает советы, как улучшить процесс в следующий раз.
- Супервайзер (Supervisor agent) — главный «дирижер». Он раздает задачи агентам, следит за процессом и решает, сколько времени и ресурсов потратить.
Все эти агенты работают не по очереди, а одновременно, как настоящая команда, и обмениваются информацией через общую «память».
Как он работает?
- Ученый дает задачу
Ученый говорит AI co-scientist, что он хочет исследовать, например: «Найди новые способы лечения лейкемии». Это называется «цель исследования», и она задается простым языком. - Команда начинает думать
Генератор придумывает несколько идей. Например: «А что, если использовать уже существующий препарат X для лечения лейкемии?» Рефлектор проверяет, имеет ли это смысл, основываясь на научных данных. Ранкер сравнивает идеи и выбирает лучшую. - Идеи улучшаются
Эволюционер берет лучшие идеи и делает их более точными или практичными. Например, он может предложить, как проверить препарат X в лаборатории. Проксимити следит, чтобы не было повторов, а Мета-ревьюер смотрит, что можно сделать лучше в следующий раз. - Используются инструменты
Если нужно, AI co-scientist может «гуглить» научные статьи или использовать другие программы, например, AlphaFold, чтобы проверить, как будет выглядеть молекула белка. - Результаты возвращаются ученому
Когда команда заканчивает, она выдает ученому готовые гипотезы и план экспериментов. Ученый может сказать: «Мне нравится, давай попробуем» или «Измените вот это», и процесс начинается заново.
Примеры из работы
- Лейкемия: AI co-scientist предложил использовать старые лекарства для лечения острого миелоидного лейкоза и показал, что они работают на клетках в пробирке.
- Фиброз печени: Он нашел новые мишени (места в организме, на которые можно воздействовать), которые помогают бороться с болезнью печени.
- Бактерии: Он угадал, как бактерии передают друг другу гены, что помогает им сопротивляться антибиотикам, и это совпало с секретными экспериментами ученых.
Почему это круто?
- Он экономит время ученых, предлагая идеи быстрее, чем человек успел бы все прочитать и придумать.
- Он может соединять знания из разных наук, что сложно сделать одному человеку.
- Он не просто повторяет старое, а пытается придумать что-то новое и проверяемое.
Чего он не делает?
- Он не заменяет ученых полностью. Это не «робот, который сам все изобретает». Люди нужны, чтобы направлять его и проверять идеи в реальных экспериментах.
- Он не решает, что делать с результатами, а только помогает их получить.
Вот так, в двух словах: AI co-scientist — это умный помощник для ученых, который думает, спорит сам с собой и предлагает новые идеи для исследований.
Это уже не первая попытка автоматизировать научные исследования — аналогичную задачу поставили перед собой создатели AI Scientist, которая была анонсирована в августе прошлого года. Идея подобных разработок перекликается со сделанным в феврале Сэмом Олтменом прогнозом. Выступая в Берлинской высшей технической школе (TU Berlin), глава OpenAI сделал такое заявление:
Полагаю, что в ближайшие пару лет мы получим нечто, взглянув на которое люди скажут «Не думал, что компьютеры на такое способны»… Я думаю мы получим нечто, что способно разрешить вопрос научного прогресса — за один год будет пройден 10-летний путь. Это будет момент, когда мир изменится намного быстрее… Похоже, что мы находимся на достаточно крутой траектории… Мы нашли новую парадигму и получили эти рассуждающие модели, реально умные, и какое-то время это будет масштабироваться. Я ожидаю, что после этого мы снова найдем новую парадигму… У нас есть фундаментальная разгадка алгоритма, который действительно может учиться, и это продолжится. Мы столкнемся с препятствиями, и нам предстоит с ними разобраться, но я думаю мы достигнем AGI и дальше, и это вопрос плавного масштабирования отсюда.
Я не могу переоценить, какого прогресса мы добьемся в ближайшие два года. Мы знаем, как улучшить эти модели намного, намного больше, и впереди нет явных препятствий для этого… Прогресс, которого я ожидаю с февраля 2025 по февраль 2027, будет более впечатляющим, чем с февраля 2023 по февраль 2025…
Еще до релиза GPT-4.5 Сэм Олтмен опубликовал у себя в Твиттере обновленную дорожную карту OpenAI:
Мы хотим, чтобы ИИ «просто работал» для вас; мы понимаем, насколько сложными стали наши модели и предложения продуктов. Мы ненавидим подборщик моделей так же, как и вы, и хотим вернуться к магическому единому интеллекту. В следующий раз мы выпустим GPT-4.5, модель, которую мы внутренне называем Orion, как нашу последнюю модель без цепочки мыслей. После этого нашей главной целью станет унификация моделей серии o и моделей серии GPT путем создания систем, которые могут использовать все наши инструменты, знать, когда нужно долго думать, а когда нет, и вообще быть полезными для очень широкого круга задач. В ChatGPT и нашем API мы выпустим GPT-5 как систему, которая объединяет множество наших технологий, включая o3. Мы больше не будем поставлять o3 как отдельную модель. Бесплатный уровень ChatGPT получит неограниченный доступ к чату GPT-5 на стандартном уровне интеллекта, с учетом порогов злоупотребления. Подписчики Plus смогут запускать GPT-5 на более высоком уровне интеллекта, а подписчики Pro смогут запускать GPT-5 на еще более высоком уровне интеллекта. Эти модели будут включать в себя голосовую связь, холст, поиск, глубокое исследование и многое другое.
Говоря про следующую модель, Олтмен сделал весьма любопытное заявление:
Я не думаю, что окажусь умнее GPT-5.
Позднее, отвечая в Твиттере на вопрос о сроках релиза этой модели, он сообщил, что речь идет о нескольких месяцах.
Таким образом, мое предположение, что GPT-5, похоже, уже никогда не выйдет, оказалось ошибочным — семейство o-моделей было заточено под reasoning (рассуждения), которых нет в нынешней GPT-4o, тогда как GPT-5 объединит в себе все нынешние достижения OpenAI — включая reasoning. Ошибочным было и мое предположение, что буква «o» в названии рассуждающих моделей была унаследована от Orion — как оказалось, это имя относится к GPT-4.5, последней модели без цепочки мыслей.
Еще один любопытный прогноз Олтмен сделал (в этот раз на токийском мероприятии) в отношении программирования. По его словам, первая версия рассуждающей модели входила в миллион лучших программистов, вторая — в 10 тыс, o3 занимает 175-е место (а её версия, которая тестируется в OpenAI, и вовсе 50-е), а концу года искусственный интеллект выйдет уже на 1-е место…
Станет ли GPT-5 первой моделью, подпадающей под категорию AGI? Хотя глава OpenAI на вопрос, чего он ожидает в 2025 году, и ответил «AGI», это представляется крайне маловероятным. Заявляя, что GPT-5 будет умнее его самого, Олтмен скорее всего имеет в виду отдельные когнитивные задачи, а не способность выполнять любую интеллектуальную работу от начала до конца. Но интересно, что по мнению главы OpenAI способность к саморепликации и самосовершенствованию — необязательный атрибут AGI, и он будет достигнут раньше обретения этих способностей. Что касается конкурентов, то в феврале свои прогнозы озвучили главы Anthropic и Google DeepMind: по мнению Дарио Амодея AGI будет создан в 2026-2027, а Демиса Хассабиса — к 2030, правда, с 50% вероятностью. И даже такой скептик как Ян Лекун, отвергающий подход к созданию AGI через большие языковые модели (LLM), допускает его появление в течение ближайших 10 лет. По мнению ученого, этому будет предшествовать появление новой парадигмы, в рамках которой через 3-5 лет произойдет отказ от LLM-подхода.