Хроники ИИ: февраль 2026

В феврале обновились топовые модели сразу трех компаний — OpenAI, Google и Anthropic. В этом месяце были анонсированы GPT-5.3-Codex (OpenAI), старшая Claude Opus 4.6 и младшая Claude Sonnet 4.6 (Anthropic), а также Gemini 3.1 Pro и Gemini 3 Deep Think (Google).

Вот как выглядят сравнительные результаты моделей в тех бенчмарках, где был достигнут особенно заметный прогресс (в скобках — результаты непосредственных предшественников):

Claude Opus 4.6Claude Sonnet 4.6Gemini 3 Deep Think
(февраль 2026)
Gemini 3.1 ProGPT-5.3-CodexGPT-5.2
APEX-Agents — профессиональные задачи с большим горизонтом планирования29.8%33.5%
(18.4%)
23.0%
BrowseComp — агентный поиск информации в Интернете84.0%
(67.8%)
74.7%
(43.9%)
85.9%
(59.2%)
77.9%
Terminal-Bench 2.0 — агентная работа в Терминале65.4%
(59.8%)
59.1%
(51.0%)
68.5%
77.3%
(64.0%)
64.0%
OSWorld-Verified — агентная работа на компьютере72.7%
(66.3%)
72.5%
(66.3%)
64.7 %
(38.2%)
SWE-lancer IC Diamond — реальные задания по программированию81.4%
(76.0%)
Capture The Flag (CTF) — задачи по кибербезопасности77.6%
(67.4%)
Humanity’s Last Exam (без инструментов) — набор из 2500 академических вопросов по математике, гуманитарным и естественным наукам40.0%
(30.8%)
33.2%
(17.7%)
48.5%
44.4%
(37.5%)
36.6%
Humanity’s Last Exam (с инструментами)53.1%
(43.4%)
49.0%
(33.6%)
53.4%51.4%
(45.8%)
50.0%
ARC AGI 2 — обнаружение закономерностей в визуальных узорах68.8%
(37.6%)
58.3%
(13.6%)
84.6%77.1%
(31.1%)
52.9%
SimpleBench — тест на здравый смысл 167.6%
(62.0%)

(54.3%)
79.6%
(76.4%)
MRCR v2 8-needles (Mean Match
Ratio) на 1 млн токенов, версия OpenAI
76%

(18.5%)

(24.5%)
1 В отличие от остальных бенчмарков, прогресс по сравнению с непосредственными предшественниками незначительный — зато результаты (Gemini 3.1 Pro) приблизились к среднему (83.7%) и лучшему (95.4%) результату человека

Как можно видеть из таблицы, модели заметно продвинулись в агентных задачах (автономном решении сложных задач, поиске информации в Интернете и т.д.) Анонсируя Claude Opus 4.6 в Anthropic заявили, что новая модель «более тщательно планирует процессы, поддерживает выполнение агентных задач в течение более длительного времени, может более надежно работать в больших кодовых базах и обладает лучшими навыками проверки кода и отладки, позволяющими выявлять собственные ошибки».

При этом контекстное окно у Claude Opus 4.6 впервые среди моделей Anthropic выросло до 1 млн токенов. И надо сказать — не случайно. В Anthropic подчеркивают, что «Opus 4.6 значительно лучше справляется с извлечением релевантной информации из больших наборов документов», и что «это распространяется и на задачи с длинным контекстом». В опенсорсной OpenAI-версии теста на «поиск иголки в стоге сена» MRCR v2 (8 «иголок» в «стоге сена» из 1 млн токенов) Claude Opus 4.6 набирает 76% против 18.5% у Claude Sonnet 4.5. Это намного больше, чем и у соперников — согласно System Card, посвященной Opus 4.6, Gemini 3 Flash набирает там 32.6%, а более старшая Gemini 3 Pro почему-то еще меньше, 24.5%. В своих анонсах Google ссылается на собственную версию MRCR v2, но там сопоставимые результаты — с контекстом в 1 млн токенов Gemini 3.1 Pro и Gemini 3 Pro набирают 26.3%. Из чего можно сделать осторожный вывод, что Anthropic добилась архитектурного прорыва в обработке больших контекстов — и по этой причине наконец расширила лимит контекста до 1 млн токенов. Для сравнения, весь 10-томный курс теоретической физики Ландау и Лифшица занимает около 3 млн токенов.

Это качественный сдвиг в том, сколько контекста модель может фактически использовать, сохраняя при этом максимальную производительность.

В целом, Opus 4.6 лучше справляется с поиском информации в длинных контекстах, лучше рассуждает после усвоения этой информации и обладает существенно лучшими способностями к рассуждению на экспертном уровне в целом.

Также следует отметить улучшение результатов новых моделей в таких знаковых бенчмарках как Humanity’s Last Exam и ARC AGI 2. В последнем, как уже рассказывал Gadgets News, меньше года назад результаты лучших ИИ-моделей не превышали 5% — и вот теперь Gemini 3 Deep Think демонстрирует в этом тесте 84.6%.

В свою очередь заточенная под программирование GPT-5.3-Codex демонстрирует впечатляющий прирост, по сравнению с предшественником, в некоторых бенчмарках, оценивающих навыки программирования и выполнения разнообразных компьютерных задач:

С GPT‑5.3-Codex, Codex переходит от агента, способного писать и проверять код, к агенту, который может выполнять почти всё, что разработчики и профессионалы могут делать на компьютере… GPT‑5.3-Codex не просто лучше справляется с отдельными задачами, но и знаменует собой качественный скачок на пути к единому агенту общего назначения, который может рассуждать, строить и выполнять задачи во всем спектре реальной технической работы.

Но самое интересное другое:

GPT‑5.3‑Codex — наша первая модель, которая сыграла ключевую роль в создании самой себя. Команда Codex использовала ранние версии для отладки собственного обучения, управления собственным развертыванием и диагностики результатов тестов и оценок — наша команда была поражена тем, насколько Codex смог ускорить собственную разработку…

Поскольку GPT‑5.3-Codex значительно отличается от своих предшественников, данные альфа-тестирования показали множество необычных и контринтуитивных результатов. Специалист по анализу данных в команде работал с GPT‑5.3-Codex, чтобы создавать новые конвейеры данных и визуализировать результаты значительно богаче, чем это позволяли наши стандартные инструменты дашбординга. Результаты были совместно проанализированы с Codex, который кратко суммировал ключевые идеи по тысячам точек данных менее чем за три минуты.

По отдельности все эти задачи представляют собой интересные примеры того, как Codex может помогать исследователям и создателям продуктов. В совокупности мы обнаружили, что эти новые возможности привели к значительному ускорению работы наших команд исследований, инженерии и разработки продуктов.

Фактически речь идет о рекурсивном самообучении (Recursive Self-Improvement), и таким образом ИИ-индустрия вступает в эпоху, которую футурологи предсказывали десятилетия назад — самосовершенствование искусственного интеллекта.


Возвращаясь к бенчмаркам следует заменить, что главным критерием развития ИИ служат уже не они, а реальные задачи — прежде всего научные. В феврале вышли сразу две большие новости на эту тему. Первая относится к физике. Десятилетиями ученые считали, что определённый класс математических объектов, описывающих поведение элементарных частиц, просто равен нулю — то есть не существует. Новая работа показала, что это неверно: при особых условиях эти объекты всё же имеют ненулевое значение, и для них существует красивая компактная формула. Эту формулу вывела модель GPT-5.2, распознав закономерность в горе громоздких выражений — а другая, внутренняя, модель OpenAI затем строго её доказала. Физики проверили всё вручную и подтвердили правильность. Это один из первых задокументированных случаев, когда ИИ сделал реальный самостоятельный вклад в теоретическую науку — не просто ускорил вычисления, а предложил новое знание.

Вторая новость охватывает сразу две научные работы по математике. Группа исследователей из компании Axiom Math опубликовала две статьи, в которых система AxiomProver самостоятельно доказала две открытые математические гипотезы: одну из теории чисел и геометрии поверхностей, другую из алгебры. В обоих случаях ИИ получил только формулировку задачи на естественном языке, без подсказок и наводок, и выдал полное строгое доказательство, верифицированное в системе Lean — то есть проверенное до последнего логического шага специальным программным ядром.

Важность этого события в том, что раньше автоматические системы справлялись преимущественно с олимпийскими задачами школьного и студенческого уровня. Здесь же речь идёт о настоящих открытых проблемах из современных математических статей — гипотезах, которые математики не могли доказать годами. Авторы подчёркивают: это ранний, но показательный пример того, что ИИ начинает работать на уровне реальных математических исследований.

Вместе с тем удручает отсутствие результатов в решении ключевой проблемы современного ИИ, галлюцинаций. По своему личному опыту взаимодействия с бесплатными версиями моделей OpenAI, Google, Anthropic и xAI, вынужден констатировать, что дела в этом отношении по-прежнему обстоят весьма плачевно.