Хроники ИИ: февраль 2026

В феврале обновились топовые модели сразу трех компаний — OpenAI, Google и Anthropic. В этом месяце были анонсированы GPT-5.3-Codex (OpenAI), старшая Claude Opus 4.6 и младшая Claude Sonnet 4.6 (Anthropic), а также Gemini 3.1 Pro и Gemini 3 Deep Think (Google).
Вот как выглядят сравнительные результаты моделей в тех бенчмарках, где был достигнут особенно заметный прогресс (в скобках — результаты непосредственных предшественников):
| Claude Opus 4.6 | Claude Sonnet 4.6 | Gemini 3 Deep Think (февраль 2026) | Gemini 3.1 Pro | GPT-5.3-Codex | GPT-5.2 | |
| APEX-Agents — профессиональные задачи с большим горизонтом планирования | 29.8% | 33.5% (18.4%) | 23.0% | |||
| BrowseComp — агентный поиск информации в Интернете | 84.0% (67.8%) | 74.7% (43.9%) | — | 85.9% (59.2%) | 77.9% | |
| Terminal-Bench 2.0 — агентная работа в Терминале | 65.4% (59.8%) | 59.1% (51.0%) | 68.5% — | 77.3% (64.0%) | 64.0% | |
| OSWorld-Verified — агентная работа на компьютере | 72.7% (66.3%) | 72.5% (66.3%) | 64.7 % (38.2%) | |||
| SWE-lancer IC Diamond — реальные задания по программированию | 81.4% (76.0%) | |||||
| Capture The Flag (CTF) — задачи по кибербезопасности | 77.6% (67.4%) | |||||
| Humanity’s Last Exam (без инструментов) — набор из 2500 академических вопросов по математике, гуманитарным и естественным наукам | 40.0% (30.8%) | 33.2% (17.7%) | 48.5% | 44.4% (37.5%) | 36.6% | |
| Humanity’s Last Exam (с инструментами) | 53.1% (43.4%) | 49.0% (33.6%) | 53.4% | 51.4% (45.8%) | 50.0% | |
| ARC AGI 2 — обнаружение закономерностей в визуальных узорах | 68.8% (37.6%) | 58.3% (13.6%) | 84.6% | 77.1% (31.1%) | 52.9% | |
| SimpleBench — тест на здравый смысл 1 | 67.6% (62.0%) | — (54.3%) | 79.6% (76.4%) | |||
| MRCR v2 8-needles (Mean Match Ratio) на 1 млн токенов, версия OpenAI | 76% — | — (18.5%) | — (24.5%) |
Как можно видеть из таблицы, модели заметно продвинулись в агентных задачах (автономном решении сложных задач, поиске информации в Интернете и т.д.) Анонсируя Claude Opus 4.6 в Anthropic заявили, что новая модель «более тщательно планирует процессы, поддерживает выполнение агентных задач в течение более длительного времени, может более надежно работать в больших кодовых базах и обладает лучшими навыками проверки кода и отладки, позволяющими выявлять собственные ошибки».
При этом контекстное окно у Claude Opus 4.6 впервые среди моделей Anthropic выросло до 1 млн токенов. И надо сказать — не случайно. В Anthropic подчеркивают, что «Opus 4.6 значительно лучше справляется с извлечением релевантной информации из больших наборов документов», и что «это распространяется и на задачи с длинным контекстом». В опенсорсной OpenAI-версии теста на «поиск иголки в стоге сена» MRCR v2 (8 «иголок» в «стоге сена» из 1 млн токенов) Claude Opus 4.6 набирает 76% против 18.5% у Claude Sonnet 4.5. Это намного больше, чем и у соперников — согласно System Card, посвященной Opus 4.6, Gemini 3 Flash набирает там 32.6%, а более старшая Gemini 3 Pro почему-то еще меньше, 24.5%. В своих анонсах Google ссылается на собственную версию MRCR v2, но там сопоставимые результаты — с контекстом в 1 млн токенов Gemini 3.1 Pro и Gemini 3 Pro набирают 26.3%. Из чего можно сделать осторожный вывод, что Anthropic добилась архитектурного прорыва в обработке больших контекстов — и по этой причине наконец расширила лимит контекста до 1 млн токенов. Для сравнения, весь 10-томный курс теоретической физики Ландау и Лифшица занимает около 3 млн токенов.
Это качественный сдвиг в том, сколько контекста модель может фактически использовать, сохраняя при этом максимальную производительность.
В целом, Opus 4.6 лучше справляется с поиском информации в длинных контекстах, лучше рассуждает после усвоения этой информации и обладает существенно лучшими способностями к рассуждению на экспертном уровне в целом.
Также следует отметить улучшение результатов новых моделей в таких знаковых бенчмарках как Humanity’s Last Exam и ARC AGI 2. В последнем, как уже рассказывал Gadgets News, меньше года назад результаты лучших ИИ-моделей не превышали 5% — и вот теперь Gemini 3 Deep Think демонстрирует в этом тесте 84.6%.
В свою очередь заточенная под программирование GPT-5.3-Codex демонстрирует впечатляющий прирост, по сравнению с предшественником, в некоторых бенчмарках, оценивающих навыки программирования и выполнения разнообразных компьютерных задач:
С GPT‑5.3-Codex, Codex переходит от агента, способного писать и проверять код, к агенту, который может выполнять почти всё, что разработчики и профессионалы могут делать на компьютере… GPT‑5.3-Codex не просто лучше справляется с отдельными задачами, но и знаменует собой качественный скачок на пути к единому агенту общего назначения, который может рассуждать, строить и выполнять задачи во всем спектре реальной технической работы.
Но самое интересное другое:
GPT‑5.3‑Codex — наша первая модель, которая сыграла ключевую роль в создании самой себя. Команда Codex использовала ранние версии для отладки собственного обучения, управления собственным развертыванием и диагностики результатов тестов и оценок — наша команда была поражена тем, насколько Codex смог ускорить собственную разработку…
Поскольку GPT‑5.3-Codex значительно отличается от своих предшественников, данные альфа-тестирования показали множество необычных и контринтуитивных результатов. Специалист по анализу данных в команде работал с GPT‑5.3-Codex, чтобы создавать новые конвейеры данных и визуализировать результаты значительно богаче, чем это позволяли наши стандартные инструменты дашбординга. Результаты были совместно проанализированы с Codex, который кратко суммировал ключевые идеи по тысячам точек данных менее чем за три минуты.
По отдельности все эти задачи представляют собой интересные примеры того, как Codex может помогать исследователям и создателям продуктов. В совокупности мы обнаружили, что эти новые возможности привели к значительному ускорению работы наших команд исследований, инженерии и разработки продуктов.
Фактически речь идет о рекурсивном самообучении (Recursive Self-Improvement), и таким образом ИИ-индустрия вступает в эпоху, которую футурологи предсказывали десятилетия назад — самосовершенствование искусственного интеллекта.
Возвращаясь к бенчмаркам следует заменить, что главным критерием развития ИИ служат уже не они, а реальные задачи — прежде всего научные. В феврале вышли сразу две большие новости на эту тему. Первая относится к физике. Десятилетиями ученые считали, что определённый класс математических объектов, описывающих поведение элементарных частиц, просто равен нулю — то есть не существует. Новая работа показала, что это неверно: при особых условиях эти объекты всё же имеют ненулевое значение, и для них существует красивая компактная формула. Эту формулу вывела модель GPT-5.2, распознав закономерность в горе громоздких выражений — а другая, внутренняя, модель OpenAI затем строго её доказала. Физики проверили всё вручную и подтвердили правильность. Это один из первых задокументированных случаев, когда ИИ сделал реальный самостоятельный вклад в теоретическую науку — не просто ускорил вычисления, а предложил новое знание.
Вторая новость охватывает сразу две научные работы по математике. Группа исследователей из компании Axiom Math опубликовала две статьи, в которых система AxiomProver самостоятельно доказала две открытые математические гипотезы: одну из теории чисел и геометрии поверхностей, другую из алгебры. В обоих случаях ИИ получил только формулировку задачи на естественном языке, без подсказок и наводок, и выдал полное строгое доказательство, верифицированное в системе Lean — то есть проверенное до последнего логического шага специальным программным ядром.
Важность этого события в том, что раньше автоматические системы справлялись преимущественно с олимпийскими задачами школьного и студенческого уровня. Здесь же речь идёт о настоящих открытых проблемах из современных математических статей — гипотезах, которые математики не могли доказать годами. Авторы подчёркивают: это ранний, но показательный пример того, что ИИ начинает работать на уровне реальных математических исследований.
Вместе с тем удручает отсутствие результатов в решении ключевой проблемы современного ИИ, галлюцинаций. По своему личному опыту взаимодействия с бесплатными версиями моделей OpenAI, Google, Anthropic и xAI, вынужден констатировать, что дела в этом отношении по-прежнему обстоят весьма плачевно.