Хроники ИИ: февраль 2026

Опубликовано 22:41 03.03.202622:41 03.03.2026 автором Иван Подсекальников

В феврале обновились топовые модели сразу трех компаний — OpenAI, Google и Anthropic. В этом месяце были анонсированы GPT-5.3-Codex (OpenAI), старшая Claude Opus 4.6 и младшая Claude Sonnet 4.6 (Anthropic), а также Gemini 3.1 Pro и Gemini 3 Deep Think (Google).

Вот как выглядят сравнительные результаты моделей в тех бенчмарках, где был достигнут особенно заметный прогресс (в скобках — результаты непосредственных предшественников):

	Claude Opus 4.6	Claude Sonnet 4.6	Gemini 3 Deep Think (февраль 2026)	Gemini 3.1 Pro	GPT-5.3-Codex	GPT-5.2
APEX-Agents — профессиональные задачи с большим горизонтом планирования	29.8%			33.5% (18.4%)		23.0%
BrowseComp — агентный поиск информации в Интернете	84.0% (67.8%)	74.7% (43.9%)	—	85.9% (59.2%)		77.9%
Terminal-Bench 2.0 — агентная работа в Терминале	65.4% (59.8%)	59.1% (51.0%)		68.5% —	77.3% (64.0%)	64.0%
OSWorld-Verified — агентная работа на компьютере	72.7% (66.3%)	72.5% (66.3%)			64.7 % (38.2%)
SWE-lancer IC Diamond — реальные задания по программированию					81.4% (76.0%)
Capture The Flag (CTF) — задачи по кибербезопасности					77.6% (67.4%)
Humanity’s Last Exam (без инструментов) — набор из 2500 академических вопросов по математике, гуманитарным и естественным наукам	40.0% (30.8%)	33.2% (17.7%)	48.5%	44.4% (37.5%)		36.6%
Humanity’s Last Exam (с инструментами)	53.1% (43.4%)	49.0% (33.6%)	53.4%	51.4% (45.8%)		50.0%
ARC AGI 2 — обнаружение закономерностей в визуальных узорах	68.8% (37.6%)	58.3% (13.6%)	84.6%	77.1% (31.1%)		52.9%
SimpleBench — тест на здравый смысл ¹	67.6% (62.0%)	— (54.3%)		79.6% (76.4%)
MRCR v2 8-needles (Mean Match Ratio) на 1 млн токенов, версия OpenAI	76% —	— (18.5%)		— (24.5%)

¹ В отличие от остальных бенчмарков, прогресс по сравнению с непосредственными предшественниками незначительный — зато результаты (Gemini 3.1 Pro) приблизились к среднему (83.7%) и лучшему (95.4%) результату человека

Как можно видеть из таблицы, модели заметно продвинулись в агентных задачах (автономном решении сложных задач, поиске информации в Интернете и т.д.) Анонсируя Claude Opus 4.6 в Anthropic заявили, что новая модель «более тщательно планирует процессы, поддерживает выполнение агентных задач в течение более длительного времени, может более надежно работать в больших кодовых базах и обладает лучшими навыками проверки кода и отладки, позволяющими выявлять собственные ошибки».

При этом контекстное окно у Claude Opus 4.6 впервые среди моделей Anthropic выросло до 1 млн токенов. И надо сказать — не случайно. В Anthropic подчеркивают, что «Opus 4.6 значительно лучше справляется с извлечением релевантной информации из больших наборов документов», и что «это распространяется и на задачи с длинным контекстом». В опенсорсной OpenAI-версии теста на «поиск иголки в стоге сена» MRCR v2 (8 «иголок» в «стоге сена» из 1 млн токенов) Claude Opus 4.6 набирает 76% против 18.5% у Claude Sonnet 4.5. Это намного больше, чем и у соперников — согласно System Card, посвященной Opus 4.6, Gemini 3 Flash набирает там 32.6%, а более старшая Gemini 3 Pro почему-то еще меньше, 24.5%. В своих анонсах Google ссылается на собственную версию MRCR v2, но там сопоставимые результаты — с контекстом в 1 млн токенов Gemini 3.1 Pro и Gemini 3 Pro набирают 26.3%. Из чего можно сделать осторожный вывод, что Anthropic добилась архитектурного прорыва в обработке больших контекстов — и по этой причине наконец расширила лимит контекста до 1 млн токенов. Для сравнения, весь 10-томный курс теоретической физики Ландау и Лифшица занимает около 3 млн токенов.

Это качественный сдвиг в том, сколько контекста модель может фактически использовать, сохраняя при этом максимальную производительность.

В целом, Opus 4.6 лучше справляется с поиском информации в длинных контекстах, лучше рассуждает после усвоения этой информации и обладает существенно лучшими способностями к рассуждению на экспертном уровне в целом.

Также следует отметить улучшение результатов новых моделей в таких знаковых бенчмарках как Humanity’s Last Exam и ARC AGI 2. В последнем, как уже рассказывал Gadgets News, меньше года назад результаты лучших ИИ-моделей не превышали 5% — и вот теперь Gemini 3 Deep Think демонстрирует в этом тесте 84.6%.

В свою очередь заточенная под программирование GPT-5.3-Codex демонстрирует впечатляющий прирост, по сравнению с предшественником, в некоторых бенчмарках, оценивающих навыки программирования и выполнения разнообразных компьютерных задач:

С GPT‑5.3-Codex, Codex переходит от агента, способного писать и проверять код, к агенту, который может выполнять почти всё, что разработчики и профессионалы могут делать на компьютере… GPT‑5.3-Codex не просто лучше справляется с отдельными задачами, но и знаменует собой качественный скачок на пути к единому агенту общего назначения, который может рассуждать, строить и выполнять задачи во всем спектре реальной технической работы.

Но самое интересное другое:

GPT‑5.3‑Codex — наша первая модель, которая сыграла ключевую роль в создании самой себя. Команда Codex использовала ранние версии для отладки собственного обучения, управления собственным развертыванием и диагностики результатов тестов и оценок — наша команда была поражена тем, насколько Codex смог ускорить собственную разработку…

Поскольку GPT‑5.3-Codex значительно отличается от своих предшественников, данные альфа-тестирования показали множество необычных и контринтуитивных результатов. Специалист по анализу данных в команде работал с GPT‑5.3-Codex, чтобы создавать новые конвейеры данных и визуализировать результаты значительно богаче, чем это позволяли наши стандартные инструменты дашбординга. Результаты были совместно проанализированы с Codex, который кратко суммировал ключевые идеи по тысячам точек данных менее чем за три минуты.

По отдельности все эти задачи представляют собой интересные примеры того, как Codex может помогать исследователям и создателям продуктов. В совокупности мы обнаружили, что эти новые возможности привели к значительному ускорению работы наших команд исследований, инженерии и разработки продуктов.

Фактически речь идет о рекурсивном самообучении (Recursive Self-Improvement), и таким образом ИИ-индустрия вступает в эпоху, которую футурологи предсказывали десятилетия назад — самосовершенствование искусственного интеллекта.

Возвращаясь к бенчмаркам следует заменить, что главным критерием развития ИИ служат уже не они, а реальные задачи — прежде всего научные. В феврале вышли сразу две большие новости на эту тему. Первая относится к физике. Десятилетиями ученые считали, что определённый класс математических объектов, описывающих поведение элементарных частиц, просто равен нулю — то есть не существует. Новая работа показала, что это неверно: при особых условиях эти объекты всё же имеют ненулевое значение, и для них существует красивая компактная формула. Эту формулу вывела модель GPT-5.2, распознав закономерность в горе громоздких выражений — а другая, внутренняя, модель OpenAI затем строго её доказала. Физики проверили всё вручную и подтвердили правильность. Это один из первых задокументированных случаев, когда ИИ сделал реальный самостоятельный вклад в теоретическую науку — не просто ускорил вычисления, а предложил новое знание.

Вторая новость охватывает сразу две научные работы по математике. Группа исследователей из компании Axiom Math опубликовала две статьи, в которых система AxiomProver самостоятельно доказала две открытые математические гипотезы: одну из теории чисел и геометрии поверхностей, другую из алгебры. В обоих случаях ИИ получил только формулировку задачи на естественном языке, без подсказок и наводок, и выдал полное строгое доказательство, верифицированное в системе Lean — то есть проверенное до последнего логического шага специальным программным ядром.

Важность этого события в том, что раньше автоматические системы справлялись преимущественно с олимпийскими задачами школьного и студенческого уровня. Здесь же речь идёт о настоящих открытых проблемах из современных математических статей — гипотезах, которые математики не могли доказать годами. Авторы подчёркивают: это ранний, но показательный пример того, что ИИ начинает работать на уровне реальных математических исследований.

Вместе с тем удручает отсутствие результатов в решении ключевой проблемы современного ИИ, галлюцинаций. По своему личному опыту взаимодействия с бесплатными версиями моделей OpenAI, Google, Anthropic и xAI, вынужден констатировать, что дела в этом отношении по-прежнему обстоят весьма плачевно.

Хроники ИИ: февраль 2026

Добавить комментарий Отменить ответ

Рубрики