Итоги 2025 года и новогоднее поздравление от Gadgets News

За несколько часов до боя кремлевских курантов Gadgets News традиционно подводит итоги уходящего года. Как и в прошлом году, главным героем этого обзора является искусственный интеллект — самая многообещающая и быстро развивающаяся технология последнего времени. Если в 2024 появилась уверенность, что у современных подходов к ИИ имеется огромный потенциал, то в 2025 эта уверенность была подкреплена обещанием огромных инвестиций в дата-центры. Инфраструктурные планы одной только OpenAI охватывают, исходя из текущих финансовых показателей компании, вычислительные мощности на 30 ГВт и $1.4 трлн «в течение следующих многих лет». На этом фоне меркнет даже самый масштабный инвестиционный проект в истории США, Stargate (также анонсирован в этом году), с бюджетом $500 млрд, который будет освоен в течение 2025-2028 годов.

Итак, в 2025 году состоялись релизы Grok-4 (июль), GPT-5 (август) и Gemini 3 Pro с Claude Opus 4.5 (ноябрь). Чтобы оценить темпы прогресса, давайте взглянем на результаты топовых моделей на начало и на конец 2025 года в ряде популярных бенчмарков:

GPT
(OpenAI)
Gemini
(Google)
Claude
(Anthropic)
Grok
(xAI)
ARC-AGI-187.5% ($4,560) → 86.2% ($1.90)→ 84.7% ($0.231)21% → 80% ($2.40)5.5% ($0.142) → 77.1% ($3.97)
ARC-AGI-218% → 52.9% ($1.90)→ 54.0% ($30.57)→ 37.6% ($2.40)0% → 26.0% ($3.97)
FrontierMath (1–3)25% → 40.3%
FrontierMath (4)→ 14.6%
Humanity’s Last Exam (с использованием инструментов)→ 45.8%
SWE-Bench Pro (публичный)→ 55.6 %
MathArena Apex0% → 13.54% ($12)0% → 23.44% ($3.4)
SimpleBench53.1% → 61.6%30.7% → 76.4%27.5% → 62%22.7% → 60.5%
MRCR v2 (8-needle), контекст 1 млн токенов→ 26.3%
IQ Test79 → 127>90 → 130>81 → 120>72 → 125

Как видим, по всем этим бенчмаркам прогресс весьма весьма значительный, хотя в некоторых из них (FrontierMath (4), MRCR v2 (8-needle), MathArena Apex) ИИ все еще далеко до 100% результата.

В 2025 большие языковые модели вышли на уровень золотых медалистов в международных олимпиадах по математике, информатике и астрономии с астрофизикой. Отдельно стоить упомянуть выдающиеся результаты в самой престижной математической олимпиаде для студентов вузов, Putman. В этом году она прошла 6 декабря, а спустя еще три дня состоялся релиз модели Nomos 1, которая набрала в этом экзамене 87 баллов из 120 (при этом 8 из 12 задач были решены идеально). Для сравнения, лучший результат в этом году составил 90 баллов, а медианный — всего 2 балла. В прошлом году из почти 4 тыс лучших студентов по всей Северной Америке 61% набрали 3 балла или меньше. Nomos 1 — это не просто большая языковая модель, а специализированная система математического мышления, построенная поверх модели Qwen3-30B-A3B-Thinking от Alibaba с архитектурой mixture-of-experts (30 млрд параметров, из которых одновременно активны около 3 млрд). Вместо одной попытки ответа она организует параллельную работу множества независимых рассуждений, заставляя модель не только предлагать решения, но и критически оценивать их качество. Вычислительные ресурсы автоматически концентрируются на самых трудных задачах, а финальный ответ выбирается не по принципу большинства, а через отбор наиболее логически состоятельного решения. По сути, Nomos 1 имитирует работу команды сильных математиков с координатором и именно за счёт этой инженерии рассуждения, а не размера модели, достигает результатов, близких к лучшему человеческому уровню.

В свою очередь GPT-5 Pro решил открытую проблему в теории оптимизации, причем сделал это, как и полагается языковой модели, посредством текстовой генерации различных идей — некоторые из которых оказались полезными. Таким в образом, в 2025 ИИ впервые стал помощником в научной работе в качестве не инструмента (как в случае с AlphaGo, например), а собеседника.

Процент достижения ИИ уровня AGI по оценкам ресурса lifearchitect.ai за 2025 год вырос с 88% до 96% (+8%). Для сравнения, в 2024 он вырос с 64% до 88% (+24%), а в 2023 — с 39% до 64% (+25%). Однако едва ли можно говорить о замедлении прогресса — его истинную динамику можно будет оценить только в ретроспективе. Не исключено, что в этой метрике ИИ в следующем году достигнет уровня 98-99% и будет пребывать на этой отметке еще несколько лет. Во всяком случае на сегодня 96-процентная готовность AGI представляется явно завышенной.

Главным разочарованием года лично для меня стала, во-первых, неискоренимость галлюцинаций и, во-вторых, неспособность моделей находить в Интернете информацию в рамках небольшого исследования — человек в этом по-прежнему незаменим. Например, таблицу выше мы составили самостоятельно: все новейшие топовые модели в лучшем случае не находили данные (которые поиск по ключевым словам зачастую выдает в первых же строчках результата), а в лучшем — придумывали их. Это наблюдение касается бесплатных моделей — хочется верить, что агентские возможности моделей, доступных по платной подписке, куда лучше. В любом случае при всех своих достижениях ИИ продолжает допускать глупые ошибки. Вот как свои противоречивые ощущения от темпов развития ИИ выразил Андрей Карпаты — ученый, который в свое время занимал должность директора по искусственному интеллекту в Tesla и является со-основателем OpenAI:

2025 год оказался захватывающим и в чём-то неожиданным годом для LLM. Они формируются как новый тип интеллекта — одновременно гораздо умнее, чем я ожидал, и гораздо глупее, чем я ожидал. В любом случае они чрезвычайно полезны, и, как мне кажется, индустрия пока не осознала и близко даже 10 % их потенциала, причём уже на текущем уровне возможностей. При этом идей для экспериментов огромное количество, и концептуально поле выглядит практически открытым. И, как я говорил ранее в этом году в подкасте Dwarkesh, я одновременно (и на первый взгляд парадоксально) считаю, что мы увидим быстрое и непрерывное развитие — и что при этом впереди ещё очень много работы. Пристегнитесь.

В отношении предстоящей работы речь скорее всего идет не столько о дальнейшем совершенствовании и масштабировании больших языковых моделей, сколько о применении принципиально новых подходов. Уходящий год был богат на научные публикации — в 2025 вышли десятки работ с потенциально революционными идеями. В их числе Continuous Thought Machines (Sakana AI) и Nested Learning (Google Research). В Continuous Thought Machines вместо простых функций активации каждый нейрон получает свою собственную маленькую нейросеть, которая обрабатывает историю его активаций. Это позволяет каждому нейрону развивать сложную временну́ю динамику — совсем как в человеческом мозге, где важна не только активация нейронов, но и когда именно они активируются и как синхронизируются друг с другом. CTM использует синхронизацию между нейронами как основной способ представления информации. Это похоже на то, как в мозге разные нейроны могут «работать в такт» для кодирования информации. В свою очередь Nested Learning — это новый подход к машинному обучению, который рассматривает модели как набор меньших вложенных задач оптимизации. Каждая из них имеет свой собственный внутренний рабочий процесс, чтобы смягчить или даже полностью избежать проблемы «катастрофического забывания», когда изучение новых задач приводит к потере навыков решения старых. Иерархия процессов обучения с разными временными масштабами может стать ключом к созданию ИИ, который умеет постоянно учиться как человек.

Еще одним перспективным направлением является т.н. пространственный интеллект (spatial intelligence), над которым, в частности, работает стартап World Labs. В этом году он представил Marble — модель, которая создаёт трёхмерные миры по изображениям или текстовым подсказкам. По мнению возглавляющей стартап Фей-Фей Ли, Marble — первый шаг на пути к пространственному интеллекту и созданию по-настоящему пространственно интеллектуальных машин, которые, по ее мнению, станут главным трендом следующего десятилетия:

Пространственный интеллект изменит то, как мы создаем реальные и виртуальные миры и взаимодействуем с ними, революционизируя повествование, творчество, робототехнику, научные открытия и многое другое. Это следующий рубеж ИИ.

Что касается робототехники, то в этом году она бурно развивалась. Особенно впечатляющие успехи демонстрировали китайские (Unitree Robotics, Engine AI, LimX Dynamics) и американские (Boston Dynamics, Tesla) компании. Трудно не согласиться с Фей-Фей Ли, что дальнейшее развитие пространственного интеллекта способствует дальнейшему прогрессу в этой области.

Gadgets News поздравляет вас с наступающим Новым годом, желает счастья, здоровья и новых удивительных открытий в мире науки и техники!