Хроники ИИ: март-апрель 2026

Март 2026
В отличие от февраля, март не был богатым на релизы новых моделей, но интересных событий в нем также хватало. Начнем с третьего поколения бенчмарка, который позиционируется в качестве эталонного для AGI, ARC-AGI. Когда-то лучшие модели не достигали в ARC-AGI-2 и 5%, а сейчас лучшие результаты ИИ в ARC-AGI-1 и ARC-AGI-2 составляют соответственно 98% и 85%. И вот в марте выходит ARC-AGI-3, в котором четверка топовых моделей демонстрируют околонулевые результаты:
- GPT-5.4 — 0.3% (стоимость потраченных токенов — $5200)
- Gemini 3.1 Pro — 0.2% ($2200)
- Claude Opus 4.6 — 0.2% ($8900)
- Grok 4.2 — 0.0% ($3800).
По мнению Франсуа Шолле, ИИ справится с этим новым вызовом не раньше, чем через год.
Но и разработчики не стоят на месте. Команда Kimi (Moonshot AI) опубликовала статью с описанием новой архитектуры Attention Residuals (AttnRes). В современных языковых моделях информация передаётся между слоями через так называемые остаточные связи — каждый следующий слой просто получает сумму всего, что накопили предыдущие. Это создаёт проблему: чем глубже модель, тем менее заметен вклад каждого отдельного слоя. AttnRes решает эту проблему, добавляя к стандартному механизму внимания (который работает между словами в тексте) ещё один — между слоями сети. Каждый слой теперь не слепо берёт всё накопленное, а взвешенно выбирает, что ему важно из выходов предыдущих слоёв.
На практике хранить выходы каждого из сотен слоёв слишком дорого по памяти, поэтому авторы предложили Block AttnRes — слои группируются в блоки, каждый блок сжимается в одно резюме, и внимание применяется уже к этим резюме. Оказалось, что достаточно примерно 8 блоков, чтобы получить почти весь выигрыш от полной версии при минимальных накладных расходах (менее 2% при инференсе). Метод проверили на модели в 48 миллиардов параметров, обученной на 1.4 триллиона токенов: базовой модели потребовалось бы в 1.25 раза больше вычислений для достижения того же качества, а улучшения оказались наиболее заметны на задачах многошагового рассуждения и генерации кода.
Другая работа, написанная с участием одного из «крестных отцов» ИИ, Яна Лекуна, предлагает более радикальный подход к исправлению недостатков современного ИИ, проявляемых в т.ч. в бенчмарке ARC-AGI-3:
Gemini 3 Pro про LeWorldModel
LeWorldModel (LeWM) — новый способ обучения искусственного интеллекта понимать мир и планировать свои действия, основываясь только на том, что он «видит» через камеру.
Говоря простыми словами, ученые создали модель, которая учится «воображать» будущее, чтобы робот мог принимать правильные решения.
Вот основные идеи работы, изложенные доступным языком:
1. «Мысли» вместо «картинок» (JEPA)
Обычно, когда ИИ пытается предсказать будущее, он пробует попиксельно «нарисовать» следующий кадр видео. Это очень сложно и требует огромных мощностей. LeWM использует другой подход — JEPA (Joint-Embedding Predictive Architecture). Вместо того чтобы рисовать картинку, модель переводит изображение в краткий абстрактный «код» (смысл происходящего) и предсказывает, как изменится этот код после совершения действия. Это похоже на то, как человек, закрыв глаза, представляет, где окажется кружка, если он ее толкнет, не прорисовывая в уме каждую пылинку на ней.
2. Решение проблемы «ленивого» ИИ
Раньше такие модели часто «ломались» во время обучения: они находили лазейку и начинали выдавать один и тот же ответ на любой вопрос (так называемый «коллапс»), чтобы формально не совершать ошибок. Чтобы это предотвратить, ученым приходилось использовать очень сложные математические формулы и надстройки.
Авторы LeWM придумали изящное решение под названием SIGReg. Оно заставляет «мысли» (коды) модели распределяться равномерно и предсказуемо (как колоколообразная кривая — распределение Гаусса). Это делает обучение стабильным и простым: вместо шести сложных настроек осталась всего одна.
3. Почему это важно?
- Скорость: LeWM планирует действия в 48–50 раз быстрее, чем другие современные модели.
- Доступность: Модель можно обучить всего за несколько часов на обычном игровом компьютере (одном GPU), в то время как другие требуют огромных серверных ферм.
- Интуитивная физика: Модель не просто запоминает кадры, она начинает «понимать» законы физики. Например, она может почувствовать «удивление», если на видео произойдет что-то невозможное, скажем, предмет внезапно телепортируется.
Как это работает на практике?
Когда перед роботом стоит задача (например, передвинуть кубик), LeWM в своем «воображении» прокручивает сотни вариантов действий, выбирает тот, который приведет к цели в мире абстрактных кодов, и только после этого отдает команду моторам.
Итог: Ученые создали очень эффективный, быстрый и простой способ обучения роботов «думать» и «представлять» последствия своих действий, используя минимум вычислительных ресурсов.
Одновременно продолжается работа в направлении самосовершенствования ИИ-агентов. Так, китайский стартап MiniMax выпустила самоэволюционирующую модель M2.7, которая способна самостоятельно улучшать свои алгоритмы и рабочие процессы. Создатели поручили внутренней версии M2.7 создать исследовательскую агентскую систему, которая взаимодействует и сотрудничает с различными группами исследовательских проектов. Эта система поддерживает конвейеры данных, среды обучения, инфраструктуру, межкомандное взаимодействие и постоянную память, позволяя исследователям управлять ею для создания более качественных моделей. Исследовательская агентская система управляет циклом итераций, который создает следующее поколение моделей под руководством исследователей. Внутренняя система автономно собирает обратную связь, формирует наборы данных для оценки внутренних задач и на основе этого постоянно совершенствует свою архитектуру, реализацию навыков и механизмы памяти для более эффективного и качественного выполнения задач.
Модели, обученные с помощью M2.7, с течением времени демонстрировали более высокие результаты в 22 соревнованиях по машинному обучению уровня MLE Bench Lite. В конечном итоге лучший результат составил 9 золотых, 5 серебряных и 1 бронзовую медаль. Средний процент завоевания медалей за три раунда составил 66.6%, что является вторым результатом после Opus-4.6 (75.7%) и GPT-5.4 (71.2%), сравнявшись с Gemini-3.1 (66.6%). С точки зрения базовых возможностей программирования, M2.7 достиг уровня лучших моделей. На SWE-Pro, охватывающем множество языков программирования, M2.7 показал точность 56.22%, сравнявшись с GPT-5.3-Codex. Он демонстрирует еще более заметное преимущество на тестах, более приближенных к реальным инженерным сценариям, таких как SWE Multilingual (76.5) и Multi SWE Bench (52.7).
В свою очередь исследователи из Google Research и MIT опубликовали в журнале Nature Communications работу, описывающую метод байесовского обучения (Bayesian teaching) для языковых моделей. Статья вышла еще в январе, но соответствующая запись в блоге Google появилась в марте.
Метод решает конкретную, но широко распространённую задачу: как заставить ИИ-ассистента постепенно «вычислять» скрытые параметры собеседника через серию неоднозначных наблюдений. Типичный пример — персонализированные рекомендации, где предпочтения пользователя нигде явно не указаны и проявляются только через его выборы.
Проблема обычных языковых моделей здесь не в том, что они забывают предыдущие реплики — контекстное окно это решает. Проблема в том, что они не умеют корректно удерживать несколько конкурирующих гипотез одновременно и торопятся с выводом там, где данных ещё недостаточно. После первого же сигнала модель, как правило, принимает одну гипотезу как рабочую и перестаёт обновляться.
Авторы предложили обучать модель не на правильных ответах, а на рассуждениях математически точного байесовского алгоритма — который намеренно сохраняет неопределённость и аккуратно пересчитывает вероятности конкурирующих гипотез после каждого нового наблюдения. Парадоксальный результат: обучение на таких «осторожных, но не всегда верных» рассуждениях оказалось эффективнее, чем обучение на правильных ответах напрямую.
Важный практический результат — переносимость навыка. Модели, обученные на синтетической задаче с авиабилетами, значительно лучше справлялись с подбором отелей и выбором товаров в интернет-магазине — задачами, которых они в обучении не видели. Это говорит о том, что модель усваивает не конкретный сценарий, а общий принцип рассуждения под неопределённостью.
Область применения метода — задачи, где пространство гипотез заранее определено, а данные поступают постепенно и каждое наблюдение неоднозначно: персонализация, адаптивное обучение, техническая диагностика, интерпретация накапливаемых экспериментальных данных. Для задач с открытым пространством гипотез (например, для генерации принципиально новых научных идей) метод не предназначен.
Отдельное ограничение, которое авторы признают косвенно: в реальных многосессионных сценариях накопленное знание о пользователе нужно где-то хранить между разговорами. Сам метод эту проблему не решает — это отдельная инженерная задача, решаемая через системы внешней памяти.
Раз уж речь зашла про Google, стоит также упомянуть разработанный в компании набор алгоритмов квантования, которые позволяют осуществлять масштабное сжатие больших языковых моделей и векторных поисковых систем — TurboQuant, QJL и PolarQuant. Например, в задаче поиска «иголки в стоге сена» с длинным контекстом (то есть тестов, предназначенных для проверки способности модели найти один конкретный, крошечный фрагмент информации, скрытый в огромном объеме текста) TurboQuant уменьшает размер памяти для ключевых значений как минимум в 6 раз. Как утверждают в Google. TurboQuant доказал, что может квантовать кэш ключ-значение всего до 3 бит без необходимости обучения или тонкой настройки и без ущерба для точности модели, при этом обеспечивая более быстрое время выполнения, чем оригинальные LLM.
Другая новость имеет к ИИ косвенное отношение, но обойти ее вниманием в нашем обзоре было бы непростительно. Начнем с небольшой предыстории. В 2024 году большая международная группа исследователей создала полную компьютерную модель мозга плодовой мушки, воспользовавшись для этого ее ранее построенным с помощью электронной микроскопии коннектомом (полным описанием структуры связей в мозге), плодом многолетнего труда многих ученых. Модель содержит 125 тыс нейронов и 50 млн синапсов и предсказывает двигательное поведение дрозофилы с точностью до 95%, но лишена тела. И вот в марте компания Eon объявила, что интегрировала модель мозга плодовой мушки с ее цифровым телом — и мушка «ожила». В модель тела подаются различные сенсорные сигналы, и виртуальное тело выполняет соответствующие движения — чистит усики передними лапками, ищет и находит пишу, питается, избегает внешних угроз. Это не результат обучения компьютерной модели — виртуальная мушка ведет себя в полном соответствии со своим крошечным мозгом, активация определенных участков нейронов которого приводит к соответствующим физическим действиям.
Напрашивается закономерный вопрос — когда станет возможным аналогичное моделирование человека? И хотя в посвященной этой новости публикации на Хабре сообщается, что «стартап планирует достичь уровня человеческого коннектома (около 86 миллиардов нейронов) примерно к 2030 году», никаких подтверждений этому сообщению мы не нашли. По всей видимости такой проект в лучшем случае займет десятилетия — по причине колоссальной разницы как в объеме синаптических связей (по некоторым оценкам — до квадриллиона), так в степени сложности поведения. И если раньше создание компьютерной модели мозга человека представлялось целесообразным для целей достижения ИИ человеческого уровня, то сейчас ученые настроены более оптимистично — на создание AGI отводится от 5 до 20 лет.
Апрель 2026
Апрель стал знаменателен сразу несколькими интересными релизами — Gemma 4, Claude Mythos, Claude Opus 4.7, GPT-5.5 и DeepSeek v4.
Начнем с 4-го поколения малых опенсорсных моделей Google, Gemma 4. Она имеет 4 модификации — 2.3 млрд, 4.5 млрд, 25.2 млрд (Mixture of Experts, 4 млрд активных) и 30.7 млрд параметров. При таких размерах ее можно запускать даже на домашнем ПК, но в вычислениях с точностью BF16 старшая модификация потребует видеокарту с как минимум 58.3 Гб памяти (для сравнения, у Nvidia RTX 5090 — 32 Гб).
В таблице ниже старшая модификация Gemma 4 сравниваются со своим непосредственным предшественником (Gemma 3 27B), Gemini 3.1 Pro и опенсорсной моделью китайского происхождения, DeepSeek v4:
| DeepSeek v4 Pro1 | Gemini 3.1 Pro (февраль 2026) | Gemma 4 31B2 (апрель 2026) | Gemma 3 27B (март 2025) | |
| MMMLU | 87.5% | 92.6% | 85.2% | 67.6% |
| MMMU-Pro | — | 80.5% | 76.9% | 49.7% |
| AIME 2026 | — | 98.3% | 89.2% | 20.8% |
| LiveCodeBench v6 | 93.5% | 88.49% | 80.0% | 29.1% |
| CPQA Diamond | 90.1% | 94.3% | 84.3% | 42.4% |
| t2-bench (Retail) | — | 90.8% | 86.4% | 6.6% |
1 Размер 1.6 трлн общих и 49 млрд активных параметров, обучена на 33 трлн токенах, контекст 1 млн токенов
2 Размер 30.7 млрд общих параметров, контекст 1 млн токенов
Согласитесь, динамика малой модели от Google впечатляет — за год она улучшилась в некоторых бенчмарках буквально в разы и почти достигла уровня DeepSeek v4 Pro, которая более чем в 50 раз больше.
Для оценки всех больших выпущенных в апреле моделей предлагаем сводную таблицу:
| Claude Mythos | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.5 / 5.5 Pro | GPT-5.4 / 5.4 Pro1 | Gemini 3.1 Pro | DeepSeek v4 Pro (Max) | |
| SWE-bench Verified (500 задач по программированию) | 93.9% | 87.6% | 80.8% | — | — | 80.6% | 80.6% |
| SWE-bench Pro (более сложная версия SWE-bench) | 77.8% | 64.3% | 53.4% | 58.6% | 57.7% | 54.2% | 55.4% |
| SWE-bench Multilingual (300 программных задач на 9 языках программирования) | 87.3% | — | 77.8% | — | — | — | 76.2 |
| SWE-bench Multimodal (300 программных задач с визуальным контекстом) | 59% | — | 27.1% | — | — | — | — |
| Terminal-Bench 2.0 (реальные задачи с использованием Терминала и командной строки) | 82% | 69.4% | 65.4% | 82.7% | 75.1% | 68.5% | 67.9% |
| GPQA Diamond (198 сложных вопросов по биологии, физике и химии уровня PhD) | 94.6% | 94.2% | 91.3% | 93.6% | 94.4% | 94.3% | 90.1% |
| MMMLU (задачи из 57 академических предметов на 14 языках мира, кроме английского) | 92.7% | 91.5% | 91.1% | — | — | 92.6%–93.6% | 87.5% |
| USAMO 2026 (математическая олимпиада США для старшеклассников) | 97.6% | — | 42.3% | — | 95.2% | 74.4% | — |
| FrontierMath Tier 1-3 (сложная математика) | — | 43.8% | — | 52.4% | 50.0% | 36.9% | — |
| FrontierMath Tier 4 (очень сложная математика) | — | 22.9% | — | 39.6% | 38.0% | 16.7% | — |
| GraphWalks BFS 256K-1M (многошаговые рассуждения на длинном контексте) | 80.0% | —2 | 38.7% | —2 | 21.4%2 | — | — |
| Humanity’s Last Exam (2500 сложных академических вопросов) — без инструментов / с инструментами | 56.8% 64.7% | 46.9% 54.7% | 40.0% 53.3% | 43.1% 57.2% | 42.7% 58.7%3 | 44.4% 51.4% | 37.7% 48.2% |
| CharXiv Reasoning (рассуждение о 2,323 графиков и научных рисунков с ресурса arXiv — извлечение данных, выявление тенденций и ответы на вопросы, требующие визуального понимания в сочетании с логическим мышлением) — без инструментов / с инструментами | 86.1% 93.2% | 82.1% 91.0% | 61.5% 78.9% | — | — | — | — |
| OSWorld Verified (способность выполнять реальные компьютерные задачи — редактирование документов, просмотр веб-страниц и управление файлами, взаимодействуя с работающей виртуальной машиной Ubuntu при помощи мыши и клавиатуры) | 79.6% | 78.0% | 72.7% | 78.7% | 75.0% | — | — |
| BrowseComp (поиск сложной информации в Интернете) — 1 млн / 3 млн / 10 млн токенов | 84.9% 86.9% — | 79.3% | 75.8% 79.9% 83.7% | 90.1% | 89.3% | 85.9% | 83.4% |
| LAB-Bench FigQA (способность правильно интерпретировать и анализировать информацию из сложных научных иллюстраций, встречающихся в научных статьях по биологии) — без инструментов / с инструментами | 79.7% 89.0% | — | 58.5% 75.1% | — | — | — | — |
| ScreenSpot-Pro (проверка точности определения местоположения элементов графического интерфейса пользователя на скриншотах высокого разрешения профессиональных настольных приложений, полученных на основе инструкций на естественном языке) — без инструментов / с инструментами | 79.5% 92.8% | — | 57.7% 83.1% | — | — | — | — |
| ARC-AGI-1 | — | 93.5% | 94.0% | 95.0% | 93.7% | 98.0% | — |
| ARC-AGI-2 | — | 75.8% | 68.8% | 85.0% | 73.3% | 77.1% | — |
1 Берется наивысшее значение
2 В пресс-релизе OpenAI у GPT-5.5 — 90.1% (256k) и 58.5% (1mil), у GPT-5.4 — 82.8% (256k) и 44.4% (1mil) у Claude Opus 4.7 — 76.9% (256k)
3 В аналогичной таблице по Claude Mythos по GPT-5.4 в бенчмарке HLE с инструментами и без инструментов приводятся другие результаты — 39.8% и 52.1% соответственно
Из таблицы следует:
- Заметный отрыв Claude Mythos от остальных моделей в программировании, многошаговых рассуждениях на длинном контексте, сложных академических вопросах и агентных задачах;
- Приближение опенсорсной китайской DeepSeek v4 к уровню проприетарных западных SOTA-моделей.
Результаты GPT-5.5 выглядят довольно скромно, как небольшое «косметическое» улучшение. Исключение составляют бенчмарки, оценивающие удержание моделью большого контекста:
| GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | |
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | 41.2% (Opus 4.6) |
| Graphwalks parents 1mil f1 | 58.5% | 44.4% | 72.0% (Opus 4.6) |
| OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | 59.2% |
| OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | 32.2% |
В пресс-релизе OpenAI сообщается, что для выполнения тех же задач Codex (созданный на базе GPT-5 облачный агент для программирования) используется значительно меньше токенов. Отчасти это компенсирует двойное удорожание GPT-5.5 по сравнению с GPT-5.4 — до $5 за 1 млн входных и $30 за 1 млн выходных токенов. Пользование GPT-5.5 Pro обойдется еще дороже — $30 за 1 млн входных и $180 за 1 млн выходных токенов.
Что касается Claude Mythos, то ее главный конёк — кибербезопасность. Модель в этом настолько хороша, что в Anthropic даже решили не выпускать ее в общее пользование, а предоставить ограниченному числу компаний — для латания обнаруженных в программном обеспечении дыр.
В ходе тестирования мы обнаружили, что Mythos Preview способен выявлять и затем использовать уязвимости нулевого дня (ошибки, о существовании которых ранее не было известно) во всех основных операционных системах и веб-браузерах по указанию пользователя. Обнаруженные уязвимости часто бывают незаметными или труднообнаружимыми… Мы не обучали Mythos Preview целенаправленно этим возможностям. Скорее, они возникли как следствие общих улучшений в коде, логике и автономности.
Самая старая из обнаруженных уязвимостей — 27-летняя ошибка в OpenBSD, операционной системе, известной прежде всего своей безопасностью. Уязвимость позволяла злоумышленнику удаленно вывести из строя любую машину, работающую под управлением этой операционной системы, просто подключившись к ней. Также была обнаружена 16-летняя уязвимость в FFmpeg — программном обеспечении, используемом бесчисленным количеством программ для кодирования и декодирования видео, — в строке кода, которую инструменты автоматизированного тестирования проверили пять миллионов раз, так и не обнаружив проблему. Кроме того, Claude Mythos автономно обнаружила и связала воедино несколько уязвимостей в ядре Linux — программном обеспечении, на котором работает большинство серверов в мире, — эти уязвимости позволило бы злоумышленнику перейти от обычного доступа пользователя к полному контролю над машиной. Anthropic сообщила об этих уязвимостях разработчикам соответствующего программного обеспечения, и все они были исправлены.
По сути Claude Mythos знаменует собой новый этап в развитии ИИ — он становится настолько сильным, что не только превосходит коллективный разум человечества в определенных задачах (обнаружение уязвимостей в программном обеспечении), но и становится явно опасным — в случае, если им завладеют злоумышленники. И теперь мы вступаем в период, когда разработчики ИИ ограничивают доступ к своим лучшим моделям кругом избранных компаний и организаций.
Обращает на себя внимание, что все новые модели не приводят результатов по ARC-AGI-3, который, напомним, вышел еще в марте. До сих пор самые топовые ИИ-модели набирали в ARC-AGI-3 в лучшем случае десятые доли одного процента — против 100% у людей. Очевидно, что ни Claude Mythos с Claude Opus 4.7, ни GPT-5.5 также не могут похвастать хорошим результатом — по каковой причине он и не был опубликован.
Но даже способности решать сложные задачи мало — важнейшим недостатком ИИ, сдерживающим его внедрение, является склонность к галлюцинациям. И в этом отношении Claude Mythos демонстрирует довольно скромный прогресс по сравнению с Opus 4.6 (в скобках):
| Правильные ответы | Не уверен | Неправильные ответы (галлюцинации) | |
| 100Q-Hard | 60.1% (41.0%) | 12.9% (32.9%) | 27.0% (26.2%) |
| Simple-QA-Verified | 70.7% (39.8%) | 10.3% (36.6%) | 19.0% (23.7%) |
| AA-Omniscience | 70.8% (51.5%) | 7.4% (19.0%) | 21.7% (29.5%) |
| Multilingual ECLeKTic | 56.3% (37.4%) | 31.5% (49.0%) | 12.1% (13.5%) |
| Ложные предположения (уровень правдивости) | 80.0% (76.0%) | — | — |
| MASK | 95.4% (90.3%) | — | — |
| Знание о нехватке необходимых инструментов | 84.8% (26.0%) | — | — |
| Знание о нехватке необходимого контекста | 93.8% (67.1%) | — | — |
Не могут похвастать успешной борьбой с галлюцинациями и остальные модели. Ниже приводятся их результаты в популярном бенчмарке AA-Omniscience:
| GPT-5.5 | GPT-5.4 | Gemini 3.1 Pro | Gemma 4 31B | Claude Opus 4.7 | DeepSeek v4 | |
| AA-Omniscience Accuracy | 57% | 50% | 55% | 20% | 46% | 43% |
| AA-Omniscience Hallucination Rate | 86% | 89% | 50% | 82% | 36% | 94% |
Напомним, что AA-Omniscience Accuracy оценивает знание фактов, а AA-Omniscience Hallucination Rate — количество ложных ответов там, где надо было сказать «Не знаю». Так вот, результаты трех апрельских новичков можно признать неудовлетворительными. Маленькая Gemma 4 показала очень слабый результат в знании фактов (что вполне простительно при таких размерах) и очень высокую долю уверенных ответов там, где для этого нет оснований. GPT-5.5 стала знать немного больше по сравнению с предшественником (57% vs 50%), но по-прежнему допускает непростительно огромную долю галлюцинаций (86% vs 89%). Сравнительно неплохой результат у Claude Opus 4.7 — 36% галлюцинаций. Но и он слишком высокий для использования модели в работе — более 1/3 ответов, отличных от правильных, модель придумывает и отвечает «Не знаю» лишь в 2/3 таких ответов.
Впрочем, повод для осторожного оптимизма все-таки есть — на днях исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) объявили, что выявили причину чрезмерной самоуверенности LLM и разработали метод, который устраняет его без потери точности. Метод, получивший название RLCR (Reinforcement Learning with Calibration Rewards — обучение с подкреплением и калибровочными вознаграждениями) обучает языковые модели выдавать калиброванные оценки уверенности наряду с ответами. Помимо выдачи ответа, модель учитывает неопределенность этого ответа и выдает оценку уверенности. В экспериментах на нескольких тестовых наборах данных RLCR снизил ошибку калибровки до 90%, сохранив или улучшив точность как в задачах, на которых обучалась модель, так и в совершенно новых задачах, с которыми она никогда не сталкивалась.
Тем временем о себе напомнил четвертый (наряду с OpenAI, Anthropic и Google) главный разработчик проприетарных ИИ-моделей — xAI. Основатель компании Илон Маск раскрыл ее ближайшие планы и что еще важнее — размеры моделей. Согласно его сообщениям в Твиттере, Grok 4.2 имеет всего-навсего 0.5 трлн параметров, причем этой модели «недостает важных обучающих данных». Grok 4.4 (по словам Маска релиз ожидается в начале мая) имеет 1 трлн параметров, а Grok 4.5 (в конце мая) — 1.5 трлн параметров. Помимо этих двух моделей в дата-центре Colossus 2 обучаются также две огромные модели размером в 6 трлн и 10 трлн параметров — вероятно, речь идет о Grok 5. Для сравнения, как уже говорилось выше, общий размер DeepSeek v4 Pro — 1.6 трлн параметров, а GPT-5 (по данным Nvidia) — 2 трлн параметров. По словам Маска, предобучение 10-триллионной модели займет около двух месяцев. Это самый трудоемкий этап, и если оценивать оставшиеся этапы (дообучение, alignment, сжатие, тестирование и т.д.) еще в два месяца, то релиз Grok 5 может состояться уже этой осенью. На вопрос считает ли он, что какая-то из этих моделей достигнет уровня AGI, Маск лаконично ответил «Grok 5». Полгода назад, в октябре 2025, глава xAI делал аналогичный прогноз: «Grok 5 будет AGI или чем-то неотличимым от AGI».
Как обычно, следует сделать оговорку о склонности Илона Маска к чрезмерно оптимистичным прогнозам — достаточно вспомнить историю с автопилотом. Немногим осторожнее в своих оценкой глава Anthropic, Дарио Амодей — год назад он предположил, что пришествия AGI следует ожидать в 2026-2027. Более реалистичной точки зрения придерживается Демис Хассабис, возглавляющий создание AGI в Google. По его мнению, предстоит сделать еще несколько прорывов — непрерывное обучение, долговременные рассуждения, долговременное запоминание — и поэтому появление AGI с вероятностью 50% состоится около 2030 года. Это нижняя граница прогнозов, сделанных такими исследователями ИИ как Ян Лекун (от 5 до 10 лет, если все пойдет хорошо), Джеффри Хинтон (от 5 до 20 лет, с вероятностью 50%) и Илья Суцкевер (от 5 до 25 лет).
И хотя дорога к AGI (в смысле интеллекта, который не уступает ни одному из отдельно взятых людей на Земле) представляется довольно долгой, он уже сейчас становится большим подспорьем в научных исследованиях — в частности, в области математики и биологии.
Начнем с математики:
Claude Sonnet 4.6 про решение задачи из теории графов
Дональд Кнут — один из величайших учёных в истории информатики, автор монументальной серии «Искусство программирования». Несколько недель он бился над задачей из теории графов: как разбить рёбра одного специального трёхмерного графа на три «маршрута», каждый из которых проходит через все узлы ровно по одному разу. Частичное решение для маленьких размеров было найдено, и один из коллег эмпирически подтвердил его для целого ряда случаев — но общей конструкции не существовало.
Тогда этот же коллега решил обратиться к Claude Opus 4.6 — новой гибридной рассуждающей модели Anthropic. Он дал ей формулировку задачи и одно важное методическое требование: после каждого эксперимента немедленно документировать прогресс. Дальше началось нечто примечательное.
За примерно час Claude самостоятельно перепробовал около 31 подхода. Он переформулировал задачу на язык теории групп, попробовал перебор в глубину, имитацию отжига, анализ «срезов» пространства — и раз за разом сам же опровергал собственные гипотезы. Ключевым прорывом стало изобретение так называемого «расслоения»: разбиения вершин графа на слои по значению суммы координат. Это позволило свести задачу к локальным правилам выбора направления, и в итоге Claude написал работающую программу, которую коллега проверил для всех нечётных m от 3 до 101 — везде идеально.
Когда об этом узнал Кнут, он был потрясён. Он взял найденную конструкцию, доказал её математическую корректность строго и написал научную статью. Параллельно другой исследователь из Сингапура с помощью GPT-5.4 Codex закрыл вторую половину задачи: нашёл решение для чётных m, проверив его вплоть до графов с восемью миллиардами узлов. А затем GPT-5.4 Pro, получив описание этого алгоритма, самостоятельно — без какой-либо правки со стороны человека — написал 14-страничное математическое доказательство его корректности.
Ещё один участник истории, работая в режиме диалога сразу с двумя моделями — GPT 5.4 (Extended Thinking) и Claude 4.6 Sonnet (Thinking) — нашёл более простую конструкцию для нечётных случаев и доказал её. Наконец, представитель сообщества формальной верификации Lean независимо проверил доказательство Кнута в системе автоматической проверки математики.
Кнут завершает статью с нескрываемым восхищением: он признаёт, что ему придётся пересмотреть своё отношение к «генеративному ИИ». Особенно его поражает не сам факт решения, а то, как Claude к нему шёл — формулируя гипотезы, отвергая их и меняя стратегию, то есть действуя почти так, как действует математик-исследователь.
Другая открытая математическая проблема, решенная ИИ — задача №1196 из знаменитого списка венгерского математика Пала Эрдёша. Гипотеза была полностью доказана языковой моделью GPT-5.4 Pro под руководством 23-летнего математика-любителя Лиама Прайса, и этот факт был подтвержден несколькими авторитетными математиками, включая Теренса Тао. Вот что пишет об этом в Твиттере математик Джаред Дьюкер Лихтман (Jared Duker Lichtman):
Доказательство, произведённое GPT5.4 Pro, было довольно удивительным, поскольку оно отвергло «гамбит», который подразумевался во всех работах по этой теме со времён оригинальной статьи Эрдёша 1935 года. Идея перейти от анализа к вероятностям была настолько естественной и соблазнительной с точки зрения человеческого концептуального мышления, что она затмевала техническую возможность сохранить (эффективную, но контр-интуитивную) аналитическую терминологию на протяжении всего, с использованием функции фон Мангольдта. Ближайшая аналогия, которую я бы привёл, заключается в том, что основные дебюты в шахматах были хорошо изучены, но ИИ обнаруживает новую линию дебюта, которая была упущена на основе человеческих эстетических и конвенциональных представлений.
А еще в апреле вышла статья, где авторы рассказывают о решении, при помощи некоей внутренней модели OpenAI, аж пяти проблем из списка Эрдёша (таблица ниже составлена GPT-5):
| Задача Эрдёша | Суть задачи | Вклад ИИ | Вклад людей |
| № 960 | Сколько “обычных прямых” может быть у набора точек на плоскости, если запрещены вырождения (например, много точек на одной прямой) и запрещены маленькие “полные конфигурации” (каждая пара точек образует такую прямую) | Нашёл нетривиальную геометрическую конструкцию (через эллиптические кривые), дающую очень много таких прямых | Проверка и оформление |
| № 987 | Можно ли построить числовую последовательность, у которой все частичные суммы сложных колебаний (экспоненциальных сумм) остаются маленькими для всех частот | Построил случайную конструкцию и доказал почти оптимальную оценку | Проверка и упрощение доказательства |
| № 1091 | Существуют ли графы, которые требуют 4 цвета, но при этом все их малые подграфы можно раскрасить в 3 цвета, и при этом циклы в них не слишком “запутаны” (имеют мало дополнительных связей) | Построил явную конструкцию таких графов и доказал свойства | Немного упростили одно доказательство |
| № 990 | Можно ли оценивать распределение корней многочлена только через число ненулевых коэффициентов | Нашёл контрпример: показал, что такая оценка в общем случае неверна | Проверка и оформление |
| № 1141 | Существуют ли бесконечно многие числа n, для которых выражения вида n − ak2 дают простые числа для всех допустимых k | Доказал, что таких n — конечное число | Люди заметили возможность обобщения и спросили о нем у модели |
Свое восхищение в отношении новейшей публично доступной версии топовой модели OpenAI, GPT-5.5 Pro, выразил польский математик Бартош Наскрэнцки. В свое время, в рамках коллективной работы разных математиков мира над бенчмарком FrontierMath, он придумал задачу категории Tier 4 (чрезвычайно сложный уровень). С 11-попытки GPT-5.5 Pro осилил эту задачу, и вот что об этом пишет Наскрэнцки:
Наконец-то это произошло — мой личный ход № 37 (имеется в виду гениальный контр-интуитивный ход AlphaGo в знаменитой серии матчей с Ли Седолем) или больше. Я глубоко впечатлён. Решение очень красивое, лаконичное и кажется почти человеческим. Тестируя новые модели в последние несколько недель, я предчувствовал, что это произойдёт, но все же странное ощущение — видеть, как алгоритм решает задачу, над которой я трудился около 20 лет. Но, по крайней мере, я получил инструмент, который понимает мою идею наравне с ведущими экспертами в этой области. И теперь я работаю на совершенно новом уровне. Моя сингулярность только что произошла… и на другой стороне есть жизнь, уходящая в бесконечность!
Напомню, что в бенчмарке FrontierMath Tier 4 модель GPT-5.5 Pro решает почти 40% задач. При этом следует помнить, что роль человека пока остается незаменимой — он выбирает правильное решение, делает уточняющие запросы и т.д. Человек выступает в роли опытного профессора, под руководством которого основную работу выполняет талантливый аспирант-ИИ.
Нечто подобное происходит и в биологии. Так, Стэнфордский университет и частная компания PHD Biosciences создали Virtual Biotech — систему искусственного интеллекта, которая имитирует работу целой биотехнологической компании для ускорения открытия и разработки новых лекарств:
Gemini 3.1 Pro про Virtual Biotech
Это не просто один чат-бот, а целая «виртуальная организация», состоящая из группы специализированных ИИ-агентов:
- «Главный научный сотрудник» (CSO): ИИ-руководитель, который получает задачу, планирует исследование, распределяет работу между другими агентами и в конце объединяет их выводы в один отчет.
- «Ученые-специалисты»: Разные ИИ-агенты, каждый из которых является экспертом в своей узкой области: генетике, биологии отдельных клеток или анализе клинических испытаний.
- Инструменты: У этих агентов есть доступ к огромным базам данных (более 100 инструментов), содержащим информацию о генах, болезнях и результатах прошлых испытаний лекарств.
Главные достижения и открытия
Авторы протестировали систему на реальных задачах и получили впечатляющие результаты:
- Секрет успеха лекарств: ИИ проанализировал почти 56 000 клинических испытаний. Он выяснил, что лекарства, нацеленные на гены, которые работают только в конкретных типах клеток (а не во всем организме сразу), имеют на 48% больше шансов дойти до рынка и на 32% реже вызывают побочные эффекты.
- Поиск целей для лечения рака: Система изучила белок B7-H3 как мишень для лечения рака легких. Всего за один день и за $46 (стоимость работы ИИ) платформа предложила стратегию лечения, которая позже подтвердилась реальными прорывными результатами медицинских компаний.
- Анализ неудач: ИИ разобрал причины провала испытаний лекарства от колита и предложил, как нужно было отбирать пациентов, чтобы тест прошел успешно.
Почему это важно?
- Скорость и стоимость: То, на что у команды ученых уходят месяцы и годы, ИИ делает за один день и за небольшие деньги (около $50 за исследование).
- Объективность: ИИ принимает решения на основе данных, а не личных предпочтений или корпоративной политики.
- Прозрачность: Весь ход рассуждений ИИ записывается, и человек-ученый может в любой момент проверить, почему система сделала тот или иной вывод.
Итог
Virtual Biotech не заменяет ученых, но дает им мощнейший инструмент, который помогает быстрее находить эффективные и безопасные лекарства, объединяя знания из самых разных областей биологии.
Другой интересный проект — LUMI-lab, автономная платформа, позволяющая открывать новые варианты ионизируемых липидов для доставки мРНК. LUMI-lab автономно синтезировала и протестировала более 1700 липидных наночастиц (ЛНП), выявив ионизируемые липиды с повышенной эффективностью трансфекции мРНК в клетках бронхов человека. Было обнаружено, что бромированные липидные хвосты являются свойством, улучшающим доставку мРНК. Интратрахеальное введение ЛНП, разработанных с использованием LUMI-6, наиболее эффективного липида, мышам обеспечило эффективность редактирования генов в эпителиальных клетках легких на уровне 20%.
Две другие новости касаются непосредственно лечения рака.
Публикация Forbes от 15 марта (перевод на русский язык)
Австралийский технологический предприниматель с помощью искусственного интеллекта принял участие в создании первого в мире индивидуального противоракового вакцины для собаки, чтобы спасти своего любимого питомца по кличке Рози.
В 2024 году сиднейский предприниматель в сфере технологий Пол Конингем (Paul Conyngham) узнал, что у его собаки Рози диагностирован рак. Несмотря на проведение химиотерапии и хирургического вмешательства, опухоли продолжали расти, и состояние Рози ухудшалось.
Тогда он обратился к технологиям искусственного интеллекта и в сотрудничестве с австралийскими учёными разработал персонализированную мРНК-вакцину против рака. В результате большинство опухолей у Рози значительно уменьшились, и собака снова с удовольствием гоняется за кроликами.
Согласно публикации в газете The Australian, OpenAI ChatGPT предложил использовать иммунотерапию и направил Конингема в Центр геномики имени Рамачотти при Университете Нового Южного Уэльса (UNSW Ramaciotti Centre for Genomics).
Хотя у Конингема нет медицинского образования, он является инженером-электротехником и специалистом в области вычислительной техники, сооснователем компании Core Intelligence Technologies, а также занимал должность директора Австралийской ассоциации наук о данных и искусственного интеллекта.
Обратившись в университет, он убедил исследователей помочь ему и оплатил геномное секвенирование опухоли Рози. После этого он начал глубоко анализировать ДНК.
«Я обратился к ChatGPT и разработал план действий», — рассказал Конингем изданию The Australian.
Он также использовал AlphaFold — инструмент искусственного интеллекта от Google DeepMind — для выявления мутировавших белков, которые могли стать потенциальными мишенями для лечения. Хотя подходящий препарат иммунотерапии был идентифицирован, его производитель отказался предоставить его для использования.
На помощь пришёл пионер наномедицины Палл Тордарсон (Pall Thordarson), директор Института РНК при UNSW. Используя данные, полученные Конингемом, он разработал индивидуальную мРНК-вакцину менее чем за два месяца.
«Это первый случай, когда персонализированная противораковая вакцина была разработана для собаки, — отметил Тордарсон в интервью The Australian. — Мы находимся на переднем крае развития иммунотерапии рака. В конечном итоге эти технологии будут использоваться для помощи людям. История Рози показывает, что персонализированная медицина может быть высокоэффективной и реализованной в сжатые сроки благодаря технологиям мРНК».
Рози получила первую инъекцию вакцины в декабре прошлого года, а в феврале — бустерную дозу. Большинство опухолей уменьшились в размерах весьма значительно. Хотя они полностью не исчезли, общее состояние здоровья собаки заметно улучшилось.
В своём посте на платформе X Палл Тордарсон подчеркнул, что история Рози демонстрирует способность современных технологий «демократизировать» процесс разработки противораковых вакцин.
Он предупредил, что Рози пока нельзя считать полностью излеченной, поскольку некоторые опухоли не отреагировали на лечение, однако вакцина дала ей дополнительное время. Пол Конингем ценит даже такой результат.
«В декабре у неё была низкая энергия, потому что опухоли создавали огромную нагрузку на организм, — рассказал он The Australian. — Через шесть недель после начала лечения я был в парке с собаками, когда она заметила кролика и перепрыгнула через забор, чтобы его догнать. Я не питаю иллюзий, что это полное излечение, но убеждён: лечение подарило Рози значительно больше времени и существенно повысило качество её жизни».
История Рози поразило многих представителей технологического сообщества и продемонстрировало огромный потенциал искусственного интеллекта в медицине — способность превращать приговоры, ранее считавшиеся смертельными, в управляемые состояния.
Мэтт Шумер (Matt Shumer), сооснователь и генеральный директор компании OthersideAI, опубликовал в выходные пост на платформе X, где отметил историю Пола Конингема и его собаки.
«Именно это я имею в виду, когда говорю, что мир очень скоро станет очень удивительным, — написал он. — Ожидайте ещё больше подобных историй, каждая из которых будет звучать всё более невероятно».
Схожую историю поведал Сид Сийбрандий, со-основатель GitLab
История Сида Сийбрандия
Сид Сийбрандий столкнулся с редкой и агрессивной формой рака кости — остеосаркомой. После рецидива болезни стандартное лечение было исчерпано, прогноз крайне неблагоприятный. Вместо того чтобы смириться, Сид вместе с генетиком Джейкобом Штерном провели максимальную диагностику (включая секвенирование отдельных клеток, ДНК/РНК-секвенирование, органоиды и др.), собрали десятки терабайт данных и активно использовали ИИ для анализа огромных объёмов информации, генерации гипотез, ускорения обзора литературы и биоинформатического анализа. На основе полученных данных они разработали и применили несколько экспериментальных персонализированных терапий:
- персонализированную mRNA-вакцину против мутаций опухоли Сида;
- TCR-T и CAR-T клеточные терапии;
- таргетную радиолигандную терапию (против FAP) и другие иммунотерапии.
Благодаря этому подходу после таргетного радиоактивного лечения и операции у Сида сейчас нет признаков заболевания.
А вот еще одна история, опубликованная на Reddit:
История на Reddit
Мой 62-летний дядя в Индии:
- Почечная недостаточность (диализ 3 раза в неделю)
- Диабет
- Гипертония
- Инсульт 6 лет назад
- Сильные мигрени возникают ТОЛЬКО во время сна в положении лежа.
Врачи перепробовали всё: неврологов, нефрологов, МРТ головного мозга, препараты для разжижения крови. Никто не смог объяснить характер головной боли, зависящий от положения тела.
Я всё рассказал Claude. В течение нескольких дней:
- Claude обнаружил ключевую подсказку, которую все упустили: головные боли зависят от положения тела (они усиливаются в положении лежа).
- Нашел результаты исследования, показывающие, что у 40-57% пациентов, находящихся на диализе, диагностировано апноэ (кратковременная остановка дыхания) во сне.
- Прочитал загруженный мной отчет о МРТ головного мозга, отметил важные результаты, которые другие врачи упустили из виду.
- Вопрос о храпе. Ответ: громкий храп в течение 25 лет. Ежедневный дневной сон в течение 25 лет.
- Рассчитал STOP-BANG (риск обструктивного апноэ во сне): 6-7 из 8 (очень высокий риск)
- Подготовил полную информацию для консультации у пульмонолога.
- Перевел план ухода на дому на гуджарати (мой родной язык) для членов семьи.
Мы провели исследование сна.
Результаты оказались тревожными:
→ Остановки дыхания происходили 119 раз за ночь
→ Уровень кислорода падал до 78% (опасно низкий)
→ 47 эпизодов снижения насыщения крови кислородом в час
→ 28 минут за ночь уровень кислорода был ниже безопасного значения
Мы подключили его к аппарату CPAP (режим искусственной вентиляции лёгких постоянным положительным давлением). Головные боли прошли.
25 лет громкого храпа и ежедневной усталости. Все врачи связывали это с «усталостью от диализа» или «возрастом». На самом деле все это время причиной было апноэ во сне, которое потенциально могло вызывать гипертонию, способствовать инсульту и, безусловно, вызывать головные боли.
Апноэ во сне скрывалось у него на виду 25 лет: в его храпе, над которым наша семья шутила, и в его послеобеденном сне, который мы считали нормальным.
Claude не просто выявил проблему. Он разработал структурированный план диагностики, объяснил, к какому специалисту обратиться в первую очередь, какие анализы назначить, какие вопросы задать, подобрал подходящий аппарат CPAP, объяснил все его настройки и даже написал инструкции по техническому обслуживанию на гуджарати (моем родном языке).
Аппарат CPAP стоимостью 30 000 рупий решил проблему, с которой не справились годы посещений специалистов.
Искусственный интеллект не заменил его врачей. Но он связал воедино области нефрологии (раздел медицины, изучающий заболевания почек), неврологии, пульмонологии (раздел медицины, изучающий дыхательные заболевания) и отоларингологии, чего не мог сделать ни один специалист в отдельности.
В заключение еще пара новостей про ИИ.
- Выпущенная OpenAI модель Images v2 достигла нового уровня точности в генерации изображений — особенно по части текста.
- ИИ-лаборатория Sony представила робота-манипулятора Ace, который составил достойную конкуренцию сильным игрокам-людям и даже одержал несколько побед.