Хроники ИИ: AlphaEvolve и машина Дарвина-Гёделя, Claude 4 и Gemini 2.5 Pro Deep Think, Imagen 4 и Veo 3

Как и предыдущие месяцы, май оказался весьма урожайным на интересные новости в индустрии ИИ. Начнем, пожалуй, с главных анонсов — AlphaEvolve и машины Дарвина-Гёделя. Как можно догадаться из названия, речь идет о совершенствующихся алгоритмах, вдохновленных теорией эволюции.
AlphaEvolve — это созданный в Google DeepMind агент, работающий на основе больших языковых моделей для написания и оптимизации программных алгоритмов. В отличие от предыдущих подходов в эволюционном направлении ИИ, AlphaEvolve задействует не заранее заданные операторы мутации и кроссовера (механизмы, которые используются для создания новых поколений программ), а генерирует их при помощи большой языковой модели (комбинации Gemini 2.0 Flash и Gemini 2.0 Pro). С её помощью AlphaEvolve создает много версий кода, проверяет их на автоматических тестах и сохраняет лучшие. AlphaEvolve применили к более чем 50 открытым проблемам математического анализа, геометрии, комбинаторики и теории чисел. Примерно в 75% случаев он заново открыл самые современные решения, и в 20% случаев улучшил ранее известные решения. Например, AlphaEvolve нашел алгоритм для умножения комплекснозначных матриц 4×4 с использованием 48 скалярных умножений, улучшив созданный в 1969 году алгоритм Штрассена, который ранее был известен как лучший в этой области.
В свою очередь машина Дарвина-Гёделя (МДГ), разработанная японским стартапом Sakana (ставшим известным благодаря AI Scientist, первой комплексной системе для совершения полностью автоматизированных научных открытий), представляет собой самосовершенствующуюся систему, которая итеративно изменяет свой собственный код. МДГ начинает с одного агента, который умеет писать и выполнять код. Этот агент изменяет свой собственный код, чтобы стать лучше в решении задач программирования. Новые версии агента тестируются на задачах из бенчмарков (SWE-bench и Polyglot). Если версия лучше, она сохраняется в «архиве». МДГ выбирает агентов из архива, чтобы создавать новые, улучшенные версии, как в эволюции. В результате DGM улучшила свои способности: с 20% до 50% на SWE-bench и с 14.2% до 30.7% на Polyglot.
Вот как Grok 3 сравнительно описал ключевые особенности обеих систем:
машина Дарвина-Гёделя | AlphaEvolve | |
---|---|---|
Цель | Создание ИИ, который сам себя улучшает, изменяя свой код. | Оптимизация алгоритмов для науки и технологий (например, математика, дата-центры). |
Фокус | Улучшение агентов, решающих задачи программирования (SWE-bench, Polyglot). | Решение широкого спектра задач: от математики до оптимизации серверов Google. |
Масштаб кода | Работает с кодом агентов (Python), но не с огромными проектами. | Может улучшать большие программы (сотни строк) на разных языках. |
Самоулучшение | DGM изменяет себя, чтобы стать лучше в программировании и самоулучшении. | AlphaEvolve улучшает внешние программы, но не себя. |
Архив решений | Хранит «архив» всех агентов для разнообразия путей улучшения. | Хранит базу программ, но фокусируется на улучшении лучших вариантов. |
Языковые модели | Использует Claude 3.5 Sonnet и o3-mini. | Использует Gemini 2.0 Flash и Pro, комбинируя быстрые и мощные модели. |
Оценка | Тестирует на бенчмарках программирования (10–200 задач). | Может проводить долгие тесты (часы) на кластерах компьютеров. |
Примеры достижений | Улучшение с 20% до 50% на SWE-bench, с 14.2% до 30.7% на Polyglot. | Новый алгоритм умножения матриц, экономия 0.7% ресурсов дата-центров. |
Область применения | Программирование, потенциально любые задачи, где можно писать код. | Математика, оптимизация серверов, аппаратное обеспечение, компиляторы. |
Безопасность | Изолированные среды, проверка кода людьми. | Автоматическая проверка правильности, подтверждение экспертами. |
Совершенствование и особенно самосовершенствование можно назвать Святым Граалем искусственного интеллекта — оно не требует участия человека и может продолжаться продолжительное, возможно даже неограниченное, количество времени. Об этом писал еще Алан Тьюринг в 1950 году:
Наблюдая за результатами собственного поведения, она (машина) может изменять свои программы, чтобы более эффективно достигать какой-либо цели. Это скорее возможности ближайшего будущего, чем утопические мечты.
И вот спустя 75 лет прогноз Тьюринга становится реальностью. Основная трудность состоит в том, чтобы распространить этот подход на трудно формализуемые задачи. Если (а скорее всего — когда) это случится, процесс самосовершенствования ИИ станет неудержимым. Это будет полноценная эволюция разума — но не природная, как это было на протяжении миллионов лет человеческой эволюции, а искусственная.
В прошлом месяце вышли сразу две новые SOTA-модели, Claude 4 и Gemini 2.5 Pro с функцией Deep Think. Вот как выглядят их результаты в популярных бенчмарках:
Google Gemini 2.5 Pro (Deep Think) | Google Gemini 2.5 Pro | Claude Opus 4 | Claude Sonnet 3.7 | Open AI o3 (High) | |
---|---|---|---|---|---|
USAMO 2025 (математическая олимпиада) | 49.4% | 34.5% | 3.65% | 21.7% | |
AIME 2025 (математика) | 83.0% | 75.5% 90.0%1 | 54.8% | 88.9% | |
LiveCodeBench v6 (программирование) | 80.4% | 71.4% | 71.1% | ||
SWE-bench verified (программирование) | 63.2% | 72.5% 79.4%1 | 62.3% 70.3%1 | 69.1% | |
MMMU (разные предметы) | 84.0% | 79.6% | 76.5% | 75.0% | 82.9% |
SimpleBench 2 | 51.6% | 58.8% | 46.4% | 53.1% |
Как видим, этих данных недостаточно для сравнения между собой Gemini 2.5 Pro Deep Think и Claude Opus 4, но зато по ним вполне можно судить о прогрессе этих моделей по сравнению с их предыдущим поколением. Обратите внимание каких высоких значений достигла в USAMO 2025 новая модель Google — она решает почти половину задач математической олимпиады, где еще совсем недавно лучшие модели набирали не больше 5%. ИИ неуклонно приближается к человеческому уровню и в бенчмарке SimpleBench, который не представляет трудность для людей, но труден для моделей — лучшая из них достигла почти 60%. А вот чего не хватает для полной картины, так это бенчмарков SimpleQA и ARC-AGI-2. Первый провоцирует ИИ на т.н. галлюцинации (выдачу несуществующей информации) — модель OpenAI o3 набирает в нем 51%, т.е. выдает галлюцинации в половине случаев. Второй представляет собой аналог IQ-теста и включает задачи на символьную интерпретацию, композиционное рассуждение, применение контекстного правила и т.д. Звучит не слишком понятно, поэтому проще обратиться к примеру — например, символьной интерпретации:

Среднестатистический человек догадается, что в обучающем примере фигуры без пустот раскрашены желтым цветом, с одной пустотой — зеленым, и т.д. Соответственно, в задаче надо воспроизвести фигуры с двумя, четырьмя и пятью пустотами (проигнорировав фигуры без пустот или с одной пустотой), и раскрасить их соответственно в голубой, малиновый и желтый цвета. Мы прогнали этот тест через четыре чат-бота. Gemini 2.5 Pro и Grok 3 его полностью провалили (решив, что цвет присваивается фигуре в соответствии с её порядковым номером), а Claude 4 Sonnet и ChatGPT догадались, что цвет фигуры определяется количеством пустот в ней — но при этом выдали неправильные ответы.
Наконец, третья группа новостей связана с генерацией музыки изображений и видео — Google представила Lyria 2, Imagen 4 и Veo 3. Главным событием стала конечно модель Veo 3 — она не только генерирует видео с кинематографическим реализмом, но и озвучивает его.
В определенном смысле можно говорить о своеобразном прохождении теста Тьюринга — мало кто сможет отличить сгенерированные Veo 3 кинореалистичные ролики от снятых на камеру. В этом смысле вполне вероятно появление через несколько лет кино- и мультипликационных фильмов, полностью созданных ИИ — включая сценарий, видеоряд и озвучание.