Хроники ИИ: Stargate, DeepSeek-R1, o3-mini, Operator и o3 с опцией глубокого исследования

Через несколько лет мы оглянемся назад на o3 и, типа, «Ты можешь поверить насколько она была плохой?»

Сэм Олтмен, 3 января 2025, презентация, посвященная созданию совместного предприятия между OpenAI и SoftBank для предоставления услуг искусственного интеллекта корпоративным клиентам

Закончился первый месяц 2025, который был достаточно богат на интересные события, чтобы посвятить им отдельный обзор. Этими событиями стали анонс проекта Stargate, релиз моделей DeepSeek-R1 и o3-mini, а также первых ИИ-агентов от OpenaAI, Operator и Deep research на базе o3.

Начнем со Stargate. Его представил никто иной как новоизбранный президент США Дональд Трамп, фактически снявший какие-либо ограничения на развитие ИИ в США. Проект получил беспрецедентный в мировой истории бюджет в $500 млрд долларов, которые будут освоены в течение следующих четырех лет — как раз к 2029 году, которым некоторые эксперты датируют появление AGI, искусственного интеллекта человеческого уровня. Для сравнения, лунная программа Аполлон в современных ценах обошлась американскому бюджету почти в $260 млрд, а Манхэттенский проект по созданию атомной бомбы — чуть больше $25 млрд. Ключевыми технологическими партнерами проекта Stargate выступают Arm, Microsoft, NVIDIA, Oracle и OpenAI, а инвесторами — SoftBank (Япония), OpenAI (ведущие инвесторы), Oracle и MGX (ОАЭ). Ответственной за операционную деятельность назначена OpenAI, а за финансовую — SoftBank. Илон Маск (чья компания xAI не вошла в проект, несмотря на его поддержку Трампа во время предвыборной компании) заявил, что у проекта нет таких денег. Но едва ли это заявление уместно с учетом того, что бюджет в полтриллиона долларов планируется потратить в течение четырех лет.

Масштабы грядущих инвестиций свидетельствуют, что из области сперва футурологических прогнозов, а затем и частных бизнес-проектов, создание искусственного интеллекта человеческого (AGI) и сверхчеловеческого (ASI) уровня переходит в область стратегических государственных интересов. Причем в случае США интерес властей к ИИ явно подстегивает Китай. Масштабы ИИ-инвестиций в Поднебесной неизвестны — появившаяся на днях новость о якобы выделенном Банком Китая одном триллионе юаней на инвестиции в ИИ выглядит довольно странно и фигурирует исключительно в сомнительных источниках. Но что касается китайских разработок, то здесь у США есть все основания для беспокойства.


Речь конечно же идет о модели DeepSeek-R1. Это китайская модель, созданная на основе базовой (неокончательной) версии DeepSeek-v3, которая была подвергнута тонкой настройке под контролем человека (supervised fine-tuning) и тонкой настройке с обучением с подкреплением (fine-tuning with reinforcement learning). Более подробно о ней можно почитать на Хабре. В результате получился аналог o1 — модель, способная к рассуждениям, значительно улучшающим способность решать математические задачи и программировать. Согласно заявленным разработчиками результатам в соответствующих бенчмарках, в математике и программировании DeepSeek-R1 примерно соответствует o1 — до сих пор лучшей, среди доступных, модели в этих задачах. Эти результаты подтверждаются рейтингом ИИ-моделей, составленным по отзывам пользователей (куда пока еще не попали данные по o3-mini). В математике 1-е место занимает o1 (1360 баллов), 2-е — DeepSeek-R1 (1340 баллов). В программировании DeepSeek-R1 также занимает 2-е место (1364 баллов), но при этом слегка опережает o1 (1362 баллов), немного уступив экспериментальной модели Google Gemini-Exp-1206 (1368 баллов).

Это событие стало сенсацией потому, что DeepSeek-R1:

  1. разработана китайским стартапом
  2. является опенсорсной
  3. в математике и программировании, где востребована самая передовая на сегодня ИИ-технология, reasoning (способность рассуждать), идет на равных с o1 компании OpenAI, которая до сих пор считалась безусловным лидером индустрии
  4. доступна для масштабного использования через API за гораздо более низкую цену, чем o1:
    DeepSeek-v301 minio1
    Загрузка 1 млн токенов$0.55$3 (5.5x)$15 (27x)
    Выгрузка 1 млн токенов$2.19$12 (5.5x)$60 (27x)

    Финансовый рынок отреагировал на китайское чудо заметным снижением курса акций ряда американских компаний. Их капитализация сократилась примерно на полтриллиона долларов — бюджет вышеупомянутого проекта Stargate. Бо́льшая часть этой суммы приходится на Nvidia — её акции подешевели с почти $150 до $120. Судя по всему, финансовые игроки решили, что низкие расценки на DeepSeek-R1 свидетельствуют об отсутствии необходимости в больших вычислительных кластерах для обучения умных моделей и, в конечном итоге, создания AGI/ASI. Но даже если принять это спорное допущение, не вполне понятно при чем здесь производитель графических ускорителей для обучения этих моделей. Рост эффективности использования какого-либо ресурса как правило увеличивает, а не уменьшает объём его потребления (парадокс Джевонса). Потребность в вычислительных ресурсах не скрывают в самой DeepSeek. В недавнем интервью глава стартапа заявил следующее:

    У нас нет планов по финансированию в краткосрочной перспективе. Деньги никогда не были для нас проблемой; проблемой являются запреты на поставки передовых чипов.

    А во время релиза DeepSeek-v3 один из сотрудников стартапа написал (но потом удалил) в Твиттере сообщение следующего содержания:

    Последняя работа в 2024 году, ничто не остановит нас на пути к AGI, кроме вычислительных ресурсов.

    Так что Nvidia явно не заслуживала случившегося с её акциями падения котировок. Но с рынком, как говорится, не поспоришь.

    ИИ-сообщество отреагировало на DeepSeek-R1 по-разному — от восхищения очередным достижением китайцев до подозрений в краже американских технологий. Дэвид Сакс, назначенный Трампом «царем искусственного интеллекта и криптовалют» в новой администрации, заявил следующее:

    Есть серьезные признаки того, что DeepSeek извлекли знания из моделей OpenAI, и я не думаю, что OpenAI очень довольна по этому поводу.

    В отношении стоимости обучения DeepSeek-R1 оценки также противоречивы. В новостях часто фигурирует цифра в $5-6 млн, но возможно речь идет о $5.6 млн (2.8 млн Nvidia H800-часов по $2 за час), заявленных китайским стартапом в качестве стоимости обучения другой своей модели, DeepSeek-V3. Некоторые специалисты (включая Джеффри Хинтона) подчеркивают, что $5-6 млн — стоимость финального обучения DeepSeek-R1. В случае топовых моделей OpenAI она, по оценкам Джеффри Хинтона, находится на уровне $100 млн долларов, но никак не нескольких миллиардов. А Дарио Амодей утверждает, что обучение Claude 3.5 Sonnet обошлось в несколько десятков миллионов долларов. Причем по оценкам главы Anthropic стоимость обучения моделей за год снижается в 4 раза (DeepSeek-v3 вышла на 7-10 месяцев позже моделей, уровню которых примерно соответствует). А по оценкам Сэма Олтмена (он выступал сегодня в Токио на презентации очередного агента OpenAI, об этом будет ниже) стоимость ИИ за год снижается еще быстрее — в 10 раз. При этом общие расходы DeepSeek на строительство вычислительного кластера (в отличие от расходов на обучение отдельной модели) Дарио Амодей оценивает в $1 млрд, что не сильно отличается от расходов американских лабораторий ИИ. Отмечая достоинства DeepSeek-v3, Амодей считает наделавшую столько шума DeepSeek-R1 гораздо менее интересной с точки зрения инноваций (вероятно с учетом того, что аналогичное обучение с подкреплением было применено в 01).

    В своем эссе, посвященном DeepSeek, Дари Амодей также коснулся темы геополитического соперничества США и Китая, и что пожалуй еще интереснее — назвал сроки появления «ИИ, который будет умнее почти всех людей почти во всем» (то, что принято называть AGI):

    Создание ИИ, который будет умнее почти всех людей почти во всем, потребует миллионов чипов, десятков миллиардов долларов (как минимум) и, скорее всего, произойдет в 2026-2027 годах. Релизы DeepSeek этого не меняют, потому что они примерно соответствуют ожидаемой кривой снижения затрат, которая всегда учитывалась в этих расчетах.

    Это означает, что в 2026-2027 годах мы можем оказаться в одном из двух совершенно разных миров. В США несколько компаний определенно будут иметь необходимые миллионы чипов (стоимостью в десятки миллиардов долларов). Вопрос в том, сможет ли Китай также получить миллионы чипов.

    Если они смогут, мы будем жить в биполярном мире, где и у США, и у Китая будут мощные модели ИИ, которые приведут к чрезвычайно быстрому прогрессу в науке и технологиях — то, что я назвал «странами гениев в центре обработки данных». Биполярный мир не обязательно будет сбалансированным бесконечно. Даже если бы США и Китай были на паритете в системах ИИ, кажется вероятным, что Китай мог бы направить больше талантов, капитала и внимания на военные приложения технологии. В сочетании с его большой промышленной базой и военно-стратегическими преимуществами это могло бы помочь Китаю занять лидирующее положение на мировой арене, не только в области ИИ, но и во всем.

    Если Китай не сможет получить миллионы чипов, мы (по крайней мере временно) будем жить в однополярном мире, где только у США и их союзников есть эти модели. Неясно, продлится ли однополярный мир, но есть по крайней мере вероятность того, что, поскольку системы ИИ в конечном итоге могут помочь сделать еще более умные системы ИИ, временное лидерство может быть превращено в долгосрочное преимущество. Таким образом, в этом мире США и их союзники могут занять командное и долгосрочное лидерство на мировой арене.


    Вне зависимости от того насколько оправдан ажиотаж вокруг DeepSeek-R1, эта модель явно ускорила релиз o3-mini, младшей версии самой умной в мире (судя по заявленным OpenAI результатам бенчмарков) модели, способной рассуждать. В режиме «максимальных усилий для рассуждения» o3-mini превосходит даже o1:

    o3-minio1
    AIME 2024 (математика)87.383.3
    GPQA Diamond (научный тест уровня PhD)79.778.0
    Codeforces (программирование)21301891
    SWE-bench Verified (программирование)49.348.9
    LiveBench (программирование)0.846
    0.820
    0.833
    0.674
    0.628
    0.720
    MMLU (общие знания)86.985.2
    Math (математика)97.990.0
    MGSM (математика)92.089.9
    SimpleQA (фактология)13.87.6
    FrontierMath (очень сложная математика)9.2%5.5%

    Помимо FrontierMath, к числу сложнейших можно отнести бенчмарк с говорящим названием Humanity’s Last Exam (Последний экзамен человечества). Это набор из трех тысяч вопросов по математике (42%), физике (11%), биологии и медицине (11%), компьютерным наукам и искусственному интеллекту (9%), гуманитарным наукам (8%), химии (6%), инженерному делу (5%) и прочим дисциплинам (8%). Их присылали все желающие специалисты в соответствующей специальности, причем отбирались только те вопросы, ответы на которые нельзя найти в Интернете.

    Для обеспечения сложности вопросов мы автоматически проверяем точность ответов передовых языковых моделей на каждый вопрос перед его добавлением. Наш процесс тестирования использует мультимодальные языковые модели для вопросов с текстом и изображениями (GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, o1) и добавляет две не мультимодальные модели (o1-mini, o1-preview) для текстовых вопросов. Мы используем различные критерии отбора в зависимости от типа вопроса: вопросы, где надо предоставить свой вариант ответа, должны ставить в тупик все модели, в то время как вопросы, где надо выбрать один из предложенных вариантов, должны ставить в тупик все модели кроме одной, чтобы учесть возможность случайных угадываний.

    Вот пример вопроса из бенчмарка по лингвистике:

    В приведённом ниже тексте из Псалма 104:7 на библейском иврите необходимо определить закрытые слоги (заканчивающиеся на согласный звук). Используйте современные исследования традиции тиберийского произношения библейского иврита, такие как работы Джеффри Кана, Аарона Д. Хорнкола, Ким Филлипса и Бенджамина Сухарда. Учитывайте средневековые караимские рукописи, которые позволяют лучше понять функционирование шва и произношение конечных согласных.

    Языковые модели могут отвечать по-разному на одинаковые вопросы, поэтому они могли не решить задачу на этапе отбора, но решить потом — поэтому по этим моделям имеются ненулевые результаты. На момент релиза бенчмарка они находились в диапазоне от 3.3% (GPT-4o) до 9.4% (DeepSeek-R1), но на сайте бенчмарка дополнены свежими результатами o3-mini — 13%, что явно выходит за пределы статистической погрешности. В ограниченном объеме o3-mini доступна даже бесплатным пользователям (в русскоязычном интерфейсе — опция «Обоснуй»).


    Как известно, достижение AGI невозможно без агентности. Это достаточно многогранное понятие, и анонсированный в январе компанией OpenAI ИИ-агент Operator — это непосредственно про выполнение пользовательских заданий в Интернет-браузере.

    Operator работает на основе новой модели, которая называется Computer-Using Agent (CUA) . Объединяя возможности зрения GPT-4o с передовыми рассуждениями посредством обучения с подкреплением, CUA обучен взаимодействовать с графическими пользовательскими интерфейсами (GUI) — кнопками, меню и текстовыми полями, которые люди видят на экране. Operator может «видеть» (с помощью снимков экрана) и «взаимодействовать» (используя все действия, которые позволяют мышь и клавиатура) с браузером, что позволяет ему выполнять действия в Интернете без необходимости интеграции пользовательских API. Если он сталкивается с трудностями или совершает ошибки, Operator может использовать свои способности к рассуждению для самокоррекции. Когда он застревает и нуждается в помощи, он просто возвращает управление пользователю, обеспечивая плавный и совместный опыт.

    Operator можно поручить выполнение широкого спектра повторяющихся задач браузера, таких как заполнение форм, заказ продуктов и даже создание мемов. Непосредственно CUA умеет взаимодействовать не только с браузером, но и остальным софтом компьютера, хотя в последнем случае результаты в бенчмарках пока выглядят довольно скромно:

    OpenAI CUAчеловек
    WebArena (браузер)58.1%78.2%
    OSWorld (компьютер)38.1%72.4%

    Однако гораздо более важный и впечатляющий анонс по части агентности состоялся как раз сегодня — OpenAI представила агента «Глубокое исследование» (Deep research). Это опция, при включении которой ChatGPT не только долго думает, используя свои способности рассуждать, но также задействует поиск в Интернете и Python-инструментарий. Выше мы упоминали бенчмарк Humanity’s Last Exam, в котором лучший результат продемонстрировала выпущенная 31 января модель o3-mini. А вот как изменилась расстановка сил спустя три дня, благодаря o3 с опцией «Глубокое исследование»:

    OpenAI o3 deep research26.6%
    OpenAI o3-mini (high) 113.0%
    DeepSeek-R1 19.4%
    OpenAI o19.1%
    Gemini Thinking (Google)6.2%
    Claude 3.5 Sonnet (Anthropic)4.3%
    Grok-2 (xAI)3.8%
    GPT-4o3.3%
    1 По причине отсутствия мультимодальности — только в текстовых задачах

    Напомню, что GPT-4o вышла в мае 2024 — менее чем за 10 месяцев результат созданного в OpenAI искусственного интеллекта благодаря способности рассуждать и агентности улучшился с 3.3% до 26.6%.

    Своими впечатлениями от пользования опцией глубокого исследования на базе o3 поделился доктор медицины, профессор Дерья Унутмаз (Derya Unutmaz):

    Наконец-то я могу сообщить, что с пятницы у меня есть ранний доступ к Deep Research от OpenAI, и я использую его без остановки! Это абсолютная революция для научных исследований, издательского дела, юридических документов, медицины, образования — судя по моим тестам, но, вероятно, и по многим другим. Я просто в восторге!

    Впрочем, более тщательное независимое показывает, что глубокие рассуждения o3 пока еще очень далеки от совершенства. Автор YouTube-канала AI Explained попытался прогнать через o3 Deep research несколько заданий из своего бенчмарка SimpleBench, но потерпел неудачу, поскольку каждый раз агент задавал пять-шесть уточняющих запросов, даже когда его неоднократно просили просто ответить на вопрос. Зато агент OpenAI хорошо проявил себя в поиске информации, соответствующей заданным критериям. Также по заданию пользователя он правильно нашел в Интернет-магазинах товар, отвечающий заданным требованиям, но при этом проигнорировал веб-сайт, который пользователь прямо указал в качестве основного источника информации (хотя агент в подготовленном ответе упомянул, что этим сайтом воспользовался). В целом o3 с deep research показала себя заметно лучше DeepSeek R1 и гораздо лучше Google Gemini с аналогичной и одноименной опцией Deep Research. Выступая на сегодняшней презентации в Токио, Сэм Олтмен заявил, что будущие агенты OpenaAI будут «намного-намного лучше».

    Глубокие рассуждения доступны пользователям Pro-подписки ($200 в месяц) в пределах 100 запросов в месяц, Plus-подписки ($20 в месяц) — в пределах 10 запросов в месяц, и бесплатным пользователям — в пределах «очень маленького количества».