rStar-Math: возможная предтеча рекурсивного самоулучшения, которое приведет нас к созданию искусственного сверхразума и наступлению технологической сингулярности
Если вы откроете Википедию, то прочтете в ней такое определение интеллекта:
Интеллект — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.
Нельзя сказать, что нынешние реализации искусственного интеллекта никак не соответствуют этому определению. Получившие огромное распространение большие языковые модели на базе трансформеров представляют собой особую форму обучения и запоминания на основе написанных человечеством текстов — но едва ли это обучение и запоминание реализовано наилучшим образом, или хотя бы на уровне аналогичных способностей человека. По сути большая языковая модель — это текстовая модель мира, из которой на базе статистических текстовых закономерностей извлекаются [не всегда] правильные решения. Эта модель статична — она может приобрести новые знания, но эти новые знания будут ограничены размером и временем обработки окном контекста (пользовательского запроса). Например, прикрепив к своему запросу грамматику папуасского языка каламанг, вы можете извлечь из Gemini 1.5 Pro качественный перевод с английского на каламангский. Но это новое знание хранится в кратковременной памяти — прочитав грамматику и сделав перевод, модель забывает их, подобно какому-нибудь пожилому ученому, чей интеллект хранит обширные знания, но уже не способен запоминать новую информацию.
Опубликованная в последний день прошлого года работа Google предлагает альтернативу трансформерам — архитектуру Titans, которая включает: 1) кратковременную память — аналог механизма внимания в трансформерах, 2) долговременную память, которая сохраняет информацию о всей обработанной последовательности, даже если она выходит за пределы окна контекста, и 3) постоянную память, которая хранит информацию о задаче и не меняется в процессе работы. Любопытно, что в долговременной памяти используются механизмы «забывания» нерелевантной информации и, наоборот, запоминания «удивительных» (surprising) данных. которые сильно отличаются от предыдущих и при этом важны для текущего контекста. По сравнению с другими современными архитектурами, Titans показала лучшие результаты в задачах языкового моделирования, прогнозирования временных рядов и обработки геномных данных.
Сразу надо оговорить, что постоянная и долговременная память Titans облегчает работу с большим контекстным окном и не предназначена для долговременного запоминания информации, с которой модель взаимодействует уже после обучения и файн-тюнинга. Но тем не менее новая архитектура делает шаг вперёд в решении проблемы запоминания информации в искусственных нейронных сетях.
Если работа Google касается такой интеллектуальной составляющей как память, то разработанная азиатским исследовательским подразделением Microsoft, Microsoft Research Asia, система под названием rStar-Math — про обучение. С его помощью языковая модель всего с 7 млрд параметров, Qwen2.5-Math-7B, в математическом бенчмарке MATH улучшила свой результат с 58.8% до 90%. Аналогично модель с 3.8 млрд параметров, Phi3-mini-3.8B, улучшила свой результат с 41.4% to 86.4%. Для сравнения, GPT-4o в этом бенчмарке набирает 60.3%, o1-preview — 85.5%, o1 — 94.8%. Таким образом, модели с 4-7 млрд параметров в математике достигли уровня топовых моделей, количество параметров у которых исчисляется сотнями миллиардов. При этом в Математической Олимпиаде США (AIME 2024) rStar-Math решила 53.3% (8 из 15) задач, что соответствует уровню 20% лучших участников (o1-mini — 56.7%).
Основу rStar-Math составляют 1) генерация обучающих данных, 2) обучение и 3) т.н. самоэволюция. В системе работают две модели: Policy Model (решает задачи) и Process Preference Model (оценивает качество решений). На первом раунде обучения Policy Model (предварительно обученная большой языковой моделью DeepSeek-Coder) решает математические задачи, посредством метода Монте-Карло генерируя 8 пошаговых решений. Каждый шаг решения сопровождается Python-кодом, выполнение которого проверяет правильность шага. На этом этапе качество шагов оценивается только по конечному результату (правильный/неправильный ответ), так как Process Preference Model еще недостаточно надежна. Из правильных решений отбираются два с наилучшими показателями для дальнейшего обучения модели. На втором раунде обновленная Policy Model генерирует уже 16 решений для каждой задачи, что позволяет получить более надежные оценки качества шагов и обучить эффективную Process Preference Model. На третьем раунде эти модели работают совместно, что значительно повышает качество генерируемых решений и позволяет справляться с более сложными задачами. На четвертом раунде система фокусируется на особо сложных олимпиадных задачах. Для задач, которые не удается решить за 16 попыток, количество попыток увеличивается до 64, а при необходимости — до 128. Важно отметить, что каждый раунд не просто увеличивает количество генерируемых решений, а улучшает качество работы обеих моделей: Policy Model учится генерировать более качественные решения, а Process Preference Model — точнее оценивать их качество.
Выдающиеся результаты, достигнутые маленькими языковыми моделями благодаря rStar-Math, конечно же наводят на мысли относительно применения этой технологии к большим моделям. Нельзя исключать, что нечто подобное как раз и реализовано в моделях o1 и 03 компании OpenAI, но в любом случае этот подход сулит искусственному интеллекту большие перспективы.
Как и в случае с запоминанием у архитектуры Titans, самообучение rStar-Math не выходит за границы статичной модели — но что, если эти ограничения носят временный характер и в недалеком будущем будут устранены благодаря агентности? Представьте модель, которая проходит это самообучение и самоэволюцию не только в процессе тренировки, но и после этого — регулярно и в автономном режиме. Первоначально это может распространяться только на обучающие данные и автонастройку параметров модели, а в более далекой перспективе — на переписывание собственного кода и даже создание новой архитектуры. С этого момента можно будет говорить о наступлении т.н. технологической сингулярности, когда развитие технологий (в данном случае ИИ) становится очень быстрым и непредсказуемым. И если вам подобные рассуждения представляются чем-то из области фантастики, или по меньшей мере сугубо умозрительными, то возможно глава OpenAI считает иначе. 4 января Сэм Олтмен опубликовал в Твиттере загадочное сообщение следующего содержания:
Я всегда хотел написать рассказ из шести слов. вот он: близко к сингулярности; непонятно, с какой стороны.
Применительно к технологиям понятие сингулярности впервые употребил математик Джон фон Нейман, внесший большой вклад в развитие компьютеров (знаменитая архитектура фон Неймана). В 1965 году математик Ирвинг Гуд описал такое понятие как «интеллектуальный взрыв» — следствие создание искусственного интеллекта, способного к улучшению самого себя без участия человека. А широкую известность это понятие получило благодаря фантасту Вернору Винджу (в 1993 он опубликовал эссе «Грядущая технологическая сингулярность») и, в большей степени, футурологу Рею Курцвейлу (книга «Сингулярность близко», 2005). Как известно, наступление технологической сингулярности Курцвейл в своей книге датирует 2045 годом, но интересно, что Виндж сделал еще более более радикальное предсказание:
В течение тридцати лет у нас будут технологические средства для создания сверхчеловеческого интеллекта. Вскоре после этого человеческая эра закончится.
Обратите внимание, что к 2024 году Вернор Виндж ожидал не наступление технологической сингулярности, а появления технологических предпосылок для создания ASI (что подразумевает какое-то время сначала на появление ASI, а затем на реализацию последствий от этого изобретения). Рискну предположить, что система rStar-Math вполне может претендовать на то, чтобы называться предтечей ASI. Наиболее очевидный на данный момент способ его создание — это AGI, в котором реализовано самосовершенствование — путем генерации все более сложных задач, их решения и самообучения посредством запоминания шагов, которые привели к правильному решению. Как уже говорилось выше, нечто подобное rStar-Math возможно уже реализовано в модели o3, например — отсюда сделанный Сэмом Олтменом в сентябре прошлого года прогноз о появлении ASI через несколько тысяч дней (что по моим прикидкам означает интервал с 2032 по 2043 годы) и нынешние намеки на приближение или даже уже состоявшееся наступление сингулярности.