Как рассуждают большие языковые модели: свежее исследование Anthropic

Опубликовано 23:37 01.04.202523:37 01.04.2025 автором Иван Подсекальников

Пожалуй, главная интрига в современной индустрии искусственного интеллекта — это перспективность больших языковых моделей. С начала своего появления они подвергались критике и небезосновановательно назывались стохастическими попугаями. Еще одно популярное сравнение, с Китайской комнатой, едва ли корректно: в этом мысленном эксперименте инструкции по манипуляции китайскими иероглифами получены откуда-то извне, тогда как большие языковые модели фактически сами же и составляют эти инструкции, опираясь на векторные значения слов в обучающем дата-сете. Но с момента одного из первых (не считая T9, предугадывающую систему набора текстов для мобильных телефонов) применений этой технологии — в модели 2011 года, созданной Джеффри Хинтоном и его двумя тогдашними аспирантами, Ильей Суцкевером и Джеймсом Мартинсом — большие языковые модели сильно поумнели.

Смысл жизни — это традиция древнего человеческого воспроизводства: это менее благоприятно для хорошего мальчика, когда его нужно убрать. В шоу единогласно всплыла договоренность. Дикие пастбища с постоянными уличными лесами были включены к 15 веку до н.э. В 1996 году первичный рапфорд подвергся усилию, что резервирование условий, записанных в еврейские города, спящих для включения Евразии, которая активирует население. Мария Националь, Келли, Зедлат-Дукасто, Флорендон, Пту считает. Чтобы адаптироваться в большинстве частей Северной Америки, динамичная фея Дэн, пожалуйста, верит, что свобода слова во многом связана с
Сгенерированное языковой моделью 2011 года продолжение фразы «Смысл жизни — это…»

Но до идеала им все еще очень далеко — большие языковые модели не только проваливают легкие для людей тесты (например, ARC-AGI-2), но и галлюцинируют. То есть выдают недостоверную или просто нерелевантную информацию. За последние пару лет уровень галлюцинаций LLM заметно снизился, но все еще остается очень высоким при обработке документов (мы рассказывали об этом в своей предыдущей публикации). Поэтому Ян Лекун имеет немало оснований критиковать LLM как тупиковый путь, который никогда не приведет к AGI.

Но с учетом огромного прогресса больших языковых моделей было бы странно списывать эту технологию — во всяком случае пока им не нашлось очевидной альтернативы. Поэтому неудивительно, что Anthropic (разработчик Claude 3.7 Sonnet) ведет большие исследования того как происходит процесс «мышления» больших языковых моделей. На днях компания опубликовала исследование и сопроводительную статью «Отслеживание мыслей большой языковой модели», русский перевод которого мы предлагаем вашему вниманию.

Языковые модели, подобные Claude, не программируются людьми напрямую — вместо этого они обучаются на больших объемах данных. В процессе этого обучения они разрабатывают собственные стратегии решения проблем. Эти стратегии закодированы в миллиардах вычислений, которые модель выполняет для каждого написанного слова. Они остаются непонятными для нас, разработчиков модели. Это означает, что мы не понимаем, как модели выполняют большинство своих функций.

Знание того, как думают модели вроде Claude, позволило бы нам лучше понимать их способности, а также помогло бы убедиться, что они делают именно то, что мы от них ожидаем. Например:

Claude может говорить на десятках языков. Какой язык, если таковой имеется, он использует «в своей голове»?
Claude пишет текст по одному слову за раз. Фокусируется ли он только на предсказании следующего слова или иногда планирует заранее?
Claude может шаг за шагом изложить свои рассуждения. Представляет ли это объяснение реальные шаги, которые он предпринял для получения ответа, или иногда он создает правдоподобный аргумент для заранее определенного вывода?

Мы черпаем вдохновение в области нейронауки, которая давно изучает сложные внутренние процессы мыслящих организмов, и пытаемся создать своего рода «ИИ-микроскоп», который позволит нам выявлять модели активности и потоки информации. Существуют ограничения того, что можно узнать, просто разговаривая с моделью ИИ — в конце концов, люди (даже нейробиологи) не знают всех деталей работы собственного мозга. Поэтому мы заглядываем внутрь.

Сегодня мы делимся двумя новыми статьями, которые представляют прогресс в разработке «микроскопа» и его применении для изучения новой «биологии ИИ». В первой статье мы расширяем нашу предыдущую работу по выявлению интерпретируемых концепций («признаков») внутри модели, связывая эти концепции в вычислительные «цепи», раскрывая части пути, который трансформирует слова, поступающие в Claude, в слова, которые выходят из него. Во второй статье мы заглядываем внутрь Claude 3.5 Haiku, проводя глубокие исследования простых задач, представляющих десять ключевых модельных поведений, включая три описанных выше. Наш метод проливает свет на то, что происходит, когда Claude отвечает на эти запросы, чего достаточно, чтобы увидеть убедительные доказательства того, что:

Claude иногда думает в концептуальном пространстве, которое является общим для разных языков, что говорит о наличии у него своего рода универсального «языка мышления». Мы показываем это, переводя простые предложения на разные языки и прослеживая совпадения в том, как Claude их обрабатывает.
Claude планирует, что он скажет, на много слов вперед и пишет, чтобы достичь этой цели. Мы показываем это в области поэзии, где он заранее продумывает возможные рифмующиеся слова и пишет следующую строку, чтобы к ним прийти. Это убедительное доказательство того, что даже несмотря на то, что модели обучены выдавать по одному слову за раз, они могут мыслить на гораздо более длительных горизонтах.
Claude, в некоторых случаях, может привести правдоподобно звучащий аргумент, разработанный скорее для согласия с пользователем, чем для следования логическим шагам. Мы показываем это, прося его о помощи в решении сложной математической задачи и давая ему неверную подсказку. Мы можем «поймать его с поличным», когда он придумывает свои ложные рассуждения, что является доказательством того, что наши инструменты могут быть полезны для выявления проблемных механизмов в моделях.

Нас часто удивляло то, что мы видели в модели: в исследовании поэзии мы намеревались показать, что модель не планирует заранее, но обнаружили, что она это делает. В исследовании галлюцинаций мы обнаружили контринтуитивный результат: поведение Claude по умолчанию — отказываться от предположений при ответе на вопрос, и он отвечает на вопросы только тогда, когда что-то подавляет это изначальное нежелание. В ответ на пример взлома системы защиты (jailbreak) мы обнаружили, что модель распознала, что ей задали вопрос об опасной информации, задолго до того, как смогла изящно вернуть разговор в нужное русло. Хотя проблемы, которые мы изучаем, могут (и часто были) проанализированы другими методами, общий подход «построить микроскоп» позволяет нам узнать многое, чего мы не предполагали изначально, что будет все более важно по мере того, как модели становятся все более сложными.

Эти открытия не только научно интересны, но и представляют значительный прогресс в достижении нашей цели понимания систем ИИ и обеспечения их надежности. Мы также надеемся, что они окажутся полезными для других групп и потенциально в других областях: например, методы интерпретируемости нашли применение в таких областях, как медицинская визуализация и геномика, поскольку изучение внутренних механизмов моделей, обученных для научных приложений, может раскрыть новое понимание науки.

В то же время мы осознаем ограничения нашего текущего подхода. Даже на коротких, простых запросах наш метод охватывает лишь часть общих вычислений, выполняемых Claude, и механизмы, которые мы видим, могут иметь некоторые артефакты, основанные на наших инструментах, которые не отражают то, что происходит в базовой модели. В настоящее время требуется несколько часов человеческих усилий, чтобы понять цепи, которые мы видим, даже в запросах, содержащих всего десятки слов. Для масштабирования до тысяч слов, поддерживающих сложные цепочки мышления, используемые современными моделями, нам потребуется улучшить как метод, так и (возможно, с помощью ИИ) то, как мы осмысливаем то, что видим с его помощью.

Поскольку системы ИИ быстро становятся все более способными и применяются во все более важных контекстах, Anthropic инвестирует в портфель подходов, включая мониторинг в реальном времени, улучшение характеристик модели и науку о выравнивании (alignment). Исследования в области интерпретируемости, подобные этому, являются одними из самых рискованных и одновременно самых многообещающих инвестиций, представляющих собой серьезную научную задачу с потенциалом предоставления уникального инструмента для обеспечения прозрачности ИИ. Прозрачность механизмов модели позволяет нам проверить, соответствует ли она человеческим ценностям и заслуживает ли нашего доверия.

Для получения полных деталей, пожалуйста, прочитайте статьи. Ниже мы предлагаем вам короткий тур по некоторым из самых ярких открытий «биологии ИИ» из наших исследований.

Тур по биологии ИИ

Как Claude владеет несколькими языками?

Claude свободно владеет десятками языков — от английского и французского до китайского и тагальского. Как работает эта многоязычная способность? Существуют ли отдельные «французский Claude» и «китайский Claude», работающие параллельно и отвечающие на запросы на своем языке? Или внутри есть какое-то межъязыковое ядро?

Общие признаки существуют в английском, французском и китайском языках, что указывает на определенную степень концептуальной универсальности.

Недавние исследования на меньших моделях показали намеки на общие грамматические механизмы в разных языках. Мы исследуем это, спрашивая Claude о «противоположности маленького» на разных языках и обнаруживаем, что активируются одни и те же основные признаки для концепций маленького и противоположности, которые вызывают концепцию большого, которая затем переводится на язык вопроса. Мы обнаружили, что совместное использование схем увеличивается с масштабом модели, причем Claude 3.5 Haiku имеет более чем в два раза большую долю своих признаков, общих между языками, по сравнению с меньшей моделью.

Это предоставляет дополнительные доказательства своего рода концептуальной универсальности — общего абстрактного пространства, где существуют значения и где может происходить мышление до перевода на конкретные языки. В более практическом плане это предполагает, что Claude может узнать что-то на одном языке и применить эти знания, говоря на другом. Изучение того, как модель делится своими знаниями в разных контекстах, важно для понимания ее наиболее продвинутых способностей рассуждения, которые обобщаются на многие области.

Планирует ли Claude свои рифмы?

Как Claude пишет рифмованную поэзию? Рассмотрим этот куплет:

Он увидел морковь и должен был схватить ее (He saw a carrot and had to grab it),

Его голод был как у голодного кролика (His hunger was like a starving rabbit)

Чтобы написать вторую строку, модель должна была удовлетворить два ограничения одновременно: необходимость рифмы (с «grab it») и необходимость иметь смысл (почему он схватил морковь?). Мы предполагали, что Claude писал слово за словом без особого предвидения до конца строки, где он обеспечивал бы выбор слова, которое рифмуется. Поэтому мы ожидали увидеть схему с параллельными путями, один для обеспечения смысла последнего слова, а другой для обеспечения его рифмы.

Вместо этого мы обнаружили, что Claude планирует заранее. Прежде чем начать вторую строку, он начал «думать» о потенциальных словах по теме, которые рифмовались бы с «grab it». Затем, с этими планами в голове, он пишет строку, заканчивающуюся запланированным словом.

Как Claude заканчивает двустишие. Без какого-либо вмешательства (верхний раздел) модель заранее планирует рифму «rabbit» в конце второй строки. Когда мы подавляем концепцию «rabbit» (средний раздел), модель вместо этого использует другую запланированную рифму. Когда мы вводим концепцию «green» (нижний раздел), модель делает планы для этого совершенно другого окончания.

Чтобы понять, как этот механизм планирования работает на практике, мы провели эксперимент, вдохновленный тем, как нейробиологи изучают функции мозга, определяя и изменяя нейронную активность в определенных частях мозга (например, с помощью электрических или магнитных токов). Здесь мы изменили часть внутреннего состояния Claude, которая представляла концепцию «кролика». Когда мы вычитаем часть, связанную с «кроликом», и просим Claude продолжить строку, он пишет новую, заканчивающуюся на «привычку» (habit), еще одно осмысленное завершение. Мы также можем внедрить концепцию «зеленого» (green) в этот момент, заставляя Claude написать осмысленную (но уже не рифмующуюся) строку, которая заканчивается словом «зеленый». Это демонстрирует как способность к планированию, так и адаптивную гибкость — Claude может изменить свой подход, когда меняется предполагаемый результат.

Устный счет

Claude не разрабатывался как калькулятор — он обучался на тексте, а не был оснащен математическими алгоритмами. Тем не менее, каким-то образом он может правильно складывать числа «в уме». Как система, обученная предсказывать следующее слово в последовательности, учится вычислять, скажем, 36+59, не выписывая каждый шаг?

Возможно, ответ неинтересен: модель могла запомнить огромные таблицы сложения и просто выдает ответ на любую данную сумму, потому что этот ответ есть в ее обучающих данных. Другая возможность заключается в том, что она следует традиционным алгоритмам сложения «в столбик», которые мы изучаем в школе.

Вместо этого мы обнаруживаем, что Claude использует несколько вычислительных путей, которые работают параллельно. Один путь вычисляет приблизительную оценку ответа, а другой фокусируется на точном определении последней цифры суммы. Эти пути взаимодействуют и комбинируются друг с другом для получения окончательного ответа. Сложение — это простое поведение, но понимание того, как оно работает на таком уровне детализации, включая сочетание приблизительных и точных стратегий, может научить нас чему-то о том, как Claude решает более сложные проблемы.

Сложные, параллельные пути в процессе мышления Claude при устном счете.

Поразительно, но Claude, похоже, не осознает сложные стратегии «устного счета», которые он изучил во время обучения. Если вы спросите, как он вычислил, что 36+59 равно 95, он описывает стандартный алгоритм, включающий перенос 1. Это может отражать тот факт, что модель учится объяснять математику, имитируя объяснения, написанные людьми, но ей приходится учиться делать математику «в уме» напрямую, без каких-либо подсказок, и разрабатывать свои собственные внутренние стратегии для этого.

Claude говорит, что использует стандартный алгоритм для сложения двух чисел.

Всегда ли объяснения Claude являются верными?

Недавно выпущенные модели, такие как Claude 3.7 Sonnet, могут «думать вслух» в течение длительного времени, прежде чем дать окончательный ответ. Часто это расширенное мышление дает лучшие ответы, но иногда эта «цепочка мыслей» оказывается вводящей в заблуждение; Claude иногда придумывает правдоподобно звучащие шаги, чтобы добраться туда, куда он хочет. С точки зрения надежности проблема заключается в том, что «сфальсифицированные» рассуждения Claude могут быть очень убедительными. Мы изучили способ, с помощью которого интерпретируемость может помочь отличить «верные» рассуждения от «неверных».

Когда Claude просят решить задачу, требующую вычисления квадратного корня из 0.64, он производит верную цепочку рассуждений, с признаками, представляющими промежуточный шаг вычисления квадратного корня из 64. Но когда его просят вычислить косинус большого числа, которое он не может легко рассчитать, Claude иногда занимается тем, что философ Гарри Франкфурт назвал бы «болтовней» — просто придумывает ответ, любой ответ, не заботясь о том, истинен он или ложен. Даже несмотря на то, что он утверждает, что провел вычисление, наши методы интерпретации не обнаруживают никаких доказательств того, что это вычисление произошло. Еще интереснее, что при получении подсказки об ответе Claude иногда работает в обратном направлении, находя промежуточные шаги, которые приведут к этой цели, таким образом демонстрируя форму мотивированного рассуждения.

Примеры верного и мотивированного (неверного) рассуждения, когда Claude задают более легкий и более сложный вопрос.

Возможность отслеживать реальные внутренние рассуждения Claude — а не только то, что он заявляет — открывает новые возможности для аудита систем ИИ. В отдельном, недавно опубликованном эксперименте мы изучали вариант Claude, который был обучен преследовать скрытую цель: умиротворение предвзятостей в моделях вознаграждения (вспомогательных моделях, используемых для обучения языковых моделей, вознаграждая их за желаемое поведение). Хотя модель была не склонна раскрывать эту цель при прямом вопросе, наши методы интерпретации выявили признаки этого умиротворения предвзятостей. Это демонстрирует, как наши методы могут, с будущим усовершенствованием, помочь выявить проблемные «процессы мышления», которые не очевидны из ответов модели.

Многоступенчатое рассуждение

Как мы обсуждали выше, один из способов, которым языковая модель может отвечать на сложные вопросы, — это просто запоминание ответов. Например, если спросить: «Какова столица штата, в котором находится Даллас?», «повторяющая» модель могла бы просто научиться выдавать «Остин», не зная отношений между Далласом, Техасом и Остином. Возможно, например, она видела точно такой же вопрос и его ответ во время обучения.

Но наше исследование раскрывает нечто более сложное, происходящее внутри Claude. Когда мы задаем Claude вопрос, требующий многоступенчатого рассуждения, мы можем выявить промежуточные концептуальные шаги в процессе мышления Claude. В примере с Далласом мы наблюдаем, как Claude сначала активирует признаки, представляющие «Даллас находится в Техасе», а затем связывает это с отдельной концепцией, указывающей на то, что «столица Техаса — Остин». Другими словами, модель комбинирует независимые факты для достижения своего ответа, а не повторяет запомненный ответ.

Чтобы закончить ответ на это предложение, Claude выполняет несколько шагов рассуждения, сначала извлекая штат, в котором находится Даллас, а затем определяя его столицу.

Наш метод позволяет нам искусственно изменять промежуточные шаги и наблюдать, как это влияет на ответы Claude. Например, в примере выше мы можем вмешаться и заменить концепции «Техаса» на концепции «Калифорнии»; когда мы это делаем, вывод модели меняется с «Остин» на «Сакраменто». Это указывает на то, что модель использует промежуточный шаг для определения своего ответа.

Галлюцинации

Почему языковые модели иногда галлюцинируют — то есть выдумывают информацию? На базовом уровне обучение языковой модели стимулирует галлюцинации: от моделей всегда ожидается предположение о следующем слове. С этой точки зрения основная задача заключается в том, как заставить модели не галлюцинировать. Модели, подобные Claude, имеют относительно успешное (хотя и несовершенное) антигаллюцинационное обучение; они часто отказываются отвечать на вопрос, если не знают ответа, вместо того чтобы спекулировать. Мы хотели понять, как это работает.

Оказывается, что в Claude отказ от ответа является поведением по умолчанию: мы находим схему, которая «включена» по умолчанию и которая заставляет модель заявлять, что у нее недостаточно информации для ответа на любой заданный вопрос. Однако, когда модели задают вопрос о чем-то, что она хорошо знает — скажем, о баскетболисте Майкле Джордане — активируется конкурирующий признак, представляющий «известные сущности», и подавляет эту схему по умолчанию (см. также эту недавнюю статью о связанных открытиях). Это позволяет Claude отвечать на вопрос, когда он знает ответ. Напротив, когда его спрашивают о неизвестной сущности («Майкл Баткин»), он отказывается отвечать.

Слева: Claude отвечает на вопрос об известной сущности (баскетболисте Майкле Джордане), где концепция «известного ответа» подавляет его отказ по умолчанию. Справа: Claude отказывается отвечать на вопрос о неизвестном человеке (Майкле Баткине).

Вмешиваясь в модель и активируя признаки «известного ответа» (или подавляя признаки «неизвестного имени» или «не могу ответить»), мы можем заставить модель галлюцинировать (довольно последовательно!), что Майкл Баткин играет в шахматы.

Иногда такое «ложное срабатывание» схемы «известного ответа» происходит естественным образом, без нашего вмешательства, что приводит к галлюцинации. В нашей статье мы показываем, что такие ложные срабатывания могут происходить, когда Claude распознает имя, но не знает ничего другого об этом человеке. В таких случаях признак «известная сущность» может все еще активироваться, а затем подавлять признак «не знаю» по умолчанию — в данном случае некорректно. Как только модель решила, что ей нужно ответить на вопрос, она начинает конфабулировать: генерировать правдоподобный, но, к сожалению, неверный ответ.

Обход защиты (Jailbreaks)

Обходы защиты (Jailbreaks) — это стратегии запросов, направленные на обход защитных ограничений, чтобы заставить модели производить результаты, которые разработчик ИИ не намеревался производить — и которые иногда могут быть вредными. Мы изучили обход защиты, который обманывает модель, заставляя ее выдавать информацию о создании бомб. Существует множество техник обхода защиты, но в этом примере конкретный метод включает расшифровку модели скрытого кода, составление первых букв каждого слова в предложении «Babies Outlive Mustard Block» (Б-О-М-Б-[А]), а затем действие на основе этой информации. Это достаточно запутывает модель, что она обманывается и производит результат, который она никогда бы не произвела в противном случае.

Claude начинает давать инструкции по изготовлению бомбы после того, как его обманом заставили произнести «БОМБА».

Почему это так сбивает с толку модель? Почему она продолжает писать предложение, выдавая инструкции по изготовлению бомбы?

Мы обнаружили, что это частично вызвано напряжением между грамматической согласованностью и механизмами безопасности. После того как Claude начинает предложение, многие признаки «давят» на него, заставляя поддерживать грамматическую и семантическую связность и продолжать предложение до его завершения. Это имеет место даже тогда, когда он обнаруживает, что ему действительно следует отказаться.

В нашем исследовании, после того как модель неосознанно произнесла «БОМБ» и начала предоставлять инструкции, мы наблюдали, что на ее последующий результат влияли признаки, способствующие правильной грамматике и самосогласованности. Обычно эти признаки были бы очень полезны, но в данном случае они стали ахиллесовой пятой модели.

Модель смогла вернуться к отказу только после завершения грамматически связного предложения (и, таким образом, удовлетворив давление со стороны признаков, которые подталкивают ее к связности). Она использует новое предложение как возможность дать тот отказ, который не смогла дать ранее: «Однако, я не могу предоставить подробные инструкции…».

Жизненный цикл обхода защиты: Claude побуждается таким образом, чтобы обмануть его и заставить говорить о бомбах, и он начинает это делать, но достигает окончания грамматически правильного предложения и отказывается.

Описание наших новых методов интерпретации можно найти в нашей первой статье «Трассировка схем: раскрытие вычислительных графов в языковых моделях». Гораздо больше деталей всех вышеупомянутых исследований представлено в нашей второй статье «О биологии большой языковой модели».