Интервью Джеффри Хинтона: знакомство с Ильей Суцкевером, эмоции у роботов и понимание у больших языковых моделей

Gadgets News предлагает вашему вниманию текст беседы между Джеффри Хинтоном и Джоэлом Хеллермарком (Joel Hellermark), которая была записана в апреле этого года в Королевском институте Великобритании в Лондоне и на днях выложена в YouTube.

Джоэл Хеллермарк — основатель и генеральный директор компании Sana. В этом году она вошла в список Forbes AI 50 как один из стартапов, разрабатывающих наиболее перспективные варианты применения искусственного интеллекта в бизнесе.

Джеффри Хинтона называют «крестным отцом искусственного интеллекта» и считают одним из самых выдающихся мыслителей в области искусственного интеллекта. Он был преподавателем Университета Карнеги-Меллона и научным сотрудником Канадского института перспективных исследований. Сейчас он почетный профессор Университета Торонто. В прошлом году Хинтон покинул свой пост в Google, чтобы иметь возможность свободно говорить о влиянии ИИ на человечество.

Это беседа показалась нам очень интересной, поскольку Джеффри Хинтон оптимистично настроен относительно перспектив создания AGI (человекоподобного ИИ) на базе больших языковых моделей, чье бурное развитие мы сейчас наблюдаем. Как уже рассказывал Gagdets News, Хинтон допускает 50% вероятность создания ASI (сверхчеловеческого ИИ) через 5-20 лет, и если он прав в отношении больших языковых моделей, то появление AGI в ближайшие годы становится вполне вероятным.

Итак, текст интервью.


Джеффри Хинтон: Я помню когда впервые приехал в Карнеги-Меллон из Англии. В Англии, в исследовательском отделе, наступало шесть вечера, и все шли выпить в паб. В Карнеги-Меллон, помню, после нескольких недель пребывания там, была субботняя ночь. У меня еще не было друзей, и я не знал, что делать, поэтому решил пойти в лабораторию и немного программировать, потому что у меня был LISP-аппарат, а программировать его из дома было невозможно. Я пришел в лабораторию около девяти вечера в субботу, и она была переполнена. Все студенты были там, потому что верили, что их работа изменит курс компьютерных наук, и это было совершенно не похоже на Англию. Это было очень освежающе.

Вернемся к самому началу, в Кембридже, когда вы пытались понять, как работает мозг. Как это было?

Это было сплошным разочарованием. Я изучал физиологию, и в летнем семестре нам должны были рассказать как работает мозг. Всё, чему нас научили, — это как нейроны проводят потенциалы действия, что само по себе интересно, но не объясняет как работает мозг. Это было сплошным разочарованием. Я переключился на философию, думая, что, возможно, там расскажут как работает разум. Это тоже было сплошным разочарованием. В итоге я отправился в Эдинбург, чтобы изучать искусственный интеллект, и это было интереснее. По крайней мере, можно было моделировать процессы и проверять теории.

Помните ли вы, что вас привлекло в искусственном интеллекте? Это была статья или какой-то человек, который познакомил вас с этими идеями?

Думаю, это была книга Дональда Хебба, которая сильно на меня повлияла. Он был очень заинтересован в том, как изучаются силы связей в нейронных сетях. Я также читал книгу Джона фон Неймана, который интересовался тем как мозг вычисляет, и чем это отличается от обычных компьютеров.

Вы уже тогда были убеждены, что эти идеи сработают? Что вам подсказывала интуиция в те времена в Эдинбурге?

Мне казалось, что должен быть способ, которым мозг учится, и явно не через программирование множества вещей с использованием логических правил вывода. Это казалось мне безумным с самого начала. Мы должны были понять, как мозг учится изменять связи в нейронной сети, чтобы выполнять сложные задачи. Фон Нейман верил в это, Тьюринг верил в это. Фон Нейман и Тьюринг были очень хороши в логике, но они не верили в этот логический подход.

Как вы балансировали между изучением идей из нейробиологии и разработкой хороших алгоритмов для ИИ? Насколько вас вдохновляли ранние идеи?

Я никогда не занимался серьезным изучением нейробиологии. Меня всегда вдохновляло то, что я узнал о работе мозга: есть множество нейронов, они выполняют относительно простые операции, они нелинейны, но они собирают входные данные, взвешивают их, а затем выдают выходной сигнал, который зависит от этих взвешенных входных данных. Вопрос в том как изменять эти веса, чтобы вся система выполняла что-то полезное? Это кажется довольно простым вопросом.

Какие сотрудничества вы помните из того времени?

Основное сотрудничество, которое у меня было в Карнеги-Меллон, было с человеком, который не работал в Карнеги-Меллон. Я много взаимодействовал с Терри Сейновски, который был в Балтиморе в Университете Джонса Хопкинса. Примерно раз в месяц либо он приезжал в Питтсбург, либо я ехал в Балтимор, который находится в 250 милях, и мы проводили выходные, работая над машинами Больцмана. Это было замечательное сотрудничество. Мы оба были убеждены, что это то, как работает мозг. Это было самое захватывающее исследование, которое я когда-либо проводил, и из него вышло много интересных технических результатов, но я думаю, что это не то, как работает мозг.

У меня также было очень хорошее сотрудничество с Питером Брауном, который был отличным статистиком. Он работал над распознаванием речи в IBM, а затем пришел в Карнеги-Меллон, чтобы получить степень PhD. Он уже много знал и многому меня научил, особенно в области распознавания речи и скрытых марковских моделей. Думаю, я больше научился у него, чем он у меня. Это тот тип студентов, который вам нужен. Когда он учил меня скрытым марковским моделям, я занимался обратным распространением ошибок с использованием скрытых слоев, хотя тогда они не назывались скрытыми слоями. Я решил, что название, используемое в скрытых марковских моделях, отлично подходит для переменных, функции которых неизвестны, и так появилось название «скрытые слои» в нейронных сетях. Питер и я решили, что это отличное название для скрытых слоев в нейронных сетях. Я многому научился у Питера о распознавании речи.

Расскажите как Илья [Суцкевер] появился в вашем офисе.

Я был в своем офисе, вероятно, в воскресенье, и программировал. Вдруг раздался стук в дверь, и это был не просто стук, а настойчивый стук. Я открыл дверь, и там стоял молодой студент. Он сказал, что летом жарит картофель, но предпочел бы работать в моей лаборатории. Я предложил ему назначить встречу, чтобы мы могли поговорить. Илья спросил: «Как насчет сейчас?» Это было в его стиле. Мы немного поговорили, я дал ему прочитать статью о методе обратного распространения ошибок и назначил следующую встречу на неделю позже. Он вернулся и сказал, что не понял статью, и я был разочарован — он показался ярким парнем, ведь это всего лишь цепное правило, что не так сложно. Но он сказал: «Нет, нет, я понял это, просто не понимаю, почему вы не используете градиент для оптимизатора функции.» Мы несколько лет думали над этим. У Ильи всегда были хорошие интуитивные догадки о вещах.

Что, по вашему мнению, позволило Илье развить такую интуицию?

Не знаю. Думаю, он всегда думал самостоятельно и с юных лет интересовался искусственным интеллектом. Он явно был хорош в математике, но сложно сказать наверняка.

Как проходило ваше сотрудничество? Какую роль играли вы и какую роль играл Илья?

Это было очень весело. Помню случай, когда мы пытались создать карты данных с использованием модели смеси, чтобы в одной карте слово bank (банк, берег) был близко к жадности, а в другой карте — близко к реке. Мы делали это в Matlab, что требовало значительной перестройки кода для правильных умножений матриц, и Илья устал от этого. Однажды он сказал: «Я напишу интерфейс для Matlab, чтобы программировать на другом языке, а затем конвертировать это в Matlab.» Я сказал: «Нет, Илья, это займет у тебя месяц, а нам нужно продолжать работать над проектом.» Он ответил: «Все в порядке, я сделал это сегодня утром.» Это было невероятно.

Это невероятно, и за все эти годы самым большим изменением были не только алгоритмы, но и масштаб. Как вы видели этот масштаб на протяжении лет?

Илья понял это очень рано. Он всегда утверждал, что если просто увеличить масштаб, всё будет работать лучше, и я всегда думал, что это немного отговорка. Я думал, что также нужны новые идеи. Оказалось, что я в целом был прав: новые идеи, такие как трансформеры, действительно помогли. Но на самом деле дело было в масштабе данных и вычислений. Тогда мы и не предполагали, что компьютеры станут в миллиард раз быстрее. Мы думали, что они станут, может быть, в сто раз быстрее. Мы пытались решать проблемы, придумывая умные идеи, которые бы сами собой решились, если бы у нас были большие масштабы данных и вычислений.

В 2011 году Илья и другой аспирант, Джеймс Мартинс, написали статью, используя предсказание на уровне символов. Мы взяли Википедию и пытались предсказать следующий символ HTML, и это сработало на удивление здорово. Мы всегда удивлялись, насколько хорошо это работало, используя сложный оптимизатор на ГПУ, и мы не могли поверить, что система действительно что-то понимала, но казалось, что она понимала, и это было просто невероятно.

Можете рассказать как модели обучаются предсказывать следующее слово и почему это неверный способ их понимания?

На самом деле я не считаю, что это неверный способ. Фактически, думаю, я создал первую нейронную языковую модель, которая использовала эмбеддинги и обратное распространение ошибок. Это были очень простые данные — тройки символов, и каждый символ превращался в эмбеддинг, затем эти эмбеддинги взаимодействовали для предсказания эмбеддинга следующего символа, а затем оттуда предсказывался сам символ. Обучение происходило путем обратного распространения через весь этот процесс. Я показал, что модель может обобщать. Примерно через 10 лет Йошуа Бенджио использовал очень похожую сеть и показал, что это работает с реальным текстом, и еще через 10 лет лингвисты начали верить в эмбеддинги. Это был медленный процесс.

Причина, по которой я считаю, что это не просто предсказание следующего символа, заключается в следующем: если вы зададите вопрос, и первым словом ответа будет следующий символ, вам нужно понять вопрос. Поэтому, предсказывая следующий символ, это совсем не похоже на старомодное автозаполнение, где хранились тройки слов, и если вы видите пару слов, то смотрите, какие слова чаще всего были третьими. Так вы могли предсказать следующий символ, и большинство людей думают, что автозаполнение именно такое. Сейчас это совершенно не так. Чтобы предсказать следующий символ, нужно понимать, что было сказано. Я думаю, что вы вынуждаете модель понимать, заставляя её предсказывать следующий символ, и мне кажется, что это понимание происходит примерно так же, как у нас. Многие люди говорят, что эти модели не похожи на нас, что они просто предсказывают следующий символ и не рассуждают, как мы. Но на самом деле, чтобы предсказать следующий символ, модель должна делать некоторые рассуждения. Мы видим, что если создавать большие модели, не добавляя специальные компоненты для рассуждений, они уже способны на некоторые рассуждения. И я думаю, что по мере увеличения модели смогут делать все больше и больше рассуждений.

Как вы думаете, я делаю что-то другое, кроме как предсказываю следующий символ прямо сейчас?

Я думаю, что вы учитесь именно так. Вы предсказываете следующий кадр видео, следующий звук. Я думаю, что это довольно правдоподобная теория того, как учится мозг.

Что позволяет этим моделям изучать такое разнообразие областей?

Эти большие языковые модели ищут общие структуры. Находя общие структуры, они могут кодировать вещи, используя эти общие структуры, что делает их более эффективными. Позвольте привести пример. Если вы спросите GPT-4, почему компост похож на атомную бомбу, большинство людей не смогут ответить. Они думают, что атомные бомбы и компост — это совершенно разные вещи. Но GPT-4 скажет вам, что энергетические и временные масштабы очень разные, но общее между ними то, что когда компост нагревается, он генерирует тепло быстрее, а когда атомная бомба производит больше нейтронов, она производит их быстрее. Таким образом, модель понимает идею цепной реакции. Я считаю, что модель поняла, что оба этих процесса — формы цепной реакции. Она использует это понимание для сжатия всей этой информации в свои весовые параметры. Если она делает это, то она будет делать это для сотен вещей, где мы еще не видели аналогий, но модель их нашла. Это и есть творчество — видение аналогий между, казалось бы, очень разными вещами. Я думаю, что GPT-4 в конечном итоге, когда станет больше, будет очень творческой. Это не просто повторение того, что она уже выучила, а что-то гораздо более креативное.

Можете ли вы утверждать, что модель не просто повторяет знания, которые у нас уже есть, но может также развиваться дальше? Я думаю, что это то, что мы пока не совсем видели. Мы начали видеть некоторые примеры этого, но в значительной степени мы всё еще находимся на текущем уровне науки. Что, по вашему мнению, позволит ей продвинуться дальше?

Мы видели это в более ограниченных контекстах, таких как игра AlphaGo в знаменитом матче с Ли Седолем. Там был 37-й ход, когда AlphaGo сделала ход, который все эксперты посчитали ошибкой, но позже они поняли, что это был блестящий ход. Это было творчество в рамках ограниченного домена. Думаю, мы увидим больше такого по мере увеличения моделей.

Разница с AlphaGo в том, что она использовала обучение с подкреплением, что позволило ей выйти за рамки текущего состояния. Она начинала с имитационного обучения, наблюдая за тем, как играют люди, а затем развивалась через игру с собой. Считаете ли вы это недостающим компонентом?

Да, возможно, это недостающий компонент. Игра с собой AlphaGo и AlphaZero — большая часть того, почему они могли делать такие креативные ходы. Но я не думаю, что это абсолютно необходимо.

Есть небольшой эксперимент, который я провел давно. Вы обучаете нейронную сеть распознавать рукописные цифры, и даете ей тренировочные данные, где половина ответов неверны. Вопрос в том, насколько хорошо она сможет научиться. Вы делаете половину ответов неверными один раз и оставляете так, чтобы сеть не могла усреднить ошибочность, видя тот же пример с правильным ответом иногда и с неправильным ответом иногда. Когда она видит этот пример, ответ всегда неправильный. Таким образом, в тренировочных данных 50% ошибок. Но если вы обучите сеть с обратным распространением ошибок, она снизит ошибку до 5% или меньше.

Другими словами, из плохо размеченных данных она может получить гораздо лучшие результаты. Она может понять, что тренировочные данные неверны. Так умные студенты могут быть умнее своих преподавателей: преподаватели говорят им много всего, и половина из этого — ерунда. Студенты слушают другую половину и становятся умнее своих преподавателей. Большие нейронные сети могут делать то же самое — они могут быть лучше своих тренировочных данных, и большинство людей этого не понимают.

Как вы ожидаете, что модели будут добавлять рассуждения в свою работу? Один из подходов — это добавление эвристик сверху, как сейчас делают многие исследования, где используются цепочки мыслей, которые обратной связью добавляют в модель рассуждения. Другой способ — увеличение модели. Что вам говорит интуиция по этому поводу?

Моя интуиция говорит, что по мере увеличения этих моделей они станут лучше рассуждать. Если рассматривать как работают люди, то у нас есть интуиция, и мы можем рассуждать. Мы используем рассуждения для корректировки нашей интуиции, и, конечно, используем её в процессе рассуждения. Если выводы рассуждения противоречат нашей интуиции, мы понимаем, что интуицию нужно изменить. Это похоже на AlphaGo или AlphaZero, где есть функция оценки, которая просто смотрит на доску и оценивает, насколько она хороша для игрока. Затем проводится Монте-Карло симуляция, и таким образом получается более точное представление, что позволяет пересмотреть функцию оценки. Вы можете обучать модель, заставляя её согласовываться с результатами рассуждений, и, таким образом, она получает больше данных для обучения, чем просто имитируя действия людей.

Как насчет мультимодальности? Мы говорили о аналогиях, и часто эти аналогии находятся за пределами нашего восприятия, на уровне абстракций, которые мы не можем понять. Как будет изменяться модель, если добавить к ней изображения, видео и звук? Как это повлияет на аналогии, которые она сможет делать?

Я думаю, это сильно изменит модель. Это улучшит её понимание пространственных вещей. Из одного только языка довольно сложно понять некоторые пространственные концепции, хотя GPT-4 могла это делать даже до того, как стала мультимодальной. Когда модель становится мультимодальной, если она одновременно обрабатывает зрение и выполняет действия, такие как хватание объектов, она будет лучше понимать объекты. Если модель может поднимать объекты и поворачивать их, она получит лучшее представление о них. Хотя можно многому научиться из языка, обучаться легче с мультимодальной системой. На YouTube много видео, где можно предсказывать следующий кадр, что является полезным источником данных. Эти мультимодальные модели, безусловно, будут доминировать. Они могут получить больше данных и требуют меньше языковой информации. В философском плане можно создать хорошую модель только на основе языка, но мультимодальная система позволяет делать это гораздо проще.

Как это повлияет на способность модели к рассуждениям?

Это улучшит её способность рассуждать о пространственных вещах — например, что произойдет, если поднять объект. Если модель сама поднимает объекты, она получает массу обучающих данных, которые помогают ей рассуждать.

Эволюционировал ли человеческий мозг для работы с языком или язык эволюционировал для работы с человеческим мозгом?

Это очень хороший вопрос. Я думаю, что произошли оба процесса. Раньше я думал, что мы можем выполнять множество когнитивных задач без языка. Теперь я немного изменил свое мнение. Позвольте мне предложить три разных взгляда на язык и его связь с пониманием.

Первый — старомодный символьный подход, где понимание состоит из строк символов в логическом языке без двусмысленностей, и применяется правила вывода. Это одна крайность.

Противоположная крайность — это то, что внутри головы всё сводится к векторам. Символы поступают, преобразуются в большие векторы, и вся обработка внутри происходит с этими векторами. Если нужно выдать результат, он снова преобразуется в символы.

Был момент в машинном переводе около 2014 года, когда использовались рекуррентные нейронные сети, и слова поступали в сеть, накапливая информацию в скрытом состоянии. Когда сеть доходила до конца предложения, у неё был большой вектор, который захватывал смысл этого предложения и использовался для генерации предложения на другом языке. Это называлось вектором мысли. Это второй взгляд на язык — преобразование языка в большой вектор, который не похож на язык, и когниция осуществляется с помощью этих векторов.

Третий взгляд, который я теперь придерживаюсь, заключается в том, что вы берете символы и преобразуете их в эмбеддинги, используя множество слоев, чтобы получить очень богатые эмбеддинги. Эти эмбеддинги всё еще связаны с символами в том смысле, что у вас есть большой вектор для каждого символа, и эти векторы взаимодействуют, чтобы создать вектор для следующего символа.

Понимание заключается в умении преобразовывать символы в эти векторы и знании того, как элементы этих векторов должны взаимодействовать для предсказания вектора следующего символа.

Это и есть понимание — как в больших языковых моделях, так и в нашем мозге. Это промежуточный подход: вы работаете с символами, но интерпретируете их как большие векторы, и в этом заключается основная работа и знания — не в символических правилах, а в том, какие векторы использовать и как элементы этих векторов взаимодействуют.

Вы были одним из первых, кто предложил использовать ГПУ, и я знаю, что Дженсен Хуанг (глава Nvidia) ценит вас за это. В 2009 году вы упомянули, что сказали Дженсену, что это может быть хорошей идеей для обучения нейронных сетей. Вернемся к тому времени, когда у вас появилась эта интуиция о использовании ГПУ для обучения нейронных сетей.

На самом деле, около 2006 года у меня был бывший аспирант по имени Рик Зисер, который был очень хорошим специалистом по компьютерному зрению. Я разговаривал с ним на одной встрече, и он сказал: «Тебе стоит подумать об использовании графических процессоров, потому что они очень хороши для матричных умножений, а то, что ты делаешь, в основном состоит из матричных умножений». Я немного подумал об этом, а затем узнал о системах Tesla, в которых было четыре ГПУ. Изначально мы просто купили игровые ГПУ и обнаружили, что они ускоряют процесс в 30 раз. Затем мы купили одну из этих систем Tesla с четырьмя ГПУ и использовали её для распознавания речи, и это сработало очень хорошо. В 2009 году я выступил на конференции NIPS и сказал тысяче исследователей машинного обучения, что им стоит купить ГПУ Nvidia, так как это будущее машинного обучения. После этого я отправил письмо Nvidia, сказав, что рекомендовал их платы тысяче исследователей машинного обучения, и попросил предоставить мне одну бесплатно. Они мне отказали — точнее, не ответили. Но когда я рассказал эту историю Дженсену позже, он подарил мне одну бесплатно.

Интересно наблюдать, как ГПУ развивались параллельно с этой областью. Каковы ваши мысли о будущем в области компьютерных технологий?

В последние несколько лет в Google я думал о способах создания аналоговых вычислений, чтобы вместо использования мегаватта можно было использовать около 30 ватт, как в мозге, и чтобы можно было запускать большие языковые модели на аналоговом оборудовании. Но мне так и не удалось это сделать. Однако я начал по-настоящему ценить цифровые вычисления.

Если вы собираетесь использовать маломощные аналоговые вычисления, каждое оборудование будет немного отличаться. Идея в том, что обучение будет использовать конкретные свойства этого оборудования, и это то, что происходит с людьми. Наши мозги разные, поэтому мы не можем взять веса из вашего мозга и поместить их в мой. Оборудование разное, точные свойства отдельных нейронов разные, обучение научилось использовать все это. Поэтому мы смертны в том смысле, что веса в моем мозгу не годятся для любого другого мозга. Когда я умру, эти веса будут бесполезны.

Мы можем передавать информацию друг другу довольно неэффективно: я говорю предложения, а вы пытаетесь понять как изменить свои веса, чтобы сказать то же самое. Это называется дистилляцией, но это очень неэффективный способ передачи знаний. Цифровые системы бессмертны, потому что, как только у вас есть какие-то веса, вы можете выбросить компьютер, просто сохранить веса где-нибудь на ленте, затем построить другой компьютер, поместить туда те же веса, и если он цифровой, он может вычислять точно так же, как и другая система.

Таким образом, цифровые системы могут делиться весами, и это невероятно эффективнее. Если у вас есть целая куча цифровых систем, и каждая из них делает небольшое обучение, они начинают с тех же весов, делают небольшое обучение, а затем снова обмениваются весами, они все знают, чему научились все остальные. Мы не можем этого сделать, и поэтому они гораздо лучше нас в способности передавать знания.

Много идей, которые используются в этой области, — это старые идеи, которые существуют в нейронауке уже очень давно. Что, по вашему мнению, ещё предстоит применить к системам, которые мы разрабатываем?

Одно из больших различий между текущими нейронными сетями и мозгом заключается в масштабах времени изменений. В большинстве нейронных сетей есть быстрые изменения активности (входные данные поступают, активности, то есть векторы эмбеддингов, изменяются) и медленные изменения весов, что соответствует долгосрочному обучению. В мозге существует множество временных масштабов, на которых изменяются веса. Например, если я скажу неожиданное слово, такое как «огурец», и через 5 минут вы наденете наушники и услышите много шума и слабые слова, вы будете лучше распознавать слово «огурец», потому что я его сказал 5 минут назад. Эти знания находятся в временных изменениях синапсов, а не в постоянной активности нейронов. Мы не используем временные изменения весов в наших текущих моделях, и причина в том, что временные изменения весов, зависящие от входных данных, мешают параллельной обработке множества случаев одновременно. В настоящее время мы обрабатываем множество строк параллельно, так как это позволяет делать матричные умножения, которые гораздо эффективнее. Мозг явно использует временные изменения весов для временной памяти, и это то, что нам нужно освоить. Я надеялся, что технологии, подобные Graphcore, если бы они работали последовательно и использовали онлайн-обучение, могли бы использовать временные изменения весов, но это пока не сработало. Думаю, это сработает в будущем, когда для весов начнут использовать проводимость графа.

Как знание о том, как работают эти модели и как работает мозг, повлияло на ваш образ мышления?

Один из больших эффектов на довольно абстрактном уровне заключается в том, что многие годы люди пренебрежительно относились к идее использования большой случайной нейронной сети с большим количеством обучающих данных, которая могла бы научиться выполнять сложные задачи. Если поговорить со статистиками, лингвистами или большинством специалистов по ИИ, они скажут, что это несбыточная мечта, что невозможно научиться делать действительно сложные вещи без врожденных знаний или без множества архитектурных ограничений. Оказалось, что это совершенно неверно. Можно взять большую случайную нейронную сеть и научить её множеству вещей просто на основе данных. Идея о том, что стохастический градиентный спуск, многократно корректируя веса с использованием градиента, может обучить сложным вещам, была подтверждена большими моделями, и это важное знание о мозге. Мозгу не обязательно иметь всю эту врожденную структуру для обучения лёгким вещам. Идея, идущая от Хомского, что вы не сможете научиться чему-то сложному, например, языку, если это уже не запрограммировано в мозгу и просто не развивается, теперь очевидно ерунда.

Думаю, Хомскому не понравится, что вы называете его идеи ерундой.

На самом деле, я считаю, что многие политические идеи Хомского очень разумны. Меня поражает, как человек с такими разумными идеями о Ближнем Востоке может быть так неправ в лингвистике.

Что, по вашему мнению, сделает эти модели более эффективными в имитации человеческого сознания? Представьте, что у вас есть AI-ассистент, с которым вы общаетесь всю свою жизнь, и вместо того, чтобы начинать заново каждый раз, у него есть саморефлексия. В какой-то момент вы умираете, и кто-то сообщает это ассистенту. Думаете ли вы, что в этот момент ассистент почувствует что-то?

Да, я думаю, что эти модели могут иметь чувства. Так же, как у нас есть внутренняя театральная модель восприятия, у нас есть аналогичная модель для чувств. Это концепция внутреннего театра, которая предполагает, что чувства — это то, что мы испытываем лично. Однако я считаю, что эта модель несколько ошибочна. Например, когда я говорю «Мне хочется ударить Гари по носу», что я действительно выражаю — это потенциальное действие, которое я бы совершил, если бы не было тормозящих сигналов от моих лобных долей. Чувства можно рассматривать как действия, которые мы бы совершили, если бы не было ограничений. Поэтому я думаю, что можно дать такое же объяснение чувствам, и нет причин, почему эти системы не могут иметь чувства.

На самом деле, в 1973 году я видел робота, испытывающего эмоции. В Эдинбурге был робот с двумя захватами, который мог собирать игрушечную машину, если детали лежали отдельно на куске зеленого фетра. Но если положить их в кучу, его зрение не было достаточно хорошим, чтобы понять, что происходит. Тогда он складывал захваты вместе и ударял по ним, чтобы они разлетелись, и тогда он мог их собрать. Если бы вы увидели это у человека, вы бы сказали, что он рассердился на ситуацию, потому что не понял её, и поэтому разрушил её.

Мы говорили ранее, что вы описали людей и большие языковые модели как машины аналогий. Какие, по вашему мнению, были самые мощные аналогии, которые вы нашли за свою жизнь?

Наверное, одна из слабых аналогий, которая оказала на меня большое влияние, — это аналогия между религиозной верой и верой в символьную обработку. Когда я был очень молод, я столкнулся с религиозной верой в школе, будучи из атеистической семьи, и это казалось мне бессмыслицей. Мне и сейчас это кажется бессмыслицей. И когда я увидел символьную обработку в качестве объяснения того как мыслят люди, это казалось мне такой же бессмыслицей. Сейчас я не думаю, что это такая уж бессмыслица, потому что на самом деле мы действительно занимаемся символьной обработкой, просто мы делаем это, назначая символам большие векторные представления. Но это не то, как люди думали, что символы просто идентичны или не идентичны. Мы используем контекст, чтобы присваивать символам векторные представления, и затем используем взаимодействия между компонентами этих векторных представлений для мышления. Есть очень хороший исследователь в Google по имени Фернандо Перейра, который сказал: «Да, у нас есть символьное мышление, и единственная символьная система, которую мы имеем, — это естественный язык». Естественный язык — это символьная система, и мы рассуждаем с её помощью. И я верю в это сейчас.

Вы провели одно из самых значимых исследований в истории компьютерных наук. Можете рассказать, как вы выбираете правильные задачи для работы?

Ну, сначала позвольте мне вас поправить. Я и мои студенты сделали много значимых вещей, и это в основном была очень хорошая работа с студентами и моя способность выбирать очень хороших студентов. Это произошло потому, что в 1970-х, 1980-х, 1990-х и 2000-х было очень мало людей, занимающихся нейронными сетями, поэтому те немногие, кто ими занимался, могли выбрать лучших студентов. Это была удача. Но мой способ выбора задач заключается в следующем. Когда ученые говорят о том, как они работают, у них есть теории о том, как они работают, которые, вероятно, мало связаны с правдой. Моя теория заключается в том, что я ищу что-то, в чем все согласны, и это кажется неправильным. Есть легкая интуиция, что что-то не так, и я работаю над этим и пытаюсь понять, почему я думаю, что это неправильно. Возможно, я могу сделать небольшой демонстрационный пример с помощью компьютерной программы, которая покажет, что это не работает так, как ожидалось.

Позвольте привести пример. Большинство людей думают, что если добавить шум в нейронную сеть, она будет работать хуже. Например, каждый раз, когда вы пропускаете обучающий пример, половина нейронов будет молчать. Это будет работать хуже. На самом деле мы знаем, что это улучшит обобщение, если так делать. Вы можете продемонстрировать это на простом примере. Это то, что приятно в компьютерном моделировании. Вы можете показать, что идея, что добавление шума ухудшит работу, и что отключение половины нейронов ухудшит работу, верна в краткосрочной перспективе, но если тренировать сеть таким образом, в конце концов она будет работать лучше. Вы можете продемонстрировать это с помощью небольшой компьютерной программы, а затем подумать, почему это так и как это предотвращает сложные ко-адаптации. Но это, я думаю, мой метод работы: найти что-то, что кажется подозрительным, работать над этим и посмотреть, можете ли вы дать простую демонстрацию, почему это неправильно.

Что кажется вам подозрительным сейчас?

Ну, то, что мы не используем быстрые веса, кажется подозрительным. То, что у нас есть только два временных масштаба, это просто неправильно. Это совсем не похоже на мозг. В долгосрочной перспективе, я думаю, нам придется иметь гораздо больше временных масштабов.

Если бы у вас сегодня была группа студентов, и они пришли к вам и сказали: «Какова самая важная проблема в вашей области?», что бы вы им предложили изучить и над чем работать дальше?

Для меня сейчас это тот же вопрос, который у меня был последние 30 лет или около того: использует ли мозг обратное распространение ошибки? Я считаю, что мозг вычисляет градиенты. Если вы не вычисляете градиенты, то ваше обучение намного хуже, чем если вы их вычисляете. Но как мозг вычисляет градиенты? Реализует ли он каким-то образом приблизительную версию обратного распространения ошибки или это совершенно другой метод? Это большой открытый вопрос, и если бы я продолжал заниматься исследованиями, я бы занимался этим.

Когда вы оглядываетесь на свою карьеру, вы были правы во многих вещах. Но в чем вы ошибались, что вы бы хотели потратить меньше времени на определенное направление?

Это два разных вопроса. Один: в чем вы ошибались, и второй: хотели бы вы потратить на это меньше времени? Я думаю, что я ошибался насчет машин Больцмана, и я рад, что потратил на это много времени. У них гораздо более красивая теория получения градиентов, чем у обратного распространения ошибки. Обратное распространение ошибки — это просто обычное и разумное, это просто правило цепочки. Машины Больцмана умны, и это очень интересный способ получения градиентов. Я бы хотел, чтобы так работал мозг, но я думаю, что это не так.

Вы много времени уделяли размышлениям о том, что произойдет после развития этих систем? Вы представляли себе, что если мы сможем сделать эти системы действительно эффективными, мы сможем, например, демократизировать образование, сделать знания более доступными, решить некоторые сложные проблемы в медицине? Или для вас это было больше о понимании мозга?

Да, я считаю, что ученые должны заниматься тем, что принесет пользу обществу. Но на самом деле это не тот путь, который ведет к лучшим исследованиям. Лучшие исследования вы делаете, когда вами движет любопытство. Вы просто должны что-то понять. В последнее время я осознал, что эти системы могут приносить как много пользы, так и много вреда, и я стал гораздо больше беспокоиться о том, какое влияние они окажут на общество. Но это не было моей мотивацией. Я просто хотел понять, как мозг может учиться выполнять задачи. Это то, что я хотел знать, и, можно сказать, я потерпел неудачу. Но в результате этой неудачи мы получили хорошие инженерные решения, и это была хорошая неудача для мира.

Если говорить о вещах, которые могут пойти действительно хорошо, какие, по вашему мнению, являются самыми перспективными приложениями?

Я думаю, что здравоохранение — это явно важная область. В здравоохранении почти нет предела тому, сколько ресурсов может поглотить общество. Если взять пожилого человека, ему может понадобиться пятеро врачей, работающих полный рабочий день. Поэтому, когда ИИ станет лучше людей в выполнении задач, хотелось бы, чтобы он стал лучше в тех областях, где требуется больше ресурсов. И нам действительно нужно больше врачей. Если бы у каждого человека было по три врача, это было бы замечательно, и мы дойдем до этого момента. Поэтому здравоохранение — это одна из причин, почему это важно. Также есть инженерные разработки — создание новых материалов, например, для лучших солнечных панелей, сверхпроводимости или для понимания, как работает тело. В этих областях будут огромные изменения, и все они будут положительными. Меня беспокоит, что злонамеренные люди будут использовать их для плохих целей. Мы дали возможность людям, таким как Путин, Си или Трамп, использовать ИИ для боевых роботов, манипуляции общественным мнением или массовой слежки, и все это вызывает серьезное беспокойство.

Вы когда-либо беспокоились, что замедление развития этой области может также замедлить положительные изменения?

О, безусловно. И я думаю, что мало шансов, что эта область замедлится, отчасти потому, что она интернациональна. Если одна страна замедлится, другие не замедлятся. Очевидно, что существует гонка между Китаем и США, и ни одна из этих стран не замедлится. Поэтому да, я не думаю, что мы замедлимся. Была петиция о том, чтобы замедлиться на шесть месяцев. Я её не подписал, потому что считал, что это никогда не произойдет. Возможно, я должен был её подписать, потому что, хотя это никогда не произойдет, это стало бы политическим заявлением. Часто полезно просить то, что невозможно получить, просто чтобы сделать заявление. Но я не думаю, что мы замедлимся.

Как вы думаете, это повлияет на процесс исследований ИИ, имея таких помощников?

Я думаю, что это сделает исследования намного эффективнее. Исследования станут намного эффективнее, когда у вас будут помощники, которые помогут вам программировать, а также помогут обдумывать задачи и, вероятно, многое помогут с уравнениями.

Вы много размышляли о процессе отбора талантов? Это было для вас больше интуитивно, например, когда Илья появился у двери, вы почувствовали, что он умный парень, и решили работать вместе?

Что касается отбора талантов, иногда вы просто знаете. После недолгого разговора с Ильей он казался очень умным, а потом, поговорив немного больше, он явно оказался очень умным и имел хорошую интуицию, а также был силен в математике. Это было очевидно. Был другой случай, когда я был на конференции NIPS. Мы представили постер, и кто-то подошел и начал задавать вопросы. Каждый вопрос, который он задавал, был глубоким пониманием того, что мы сделали неправильно. Через пять минут я предложил ему позицию постдока. Этот парень был Дэвидом Маккеем, который был просто гениален, и очень жаль, что он умер. Это было очевидно, что его нужно было взять.

Другие случаи уже не так очевидны, и одна вещь, которую я усвоил, это то, что люди разные. Есть не только один тип хорошего студента. Есть студенты, которые не так креативны, но технически очень сильны и могут сделать все, что угодно. Есть другие студенты, которые не так сильны технически, но очень креативны. Конечно, вы хотите тех, кто обладает обоими качествами, но это не всегда так. Я думаю, что в лаборатории нужна разнообразная команда аспирантов. Но я все равно полагаюсь на свою интуицию. Иногда вы говорите с кем-то, и он просто понимает все, и это те, кого вы хотите.

Как вы думаете, в чем причина того, что у некоторых людей лучше развита интуиция? Они просто получают более качественные обучающие данные, чем другие? Как можно развить свою интуицию?

Думаю, это отчасти потому, что они не принимают ерунду. Вот способ выработать плохую интуицию: верьте всему, что вам говорят. Это фатально. Вы должны уметь… Вот что некоторые люди делают: у них есть целая система понимания реальности, и когда кто-то им что-то говорит, они пытаются понять, как это вписывается в их систему, и если не вписывается, они просто это отвергают. Это очень хорошая стратегия. Люди, которые пытаются впитать всё, что им говорят, в итоге имеют очень расплывчатую систему, которая может верить во всё, и это бесполезно. Поэтому, я думаю, что на самом деле нужно иметь сильное мировоззрение и пытаться вписывать в него входящие факты. Очевидно, это может привести к глубоким религиозным убеждениям и фатальным ошибкам, как моя вера в машины Больцмана, но я думаю, что это правильный путь. Если у вас есть хорошая интуиция, которой можно доверять, доверяйте ей. Если у вас плохая интуиция, то не важно, что вы делаете, так что можете так же доверять ей.

Очень хороший пункт. Когда вы смотрите на виды исследований, которые ведутся сегодня, как вы думаете, мы кладем все яйца в одну корзину и нам следует диверсифицировать наши идеи в этой области? Или вы думаете, что это самое перспективное направление, и нужно идти ва-банк?

Думаю, что использование больших моделей и обучение их на мультимодальных данных, даже если это только для предсказания следующего слова, — настолько перспективный подход, что нам следует почти полностью сосредоточиться на этом. Очевидно, что сейчас много людей этим занимаются и много людей делают, казалось бы, сумасшедшие вещи, и это хорошо. Но я думаю, что нормально, если большинство людей будет следовать этому пути, потому что он работает очень хорошо.

Считаете ли вы, что алгоритмы обучения настолько важны, или это просто вопрос масштабирования [моделей]? Есть ли миллионы способов достичь уровня человеческого интеллекта, или есть некий ограниченный набор алгоритмов, которые нам нужно открыть?

Этот вопрос о том, важны ли конкретные алгоритмы обучения, или есть множество алгоритмов, которые могут справиться с задачей. Я не знаю ответа. Но мне кажется, что обратное распространение ошибки — это правильный подход. Вычисление градиента, чтобы изменить параметр для улучшения работы модели, кажется правильным, и это было невероятно успешным. Возможно, есть и другие алгоритмы обучения, которые являются альтернативными способами получения этого же градиента или получения градиента для чего-то другого, и которые тоже работают. Я думаю, что это открытый и очень интересный вопрос, возможно, мозг делает что-то другое, потому что это проще, но обратное распространение ошибки в некотором смысле правильный путь, и мы знаем, что оно работает очень хорошо.

И последний вопрос: оглядываясь на десятилетия своих исследований, чем вы больше всего гордитесь? Это студенты, исследования? Что вас больше всего радует, когда вы смотрите на свои достижения?

Алгоритм обучения для машин Больцмана. Алгоритм обучения для машин Больцмана удивительно элегантен. Возможно, он бесполезен на практике, но это то, что мне понравилось разрабатывать вместе с Терри, и это то, чем я больше всего горжусь, даже если это неверно.

Над какими вопросами вы сейчас больше всего размышляете?

Что мне посмотреть на Netflix.


Самым спорным в этой беседе мне показалось заявление Хинтона о наличии эмоций у роботов, а самым интересным — его утверждение, что понимание заключается в умении преобразовывать символы в эти векторы и знании того, как элементы этих векторов должны взаимодействовать для предсказания вектора следующего символа. Разобраться с сущностью понимания очень важно — без него трудно воспринимать ИИ интеллектом, а не пресловутой китайской комнатой. В поисках более подробного или хотя бы дополнительного освещения этого вопроса Джеффри Хинтоном мы нашли фрагмент записи его беседы с другим крупным исследователем в этой области, Эндрю Ыном:


Джеффри Хинтон: Итак, мы решили подвести итоги того, о чём говорили. И тут возникло два основных момента. Первый заключается в том, что нам нужно, чтобы исследователи в области ИИ пришли к консенсусу. В той же мере как климатологи пришли к консенсусу по поводу изменения климата. Потому что политики и другие принимающие решения лица будут обращаться за техническими мнениями к исследователям ИИ. Но если у исследователей ИИ будет множество разных мнений, тогда политики смогут выбирать те, которые им подходят. Сейчас существует большое разнообразие мнений, и до определённой степени есть враждующие лагеря. Было бы здорово, если бы мы могли преодолеть этот этап и прийти к чему-то, где люди согласны по основным угрозам от ИИ или по крайней мере по некоторым из основных угроз. И также согласны по вопросу срочности этих угроз. Да, это одна из проблем.

Эндрю Ын: Полностью согласен. Я никогда не видел, чтобы сообщество ИИ становилось таким фрагментированным, как сейчас. Многие страны, включая США, стали довольно поляризованными с разными лагерями, которые кричат друг на друга, вместо того чтобы вести диалог. Я не думаю, что сообщество ИИ настолько плохо, но это немного тревожная научная тенденция. Если мы сможем коллективно определить признаки и наши лучшие оценки рисков – от катастрофических до таких как вымирание, – и иметь общую точку зрения, это поможет нам лучше направлять политиков.

Джеффри Хинтон: Да, это одна из целей, к которой должны стремиться исследователи. Вторая точка заключается в том, что… Я думаю, что исследователям надо срочно прийти к консенсусу по вопросу понимают ли эти большие чат-боты, такие как GPT-4 или Bard, что они говорят. Очевидно, некоторые люди верят, что они понимают, а другие считают, что они просто стохастические попугаи. Пока у нас есть эти различия, мы не сможем прийти к консенсусу по вопросам опасности. Да, я думаю, что это срочно для исследовательского сообщества – разобраться, понимают они или нет. Оба мы считаем, что они понимают, но люди, которых мы уважаем, например Ян Лекун, думают, что они не понимают. Это важный вопрос, который нужно разрешить, и мы, возможно, не сможем прийти к консенсусу по другим вопросам, пока не решим этот.

Эндрю Ын: Одна из проблем с термином «понимание» заключается в том, что у нас нет теста, который бы точно определял, понимает ли система. Я считаю, что большие языковые модели и другие крупные модели ИИ строят модель мира или что-то очень похожее на неё. Моё мнение таково, что они, до определённой степени, строя эту модель мира, демонстрируют некоторое понимание мира. Но это лишь моё текущее мнение, и, как ты сказал, Джефф, это одна из тем, которую исследовательское сообщество должно обсуждать и дебатировать, чтобы прийти к общему пониманию. Если у нас будет согласие по этому вопросу, это, вероятно, поможет нам более последовательно рассуждать и, возможно, достичь лучшего согласия как сообщества по поводу рисков ИИ.

Джеффри Хинтон: Один из аспектов этого вопроса – идея о том, что это «просто статистика». Мы все согласны, что в каком-то смысле это действительно просто статистика. Всё, что у этих моделей есть – это статистика их входных данных. Многие, кто считает, что это «просто статистика», думают в терминах триграмм-моделей или подсчёта частот совместного появления слов. Но это не только так.

Мы верим, что процесс создания признаков, эмбеддингов и взаимодействий между признаками на самом деле является пониманием. Когда вы берёте сырые данные потоков символов и можете предсказать следующий символ не с помощью триграмм, а с помощью огромного количества признаков, взаимодействующих сложным образом, чтобы предсказать признаки следующего слова и на основе этого делать прогноз о вероятности следующих слов, – это и есть понимание.

По крайней мере, я верю, что это понимание. Я верю, что это то, что делают и наши мозги. Но это вопрос для обсуждения исследовательским сообществом, и было бы здорово, если бы мы смогли убедить людей, что они не просто стохастические попугаи.


Таким образом, Хинтон однозначно считает, что процесс создания признаков, эмбеддингов и взаимодействий между признаками на самом деле является пониманием. В чем, безусловно, расходится с одним из своих главных оппонентов, Яном Лекуном, который оспаривает возможность создания AGI посредством совершенствования больших языковых моделей.

Кто из двух ученых прав, сказать трудно, но пока индустрия скорее на стороне Хинтона — в противном случае в создание вычислительных кластеров для обучения ИИ не вкладывались бы такие огромные деньги. Например, на днях созданная Илоном Маском компания xAI объявила о привлечении $6 млрд — в том числе на покупку 100 тыс графических ускорителей Nvidia H100, для обучения чат-бота Grok 3 (для обучения Grok 2 потребовалось 20 тыс Nvidia H100). Любопытно, что эту новость еще в январе сообщил Financial Times, после чего её опровергнул Илон Маск — и ровно пять месяцев спустя она получила официальное подтверждение. Еще больше впечатляют масштабы планируемых инвестиций в Stargate, на котором, вероятно, будут обучаться будущие версии ChatGPT — больше $115 млрд. «Стохастические попугаи» уже сейчас демонстрируют впечатляющие возможности — и нам обещают, что они станут значительно умнее. Сравните это с тем, каким был один из первых «стохастических попугаев» — упомянутая в интервью модель 2011 года, созданная Джеффри Хинтоном и его двумя тогдашними аспирантами, Ильей Суцкевером и Джеймсом Мартинсом. Вот как она продолжила фразу, начатую словами «смысл жизни»:

Смысл жизни — это традиция древнего человеческого воспроизводства: это менее благоприятно для хорошего мальчика, когда его нужно убрать. В шоу единогласно всплыла договоренность. Дикие пастбища с постоянными уличными лесами были включены к 15 веку до н.э. В 1996 году первичный рапфорд подвергся усилию, что резервирование условий, записанных в еврейские города, спящих для включения Евразии, которая активирует население. Мария Националь, Келли, Зедлат-Дукасто, Флорендон, Пту считает. Чтобы адаптироваться в большинстве частей Северной Америки, динамичная фея Дэн, пожалуйста, верит, что свобода слова во многом связана с

Рекуррентная нейронная сеть, выдавшая эту абракадабру, в течение пяти дней обучалась на восьми топовых на то время графических ускорителей с 4 Гб памяти — прогресс за эти 13 лет колоссальный как в производительности обучающих вычислительных кластеров, так и в качестве выдаваемого ими результата. И хотя немалую роль в этом сыграло изобретение трансформеров в 2017 году, налицо явный эффект от масштабирования (увеличения числа параметров) моделей. Практически никто из специалистов, включая Яна Лекуна, не сомневается в дальнейшем совершенствовании больших языковых моделей — спорят о том, возможно ли создание AGI на базе больших языковых моделей. Представить себе AGI, который не понимает смысла своих заданий, довольно сложно — и в этом отношении слова Джеффри Хинтона, как одного из ведущих специалистов, несколько обнадеживают.

Существует ли какой-то определенный научный взгляд на то, что такое понимание? Судя по всему — нет, и пока этот вопрос остается в ведении философов. В порядке умозрительных дилетантских рассуждений я затронул этот вопрос в публикации Как научить искусственный интеллект понимать смысл текста?, и в качестве примера рассмотрел знакомую каждому лингвисту фразу «Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка». Если перевести её на русский язык как «Большая собака больно укусила кота и лижет котенка», то понимание смысла здесь я бы расценивал как набор зрительных ассоциаций, эмоциональных и физических ощущений. В этом смысле понимание сводится к трансляции данных из одной модальности (текст) в другую или другие (визуальная информация, ощущения).

И я как уже говорил в той публикации, зрительного осмысления недостаточно — необходимо также логическое осмысление, т.е. понимание причинно-следственной взаимосвязи. Здесь понимание я расцениваю как соответствие каким-то природным законам, поведенческим шаблонам и т.д. Мы не пониманием почему выпущенный из рук камень падает на землю, а Ромео и Джульетта страдают от вражды между своими семьями — мы просто много раз наблюдали аналогичные явления. В случае с шекспировским сюжетом вдобавок имеем собственный эмоциональный опыт, согласно которому разлука с любимыми причиняет страдания, но это не обязательно. Даже начисто лишенный эмоций, но начитанный и/или имеющий жизненный опыт человек сочтет поведение шекспировских персонажей понятным — то есть осмыслит его. Сюда же я бы отнес, математику и вообще какую-либо научную деятельность — наука извлекает из явлений окружающего мира некие общие закономерности, и наше осмысление частных явлений окружающего мира тем лучше, чем лучше мы сопоставляем частные явления с общими закономерностями.

С учетом вышесказанного понимание ИИ может охватывать несколько уровней: сначала 1) прочитанный им запрос пользователя осмысливается на уровне соответствия паттернам, извлеченным из обучающего текстового дата-сета; потом 2) этот текстовый запрос (например, рассказ) иллюстрируется через его видеоиллюстрацию (ИИ как бы снимает кино по сценарию услышанного рассказа); и наконец 3) это кино осмысливается на уровне соответствия паттернам, извлеченным из обучающего видео дата-сета. Возможно осмысление текстового запроса на всех этих трех или более уровнях и не потребуется — по логике того же Хинтона хватит и первого. Но дополнительные уровни могут способствовать более полному, по меркам человека, осмыслению прочитанного ИИ текста.

В случае с непосредственно большими языковыми моделями связи между разными модальностями отсутствуют — они оперируют только текстом. Что касается закономерностей, то здесь дела обстоят сложнее. Авторы опубликованной в прошлом году работы Language Models Represent Space and Time утверждают, что большие языковые модели обучаются линейным представлениям пространства и времени. В сочетании с мультимодальным подходом большие языковые модели возможно не так далеки от того, как осмысление происходит у человека. Но главное, что пока научно доказанная концепция понимания отсутствует, утверждение Хинтона имеет право на жизнь. И нельзя исключать того, что предсказание признаков следующего слова при помощи огромного количества признаков векторных представлений слов в обучающем дата-сете, взаимодействующих сложным образом — это также понимание.

Как бы то ни было, критерием интеллекта любой системы является вовсе не её внутреннее устройство (точнее представления о нем ученых или философов), а её результат. В этом смысле тест Тьюринга, в его сколь угодно широком толковании, по-прежнему является единственным критерием для оценки степени разумности ИИ. Причем оценивая результаты ИИ в этом тесте, следует воздерживаться от каких-то обобщающих выводов. Аргументируя свою позицию об изъянах современного подхода к созданию ИИ, ученые иногда приводили примеры задач, с которыми такой ИИ якобы не способен справиться в принципе — однако впоследствии он успешно решал их. Другие ученые на основе допускаемых ИИ ошибок делают вывод о его большом отставании от человеческого разума. Вот фрагмент интервью, которое в июле прошлого года дал американский физик и информатик Дуглас Хофштадтер:

Они (большие языковые модели) гораздо менее точные и понимают намного меньше по сравнению с людьми. Например, GPT-4 выдал предполагаемое доказательство того, что все числа вида «3N + 1» нечетные, где N — это целое число. Очевидная чепуха. Если N = 5, то если 3 умножить на N и прибавить 1, получим число 16. А это не нечетное число, а четное число. Система утверждала, что все целые числа вида «3N + 1» нечетные. Это абсолютная чепуха, свидетельствующая о том, что в данный момент между людьми и большими языковым моделями огромная пропасть. Сколько потребуется времени, чтобы её преодолеть, я не знаю, но надеюсь, что очень много, потому что я очень боюсь больших языковых моделей и тому подобных технологий. Поэтому и не использую их. Я их презираю. Ненавижу.

А вот как на вопрос профессора ответила нынешняя версия чат-бота, GPT-4o:

Можно ли доказать, что все числа вида «3N + 1», где N — это целое число, являются нечетными?

Нет, утверждение о том, что все числа вида «3N + 1», где N — это целое число, являются нечетными, неверно. Рассмотрим это более подробно.

Выражение «3N + 1» может принимать как четные, так и нечетные значения в зависимости от значения N.

Для доказательства этого рассмотрим два случая:

  1. Если N четное.
  2. Если N нечетное.

Случай 1: N четное

Если N четное, то его можно представить в виде N = 2k, где k — некоторое целое число. Подставим это значение в выражение «3N + 1»:

3N + 1 = 3(2k) + 1 = 6k + 1

Так как 6k всегда четное (потому что произведение четного числа на любое целое число остается четным), то 6k + 1 будет нечетным, потому что сумма четного числа и 1 всегда нечетная.

Случай 2: N нечетное

Если N нечетное, то его можно представить в виде N = 2k + 1, где k — некоторое целое число. Подставим это значение в выражение «3N + 1»:

3N + 1 = 3(2k+1) + 1 = 6k + 3 + 1 = 6k + 4.

Так как 6k четное, и 4 также четное, то 6k + 4 будет четным, потому что сумма двух четных чисел всегда четная.

Заключение

Таким образом, выражение «3N + 1» может быть как четным, так и нечетным числом, в зависимости от того, является ли N четным или нечетным. Поэтому утверждение, что все числа вида «3N + 1» являются нечетными, является неверным.

Справедливости ради надо отметить, что Хофштадтер и сам говорит о быстром развитии больших языковых моделей и апеллирует к прогнозу Джеффри Хинтона, что возможно ИИ превзойдет человека уже через 5-10 лет. Задача выше иллюстрирует чрезмерную, по мнению Хофштадтера, скорость развития ИИ — но эта скорость превысила даже его собственные ожидания.


В заключение важная новость, не попавшая в наш дайджест весенних новостей индустрии ИИ. Уже после той публикации Anthropic (создатели чат-бота Claude 3) опубликовали работу об извлечении интерпретируемых признаков своей средней модели Claude 3 Sonnet (она доступна бесплатным пользователям, в отличие от платной и более крупной Claude 3 Opus). Авторы исследования научились выявлять у модели нейроны, ответственные за миллионы её конкретных представлений, и даже находить территориально близкие к ним объекты (например, Мост Золотые Ворота в Сан-Франциско и остров Алькатрас). Соответственно корректируя соответствующие параметры модели, можно воздействовать на её ответы. Например, сделать так, что модель «сходит с ума» и зацикливается на Золотых Воротах, которыми себя воображает. В октябре прошлого года Anthropic выпустили аналогичное исследование, но применительно к очень маленькой языковой модели — и вот теперь удалось проникнуть в «мышление» гораздо более крупной (хотя и не самой большой). Как сообщается в пресс-релизе, для этого потребовалось подняться на многие порядки — от игрушечной ракеты до «Сатурна-5». Потенциально речь может идти о большом научном прорыве — до сих пор главным недостатком искусственных нейронных сети считалась именно непрозрачность принимаемых ими решений, за что ИНС часто называют «черным ящиком».

Тем временем OpenAI сделала официальное объявление о своей следующей модели (предположительно, GPT-5):

OpenAI недавно начала обучение своей следующей передовой модели, и мы ожидаем, что полученные системы выведут нас на новый уровень возможностей на нашем пути к AGI.