Ноябрьские хроники ИИ: Gemini 3 Pro, Claude Opus 4.5, Nested Learning, подробности про Continuous Thought Machines и пространственный интеллект как новый тренд

Итак, в ноябре состоялся долгожданный релиз Gemini 3 Pro — первое значительное обновление с марта этого года, когда вышла экспериментальная версия Gemini 2.5 Pro. В отличие от GPT-5 компании OpenAI, новая модель Google вызвала исключительно положительные (подчас даже восторженные) отзывы, и по мнению некоторых экспертов стала значительным шагом вперед. Начнем сразу с бенчмарков:

Gemini 3 ProGemini 2.5 ProGPT-5
Claude 4.xGrok 4
Фундаментальное мышление и общий интеллект
ARC-AGI-1
ARC-AGI-2
87.5%
45.1%
37.0%
4.9%
70.2%
18.3%
80.0%
37.6%
66.7%
16.0%
SimpleBench76.4%62.4%61.6%60.0%60.5%
Humanity’s Last Exam
с использованием инструментов
37.5%
45.8%
21.6%
26.5%
13.7%
25.4%
Математика
FrontierMath18.8%10.4%12.5%4.2%2.1%
MathArena Apex23.4%0.5%1.0%1.6%
Программирование
LiveCodeBench Pro2,4391,7752,2431,418
SWE-Bench Verified76.2%59.6%76.3%80.9%
Знания, фактология и контекст
SimpleQA Verified72.1%54.5%34.9%29.3%
FACTS Benchmark Suite70.5%63.4%50.8%50.4%
MRCR v2 (8-needle)77.0% (128 тыс)
26.3% (1 млн)
58.0% (128 тыс)
16.4% (1 млн)
61.6%
47.1%
Мультимодальность: зрение, видео и графики
ScreenSpot-Pro72.7%11.4%3.5%36.2%
CharXiv Reasoning81.4%69.6%69.5%68.5%
Vending-Bench 2.0$5,478$574$1,473$3,839
OmniDocBench 1.50.1150.1450.1470.145

В этой таблице для каждой модели берется наибольшее доступное значение — Deep Think, Thinking и т.д. Например, в случае с компанией Anthropic для двух бенчмарков, ARC-AGI и SWE-Bench Verified, берутся значения модели Claude Opus 4.5 — для остальных бенчмарков в таблице пока имеются только результаты более слабой Claude Sonnet 4.5.

Ниже приводится подробное описание этих бенчмарков, составленное непосредственно нашим героем (за исключением SimpleBench и IQ теста):

Gemini 3 Pro про бенчмарки

ARC-AGI

Это набор визуальных логических головоломок. Модели дается несколько примеров трансформации сетки цветных пикселей (например, «синие квадраты падают вниз»), и она должна понять правило и применить его к новой тестовой сетке. Модель не видела этих задач при обучении. Это тест на fluide intelligence (подвижный интеллект) — способность обучаться новым концепциям «на лету», а не вспоминать заученное. Версия 2 добавляет новые типы абстракций, которые раньше были недоступны ИИ.

SimpleBench

Тест с множественным выбором ответов для LLM, в котором люди с неспециализированными (средними) знаниями превосходят модели SOTA. Включает более 200 вопросов, охватывающих пространственно-временное мышление, социальный интеллект и то, что мы называем лингвистической устойчивостью к противодействию (или каверзными вопросами). В подавляющем большинстве текстовых тестов LLM превосходят неспециализированных людей и все чаще превосходят экспертов.

Humanity’s Last Exam (HLE)

Пожалуй, самый сложный на данный момент тест на академическое мышление. Он создан совместно Center for AI Safety (CAIS) и Scale AI. HLE состоит из тысяч вопросов экспертного уровня по разным дисциплинам (математика, гуманитарные науки, естественные науки). Ключевая особенность: вопросы составлены так, чтобы быть «негуглируемыми» и требовать настоящего многоступенчатого рассуждения, а не просто запоминания фактов. Если модель решает их успешно, это считается признаком приближения к уровню человеческого эксперта.

MathArena Apex

Специализированный набор задач из платформы MathArena/LMArena, где модели соревнуются в решении конкурсных математических задач. Это динамический бенчмарк, который постоянно обновляется, чтобы проверить реальные способности к математическим рассуждениям.

SWE-Bench Verified (Software Engineering Benchmark)

Один из самых реалистичных тестов для программистов. Модели дается реальный репозиторий кода с GitHub и описание «issue» (бага или запроса на фичу). Модель должна сама найти нужные файлы, написать патч и пройти тесты. Версия «Verified» — это очищенная людьми подвыборка задач, где гарантировано, что задача решаема и условия корректны.

SimpleQA Verified

Бенчмарк от OpenAI. Это короткие фактологические вопросы с однозначными ответами. Цель — проверить честность модели: знает ли она точный факт или начинает «галлюцинировать» правдоподобный, но неверный ответ.

FACTS Benchmark Suite

Внутренний набор тестов Google (или DeepMind) для проверки «граундинга» (grounding). Проверяет, насколько ответы модели обоснованы реальными фактами, предоставленными в контексте, и не выдумывает ли она информацию.

MRCR v2 (8-needle)

Тест на длину контекста («Needle in a Haystack» — игла в стоге сена). В огромный текст (128 тысяч или 1 миллион токенов) прячут 8 конкретных фактов («игл»). Модель должна найти их все и, что важно, правильно связать друг с другом (Multi-Round Context Retrieval). Это проверяет надежность памяти модели.

ScreenSpot-Pro

Тест на понимание интерфейсов экранов (UI/UX). Модели показывают скриншот (например, веб-сайта или приложения) и просят найти координаты конкретной кнопки или элемента по текстовому описанию. Это критически важно для создания AI-агентов, которые могут управлять компьютером.

CharXiv Reasoning

Специализированный тест на понимание сложных научных графиков и диаграмм из статей с arXiv (научный репозиторий). Модель должна не просто «видеть» линии, а синтезировать информацию: делать выводы, сравнивать тренды и понимать легенды графиков.

Vending-Bench 2

Сложный агентный бенчмарк с «длинным горизонтом» (long-horizon). Модель управляет виртуальным бизнесом или сложной системой (например, вендинговым автоматом или торговой стратегией) на протяжении длительного времени, где каждое действие влияет на будущее состояние. Измеряется, например, в заработанных виртуальных деньгах (Net Worth).

OmniDocBench 1.5

Бенчмарк для OCR (оптического распознавания символов) и парсинга (структурирования) документов. Оценивает, насколько точно модель может превратить скан сложного документа (с таблицами, формулами, сносками) в структурированный текст. Чем ниже число, тем меньше ошибок (Edit Distance).

Как видим, почти во всех бенчмарках Gemini 3 Pro превосходит не только своего предшественника, но и остальные модели. Исключение составляет только SWE-Bench Verified, где новая модель Google немного уступает своим соперникам от Anthropic и OpenAI. При этом у Gemini 3 Pro просто огромный отрыв от остальных моделей (за исключением Claude Opus 4.5) в таких бенчмарках как ARC-AGI-2, Humanity’s Last Exam, MathArena Apex и ScreenSpot-Pro. Отдельно стоит подчеркнуть, что в SimpleBench, где до недавнего времени плавали все модели, Gemini 3 Pro (76.4%) почти приблизилась к уровню среднего человека (83.7%).

Впрочем, не все так радужно — в коэффициенте галлюцинаций бенчмарка AA-Omniscience модель Gemini 3 Pro набирает 88% — существенно больше, чем GPT-5.1 High (51%). Этот коэффициент (чем ниже, тем лучше) измеряет, как часто модель отвечает с ошибкой (галлюцинирует), когда ей следовало бы отказаться — это доля ошибочных ответов во всех неудачных попытках (сумме ошибочных ответов и ответов «Не знаю»). Условно, если бенчмарк содержит 1000 вопросов, и модель правильно отвечает на 540 вопросов, то в остальных 460 вопросах она лишь в 12% говорит «Не знаю», а в 88% — галлюцинирует. Кстати, точность ответов Gemini 3 Pro в бенчмарке AA-Omniscience действительно составляет 54%. Для сравнения, у Gemini 2.5 Pro — 37%, а у GPT-5.1% — 35%. То есть модель Google знает больше — и при этом (а возможно поэтому) гораздо увереннее отвечает на вопросы, даже когда не знает ответа. Впрочем, по сравнению с предшественником новая модель Google, став заметно умнее, галлюцинирует не больше — 88% vs 89%.

Безусловно, всякая модель была бы куда надежнее, если бы всегда говорила «Не знаю», когда у нее нет ответа на вопрос. Пока же тенденция складывается таким образом, что модели умнеют — но по-прежнему отчаянно галлюцинируют.

Другой крупный релиз ноября — Claude Opus 4.5, и эта модель также может похвастать значительным улучшением результатов в бенчмарке ARC-AGI:

Claude Opus 4.5Claude Sonnet 4.5
ARC-AGI-180.0%63.7%
ARC-AGI-237.6%13.6%

Еще одно заметное событие ноября — DeepSeekMath-V2. Авторы этой опернсорсной китайской модели заявили об очень высоких результатах в трех престижных математических олимпиадах — уровень золотых медалистов в CMO 2024 (73.8%) и IMO 2025 (83.3%) и почти идеальный результат в Putnam 2024 (98.3%, 118/120). Но, как говорится, есть нюанс — решения этих олимпиад находятся в открытом доступе и к моменту релиза возможно оказались в обучающем дата-сете. Зато на днях, 6 декабря, состоится Putnam 2025 — и если DeepSeekMath-V2 наберет высокий результат уже там, то это действительно станет показателем выдающегося успеха. И наоборот, если мы ничего об этих результатах не услышим, то можно будет уверенно сказать, что DeepSeekMath-V2 этот экзамен провалила, и блестящим результатам в прошлогоднем экзамене обязана тому, что ей скормили его решения.

В заключение на тему интересных релизов (правда, он состоялся уже не в ноябре — 1 декабря) стоит упомянуть Lux от стартапа с многообещающим названием OpenAGI. В бенчмарке Online-Mind2Web, который включает более 300 реальных веб-задач по использованию компьютера, модель набарал 83.6 баллов — значительно больше, чем Gemini CUA от Google (69.0), Operator от OpenAI (61.3) и Claude Sonnet 4 от Anthropic (61.0). Причем, как утверждают создатели, Lux выполняет каждый этап всего за 1 секунду, в то время как у модели OpenAI на это уходит примерно 3 секунды — при этом Lux в 10 раз дешевле.


Возвращаясь к Gemini 3 Pro — должен сказать, что мой личный опыт практического взаимодействия с ней оказался разочаровывающим. Модель не только злостно и упорно галлюцинирует при обработке выложенных в Интернете документов, на которые ей дается ссылка, но и откровенно халтурит. Например, получив указание сделать текстовую расшифровку часового интервью, она делает краткий пересказ — но отсчитывается как о полностью выполненной работе (и только потом признается, что не умеет делать такие расшифровки). А когда загружаешь в модель текст автоматической расшифровки и просишь его перевести, то она произвольно обрезает его в разных местах. Кстати, это задание провалили и остальные топовые модели (GPT-5, Claude 4.5 Sonnet, Grok-4.1) — справилась с ним (пусть и не идеально) только китайская DeepSeek. Разумеется, речь идет о вполне конкретном задании — как мы уже говорили, отзывы о Gemini 3 Pro пользователей в целом вполне благоприятны, иногда даже восторженные. Но нельзя не отметить, что демонстрируя превосходные результаты в достаточно сложных задачах, самые передовые модели продолжают допускать нелепые ошибки в гораздо более простых поручениях.

О том, что прогресс моделей в бенчмарках явно опережает таковой в решении практических задач, говорят уже давно. Об этом в своем большом интервью сказал один из ведущих мировых специалистов, Илья Суцкевер. Напомним, что два года назад он ушел из OpenAI из-за конфликта с Сэмом Олтменом и основал собственный стартап, Safe Superintelligence Inc. (SSI). В то время ученый заявлял, что если у вас есть большой дата-сет и большая нейросеть, то успех гарантирован. Год назад, как уже рассказывал Gadgets News, Суцкевер сказал в интервью Reuters, что «2010-е годы были эпохой масштабирования, а сейчас мы снова возвращаемся в эпоху чудес и открытий. Все ищут новую вещь». И наконец полгода назад он говорил следующее: «У нас есть вычислительные мощности, у нас есть команда, и мы знаем, что делать». Судя по всему, теперь Илья Суцкевер не так сильно в этом уверен — в последнем интервью на вопрос о вероятных сроках создания ИИ сверхчеловеческого уровня он ответил «от 5 до 20 [лет]». При этом ученый в очередной раз подтвердил, что «с 2020 по 2025 год, это была эпоха масштабирования», а теперь «мы снова возвращаемся в эпоху исследований, только с большими компьютерами».

Лион Джонс, один из восьми авторов знаменитой статьи «Attention Is All You Need», положившей начало эпохи трансформеров, и со-основатель японского стартапа Sakana AI, также отмечает недостатки архитектуры, со-автором которой он является:

С текущей технологией все еще что-то не так. Я думаю, популярной становится фраза «неровный интеллект» (jagged intelligence). Тот факт, что вы можете спросить что-то у LLM, и она может решить буквально задачу уровня PhD, а в следующем предложении сказать что-то настолько явно неправильное, что это режет слух. И я думаю, что это отражение чего-то, вероятно, довольно фундаментально неправильного в текущей архитектуре.


Вероятно все эти присущие трансформерам и LLM недостатки и побуждают ведущие мировые компании и относительно небольшие стартапы вести разработку альтернативных подходов. В День Великой Октябрьской социалистической революции Google представила Nested Learning (Вложенное обучение). Это новый подход к машинному обучению, который рассматривает модели как набор более мелких, вложенных друг в друга задач оптимизации, каждая из которых имеет свой внутренний рабочий процесс, с целью смягчить или даже полностью избежать проблемы «катастрофического забывания», когда обучение новым задачам приводит к ухудшению навыков выполнения старых задач.

Предлагаемое Google вложенное обучение рассматривает одну модель машинного обучения не как один непрерывный процесс, а как систему взаимосвязанных многоуровневых задач обучения, которые оптимизируются одновременно. Архитектура модели и правила, используемые для ее обучения (т.е. алгоритм оптимизации), по сути, являются одними и теми же концепциями; это просто разные «уровни» оптимизации, каждый со своим собственным внутренним потоком информации («потоком контекста») и частотой обновления. Распознавая эту внутреннюю структуру, вложенное обучение предоставляет новое, ранее невидимое измерение для проектирования более производительного ИИ, позволяя создавать обучающие компоненты с большей вычислительной глубиной, что в конечном итоге помогает решать такие проблемы, как катастрофическое забывание.

В качестве подтверждения концепции в Google использовали принципы вложенного обучения для разработки Hope, варианта архитектуры Titans (декабрь 2024). Архитектура Titans представляет собой модули долговременной памяти, которые приоритизируют воспоминания в зависимости от их неожиданности. Несмотря на мощное управление памятью, у них всего два уровня обновления параметров, что обеспечивает контекстное обучение первого порядка. Hope же представляет собой самомодифицирующуюся рекуррентную архитектуру, которая может использовать неограниченное количество уровней контекстного обучения, а также дополняется блоками CMS (continuum memory system — системы континуальной памяти, где память рассматривается как спектр модулей, каждый из которых обновляется с разной, определённой частотой) для масштабирования до более крупных контекстных окон. Она может, по сути, оптимизировать собственную память посредством самореферентного процесса (ноябрь 1992), создавая архитектуру с бесконечными циклическими уровнями обучения.

Gemini 3 Pro про Nested Learning

Статья представляет собой фундаментальное исследование от Google Research, которое предлагает новую парадигму искусственного интеллекта, названную «Вложенное обучение» (Nested Learning или NL). Авторы утверждают, что современный подход «Глубокого обучения» (Deep Learning), основанный просто на наслоении слоев нейросети друг на друга, достиг своего предела в плане способности моделей к постоянному развитию и запоминанию.  

Ниже представлен подробный разбор статьи простыми словами.


1. В чем проблема современного ИИ? «Иллюзия» глубокого обучения

Авторы начинают с критики текущих больших языковых моделей (LLM), таких как GPT или Gemini. Несмотря на их мощь, они статичны.

  • Проблема «Амнезии»: Авторы сравнивают современные модели с людьми, страдающими антероградной амнезией (неспособностью формировать новые долгосрочные воспоминания).
    • У модели есть «Долгосрочная память»: это её веса (параметры), которые застывают после тренировки. Это то, что модель «выучила» в прошлом.  
    • У модели есть «Краткосрочная память»: это контекстное окно (то, что вы пишете ей прямо сейчас).
    • Проблема: Между ними ничего нет. Модель не может превратить ваш текущий диалог в долгосрочный опыт. Она «живет только в настоящем».  
  • Статичность: Простое добавление новых слоев (делание сети «глубже») не решает проблему обучения на лету. Это лишь увеличивает вычислительную мощность, но не меняет принцип работы.  

2. Решение: Вложенное обучение (Nested Learning)

Вместо того чтобы рассматривать нейросеть как «блинчик» из слоев, NL предлагает смотреть на нее как на набор вложенных друг в друга процессов оптимизации (обучения).  

Аналогия с мозгом: частоты и волны

Человеческий мозг не работает с одной скоростью. В нем есть разные ритмы (волны):  

  • Гамма-волны (быстрые): Обработка текущей информации здесь и сейчас.
  • Дельта-волны (медленные): Долгосрочная интеграция и запоминание.

Вложенное обучение (NL) копирует этот принцип. Вместо одной скорости обучения для всей модели, разные части системы обновляются с разной частотой:  

  1. Высокая частота: Быстрые обновления (реакция на каждое слово/токен).
  2. Средняя частота: Обучение на основе небольших фрагментов данных.
  3. Низкая частота: Глобальное, медленное накопление знаний (аналог традиционного обучения).

Это позволяет создать систему, которая одновременно помнит прошлое и быстро адаптируется к новому.  


3. Техническая революция: Оптимизаторы — это тоже память

Это одна из самых интересных идей статьи. В машинном обучении есть «Модель» (нейросеть) и «Оптимизатор» (алгоритм, например, SGD или Adam, который настраивает нейросеть). Обычно их считают разными вещами.

Авторы доказывают, что оптимизаторы — это на самом деле тоже формы памяти.  

  • Когда оптимизатор (например, с Momentum) обновляет веса, он «помнит» прошлые ошибки (градиенты), чтобы исправить их.
  • Deep Optimizers (Глубокие Оптимизаторы): Если оптимизатор — это память, то почему она такая примитивная? Авторы предлагают заменить простые математические формулы обновления весов на маленькие нейросети. То есть, одна нейросеть учит другую нейросеть, как ей обновляться.  

Простыми словами: Представьте, что раньше ученик (модель) просто зубрил учебник по строгой указке учителя (простого оптимизатора). NL предлагает заменить учителя на «умного наставника» (глубокий оптимизатор), который сам учится тому, как лучше учить этого ученика.


4. Новая архитектура: HOPE

На основе теории Вложенного обучения авторы создали новую модель под названием HOPE. Она состоит из двух ключевых компонентов:  

А. Self-Modifying Titans («Самонастраивающиеся Титаны»)

Это модуль, который умеет менять самого себя. Он не просто обрабатывает данные, он изучает свой собственный алгоритм обновления прямо в процессе работы. Это позволяет модели адаптироваться к новой информации мгновенно.  

Б. Continuum Memory System (Система непрерывной памяти)

Вместо жесткого деления на «краткосрочную» и «долгосрочную» память, HOPE использует спектр памяти:  

  • Память уровня 1 (мгновенная).
  • Память уровня 2 (чуть медленнее).
  • Память уровня N (очень медленная, фундаментальные знания).

Это реализуется через цепочку блоков MLP (полносвязных слоев), каждый из которых обновляется со своей скоростью.  


5. Результаты и превосходство

Авторы протестировали HOPE в сравнении с самыми современными архитектурами (Transformer++, RetNet, Mamba/Titans).

Ключевые результаты (Таблица 1 в статье):  

  • Языковое моделирование: HOPE показывает лучшую (более низкую) перплексию (меру растерянности модели), чем трансформеры.
  • Здравый смысл и логика: В задачах на рассуждение (PIQA, HellaSwag, BoolQ) HOPE обходит конкурентов.
  • Эффективность: Модель достигает лучших результатов при меньшем или аналогичном количестве параметров. Например, версия HOPE на 1.3 миллиарда параметров превосходит Transformer++ аналогичного размера.  

Резюме

Статья «Nested Learning» утверждает, что будущее ИИ не за бесконечным увеличением размеров статических моделей (Deep Learning). Будущее — за системами, которые:

  1. Многоуровневые во времени: Имеют быстрые и медленные процессы мышления.
  2. Рекурсивные: Используют процессы обучения внутри процессов обучения.
  3. Самомодифицирующиеся: Могут менять свои параметры на лету, преодолевая ограничение «застывших знаний».

Это шаг от «статистического попугая» к системе, которая действительно способна учиться в реальном времени, подобно человеческому мозгу.

Кстати, устройством мозга вдохновлена и архитектура под названием Continuous Thought Machines (CTM), которую вышеупомянутая Sakana AI представила еще в мае. Как уже рассказывал Gadgets News в новости 4-летней давности, сравнивать мозг человека с нейропроцессором по количеству нейронов не вполне корректно — биологический нейрон является очень сложным устройством, аналогом которого может послужить отдельная ИНС. Так вот в CTM вместо простых функций активации каждый нейрон получает свою собственную маленькую нейросеть, которая обрабатывает историю его активаций. Это позволяет каждому нейрону развивать сложную временну́ю динамику — совсем как в человеческом мозге, где важна не только активация нейронов, но и когда именно они активируются и как синхронизируются друг с другом. CTM использует синхронизацию между нейронами как основной способ представления информации. Это похоже на то, как в мозге разные нейроны могут «работать в такт» для кодирования информации. В CTM это работает следующим образом:

  1. На каждом шаге нейроны обновляют свои состояния;
  2. CTM вычисляет, насколько синхронизированы разные пары нейронов;
  3. Эта синхронизация используется для принятия решений и наблюдения за данными;
  4. Модель может остановиться раньше для простых задач или продолжать «думать» для сложных.

Вот как принцип работы Continuous Thought Machines описал один из ее главных создателей, Люк Дарлоу (Luke Darlow):

Люк Дарлоу про Continuous Thought Machines

Итак, Continuous Thought Machines в основном основаны на трех новшествах.

Первое — это наличие того, что мы называем «внутренним измерением мысли» (internal thought dimension). Это не обязательно что-то новое, это концептуально связано с идеями скрытого рассуждения (latent reasoning). И это, по сути, применение вычислений в последовательном измерении. И когда вы начинаете думать об идеях и проблемах в этой области и в этой структуре, вы начинаете понимать, что многие решения проблем, которые выглядят интеллектуальными, часто имеют последовательную природу.

Например, одной из основных задач, которые мы тестировали на CTM, была задача решения лабиринта. Решать лабиринты для глубокого обучения довольно тривиально. Это очень легко сделать, если вы облегчите задачу для машин. Один из способов — дать изображение лабиринта сверточной нейронной сети, и она выводит изображение того же размера, где нули — где нет пути, а единицы — где путь есть. Есть блестящие работы, показывающие, как можно обучать такие сети аккуратно и масштабировать их практически бесконечно. Это захватывающе и очень интересная идея, как решить эту проблему.

Однако, когда вы убираете этот подход и спрашиваете каков более человеческий способ решения этой проблемы, она становится последовательной проблемой. Вы должны сказать: иди вверх, иди направо, иди вверх, иди налево и т.д., чтобы проследить маршрут от начала до конца. И когда вы ограничиваете это простое пространство проблем и просите систему машинного обучения решить его таким образом, оказывается, что это становится гораздо, гораздо сложнее.

Так что это стало нашей «Hello World» проблемой для CTM. И применение внутреннего последовательного измерения мысли — это то, как мы подошли к ее решению.

Два других новшества, которые мы можем затронуть. Мы переосмыслили идею того, чем должны быть нейроны. Есть много отличных исследований в когнитивной нейронауке, изучающих как нейроны работают в биологических системах. А с другой стороны спектра — как работают нейроны в глубоком обучении, квинтэссенцией которых является ReLU. Они в каком-то смысле выключены или включены. И эта очень высокоуровневая абстракция нейронов в мозге кажется немного близорукой.

Поэтому мы подошли к этой проблеме и сказали: пусть на основе каждого отдельного нейрона этот нейрон будет сам маленькой моделью. И это привело к множеству интересных работ о том, как строить динамику в системе.

Третье новшество, как я сказал ранее, у нас есть это внутреннее измерение, в котором происходит мышление. Мы задаем вопрос: а каково представление? Каково представление для биологической системы, когда она думает? Это просто состояние нейронов в любой данный момент? Отражает ли это мысль, если я могу быть противоречивым и использовать термины «мышление» и «мысль»? Моя философия на этот счет — нет, не отражает.

Концепция мысли — это нечто, существующее во времени. Так как же нам ухватить это в инженерном смысле? Вместо измерения состояний рекуррентной модели, мы измеряем, как она синхронизируется, как нейроны синхронизируются в парах друг с другом. И это открывает дверь для огромного множества вещей, которые мы можем делать с этим типом представления.

Подробнее про Nested Learning и Continuous Thought Machines можно послушать в подкасте, сгенерирванном NotebookLM — мы выложили его на своем Телеграм-канале Intellegentia artificialis.


Другой тренд последнего времени — т.н. пространственный интеллект, spatial intelligence. Один из стартапов, занятых в этом направлении (World Labs), возглавляет Фей-Фей Ли — известный специалист в области компьютерного зрения, создатель знаменитого набора изображений ImageNet. Именно на конкурсе ImageNet по распознаванию изображений сверточная нейросеть AlexNet в 2012 добилась заметного отрыва от конкурентов, и фактически это положило начало возрождения интереса к ИИ и нынешнего бума в этой индустрии. В ноябре Фей-Фей Ли опубликовала большой пост, в котором рассказала об ограничениях LLM (больших языковых моделей) и назвала пространственный интеллект (способность взаимодействовать с виртуальным и реальным миром) следующим рубежом ИИ. В сентябре стартап World Labs представил Marble — модель, которая создаёт трёхмерные миры по изображениям или текстовым подсказкам. В ноябре она стала общедоступной. Фей-Фей Ли рассматривает Marble как первый шаг на пути к пространственному интеллекту и созданию по-настоящему пространственно интеллектуальных машин, которые, по ее мнению, станут главным трендом следующего десятилетия.