AlphaGenome, Chai-2, Hierarchical Reasoning Model, будущие квантовые суперкомпьютеры IBM и аватары Neuralink

Предлагаем вашему вниманию традиционный обзор некоторых интересных анонсов прошедшего месяца. Пожалуй, главным событием стала AlphaGenome, очередное детище Google DeepMind. Эта модель:
- обучена на геномах человека и мыши и способна одновременно оценивать эффекты вариантов по всем модальностям — что позволяет точно воспроизводить механизмы клинически значимых вариантов;
- анализирует последовательность ДНК (принимая на вход до 1 млн пар оснований) и предсказывает её функциональные характеристики (выдает тысячи функциональных геномных треков с разрешением до одной пары оснований);
- превосходит существующие модели в 24 из 26 тестов по предсказанию эффектов вариантов.
AlphaGenome предсказывает, как изменения в ДНК (варианты) влияют на различные молекулярные процессы, такие как экспрессия генов, сплайсинг, доступность хроматина и другие. Это особенно важно для интерпретации некодирующих вариантов, которые составляют более 98% генетических вариаций у человека. Модель может быть использована для виртуальных экспериментов в молекулярной биологии, диагностики редких заболеваний и разработки новых методов лечения, таких как терапевтические антисмысловые олигонуклеотиды. В то же время AlphaGenome не лишена недостатков — она не способна точно предсказывать влияние удаленных регуляторных элементов (находящихся на расстоянии более 100 тысяч пар оснований), а также точно воспроизводить специфичные для тканей и типов клеток паттерны и предсказывать эффекты вариантов, зависящих от определенных условий. Возможно эти недостатки будут устранены в будущих поколениях AlphaGenome.
Другая интересная новость о применении ИИ в биологии — Chai-2. Это генеративная модель, которая на основе трехмерной структуры «мишени» (белка, провоцирующего болезнь) создает аминокислотную последовательность и трехмерную модель (т.е. полноценный цифровой проект) антитела, которое способно связаться с мишенью и нейтрализовать её. В отличие от предыдущих компьютерных методов, которые имели очень низкий процент успеха (менее 0,1%), Chai-2 показывает впечатляющий результат — примерно 16% созданных им антител успешно работают в реальных лабораторных тестах. Это более чем в 100 раз эффективнее, чем у конкурентов. Причем если раньше на это уходили месяцы, то у Chai-2 весь процесс — от постановки задачи для ИИ до получения и проверки готовых молекул в лаборатории — занимает менее двух недель.
Chai-2 успешно создал антитела для 26 из 52 совершенно новых мишеней, для которых ранее не существовало известных антител в базах данных. Модель может создавать разные типы белковых молекул: не только стандартные антитела, но и их уменьшенные версии (нанотела) и даже совсем маленькие белки (минипротеины). Она не просто копирует существующие решения, а генерирует абсолютно новые белки, которые не похожи ни на что, известное науке.
Эта технология может кардинально изменить подход к разработке лекарств. Вместо долгих и дорогостоящих поисков вслепую учёные смогут целенаправленно и быстро создавать высокоэффективные препараты для лечения самых разных болезней. Это открывает путь к созданию лекарств от тех заболеваний, которые раньше считались неизлечимыми из-за сложности подбора терапии.
Chai Discovery — это калифорнийский стартап, созданный в 2024 году, одним из его инвесторов является OpenAI. Первая версия модели, Chai-1, была выпущена осенью прошлого года.
Другим заметным событием июня стала дорожная карта квантовых компьютеров IBM. Вот как выглядит динамика текущего и будущего прогресса в этой области:
2024 (Heron, Цапля) | 2025-2028 (Nighhawk, Ночной ястреб) | 2029 (Starling, Скворец) | после 2033 (Blue Jay, Голубая сойка) | |
Кол-во вентилей | 5 тыс | 5-15 тыс | 100 млн | 1 млрд |
Кол-во кубитов | 133 | 120-1080 | 200 | 2000 |
Резкий скачок в количестве вентилей при относительно небольшом числе кубитов у Starling в 2029 году объясняется фундаментальным переходом от использования физических кубитов к отказоустойчивым логическим кубитам. Логический кубит — это абстракция, созданная из множества физических кубитов с помощью кодов квантовой коррекции ошибок. Такой подход позволяет обнаруживать и исправлять ошибки, возникающие в физических кубитах, что делает логический кубит гораздо более стабильным и надежным. Таким образом, в 2029 году акцент смещается с количества кубитов на их качество и способность выполнять огромное количество операций без ошибок, что является ключевым шагом к созданию полномасштабных, отказоустойчивых квантовых компьютеров.
Ожидается, что IBM Starling будет выполнять в 20 тыс раз больше операций, чем сегодняшние квантовые компьютеры. Для представления вычислительного состояния IBM Starling потребуется память более чем квиндециллиона (1048) самых мощных суперкомпьютеров в мире.
Говоря об инновационном компьютерном железе, стоит упомянуть Meteor-1 — оптический (фотонный) процессор, созданный совместной командой ученых из Сингапура и Китая. Теоретическая база процессора описывается в статье Parallel optical computing capable of 100-wavelength multiplexing, опубликованной в журнале eLight. Если верить создателям процессора, его производительность при тактовой частоте 50 ГГц достигает 2560 TOPS — где-то между топовыми графическими ускорителями Nvidia, RTX 5090 (3,352 TOPS при 575 Вт) и RTX 5080 (1,801 TOPS при 360 Вт). Meteor-1 имеет ряд ограничений (например, выполняет только линейные матричные операции) и не имеет независимого подтверждения своей производительности. Возможно в обозримом будущем его производительность получится оценить на полноценных ИИ-бенчмарках.

Своей дорожной картой поделилась и учрежденная Илоном Маском компания Neuralink. Вот как она выглядит:
настоящее время | 3 кв 2025 | 2026 | 2027 | 2028 | |
Участок коры головного мозга | моторный | моторный или речевой | моторный или речевой или зрительный | моторный и речевой и зрительный | √ любые участки мозга (одновременно) √ интеграция с ИИ |
Количество каналов | 1,000 | 1,000 | 3,000 | 10,000 | 25,000 |
На проведенной по этому случаю презентации заявили, что движутся в направлении технологий, которые позволят довести число каналов до сотен тысяч и даже миллионов — что поможет не только решать проблемы медицинского характера, но и «вырваться за пределы нашей биологии». Это увеличение пропускной способности интерфейса мозг-машина можно сравнить с ростом скорости Интернета с 56 Кбит/с (7 Кбайт/с) в девяностые до нынешнего широкополосного соединения (например, свыше 100 Мбит/с у большинства абонентов спутникового Starlink).
Уже сейчас пациенты с имплантами Neuralink могут управлять роботизированной рукой — Илон Маск планирует, в перспективе, полноценную интеграцию [парализованных людей] с роботами Optimus, как в к/ф «Аватар». Другая перспектива, менее фантастичная, но более актуальная — имплантация чипа не только в головной мозг, но и в спинной, с восстановлением функциональности парализованного тела.
Возвращаясь к ИИ, стоит отметить еще две интересные новости. Прежде всего, на днях состоялась первая в истории полностью беспилотная (даже без страхующего водителя) доставка автомобиля (Tesla Model Y) от завода (Гигафабрика 5 в Техасе) к дому владельца. Поездка заняла около получаса. Таким образом, полностью беспилотные автомобили постепенно становятся частью реальности.
Другая новость касается Meta и OpenAI. Сперва Сэм Олтмен посетовал, что компания Марка Цукерберга пытается переманить к себе лучших специалистов OpenAI, предлагая им бонусы до 100 млн долларов в год. И вскоре после этого стало известно, что действительно состоялся переход в Meta нескольких ведущих специалистов OpenAI, Anthropic и Google. Они будут работать в только что созданном подразделении с амбициозным названием Meta Superintelligence Labs и, очевидно, попытаюсь вывести в лидеры ИИ компанию, которая пока явно уступает своим конкурентам. Любопытно, что возглавит лабораторию не Ян Лекун, занимающий в Meta должность ведущего исследователя по ИИ, а Александр Ванг, бывший генеральный директор стартапа по маркировке данных Scale AI, 49% акций которого Meta недавно приобрела за $14 млрд. Вероятно это связано с категорическим неприятием Лекуном ставки на большие языковые модели (демонстрирующих явный прогресс последние несколько лет) и его концентрацией больше на академической научной деятельности и разработке новых фундаментальных подходов (вроде JEPA, оперирующей сущностями, а не токенами), чем на создании готовых рабочих продуктов.
Не исключено, что потеря таких ценных кадров в свою очередь подорвет лидерство OpenAI. Кстати, Сэм Олтмен обещает релиз GPT-5 уже этим летом, и это будет очередной момент истины в споре о перспективах ИИ на базе больших языковых моделей. Главная интрига даже не в том, насколько GPT-5 будет умной, а насколько она окажется надежной. Как уже рассказывал Gadgets News, в бенчмарке SimpleQA, провоцирующем модель на галлюцинации, o3 галлюцинирует в 51% случаев, а o4-mini — аж в 79% случаев. Если GPT-5, в которой ожидается объединение всех инновационных моделей OpenAI, этот показатель не претерпит существенных изменений, это станет индикатором серьезных проблем у нынешней ставки на языковые модели в деле создания AGI. Что касается чисто интеллектуальных тестов, то на сегодня самыми трудными для ИИ являются бенчмарк по программированию LiveCodeBench Pro (все лучшие модели набирают в его трудных задачах 0%) и бенчмарк с визуальными головоломками ARC-AGI-2 (не более 3%).
Но даже несмотря на возможное грядущее разочарование от GPT-5, альтернативные подходы к созданию ИИ не иссякают. На днях вышла работа, в которой предлагается Иерархическая Модель Мышления (Hierarchical Reasoning Model, или HRM). Вдохновленная тем, как работает человеческий мозг, HRM представляет собой сочетание двух уровней: высокий думает медленно и стратегически, строит общий план решения, а низкий быстро прорабатывает детали, проверяет варианты, делает вычисления. Эти два уровня — два рекуррентных блока, которые работают вместе, обмениваются информацией и многократно уточняют решение. Основу современных языковых моделей составляют трансформеры — вот ключевые отличия HRM от них:
- Глубина вычислений:
- Трансформеры: имеют фиксированную глубину (количество слоёв), что ограничивает их способность решать задачи, требующие многоэтапного рассуждения. Они относятся к классам вычислительной сложности, которые не могут эффективно решать задачи, требующие полиномиального времени.
- HRM: использует рекуррентные модули, которые позволяют модели выполнять больше вычислительных шагов. Это делает HRM ближе к универсальным вычислителям, способным эмулировать Turing-машину.
- Иерархическая структура:
- Трансформеры: обрабатывают данные в основном линейно или через механизм внимания, но не имеют явной иерархии для разделения высокоуровневого и низкоуровневого мышления.
- HRM: явно разделяет вычисления на высокоуровневые (стратегические) и низкоуровневые (детализированные), что позволяет эффективно решать задачи, требующие поиска и возврата назад (backtracking).
- CoT:
- Современные традиционные модели на базе трансформеров генерируют текст, который описывает шаги рассуждения. Она предсказывает следующий токен (слово или символ) в этой цепочке мыслей. Весь процесс рассуждения является внешним и текстовым.
- В HRM весь процесс рассуждения происходит внутри скрытых состояний двух рекуррентных модулей (высокоуровневого и низкоуровневого). Итоговое решение выдается за один проход, без промежуточных текстовых цепочек
Таким образом, HRM не использует CoT, основанную на предсказании следующего токена, как это делают трансформеры. Вместо этого она применяет иерархический подход, где вычисления разделены на высокоуровневое планирование и низкоуровневую обработку, что позволяет решать сложные задачи без текстового вывода промежуточных шагов. Это ключевое отличие от архитектур трансформеров и CoT, что делает HRM более эффективной для задач, требующих глубокого рассуждения. Трансформеры пытаются компенсировать свою ограниченную глубину, вынося рассуждения в текст (CoT), тогда как HRM изначально создана для глубоких, многошаговых вычислений внутри себя, требуя значительно меньше памяти и вычислительных ресурсов. Модель адаптируется под уровень сложности задачи: она может сама решать, сколько времени думать над ней. На простые вопросы она отвечает быстро, а на сложные тратит больше вычислительных циклов.
Представленные в статье результаты впечатляют: имея всего 27 млн параметров (для сравнения, у современных топовых моделей на базе трансформеров они исчисляются сотнями миллиардов, т.е. в 10.000x больше) и будучи обученной всего на тысяче примеров, HRM превзошла конкурентов в некоторых сложных для современного ИИ задачах:
- Sudoku-Extreme (очень сложные судоку): HRM решила 55% головоломок. Другие передовые модели, включая те, что используют CoT, показали результат 0%.
- Maze-Hard (поиск кратчайшего пути в больших лабиринтах): HRM нашла оптимальный путь в 74.5% случаев. Результат других моделей — 0%.
- ARC-AGI-1 (сложный тест на абстрактное мышление, аналог IQ-теста): HRM достигла точности 40.3%. Это значительно превосходит гораздо более крупные модели, такие как Claude 3.7 (21.2%). В ARC-AGI-2 результат значительно скромнее, но также выше, чем у соперников — 5% vs 3%.
Очевидно, что главный недостаток предлагаемого HRM подхода — непрозрачность, поскольку модель не генерирует человеко-читаемые текстовые шаги, а её внутренние итерации сложнее интерпретировать. Для задач, где важна интерпретируемость (например, в сфере медицины и юриспруденции), отсутствие прозрачных шагов может быть существенным минусом.
Кроме того, в статье упоминаются или подразумеваются следующие потенциальные недостатки HRM:
- Сложность анализа внутренней работы и причинно-следственных связей в её иерархической структуре.
- Недостаточная изученность адаптивных стратегий рассуждений.
- Отсутствие механизмов иерархической памяти, что может ограничивать работу с длинными контекстами.
- Потенциальная ограниченная универсальность из-за узкого набора протестированных задач.
По сравнению с трансформерами и CoT, HRM выигрывает в эффективности для задач глубокого рассуждения и меньшей зависимости от данных, но проигрывает в прозрачности и, возможно, в масштабируемости на задачи с длинными контекстами.
Как всегда, на ранней стадии появления какой-нибудь концепции практически невозможно оценить её реальную перспективность. Ежемесячно выходит множество публикаций с интересными и многообещающими идеями, но какие из них «выстрелят», и когда это произойдет — остается только гадать. Например, техника Word2vec для получения векторных представлений слов на естественном языке, посредством обучения на входных текста, была описана в 2013, а трансформеры были представлены в 2017. Но только за последние годы симбиоз этих технологий в больших языковых моделях доказал свою перспективность. Впрочем сейчас, в силу ажиотажного интереса к этой проблеме, процесс созревания перспективных идей скорее всего займет уже меньше времени.