Meta представила LLama 2, а Microsoft — RetNet, преемника трансформеров

Сегодня были сделаны сразу два крупных анонса в области искусственного интеллекта. Во-первых, компания Meta (Facebook) представила 2-е поколение своей большой языковой модели, LLama 2. В зависимости от версии у неё от 7 до 70 млрд параметров (у предшественника примерно столько же, 7-65 млрд), в обучающем дата-сете — 2 трлн параметров (было 1-1.4 трлн), длина контекста — 4096 токенов (было вдвое меньше). По своим возможностям LLama 2 примерно соответствует GPT-3.5 (и условно отстает от GPT-4 на одно поколение), но зато распространяется свободно — как для исследовательской работы, так и для бизнеса. На сегодня это лучшая опенсорсная языковая модель в мире.

Вторая новость в перспективе может оказаться еще интереснее — группа ученых из Microsoft Research и Университет Цинхуа (КНР) опубликовала работу Retentive Network: A Successor to Transformer for Large Language Models. В ней предлагается новая архитектура искусственной нейронной сети, RetNet. Я загрузил эту работу в чат-бот Claude 2 и попросил выделить в ней ключевые пункты. Вот что он выдал после наводящего вопроса о возможном сочетании в новой архитектуре достоинств рекуррентных и трансформерных моделей (в автопереводе DeepL):

В статье представлена новая архитектура нейронных сетей, названная Retentive Network (RetNet), которая сочетает в себе преимущества как рекуррентных нейронных сетей, так и сетей-трансформеров:

  • Рекуррентные сети эффективны для обработки последовательностей, но медленно обучаются.
  • Трансформеры быстро обучаются параллельно, но неэффективны при выводе (инференсе).
  • RetNet использует новый механизм «удержания», который может работать в параллельном режиме, как трансформеры, для быстрого обучения и в рекуррентном режиме для эффективной обработки последовательностей.
  • Таким образом, RetNet стремится получить лучшее из двух миров — быстрое обучение трансформеров и эффективный вывод рекуррентных сетей.
  • Эксперименты показывают, что RetNet не уступает по производительности трансформерам и при этом требует гораздо меньше памяти и вычислительной мощности при обработке последовательностей.
  • Это делает RetNet перспективной архитектурой нового поколения, особенно для больших языковых моделей.

Таким образом, RetNet сочетает в себе эффективность обучения трансформеров с эффективностью обработки последовательностей рекуррентными сетями.

Напомню, что нынешняя «весна искусственного интеллекта» (а правильнее сказать очередной бум, с ним связанный) началась в 2012, когда свёрточная нейронная сеть AlexNet одержала громкую победу на конкурсе распознавания изображений. Сама свёрточная архитектура была разработана Яном Лекуном еще в 1988 — примерно в одно время с другой популярной архитектурой, рекуррентной. Последняя популярна в задачах обработки текстов на естественном языке (хотя наш любимый переводчик DeepL использует как раз свёрточную архитектуру). Так было до недавнего времени — в 2017 Google представила трансформеры, которые и легли в основу больших языковых моделей, на которых работает ChatGPT (декабрь 2022) и Claude 2 (июль 2023). И вот сегодня анонсирована модель, которая позиционируется в качестве преемника трансформеров. Так это или нет — покажет время.