Графический ускоритель H100, суперкомпьютер DGX H100, процессор Grace Hopper и многое другое: главные анонсы Nvidia на GTC 2022

На днях в рамках конференции GTC 2022 Nvidia представила очередное обновление экосистемы своих продуктов. Краеугольным камнем её аппаратной части стало очередное поколение графических ускорителей для задач искусственного интеллекта — Nvidia H100. Вот как выглядят характеристики новинки и её предшественников:

H100A100Tesla V100
Дата анонсамарт 2022май 2020май 2017
ИнтерфейсSXM5SXM4SXM2/SXM3
ТехпроцессTSMC 4 нмTSMC 7 нмTSMC 12 нм
Площадь кристалла814 мм2826 мм2815 мм2
Кол-во транзисторов80 млрд54 млрд21 млрд
АрхитектураHopperAmpereVolta
ГПУGH100GA100GV100
Кол-во ядер CUDA (FP32)16,896 из 18,43216,912 из 8,19225,120
Кол-во тензорных ядер528 из 5761432 из 5122640
Кол-во текстурных блоков528 из 5761432 из 5122320
Частота повышенная (boost)?1410 МГц1530 МГц
Память80 из 96 Гб HBM3140 Гб HBM2e16/32 Гб HBM2
Разрядность памяти5120-бит5120-бит4096-бит
Пропускная способность памяти3 Тб/с2 Тб/с900 Гб/с
Регистр33 Мб27 Мб20 Мб
Кэш L1256 Кб / SM192 Кб / SM96 Кб / SM
Кэш L250 из 60 Мб140 Мб Кб6 Мб
TDP700 Вт400 Вт250 Вт
Интерфейс с другими графическими ускорителями (пропускная способность в ОДНУ сторону)NVLink 4
(450 Гб/с)
PCIe 5
(64 Гб/с)
NVLink 3
(300 Гб/с)
PCIe 4
(32 Гб/с)
NVLink 2
(150 Гб/с)
PCIe 3
(16 Гб/с)

1 в H100 заблокированы 12 из 144 SM (в PCIe-версии — 30 из 144 SM), правда в другом месте документации вместо 16,896 приводится 15,872 (SXM5) и 14,592 (PCIe)

2 в A100 заблокированы 20 из 128 SM

А вот как выглядит производительность (в скобках — в тензорных вычислениях на разреженных, т.е. с преимущественно нулевыми элементами, матрицах) H100 по предварительным оценкам Nvidia:

H100A100Tesla V100
FP6430 TFLOPS9.7 TFLOPS7.8 TFLOPS
FP3260 TFLOPS19.5 TFLOPS15.7 TFLOPS
FP16120 TFLOPS78 TFLOPS31.4 TFLOPS
INT82000 (4000) TOPS(624) TOPS62 TOPS

Динамика роста производительности конечно впечатляет: по сравнению с поколением 2020 года она выросла в три раза. В то же время в операциях с плавающей точкой двойной точности до быстродействия прошлогоднего AMD Instinct MI250x Nvidia H100 все равно не дотягивает — у того 48 TFLOPS (FP64).

Nvidia H100 стал первым графическим ускорителем с поддержкой памяти стандарта HBM3, а также интерфейсов PCIe 5 и NVLink 4. Последний разработан непосредственно Nvidia и в 7 раз превосходит PCIe 5 по пропускной способности — что играет ключевую роль при масштабировании в более крупные вычислительные кластеры:

DGX H100DGX A100DGX-2DGX-1
Дата анонсамарт 2022май 2020март 2018май 2017
Цена?$200 тыс$400 тыс$150 тыс
Энергопотребление10.2 кВт6.5 кВт10 кВт3.5 кВт
Вес?143 кг159 кг61 кг
Процессоры2x ?2x AMD Rome 77422x Intel Xeon
Platinum
2x Intel Xeon
E5-2698 v4
Графические ускорители8x H100
80 Гб HBM3
8x A100
40 Гб HBM2
16x Tesla V100
32 Гб HBM2
8x Tesla V100
16 Гб HBM2
Оперативная память2 Тб1 Тбдо 1.5 Тб DDR4до 0.5 Тб DDR4
Видеопамять640 Гб HBM3
(8 x 80 Гб)
320 Гб HBM2
(8 x 40 Гб)
512 Гб HBM2
(16 x 32 Гб)
256 Гб HBM
(8 x 32 Гб)
Постоянная память (SSD)30 Тб NVMe15 Тб NVMe 430 Тб NVMe4 x 1.92 Тб NVMe
Производительность (тензорная)32 петафлопс5 петафлопс2 петафлопс1 петафлопс

Здесь мы видим экспоненциальный рост тензорной производительности: с 1 до 32 петафлопс за пять лет. Рост производительности DGX H100 относительно DGX A100 соответствует заявленным Nvidia данным по H100 vs A100:

  • 1.2x — за счет увеличения числа SM (потоковых мультипроцессоров)
  • 2x — за счет увеличения числа новых тензорных ядер
  • 2x — за счет оптимизация для трансформеров
  • 1.3x — за счет рост тактовой частоты.

В свою очередь суперкомпьютеры DGX H100 могут масштабироваться в кластеры из 20-140 систем с тензорной производительностью 100-700 петафлопс.

Nvidia позиционирует H100 и собранные на его основе системы прежде всего для задач искусственного интеллекта — в частности, тренировки трансформеров. Тензорные ядра (4-е поколение) графического ускорителя поддерживают операции с точностью FP16, которой достаточно в большинстве трансформеров. По сравнению с A100 ускорение обучения обещано до 9 раз, а инференса (вывода данных из модели) — до 30 раз. Алгоритм Смита-Ватермана (применяется для выявления сходных участков двух нуклеотидных или белковых последовательностей) выполняется до 7 раз быстрее.

В числе прочих оптимизаций — поддержка инструкций динамического программирования, впервые среди архитектур Nvidia. Динамическое программирование — это, по определению Википедии, способ решения сложных задач путём разбиения их на более простые подзадачи. Что особенно актуально в планировании маршрута, науке о данных, робототехнике, биологии. Здесь ожидается 7-кратный рост быстродействия по сравнению с предшественником.

Поставки систем на базе графического ускорителя Nvidia H100 запланированы на 3 кв 2022, цены не сообщаются.


Несмотря на комплектацию суперкомпьютера DGX H100 парой неназванных x86-процессоров и запрет на покупку компании ARM, Nvidia продолжает разработку собственных процессоров на базе архитектуры ARM. Как уже рассказывал Gadgets News, почти год назад компания анонсировала серверный процессор Grace, названный в честь американской ученой Грейс Хоппер (как и новейшая архитектура графических ускорителей Hopper). На нынешнем мероприятии стали известны дополнительные подробности. Процессор имеет 144-ядерную конфигурацию и чиплетную компоновку — он состоит из двух 72-ядерных чипов, соединенных интерфейсом NVLink. Согласно Nvidia, в бенчмарке SPECrate_2017_int_base её процессор в 1.5 раза производительнее пары 64-ядерных AMD Rome 7742 (которым оснащен DGX A100) и в 2 раза энергоэффективнее современных серверных процессоров. Он будет работать на платформе N2 Perseus, имеющей поддержку PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 и CXL 2.0.

Само собой напрашивается сочетание процессора Grace и графического ускорителя Hopper — и таким сочетанием станет новый супер-процессор Grace Hopper (см. фото сверху). Это 72-ядерный ЦПУ-чип Grace, посредством всё того же интерфейса NVLink соединенный с ГПУ-чипом Hopper. Какая у того конфигурация пока неизвестно (скорее всего это GH100 от графического ускорителя H100).

Поставки Nvidia Grace запланированы на начало следующего года.


Не менее значительными были анонсы и программного обеспечения. В числе представленных инструментариев:

  • Riva 2.0 — 2-е поколение SDK (комплекта для разработки программного обеспечения) для распознавания и генерации устной речи (в т.ч. на русском языке);
  • Merlin 1.0 — библиотека с открытым кодом для ускорения работы рекомендательных систем на графических ускорителях Nvidia;
  • Streamline — SDK, упрощающий применение визуальных эффектов в играх и других графических приложениях;
  • Kickstart RT — SDK для добавления в игры и другие графические приложения более реалистичной трассировки лучей;
  • Sionna — платформа для исследований в области сотовой связи 6-го поколения (6G);
  • Обновления Triton, интерференсного программного обеспечения с открытым кодом;
  • Обновление NeMo Megatron, платформы для обучения больших (до триллиона параметров) лингвистических моделей;
  • Обновление Maxine, SDK для улучшения качества аудио и видео в телеконференциях;
  • Обновление Omniverse, платформы для совместной работы в 3D-проектировании и моделировании — в реальном времени, с фотореализмом и воспроизведением законов физики, с маштабированием от единичной видеокарты до огромных вычислительных кластеров.

Nvidia напомнила и о других программных платформах: Modulus (моделирование физических процессов), Avatar (трехмерные аватары), Drive (беспилотные автомобили), Isaac (роботы-манипуляторы), Metropolis (автономные инфраструктуры), Holoscan (медицинские роботизированные инструменты), Rapids (набор открытых библиотек ПО и API для выполнения задач анализа данных полностью на графических ускорителях), cuOpt (складская логистика), Morpheus (кибер-безопасность), cuQuantum (ускорение моделирования квантовых схем), Aerial (исследования в области 5G), Monai (медицинская визуализация), Flare (вычислительная основа для федеративного обучения). В общей сложности были обновлены 60 SDK, разработанных Nvidia.

Во всей этой огромной экосистеме программных инструментов лично меня больше всего впечатлил SDK Maxine. На презентации было продемонстрировано, как во время видеосвязи речь участника телеконференции в режиме реального времени озвучивается на другом языке как если бы на нем говорил он сам — своим голосом и с соблюдением соответствующей мимики лица. Редактируется даже взгляд — если в оригинале участник телеконференции прикрыл глаза или косит куда-то в сторону, его двойник смотри прямо в камеру. Выглядит это как настоящая фантастика, и пока не вполне ясно насколько этот инструментарий готов к применению на практике. Но даже если это произойдет лишь через несколько лет, в дистанционном общении людей это произведет настоящую революцию.

Большое будущее видится и у Omniverse — мощного инструментария для создания виртуальных миров, на которые, в частности, делает ставку компания Meta (Facebook). Но пожалуй главное значение для мировой науки и промышленности будут иметь инструменты для цифровой биологии, геномики, фармацевтики, квантовых вычислений, искусственного интеллекта и робототехники — всего того, что определит научно-технологических прогресс человечества в ближайшие годы и десятилетия.


Про игры на GTC 2022 почти ничего не было, зато несколькими днями раннее Unity выложила на своем YouTube-канале ролик с очень реалистичной графикой — созданную на движке компании технодемку Enemies. В процессе её создания были задействованы система освещения Adaptive Probe Volume, инструменты реалистического рендеринга лица и волос (Digital Human и Hair), а также HDRP (High Definition Render Pipeline). Последний представляет собой процесс физического рендеринга, позволяющий использовать для разработки сцен параметры реального мира. Эта технология применялась и в технодемке The Heretic 3-летней давности.

Судя по заголовку ролика, рендеринг производился в режиме реального времени, но на какой платформе не сообщается. По слухам это Nvidia RTX 3090 (доступно в играх — 23 TFLOPS), но достоверных источников на этот счет я пока не нашел. Однако даже в этом случае в играх такая графика появится еще не скоро (не считая заранее отрисованных сцен). Самые массовые игровые платформы — это ПК начального и среднего уровня, PlayStation 5 и Xbox Series X, а также их предшественники. У игровых консолей последнего поколения производительность находится на уровне 10-12 TFLOPS, у предшественников — 4-6 TFLOPS. А согласно февральской статистике онлайн-магазина компьютерных игр Steam, самые распространенные видеокарты на игровых компьютерах это GTX 1060 (4.4 TFLOPS) — 8%, GTX 1650 (3 TFLOPS) и GTX 1050 Ti (2 TFLOPS) — по 6%, RTX 2060 (6.5 TFLOPS) — 5%, GTX 1050 (1.9 TFLOPS) и GTX 1660 Ti (5.4 TFLOPS) — по 3%.

Поэтому современные игры по-прежнему ориентированы на уровень производительности 4-6 TFLOPS, с перспективой повышения этой планки до 10-12 TFLOPS в ближайшие годы. Игры с кинематографической графикой, которые по силам видеокартам начиная разве что с 23 TFLOPS, скорее всего начнут выходить к середине жизненного цикла (около 7 лет) игровых консолей следующего поколения — т.е. где-то с 2030 года. Будем надеяться, что к тому времени разработчики и компьютерное железо осилят не только кинореалистичную мимику персонажей, но также их более интерактивное и правдоподобное взаимодействие с другими объектами.