Графический ускоритель H100, суперкомпьютер DGX H100, процессор Grace Hopper и многое другое: главные анонсы Nvidia на GTC 2022

Опубликовано 16:22 27.03.202216:50 28.03.2022 автором Егор Ликоспастов

На днях в рамках конференции GTC 2022 Nvidia представила очередное обновление экосистемы своих продуктов. Краеугольным камнем её аппаратной части стало очередное поколение графических ускорителей для задач искусственного интеллекта — Nvidia H100. Вот как выглядят характеристики новинки и её предшественников:

	H100	A100	Tesla V100
Дата анонса	март 2022	май 2020	май 2017
Интерфейс	SXM5	SXM4	SXM2/SXM3
Техпроцесс	TSMC 4 нм	TSMC 7 нм	TSMC 12 нм
Площадь кристалла	814 мм²	826 мм²	815 мм²
Кол-во транзисторов	80 млрд	54 млрд	21 млрд
Архитектура	Hopper	Ampere	Volta
ГПУ	GH100	GA100	GV100
Кол-во ядер CUDA (FP32)	16,896 из 18,432¹	6,912 из 8,192²	5,120
Кол-во тензорных ядер	528 из 576¹	432 из 512²	640
Кол-во текстурных блоков	528 из 576¹	432 из 512²	320
Частота повышенная (boost)	?	1410 МГц	1530 МГц
Память	80 из 96 Гб HBM3¹	40 Гб HBM2e	16/32 Гб HBM2
Разрядность памяти	5120-бит	5120-бит	4096-бит
Пропускная способность памяти	3 Тб/с	2 Тб/с	900 Гб/с
Регистр	33 Мб	27 Мб	20 Мб
Кэш L1	256 Кб / SM	192 Кб / SM	96 Кб / SM
Кэш L2	50 из 60 Мб¹	40 Мб Кб	6 Мб
TDP	700 Вт	400 Вт	250 Вт
Интерфейс с другими графическими ускорителями (пропускная способность в ОДНУ сторону)	NVLink 4 (450 Гб/с) PCIe 5 (64 Гб/с)	NVLink 3 (300 Гб/с) PCIe 4 (32 Гб/с)	NVLink 2 (150 Гб/с) PCIe 3 (16 Гб/с)

¹ в H100 заблокированы 12 из 144 SM (в PCIe-версии — 30 из 144 SM), правда в другом месте документации вместо 16,896 приводится 15,872 (SXM5) и 14,592 (PCIe)

² в A100 заблокированы 20 из 128 SM

А вот как выглядит производительность (в скобках — в тензорных вычислениях на разреженных, т.е. с преимущественно нулевыми элементами, матрицах) H100 по предварительным оценкам Nvidia:

	H100	A100	Tesla V100
FP64	30 TFLOPS	9.7 TFLOPS	7.8 TFLOPS
FP32	60 TFLOPS	19.5 TFLOPS	15.7 TFLOPS
FP16	120 TFLOPS	78 TFLOPS	31.4 TFLOPS
INT8	2000 (4000) TOPS	(624) TOPS	62 TOPS

Динамика роста производительности конечно впечатляет: по сравнению с поколением 2020 года она выросла в три раза. В то же время в операциях с плавающей точкой двойной точности до быстродействия прошлогоднего AMD Instinct MI250x Nvidia H100 все равно не дотягивает — у того 48 TFLOPS (FP64).

Nvidia H100 стал первым графическим ускорителем с поддержкой памяти стандарта HBM3, а также интерфейсов PCIe 5 и NVLink 4. Последний разработан непосредственно Nvidia и в 7 раз превосходит PCIe 5 по пропускной способности — что играет ключевую роль при масштабировании в более крупные вычислительные кластеры:

	DGX H100	DGX A100	DGX-2	DGX-1
Дата анонса	март 2022	май 2020	март 2018	май 2017
Цена	?	$200 тыс	$400 тыс	$150 тыс
Энергопотребление	10.2 кВт	6.5 кВт	10 кВт	3.5 кВт
Вес	?	143 кг	159 кг	61 кг
Процессоры	2x ?	2x AMD Rome 7742	2x Intel Xeon Platinum	2x Intel Xeon E5-2698 v4
Графические ускорители	8x H100 80 Гб HBM3	8x A100 40 Гб HBM2	16x Tesla V100 32 Гб HBM2	8x Tesla V100 16 Гб HBM2
Оперативная память	2 Тб	1 Тб	до 1.5 Тб DDR4	до 0.5 Тб DDR4
Видеопамять	640 Гб HBM3 (8 x 80 Гб)	320 Гб HBM2 (8 x 40 Гб)	512 Гб HBM2 (16 x 32 Гб)	256 Гб HBM (8 x 32 Гб)
Постоянная память (SSD)	30 Тб NVMe	15 Тб NVMe 4	30 Тб NVMe	4 x 1.92 Тб NVMe
Производительность (тензорная)	32 петафлопс	5 петафлопс	2 петафлопс	1 петафлопс

Здесь мы видим экспоненциальный рост тензорной производительности: с 1 до 32 петафлопс за пять лет. Рост производительности DGX H100 относительно DGX A100 соответствует заявленным Nvidia данным по H100 vs A100:

1.2x — за счет увеличения числа SM (потоковых мультипроцессоров)
2x — за счет увеличения числа новых тензорных ядер
2x — за счет оптимизация для трансформеров
1.3x — за счет рост тактовой частоты.

В свою очередь суперкомпьютеры DGX H100 могут масштабироваться в кластеры из 20-140 систем с тензорной производительностью 100-700 петафлопс.

Nvidia позиционирует H100 и собранные на его основе системы прежде всего для задач искусственного интеллекта — в частности, тренировки трансформеров. Тензорные ядра (4-е поколение) графического ускорителя поддерживают операции с точностью FP16, которой достаточно в большинстве трансформеров. По сравнению с A100 ускорение обучения обещано до 9 раз, а инференса (вывода данных из модели) — до 30 раз. Алгоритм Смита-Ватермана (применяется для выявления сходных участков двух нуклеотидных или белковых последовательностей) выполняется до 7 раз быстрее.

В числе прочих оптимизаций — поддержка инструкций динамического программирования, впервые среди архитектур Nvidia. Динамическое программирование — это, по определению Википедии, способ решения сложных задач путём разбиения их на более простые подзадачи. Что особенно актуально в планировании маршрута, науке о данных, робототехнике, биологии. Здесь ожидается 7-кратный рост быстродействия по сравнению с предшественником.

Поставки систем на базе графического ускорителя Nvidia H100 запланированы на 3 кв 2022, цены не сообщаются.

Несмотря на комплектацию суперкомпьютера DGX H100 парой неназванных x86-процессоров и запрет на покупку компании ARM, Nvidia продолжает разработку собственных процессоров на базе архитектуры ARM. Как уже рассказывал Gadgets News, почти год назад компания анонсировала серверный процессор Grace, названный в честь американской ученой Грейс Хоппер (как и новейшая архитектура графических ускорителей Hopper). На нынешнем мероприятии стали известны дополнительные подробности. Процессор имеет 144-ядерную конфигурацию и чиплетную компоновку — он состоит из двух 72-ядерных чипов, соединенных интерфейсом NVLink. Согласно Nvidia, в бенчмарке SPECrate_2017_int_base её процессор в 1.5 раза производительнее пары 64-ядерных AMD Rome 7742 (которым оснащен DGX A100) и в 2 раза энергоэффективнее современных серверных процессоров. Он будет работать на платформе N2 Perseus, имеющей поддержку PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 и CXL 2.0.

Само собой напрашивается сочетание процессора Grace и графического ускорителя Hopper — и таким сочетанием станет новый супер-процессор Grace Hopper (см. фото сверху). Это 72-ядерный ЦПУ-чип Grace, посредством всё того же интерфейса NVLink соединенный с ГПУ-чипом Hopper. Какая у того конфигурация пока неизвестно (скорее всего это GH100 от графического ускорителя H100).

Поставки Nvidia Grace запланированы на начало следующего года.

Не менее значительными были анонсы и программного обеспечения. В числе представленных инструментариев:

Riva 2.0 — 2-е поколение SDK (комплекта для разработки программного обеспечения) для распознавания и генерации устной речи (в т.ч. на русском языке);
Merlin 1.0 — библиотека с открытым кодом для ускорения работы рекомендательных систем на графических ускорителях Nvidia;
Streamline — SDK, упрощающий применение визуальных эффектов в играх и других графических приложениях;
Kickstart RT — SDK для добавления в игры и другие графические приложения более реалистичной трассировки лучей;
Sionna — платформа для исследований в области сотовой связи 6-го поколения (6G);
Обновления Triton, интерференсного программного обеспечения с открытым кодом;
Обновление NeMo Megatron, платформы для обучения больших (до триллиона параметров) лингвистических моделей;
Обновление Maxine, SDK для улучшения качества аудио и видео в телеконференциях;
Обновление Omniverse, платформы для совместной работы в 3D-проектировании и моделировании — в реальном времени, с фотореализмом и воспроизведением законов физики, с маштабированием от единичной видеокарты до огромных вычислительных кластеров.

Nvidia напомнила и о других программных платформах: Modulus (моделирование физических процессов), Avatar (трехмерные аватары), Drive (беспилотные автомобили), Isaac (роботы-манипуляторы), Metropolis (автономные инфраструктуры), Holoscan (медицинские роботизированные инструменты), Rapids (набор открытых библиотек ПО и API для выполнения задач анализа данных полностью на графических ускорителях), cuOpt (складская логистика), Morpheus (кибер-безопасность), cuQuantum (ускорение моделирования квантовых схем), Aerial (исследования в области 5G), Monai (медицинская визуализация), Flare (вычислительная основа для федеративного обучения). В общей сложности были обновлены 60 SDK, разработанных Nvidia.

Во всей этой огромной экосистеме программных инструментов лично меня больше всего впечатлил SDK Maxine. На презентации было продемонстрировано, как во время видеосвязи речь участника телеконференции в режиме реального времени озвучивается на другом языке как если бы на нем говорил он сам — своим голосом и с соблюдением соответствующей мимики лица. Редактируется даже взгляд — если в оригинале участник телеконференции прикрыл глаза или косит куда-то в сторону, его двойник смотри прямо в камеру. Выглядит это как настоящая фантастика, и пока не вполне ясно насколько этот инструментарий готов к применению на практике. Но даже если это произойдет лишь через несколько лет, в дистанционном общении людей это произведет настоящую революцию.

Большое будущее видится и у Omniverse — мощного инструментария для создания виртуальных миров, на которые, в частности, делает ставку компания Meta (Facebook). Но пожалуй главное значение для мировой науки и промышленности будут иметь инструменты для цифровой биологии, геномики, фармацевтики, квантовых вычислений, искусственного интеллекта и робототехники — всего того, что определит научно-технологических прогресс человечества в ближайшие годы и десятилетия.

Про игры на GTC 2022 почти ничего не было, зато несколькими днями раннее Unity выложила на своем YouTube-канале ролик с очень реалистичной графикой — созданную на движке компании технодемку Enemies. В процессе её создания были задействованы система освещения Adaptive Probe Volume, инструменты реалистического рендеринга лица и волос (Digital Human и Hair), а также HDRP (High Definition Render Pipeline). Последний представляет собой процесс физического рендеринга, позволяющий использовать для разработки сцен параметры реального мира. Эта технология применялась и в технодемке The Heretic 3-летней давности.

Судя по заголовку ролика, рендеринг производился в режиме реального времени, но на какой платформе не сообщается. По слухам это Nvidia RTX 3090 (доступно в играх — 23 TFLOPS), но достоверных источников на этот счет я пока не нашел. Однако даже в этом случае в играх такая графика появится еще не скоро (не считая заранее отрисованных сцен). Самые массовые игровые платформы — это ПК начального и среднего уровня, PlayStation 5 и Xbox Series X, а также их предшественники. У игровых консолей последнего поколения производительность находится на уровне 10-12 TFLOPS, у предшественников — 4-6 TFLOPS. А согласно февральской статистике онлайн-магазина компьютерных игр Steam, самые распространенные видеокарты на игровых компьютерах это GTX 1060 (4.4 TFLOPS) — 8%, GTX 1650 (3 TFLOPS) и GTX 1050 Ti (2 TFLOPS) — по 6%, RTX 2060 (6.5 TFLOPS) — 5%, GTX 1050 (1.9 TFLOPS) и GTX 1660 Ti (5.4 TFLOPS) — по 3%.

Поэтому современные игры по-прежнему ориентированы на уровень производительности 4-6 TFLOPS, с перспективой повышения этой планки до 10-12 TFLOPS в ближайшие годы. Игры с кинематографической графикой, которые по силам видеокартам начиная разве что с 23 TFLOPS, скорее всего начнут выходить к середине жизненного цикла (около 7 лет) игровых консолей следующего поколения — т.е. где-то с 2030 года. Будем надеяться, что к тому времени разработчики и компьютерное железо осилят не только кинореалистичную мимику персонажей, но также их более интерактивное и правдоподобное взаимодействие с другими объектами.

Графический ускоритель H100, суперкомпьютер DGX H100, процессор Grace Hopper и многое другое: главные анонсы Nvidia на GTC 2022

Добавить комментарий Отменить ответ

Рубрики