Nvidia представила DGX-A100, A100 и GA100

В 16:00 (МСК) Nvidia опубликовала «кухонную» презентацию Дженсена Хуана, посвященную серверным вычислениям. Таким образом, новое ГПУ Nvidia из области утечек и слухов перешло в плоскость вполне официальной информации, которую мы и предлагаем вашему вниманию. Начнем с характеристик:

A100Tesla V100
Дата анонсамай 2020май 2017
ГПУGA100GV100
АрхитектураAmpereVolta
ТехпроцессTSMC 7 нмTSMC 12 нм
Площадь кристалла826 мм2815 мм2
Кол-во транзисторов54 млрд21.1 млрд
Кол-во ядер CUDA (FP32)6912 из 8192 15120
Кол-во тензорных ядер432 из 512 1640
Кол-во текстурных блоков 432 из 512 1320
Частота повышенная (boost)1410 МГц1530 МГц
Память40 Гб HBM2e16/32 Гб HBM2
Разрядность5120-бит4096-бит
Пропускная способность 1.6 Тб/с900 Гб/с
Регистр27,648 Кб20,480 Кб
Кэш L120,736 Кб13,824 Кб
Кэш L240,960 Кб6,144 Кб
TDP400 Вт250 Вт
Интерфейс с другими графическими ускорителямиNVLink 3 (600 Гб/с)
PCIe 4 (31.5 Гб/с)
NVLink 2 (300 Гб/с)
PCIe 3 (15.75 Гб/с)

1 В A100 заблокированы 20 SM из 128

Многие из этих нововведений появились благодаря 11-у поколению CUDA. В числе его особенностей:

  • Поддержка процессоров не только с архитектурой x86_64, но и Arm64 с IBM POWER
  • Возможность разделения одного физического ГПУ на множество виртуальных. Это первое ГПУ, которое можно масштабировать в обе стороны.
  • 3-е поколение тензорных ядер, в которых ускорено перемножение матриц (активно применяемое в машинном обучении) для всех типов данных: бинарных, INT4, INT8, FP16, Bfloat16, TF32 и FP64.

Особый интерес представляет TF32, представляющий собой тип данных с плавающей точкой, оптимизированный именно для тензорных операций. Благодаря ему скорость перемножения матриц многократно возросла. Ниже приводится производительность в операциях с плавающей точкой (в скобках — для тензорных вычислений), при работе с повышенной (boost) частотой:

A100Tesla V100
FP649.7 (19.5) TFLOPS7.8 (7.8) TFLOPS
FP3219.5 (156) TFLOPS15.7 (15.7) TFLOPS
FP1678 (312) TFLOPS31.4 (125) TFLOPS
INT8(624) TOPS62 TOPS
INT4(1248) TOPS
INT3219.5 TOPS15.7 TOPS

Важной особенностью 3-го поколения тензорных ядер также является поддержка вычислений на т.н. разреженных (с преимущественно нулевыми элементами) матрицах. Как уже рассказывал Gadgets News, разрежение матрицы избавляют от необходимости умножать на нули, благодаря чему снижается избыточная нагрузка и за счет высвободившихся ресурсов повышается производительности. Соответственно в вычислениях на разреженных матрицах производительность A100 увеличивается вдвое (т.е. цифры в её столбце надо умножить на два).

О производительности A100 в реальных задачах позволяют судить следующие результаты:

Кульминацией презентации стал новый суперкомпьютер Nvidia, DGX A100. Ниже приводятся его сравнительные характеристики вместе с двумя предшественниками:

DGX A100DGX-2DGX-1
Дата анонсамай 2020март 2018май 2017
Цена$199 тыс$399 тыс$149 тыс
Энергопотребление6.5 кВт10 кВт3.5 кВт
Вес143 кг159 кг61 кг
Процессоры2 x AMD Rome 77422 x Intel Xeon
Platinum
2 x Intel Xeon
E5-2698 v4
Графические ускорители8 x A100
40 Гб HBM2
16 x Tesla V100
32 Гб HBM2
8 x Tesla V100
16 Гб HBM2
Чипы NVSwitch612
Оперативная память1 Тбдо 1.5 Тб DDR4до 0.5 Тб DDR4
Видеопамять320 Гб
(8 x 40 Гб)
512 Гб HBM2
(16 x 32 Гб)
256 Гб HBM
(8 x 32 Гб)
Постоянная память (SSD)15 Тб NVMe Gen430 Тб NVMe
(до 60 Тб)
4 x 1.92 Тб NVMe
Производительность5 петафлопс2 петафлопс1 петафлопс

А вот так выглядят результаты в реальных тестах (данные по DGX A100 были получены с применением разреженных матриц, вдвое увеличивающих скорость вычислений):

Nvidia