Nvidia раскрыла подробные спецификации H100 и RTX 4090

Компания Nvidia опубликовала подробные спецификации (Whitepaper) своих самых производительных на сегодня графических ускорителей, H100 (для профессиональных решений) и RTX 4090 (преимущественно для игр). Как оказалось, в оценке количества блоков растеризации (ROP) у RTX 4090 источники ошиблись — их у видеокарты не 192, а 176. Вот как выглядят полные характеристики из официального источника (курсивом — недостающие данные из других источников, или полученные расчетно):

H100 (полная версия / SXM5 / PCIe 5)AD102 (полная версия ГПУ)RTX 4090RTX 3090 TiRTX 2080 Ti
АрхитектураHopperAda LovelaceAda LovelaceAmpereTuring
TDPдо 700 Вт
300-350 Вт
450 Вт450 Вт260 Вт
ГПУGH100AD102AD102GA102TU102
Площадь ГПУ814 мм2608.5 мм2608.5 мм2628.4 мм2754 мм2
ТехпроцессTSMC 4 нмTSMC 4 нмTSMC 4 нмSamsung 8 нмTSMC 12 нм
Кол-во транзисторов80 млрд76.3 млрд76.3 млрд28.3 млрд18.6 млрд
Кол-во ядер CUDA18,432
16,896
14,592
18,43216,38410,7524,352
Кол-во тензорных ядер, скорость576
528
456
576512
(4-е поколение)
660.6 FP8
336
(3-е поколение)
544 (2-е поколение)
Кол-во RT (блоков трассировки лучей), скорость 144128
(3-е поколение)
191 TFLOPS
84 (2-е поколение)
78.1 TFLOPS
68 (1-е поколение)
42.9 TFLOPS
Кол-во TMU (текстурные блоки), скорость456 (PCIe)576512
1290.2 Мтекс/с
336
625 Мтекс/с
272
444.7 Мтекс/с
Кол-во ROP (растровые блоки), скорость24 (PCIe)192176
443.5 Мпикс/с
112
208.3 Мпикс/с
88
143.9 Мпикс/с
Тактовая частота (пиковая)1650 МГц (PCIe)2520 МГц1860 МГц1635 МГц
Скорость вычислений с плавающей точкой (FP32)73.1 TFLOPS
67 TFLOPS
51 TFLOPS
92.9 TFLOPS82.6 TFLOPS40 TFLOPS14.2 TFLOPS
Память, пропускная способность80 Гб HBM324 Гб GDDR6X
1008 Гб/с
24 Гб GDDR6X
1008 Гб/с
11 Гб GDDR6
616 Гб/с
Кэш L136 Мб
33 Мб
28.5 Мб
18 Мб16 Мб10.5 Мб6.375 Мб
Кэш L260 Мб
50 Мб
50 Мб
96 Мб72 Мб6 Мб5.5 Мб

На производительности самых топовых (на сегодня) представителей трех последний поколений игровых видеокарт Nvidia стоит остановиться подробнее:

RTX 4090RTX 3090 TiRTX 2080 Ti
Релизоктябрь 2022март 2022сентябрь 2018
Цена в день релиза$1.6 тыс$2 тыс$1 тыс
TDP450 Вт450 Вт260 Вт
Скорость вычислений с плавающей точкой (FP32)82.6 TFLOPS
2.1x
40 TFLOPS
2.8x
14.2 TFLOPS
Скорость трассировки лучей191 TFLOPS
2.4x
78.1 TFLOPS
1.8x
42.9 TFLOPS
Скорость заполнения текстур1290.2 Мтекс/с
2.1x
625 Мтекс/с
1.4x
444.7 Мтекс/с
Скорость заполнения пикселей443.5 Мпикс/с
2.1x
208.3 Мпикс/с
1.4x
143.9 Мпикс/с

Приведенное в таблице сравнение не вполне корректно, поскольку в рамках своих поколений все три модели относятся к разным категориям производительности. Но тем сильнее впечатление от RTX 4090 по сравнению с более старшей моделью предыдущего поколения, RTX 3090 Ti. За два года (если вести отсчет от RTX 3090, чей релиз состоялся в сентябре 2020) сугубо аппаратная скорость топовой видеокарты выросла вдвое. А благодаря DLSS 3 (эксклюзивному для серии RTX 40), измеряемая в кадрах в секунду скорость в играх с полной трассировкой лучей вырастает еще больше, поэтому итоговый прирост производительности будет 3-4-кратным. Впрочем, последнее слово остается за игровыми тестами.

Nvidia (архитектура H100, архитектура Ada Lovelace)