Nvidia раскрыла подробные спецификации H100 и RTX 4090
Компания Nvidia опубликовала подробные спецификации (Whitepaper) своих самых производительных на сегодня графических ускорителей, H100 (для профессиональных решений) и RTX 4090 (преимущественно для игр). Как оказалось, в оценке количества блоков растеризации (ROP) у RTX 4090 источники ошиблись — их у видеокарты не 192, а 176. Вот как выглядят полные характеристики из официального источника (курсивом — недостающие данные из других источников, или полученные расчетно):
H100 (полная версия / SXM5 / PCIe 5) | AD102 (полная версия ГПУ) | RTX 4090 | RTX 3090 Ti | RTX 2080 Ti | |
Архитектура | Hopper | Ada Lovelace | Ada Lovelace | Ampere | Turing |
TDP | до 700 Вт 300-350 Вт | — | 450 Вт | 450 Вт | 260 Вт |
ГПУ | GH100 | AD102 | AD102 | GA102 | TU102 |
Площадь ГПУ | 814 мм2 | 608.5 мм2 | 608.5 мм2 | 628.4 мм2 | 754 мм2 |
Техпроцесс | TSMC 4 нм | TSMC 4 нм | TSMC 4 нм | Samsung 8 нм | TSMC 12 нм |
Кол-во транзисторов | 80 млрд | 76.3 млрд | 76.3 млрд | 28.3 млрд | 18.6 млрд |
Кол-во ядер CUDA | 18,432 16,896 14,592 | 18,432 | 16,384 | 10,752 | 4,352 |
Кол-во тензорных ядер, скорость | 576 528 456 | 576 | 512 (4-е поколение) 660.6 FP8 | 336 (3-е поколение) — | 544 (2-е поколение) — |
Кол-во RT (блоков трассировки лучей), скорость | — | 144 | 128 (3-е поколение) 191 TFLOPS | 84 (2-е поколение) 78.1 TFLOPS | 68 (1-е поколение) 42.9 TFLOPS |
Кол-во TMU (текстурные блоки), скорость | 456 (PCIe) | 576 | 512 1290.2 Мтекс/с | 336 625 Мтекс/с | 272 444.7 Мтекс/с |
Кол-во ROP (растровые блоки), скорость | 24 (PCIe) | 192 | 176 443.5 Мпикс/с | 112 208.3 Мпикс/с | 88 143.9 Мпикс/с |
Тактовая частота (пиковая) | 1650 МГц (PCIe) | 2520 МГц | 1860 МГц | 1635 МГц | |
Скорость вычислений с плавающей точкой (FP32) | 73.1 TFLOPS 67 TFLOPS 51 TFLOPS | 92.9 TFLOPS | 82.6 TFLOPS | 40 TFLOPS | 14.2 TFLOPS |
Память, пропускная способность | 80 Гб HBM3 | — | 24 Гб GDDR6X 1008 Гб/с | 24 Гб GDDR6X 1008 Гб/с | 11 Гб GDDR6 616 Гб/с |
Кэш L1 | 36 Мб 33 Мб 28.5 Мб | 18 Мб | 16 Мб | 10.5 Мб | 6.375 Мб |
Кэш L2 | 60 Мб 50 Мб 50 Мб | 96 Мб | 72 Мб | 6 Мб | 5.5 Мб |
На производительности самых топовых (на сегодня) представителей трех последний поколений игровых видеокарт Nvidia стоит остановиться подробнее:
RTX 4090 | RTX 3090 Ti | RTX 2080 Ti | |
Релиз | октябрь 2022 | март 2022 | сентябрь 2018 |
Цена в день релиза | $1.6 тыс | $2 тыс | $1 тыс |
TDP | 450 Вт | 450 Вт | 260 Вт |
Скорость вычислений с плавающей точкой (FP32) | 82.6 TFLOPS 2.1x | 40 TFLOPS 2.8x | 14.2 TFLOPS — |
Скорость трассировки лучей | 191 TFLOPS 2.4x | 78.1 TFLOPS 1.8x | 42.9 TFLOPS — |
Скорость заполнения текстур | 1290.2 Мтекс/с 2.1x | 625 Мтекс/с 1.4x | 444.7 Мтекс/с — |
Скорость заполнения пикселей | 443.5 Мпикс/с 2.1x | 208.3 Мпикс/с 1.4x | 143.9 Мпикс/с — |
Приведенное в таблице сравнение не вполне корректно, поскольку в рамках своих поколений все три модели относятся к разным категориям производительности. Но тем сильнее впечатление от RTX 4090 по сравнению с более старшей моделью предыдущего поколения, RTX 3090 Ti. За два года (если вести отсчет от RTX 3090, чей релиз состоялся в сентябре 2020) сугубо аппаратная скорость топовой видеокарты выросла вдвое. А благодаря DLSS 3 (эксклюзивному для серии RTX 40), измеряемая в кадрах в секунду скорость в играх с полной трассировкой лучей вырастает еще больше, поэтому итоговый прирост производительности будет 3-4-кратным. Впрочем, последнее слово остается за игровыми тестами.
Nvidia (архитектура H100, архитектура Ada Lovelace)