Nvidia GeForce RTX 4090: «квантовый скачок» в игровой производительности

На днях состоялась долгожданная презентация компанией Nvidia её нового поколения игровых видеокарт, RTX 40. Их главная особенность — 4-нм техпроцесс, архитектура Ada Lovelace и эксклюзивная поддержка DLSS 3, благодаря которым модели новой серии в разы превосходят своих непосредственных предшественников по производительности. Вот как выглядят известные на сегодня характеристики ГПУ и анонсированных видеокарт 40-й серии:

AD102RTX 6000 (Ada Lovelace)RTX 4090RTX 4080 (16 Гб)RTX 4080 (12 Гб)RTX 3090 Ti
Релизоктябрь 2022ноябрь 2022ноябрь 2022март 2022
Цена в день релиза$1.6 тыс$1.2 тыс$900$2 тыс
Энергопотребление300 Вт450 Вт320 Вт285 Вт450 Вт
Техпроцесс4-нм TSMC4-нм TSMC4-нм TSMC4-нм TSMC4-нм TSMC8-нм Samsung
АрхитектураAda LovelaceAda LovelaceAda LovelaceAda LovelaceAda LovelaceAmpere
ГПУAD102AD102AD103AD104GA102
Площадь ГПУ608.4 мм2608.4 мм2608.4 мм2378.6 мм2294.5 мм2628 мм²
Кол-во транзисторов76.3 млрд76.3 млрд76.3 млрд45.9 млрд35.8 млрд28.3 млрд
Кол-во ядер CUDA18,432
(144 x 128)
18,176
(142 x 128)
16,384
(128 x 128)
9,728 (из 10,240)7,68010,752
Кол-во тензорных ядер576568512320240336
Кол-во трассировочных ядер144142128806084
Кол-во TMU (тензорные блоки)576568512304240336
Кол-во ROP (растровые блоки)19219219211280112
Тактовая частота (базовая / с ускорением)2.36 ГГц
2.63 ГГц
2.23 ГГц
2.52 ГГц
2.21 ГГц
2.51 ГГц
2.31 ГГц
2.61 ГГц
1.67 ГГц
1.86 ГГц
Память48 Гб GDDR624 Гб GDDR6X16 Гб GDDR6X12 Гб GDDR6X24 Гб GDDR6X
Пропускная способность памяти1008 Гб/с736 Гб/с504 Гб/с1008 Гб/с
Производительность (на максимальной частоте)95.42 TFLOPS82.58 TFLOPS48.74 TFLOPS40.09 TFLOPS40.00 TFLOPS

Согласно ряду источников, количество растровых блоков (ROP) у RTX 4090 соответствует их номинальному количеству у ГПУ AD102, т.е. в отличие от шейдерных процессоров (CUDA, TMU, тензорные и трассировочные ядра) заблокированных растровых блоков у RTX 4090 нет. Это соответствует политике Nvidia в отношении предыдущего поколения двух самых старших видеокарт — у RTX 3090 Ti и RTX 3090 также было одинаковое количество ROP (112).

Таким образом, очередное поколение видеокарт Nvidia ознаменовалось более чем 2-кратным приростом производительности — или «квантовым скачком», как гордо заявил на презентации глава компании Дженсен Хуанг. Даже с поправкой на то, что примерно треть (а точнее 36%) FP-ядер в играх задействована в целочисленных операциях (об этом говорится в документации к архитектуре Turing, и это может быть справедливо для Ampere с Ada Lovelace), получается больше 50 TFLOPS. Если предположить, что у будущей RTX 4090 Ti будет полная версия ГПУ AD102, то её производительность (с поправкой на вышеупомянутые 36%) превысит 60 TFLOPS. И это при том, что у самой производительной из новейших игровых приставок (Xbox Series X) — 12 TFLOPS, а у самых массовых игровых видеокарт (22.85% геймеров в августе 2022 по данным Steam) скорость колеблется от 2 до 6.5 TFLOPS:

  • GTX 1060 (4.4 TFLOPS) — 6.60%
  • GTX 1650 (3 TFLOPS) — 6.24%
  • RTX 2060 (6.5 TFLOPS) — 5.02%
  • GTX 1050 Ti (2 TFLOPS) — 4.99%

Причем Nvidia обещает 40-й серии своих видеокарт даже еще больший прирост производительности — благодаря 3-му поколению технологии DLSS:

DLSS 3 анализирует последовательные кадры и данные движения, полученные от нового ускорителя оптического потока в графических процессорах серии GeForce RTX 40, для создания дополнительных высококачественных кадров без ущерба для качества изображения или скорости отклика.

Особенно это актуально в играх, где используется трассировка лучей, оказывающая очень большую нагрузку на производительности. Казалось бы 82.58 (с поправкой на 36% — 52.85) TFLOPS — это очень много, и в играх (ориентированных на уровень Xbox Series X и RTX 2060) такое быстродействие востребовано не будет. Однако новое поколение позиционируется прежде всего для игр с полной трассировкой лучей — в т.ч. уже существующих, модифицированных с помощью разработанной Nvidia платформы RTX Remix. По данным самой Nvidia, в игре Cyberpunk 2077 с полной трассировкой лучей видеокарта RTX 4090 (в конфигурации с процессором Intel Core i9-12900K и 32 Гб оперативной памяти) на разрешении 4K вытягивает всего 22 к/с (со включенным DLSS 3 — 85 к/с). Таким образом, даже огромная производительность RTX 4090 не справляется с трассировкой лучей — если бы не программные ухищрения в виде дорисовки промежуточных кадров. В компании признают, что отрисовка дополнительных кадров не улучшает время отклика, но считают, что задержка будет компенсирована технологиями Reflex и Super Resolution, также являющимися частью DLSS 3.

В любом случае относительно видеокарт предыдущего поколения прирост производительности получился весьма значительным, а старшая модель окончательно перешла рубеж, 6 лет назад названный Тимом Суини для номинального достижения в играх фотореалистичной графики. Кроме того, игровые видеокарты вполне могут быть задействованы и в профессиональных вычислениях — машинном обучении и обработке видео. Серия RTX 40 обзавелась аппаратной поддержкой AV1 (обновленная версия которого на днях получила 18-34% прирост быстродействия) — что также будет востребовано при видеотрансляции игрового процесса. Ну и конечно много производительности не бывает, когда речь идет об играх виртуальной реальности.

Что касается самой младшей из пока анонсированных моделей, то номинально её производительность идентична самой старшей модели предыдущего поколения, RTX 3090 Ti (на максимальной тактовой частоте) — при снижении релизной цены более чем вдвое и номинального энергопотребления более чем на треть. В скобках указывается процент от соответствующих данных RTX 4090:

RTX 4080
(12 Гб)
RTX 3090 Ti
Дата релизаоктябрь 2022март 2022
Цена в день релиза$900$2 тыс
Энергопотребление285 Вт450 Вт
Текстурная производительность626.4 ГТекс/с
(49%)
625.0 ГТекс/с
(48%)
Пиксельная производительность208.8 ГПикс/с
(43%)
208.3 ГТекс/с
(43%)
Номинальная (без поправки на 36%) производительность FP3240.09 TFLOPS
(49%)
40.00 TFLOPS
(48%)

Еще одной интересной аппаратной новинкой Nvidia стал новый автомобильный компьютер, Drive Thor. Его релиз намечен на 2025, взамен изначально запланированного к этому сроку Drive Atlan. Последнему была обещана производительность на уровне 1000 TOPS в операциях INT8, тогда как Drive Thor приписывается уже 2000 FLOPS FP8. Это делает затруднительным сравнение Drive Thor не только с его предшественником, Orin (275 TOPS INT8), но и автомобильными компьютерами других компаний — например, двухчиповой системой Tesla (144 TOPS INT8). А, например, представленный в 2017 году Drive PX Pegasus компанией Nvidia в качестве первого компьютера для автопилота 5-го уровня, имел производительность 320 TOPS INT8.

С использованием данных Nvidia, Tom’s Hardware