Nvidia GeForce RTX 4090: «квантовый скачок» в игровой производительности
На днях состоялась долгожданная презентация компанией Nvidia её нового поколения игровых видеокарт, RTX 40. Их главная особенность — 4-нм техпроцесс, архитектура Ada Lovelace и эксклюзивная поддержка DLSS 3, благодаря которым модели новой серии в разы превосходят своих непосредственных предшественников по производительности. Вот как выглядят известные на сегодня характеристики ГПУ и анонсированных видеокарт 40-й серии:
AD102 | RTX 6000 (Ada Lovelace) | RTX 4090 | RTX 4080 (16 Гб) | RTX 4080 (12 Гб) | RTX 3090 Ti | |
Релиз | октябрь 2022 | ноябрь 2022 | ноябрь 2022 | март 2022 | ||
Цена в день релиза | $1.6 тыс | $1.2 тыс | $900 | $2 тыс | ||
Энергопотребление | 300 Вт | 450 Вт | 320 Вт | 285 Вт | 450 Вт | |
Техпроцесс | 4-нм TSMC | 4-нм TSMC | 4-нм TSMC | 4-нм TSMC | 4-нм TSMC | 8-нм Samsung |
Архитектура | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ampere |
ГПУ | — | AD102 | AD102 | AD103 | AD104 | GA102 |
Площадь ГПУ | 608.4 мм2 | 608.4 мм2 | 608.4 мм2 | 378.6 мм2 | 294.5 мм2 | 628 мм² |
Кол-во транзисторов | 76.3 млрд | 76.3 млрд | 76.3 млрд | 45.9 млрд | 35.8 млрд | 28.3 млрд |
Кол-во ядер CUDA | 18,432 (144 x 128) | 18,176 (142 x 128) | 16,384 (128 x 128) | 9,728 (из 10,240) | 7,680 | 10,752 |
Кол-во тензорных ядер | 576 | 568 | 512 | 320 | 240 | 336 |
Кол-во трассировочных ядер | 144 | 142 | 128 | 80 | 60 | 84 |
Кол-во TMU (тензорные блоки) | 576 | 568 | 512 | 304 | 240 | 336 |
Кол-во ROP (растровые блоки) | 192 | 192 | 192 | 112 | 80 | 112 |
Тактовая частота (базовая / с ускорением) | — | 2.36 ГГц 2.63 ГГц | 2.23 ГГц 2.52 ГГц | 2.21 ГГц 2.51 ГГц | 2.31 ГГц 2.61 ГГц | 1.67 ГГц 1.86 ГГц |
Память | — | 48 Гб GDDR6 | 24 Гб GDDR6X | 16 Гб GDDR6X | 12 Гб GDDR6X | 24 Гб GDDR6X |
Пропускная способность памяти | — | 1008 Гб/с | 736 Гб/с | 504 Гб/с | 1008 Гб/с | |
Производительность (на максимальной частоте) | 95.42 TFLOPS | 82.58 TFLOPS | 48.74 TFLOPS | 40.09 TFLOPS | 40.00 TFLOPS |
Согласно ряду источников, количество растровых блоков (ROP) у RTX 4090 соответствует их номинальному количеству у ГПУ AD102, т.е. в отличие от шейдерных процессоров (CUDA, TMU, тензорные и трассировочные ядра) заблокированных растровых блоков у RTX 4090 нет. Это соответствует политике Nvidia в отношении предыдущего поколения двух самых старших видеокарт — у RTX 3090 Ti и RTX 3090 также было одинаковое количество ROP (112).
Таким образом, очередное поколение видеокарт Nvidia ознаменовалось более чем 2-кратным приростом производительности — или «квантовым скачком», как гордо заявил на презентации глава компании Дженсен Хуанг. Даже с поправкой на то, что примерно треть (а точнее 36%) FP-ядер в играх задействована в целочисленных операциях (об этом говорится в документации к архитектуре Turing, и это может быть справедливо для Ampere с Ada Lovelace), получается больше 50 TFLOPS. Если предположить, что у будущей RTX 4090 Ti будет полная версия ГПУ AD102, то её производительность (с поправкой на вышеупомянутые 36%) превысит 60 TFLOPS. И это при том, что у самой производительной из новейших игровых приставок (Xbox Series X) — 12 TFLOPS, а у самых массовых игровых видеокарт (22.85% геймеров в августе 2022 по данным Steam) скорость колеблется от 2 до 6.5 TFLOPS:
- GTX 1060 (4.4 TFLOPS) — 6.60%
- GTX 1650 (3 TFLOPS) — 6.24%
- RTX 2060 (6.5 TFLOPS) — 5.02%
- GTX 1050 Ti (2 TFLOPS) — 4.99%
Причем Nvidia обещает 40-й серии своих видеокарт даже еще больший прирост производительности — благодаря 3-му поколению технологии DLSS:
DLSS 3 анализирует последовательные кадры и данные движения, полученные от нового ускорителя оптического потока в графических процессорах серии GeForce RTX 40, для создания дополнительных высококачественных кадров без ущерба для качества изображения или скорости отклика.
Особенно это актуально в играх, где используется трассировка лучей, оказывающая очень большую нагрузку на производительности. Казалось бы 82.58 (с поправкой на 36% — 52.85) TFLOPS — это очень много, и в играх (ориентированных на уровень Xbox Series X и RTX 2060) такое быстродействие востребовано не будет. Однако новое поколение позиционируется прежде всего для игр с полной трассировкой лучей — в т.ч. уже существующих, модифицированных с помощью разработанной Nvidia платформы RTX Remix. По данным самой Nvidia, в игре Cyberpunk 2077 с полной трассировкой лучей видеокарта RTX 4090 (в конфигурации с процессором Intel Core i9-12900K и 32 Гб оперативной памяти) на разрешении 4K вытягивает всего 22 к/с (со включенным DLSS 3 — 85 к/с). Таким образом, даже огромная производительность RTX 4090 не справляется с трассировкой лучей — если бы не программные ухищрения в виде дорисовки промежуточных кадров. В компании признают, что отрисовка дополнительных кадров не улучшает время отклика, но считают, что задержка будет компенсирована технологиями Reflex и Super Resolution, также являющимися частью DLSS 3.
В любом случае относительно видеокарт предыдущего поколения прирост производительности получился весьма значительным, а старшая модель окончательно перешла рубеж, 6 лет назад названный Тимом Суини для номинального достижения в играх фотореалистичной графики. Кроме того, игровые видеокарты вполне могут быть задействованы и в профессиональных вычислениях — машинном обучении и обработке видео. Серия RTX 40 обзавелась аппаратной поддержкой AV1 (обновленная версия которого на днях получила 18-34% прирост быстродействия) — что также будет востребовано при видеотрансляции игрового процесса. Ну и конечно много производительности не бывает, когда речь идет об играх виртуальной реальности.
Что касается самой младшей из пока анонсированных моделей, то номинально её производительность идентична самой старшей модели предыдущего поколения, RTX 3090 Ti (на максимальной тактовой частоте) — при снижении релизной цены более чем вдвое и номинального энергопотребления более чем на треть. В скобках указывается процент от соответствующих данных RTX 4090:
RTX 4080 (12 Гб) | RTX 3090 Ti | |
Дата релиза | октябрь 2022 | март 2022 |
Цена в день релиза | $900 | $2 тыс |
Энергопотребление | 285 Вт | 450 Вт |
Текстурная производительность | 626.4 ГТекс/с (49%) | 625.0 ГТекс/с (48%) |
Пиксельная производительность | 208.8 ГПикс/с (43%) | 208.3 ГТекс/с (43%) |
Номинальная (без поправки на 36%) производительность FP32 | 40.09 TFLOPS (49%) | 40.00 TFLOPS (48%) |
Еще одной интересной аппаратной новинкой Nvidia стал новый автомобильный компьютер, Drive Thor. Его релиз намечен на 2025, взамен изначально запланированного к этому сроку Drive Atlan. Последнему была обещана производительность на уровне 1000 TOPS в операциях INT8, тогда как Drive Thor приписывается уже 2000 FLOPS FP8. Это делает затруднительным сравнение Drive Thor не только с его предшественником, Orin (275 TOPS INT8), но и автомобильными компьютерами других компаний — например, двухчиповой системой Tesla (144 TOPS INT8). А, например, представленный в 2017 году Drive PX Pegasus компанией Nvidia в качестве первого компьютера для автопилота 5-го уровня, имел производительность 320 TOPS INT8.
С использованием данных Nvidia, Tom’s Hardware