Nvidia GeForce RTX 4090: «квантовый скачок» в игровой производительности

Опубликовано 22:13 25.09.202214:27 26.09.2022 автором Егор Ликоспастов

На днях состоялась долгожданная презентация компанией Nvidia её нового поколения игровых видеокарт, RTX 40. Их главная особенность — 4-нм техпроцесс, архитектура Ada Lovelace и эксклюзивная поддержка DLSS 3, благодаря которым модели новой серии в разы превосходят своих непосредственных предшественников по производительности. Вот как выглядят известные на сегодня характеристики ГПУ и анонсированных видеокарт 40-й серии:

	AD102	RTX 6000 (Ada Lovelace)	RTX 4090	RTX 4080 (16 Гб)	RTX 4080 (12 Гб)	RTX 3090 Ti
Релиз			октябрь 2022	ноябрь 2022	ноябрь 2022	март 2022
Цена в день релиза			$1.6 тыс	$1.2 тыс	$900	$2 тыс
Энергопотребление		300 Вт	450 Вт	320 Вт	285 Вт	450 Вт
Техпроцесс	4-нм TSMC	4-нм TSMC	4-нм TSMC	4-нм TSMC	4-нм TSMC	8-нм Samsung
Архитектура	Ada Lovelace	Ada Lovelace	Ada Lovelace	Ada Lovelace	Ada Lovelace	Ampere
ГПУ	—	AD102	AD102	AD103	AD104	GA102
Площадь ГПУ	608.4 мм²	608.4 мм²	608.4 мм²	378.6 мм²	294.5 мм²	628 мм²
Кол-во транзисторов	76.3 млрд	76.3 млрд	76.3 млрд	45.9 млрд	35.8 млрд	28.3 млрд
Кол-во ядер CUDA	18,432 (144 x 128)	18,176 (142 x 128)	16,384 (128 x 128)	9,728 (из 10,240)	7,680	10,752
Кол-во тензорных ядер	576	568	512	320	240	336
Кол-во трассировочных ядер	144	142	128	80	60	84
Кол-во TMU (тензорные блоки)	576	568	512	304	240	336
Кол-во ROP (растровые блоки)	192	192	192	112	80	112
Тактовая частота (базовая / с ускорением)	—	2.36 ГГц 2.63 ГГц	2.23 ГГц 2.52 ГГц	2.21 ГГц 2.51 ГГц	2.31 ГГц 2.61 ГГц	1.67 ГГц 1.86 ГГц
Память	—	48 Гб GDDR6	24 Гб GDDR6X	16 Гб GDDR6X	12 Гб GDDR6X	24 Гб GDDR6X
Пропускная способность памяти	—		1008 Гб/с	736 Гб/с	504 Гб/с	1008 Гб/с
Производительность (на максимальной частоте)		95.42 TFLOPS	82.58 TFLOPS	48.74 TFLOPS	40.09 TFLOPS	40.00 TFLOPS

Согласно ряду источников, количество растровых блоков (ROP) у RTX 4090 соответствует их номинальному количеству у ГПУ AD102, т.е. в отличие от шейдерных процессоров (CUDA, TMU, тензорные и трассировочные ядра) заблокированных растровых блоков у RTX 4090 нет. Это соответствует политике Nvidia в отношении предыдущего поколения двух самых старших видеокарт — у RTX 3090 Ti и RTX 3090 также было одинаковое количество ROP (112).

Таким образом, очередное поколение видеокарт Nvidia ознаменовалось более чем 2-кратным приростом производительности — или «квантовым скачком», как гордо заявил на презентации глава компании Дженсен Хуанг. Даже с поправкой на то, что примерно треть (а точнее 36%) FP-ядер в играх задействована в целочисленных операциях (об этом говорится в документации к архитектуре Turing, и это может быть справедливо для Ampere с Ada Lovelace), получается больше 50 TFLOPS. Если предположить, что у будущей RTX 4090 Ti будет полная версия ГПУ AD102, то её производительность (с поправкой на вышеупомянутые 36%) превысит 60 TFLOPS. И это при том, что у самой производительной из новейших игровых приставок (Xbox Series X) — 12 TFLOPS, а у самых массовых игровых видеокарт (22.85% геймеров в августе 2022 по данным Steam) скорость колеблется от 2 до 6.5 TFLOPS:

GTX 1060 (4.4 TFLOPS) — 6.60%
GTX 1650 (3 TFLOPS) — 6.24%
RTX 2060 (6.5 TFLOPS) — 5.02%
GTX 1050 Ti (2 TFLOPS) — 4.99%

Причем Nvidia обещает 40-й серии своих видеокарт даже еще больший прирост производительности — благодаря 3-му поколению технологии DLSS:

DLSS 3 анализирует последовательные кадры и данные движения, полученные от нового ускорителя оптического потока в графических процессорах серии GeForce RTX 40, для создания дополнительных высококачественных кадров без ущерба для качества изображения или скорости отклика.

Особенно это актуально в играх, где используется трассировка лучей, оказывающая очень большую нагрузку на производительности. Казалось бы 82.58 (с поправкой на 36% — 52.85) TFLOPS — это очень много, и в играх (ориентированных на уровень Xbox Series X и RTX 2060) такое быстродействие востребовано не будет. Однако новое поколение позиционируется прежде всего для игр с полной трассировкой лучей — в т.ч. уже существующих, модифицированных с помощью разработанной Nvidia платформы RTX Remix. По данным самой Nvidia, в игре Cyberpunk 2077 с полной трассировкой лучей видеокарта RTX 4090 (в конфигурации с процессором Intel Core i9-12900K и 32 Гб оперативной памяти) на разрешении 4K вытягивает всего 22 к/с (со включенным DLSS 3 — 85 к/с). Таким образом, даже огромная производительность RTX 4090 не справляется с трассировкой лучей — если бы не программные ухищрения в виде дорисовки промежуточных кадров. В компании признают, что отрисовка дополнительных кадров не улучшает время отклика, но считают, что задержка будет компенсирована технологиями Reflex и Super Resolution, также являющимися частью DLSS 3.

В любом случае относительно видеокарт предыдущего поколения прирост производительности получился весьма значительным, а старшая модель окончательно перешла рубеж, 6 лет назад названный Тимом Суини для номинального достижения в играх фотореалистичной графики. Кроме того, игровые видеокарты вполне могут быть задействованы и в профессиональных вычислениях — машинном обучении и обработке видео. Серия RTX 40 обзавелась аппаратной поддержкой AV1 (обновленная версия которого на днях получила 18-34% прирост быстродействия) — что также будет востребовано при видеотрансляции игрового процесса. Ну и конечно много производительности не бывает, когда речь идет об играх виртуальной реальности.

Что касается самой младшей из пока анонсированных моделей, то номинально её производительность идентична самой старшей модели предыдущего поколения, RTX 3090 Ti (на максимальной тактовой частоте) — при снижении релизной цены более чем вдвое и номинального энергопотребления более чем на треть. В скобках указывается процент от соответствующих данных RTX 4090:

	RTX 4080 (12 Гб)	RTX 3090 Ti
Дата релиза	октябрь 2022	март 2022
Цена в день релиза	$900	$2 тыс
Энергопотребление	285 Вт	450 Вт
Текстурная производительность	626.4 ГТекс/с (49%)	625.0 ГТекс/с (48%)
Пиксельная производительность	208.8 ГПикс/с (43%)	208.3 ГТекс/с (43%)
Номинальная (без поправки на 36%) производительность FP32	40.09 TFLOPS (49%)	40.00 TFLOPS (48%)

Еще одной интересной аппаратной новинкой Nvidia стал новый автомобильный компьютер, Drive Thor. Его релиз намечен на 2025, взамен изначально запланированного к этому сроку Drive Atlan. Последнему была обещана производительность на уровне 1000 TOPS в операциях INT8, тогда как Drive Thor приписывается уже 2000 FLOPS FP8. Это делает затруднительным сравнение Drive Thor не только с его предшественником, Orin (275 TOPS INT8), но и автомобильными компьютерами других компаний — например, двухчиповой системой Tesla (144 TOPS INT8). А, например, представленный в 2017 году Drive PX Pegasus компанией Nvidia в качестве первого компьютера для автопилота 5-го уровня, имел производительность 320 TOPS INT8.

С использованием данных Nvidia, Tom’s Hardware

Nvidia GeForce RTX 4090: «квантовый скачок» в игровой производительности

Добавить комментарий Отменить ответ

Рубрики