GeForce RTX 3090: подробности о самой производительной в мире игровой видеокарте

Состоявшийся на днях анонс нового поколения видеокарт Nvidia, GeForce RTX 30, не сопровождался большой помпой и победными фанфарами, но может смело считаться одним из главных технологических событий 2020 года. Тому причиной — явный скачок производительности по сравнению с предшествующим поколением, GeForce RTX 20. Вот как выглядят характеристики самых топовых (неоправданно дорогих, но показательных с точки зрения максимальной производительности) игровых видеокарт компании за последние годы:

RTX 3090RTX TitanTitan VGTX Titan XGTX Titan XGTX Titan BlackGTX Titan
Дата релизасентябрь 2020декабрь 2018декабрь 2017август 2016март 2015февраль 2014февраль 2013
Цена$1.5 тыс$2.5 тыс$3 тыс$1.2 тыс$1 тыс$1 тыс$1 тыс
TDP350 Вт280 Вт250 Вт250 Вт250 Вт250 Вт250 Вт
АрхитектураAmpereTuringVoltaPascalMaxwellKeplerKepler
Техпроцесс8 нм12 нм12 нм16 нм28 нм28 нм28 нм
Площадь кристалла628 мм²754 мм²815 мм²471 мм²601 мм²561 мм²561 мм²
Кол-во транзисторов28 млрд18.6 млрд21.1 млрд11.8 млрд8 млрд7.08 млрд7.08 млрд
Плотность размещения транзисторов (на мм²)44.6 млн 124.7 млн25.9 млн25 млн13.3 млн12.6 млн12.6 млн
Тактовая частота (максимальная)1700 МГц1770 МГц1455 МГц1531 МГц1089 МГц980 МГц876 МГц
Кол-во ядер CUDA
(производительность шейдерная, FP32)
10,496
(35.686)
4,608
(16.31)
5,120
(14.9)
3,584
(10.97)
3,072
(6.691)
2,880
(5.645)
2,688
(4.709)
Кол-во тензорных ядер
(производительность тензорная, FP16)
328
(285) 2
576
(130) 3
640
(110) 4
Кол-во трассировочных ядер (производительность трассировочная)82
(69)
72
(32) 5
Кол-во TMU656288320224192240224
Кол-во ROP96969696964848
Память24 Гб GDDR6X24 Гб GDDR612 Гб HBM212 Гб GDDR512 Гб GDDR56 Гб GDDR56 Гб GDDR5
Прирост шейдерной производительности2.2x за 1 год 9 мес+9% за 1 год+36% за 1 год 4 мес+64% за 1 год 5 мес+19% за 1 год 1 мес+20% за 1 год

1 Для сравнения, плотность размещения транзисторов у AMD Radeon RX 5700 XT SE (TSMC 7 нм, 251 мм2, 10.3 млрд) составляет 41 млн на мм2, а у Nvidia A100 (TSMC 7 нм, 826 мм2, 54 млрд) — 65.4 млн. Если бы Nvidia сделала ГПУ GA102 как GA100 (больше плотность транзисторов, но меньше тактовая частота), то скорость RTX 3090 скорее всего перевалила бы за 50 TFLOPS FP32 (но и её цена при этом, очевидно, заметно увеличилась).

1 328 ядер x кол-во операций над разреженными матрицами на одно ядро (8x4x8=256) x 2 x 1700 МГц = 285 TFLOPS.

3 576 ядер x кол-во операций над матрицами (разреженными или плотными) на одно ядро (4x4x4=64) x 2 x 1770 МГц = 130 TFLOPS.

4 640 ядер x кол-во операций над матрицами (разреженными или плотными) на одно ядро (4x4x4=64) x 2 x 1455 МГц = 110 TFLOPS.

5 Расчетное значение по аналогии с RTX 3090 (с поправкой на двукратную разницу в производительности одного ядра): 72 ядер x 1770 МГц ÷ 4 = 32 TFLOPS. Косвенно подтверждается трассировочной производительностью RTX 2080 Ti, в котором то же ГПУ TU102 (34 TFLOPS).

Как видим, новейшая видеокарта Nvidia демонстрирует самый большой прирост производительности за последние годы. В тензорных (если брать разреженные матрицы), трассировочных и шейдерных операциях RTX 3090 превосходит RTX Titan более чем в два раза. Причем достигнутый RTX 3090 уровень быстродействия в шейдерных операциях — 35.7 TFLOPS, приблизился к отметке, обозначенной Тимом Суини (создателем игрового движка Unreal Engine и студии Epic Games) для фотореалистичной графики — 40 TFLOPS. Для сравнения, производительность PlayStation 5 и Xbox Series X, старт продаж которых ожидается в ноябре, составляет 10-12 терафлопс. Причем 14 из 96 потоковых мультипроцессоров (SM) RTX 3090 заблокированы, поэтому потенциальное быстродействие видеокарты искомые 40 TFLOPS превышает.

Надо отметить, что дополнительный набор ядер CUDA может выполнять не только операции с плавающей точкой одинарной точности (FP32), но и целочисленные вычисления (INT). Таким образом, RTX 3090 гарантирована производительность вполовину от заявленных 35.7 TFLOPS (35,686 GFLOPS) — вторая половина достигается, если на её ядрах не требуется делать целочисленные операции. По данным самой Nvidia, в играх целочисленными операциями в среднем нагружены около 36% ядер CUDA. Из чего можно заключить, что доступная играм FP32-производительность составляет 64% от 35,58 GFLOPS, т.е. 22.77 TFLOPS.

Своими впечатляющими характеристиками RTX 3090 обязана нескольким факторам:

  • Переход на новый техпроцесс, с TSMC 12 нм на Samsung 8 нм — это увеличило плотность размещения транзисторов с 24.7 млн до 44.6 млн и способствовало росту числа ядер CUDA более чем в два раза, с 4608 до 10496;
  • Новые потоковые мультипроцессоры (SM) выполняют в два раза больше FP32 операций, чем в GeForce RTX 2080 Ti с архитектурой Turing — число FP32 ядер на один SM увеличилось с 64 до 128;
  • Третье поколение тензорных ядер вдвое быстрее в вычислениях на т.н. плотных матрицах и еще в два раза — на разреженных (с преимущественно нулевыми элементами) матрицах, чем в архитектуре Turing. Таким образом, итоговое быстродействие тензорного ядра на разреженных матрицах выросло в 4 раза. Но поскольку одновременно количество тензорных ядер в SM сократилось вдвое, изменения сказались лишь на операциях с разреженными матрицами — они ускорились в 2 раза;
  • Второе поколение ядер RT (трассировка лучей) до двух раз производительнее;
  • Разработанный Nvidia совместно с Micron стандарт памяти GDDR6X [по сравнению с GDDR6] удваивает скорость передачи данных за такт;
  • Технология Nvidia Reflex, позволяющая измерять и оптимизировать задержку системы;
  • Технология Nvidia RTX IO для быстрой загрузки и распаковки игровых ресурсов с помощью ГПУ, ускорение операций ввода/вывода до 100 раз по сравнению с API жестких дисков и традиционных хранилищ. В сочетании с новым API Microsoft DirectStorage для Windows, RTX IO переносит нагрузку с десятков ЦПУ-ядер на ГПУ RTX, повышая частоту кадров и обеспечивая практически мгновенную загрузку игр;
  • Поддержка декодера (кодека) AV1, который эффективнее существующих кодеков H264, H265 и VP9 (по сравнению с H.264 до 50% снижает пропускную способность, необходимую для видеотрансляций в высоком разрешении);
  • Специальная система охлаждения.

Вот как систему охлаждения описывает сама Nvidia:

Для серии GeForce RTX 30 мы разработали инновационный кулер с двумя осевыми вентиляторами. Один расположен на передней стороне слева, а второй, работающий на выдув, на обратной стороне справа (у GeForce RTX 3070 немного другая конструкция, оба вентилятора расположены в верхней части).

Так как тепло отводится от компонентов в гибридную испарительную камеру, оно распределяется по всей площади видеокарты и большого алюминиевого радиатора. Левый вентилятор выводит из корпуса нагретый радиатором воздух через вентиляционные отверстия карты, а правый выдувает его к выходным отверстиям корпуса.

Обычно печатные платы занимают всю длину видеокарты. Пришлось проявить фантазию, чтобы вместить полноразмерный вентилятор на обратной стороне видеокарты! Для этого наши инженеры разработали компактную печатную плату, уменьшили разъемы питания и NVLink, но смогли обеспечить 18 фаз питания для улучшенной подсистемы питания. Не волнуйтесь, переходник на стандартные разъемы блоков питания поставляется в комплекте с видеокартой Founders Edition.

Эти изменения также позволили освободить на печатной плате место размером с полноценный вентилятор и оставить больше пространства для прохождения воздушного потока.

Новая конструкция Founders Edition бесшумнее традиционных кулеров с двумя осевыми вентиляторами, но при этом почти в два раза эффективнее систем охлаждения предыдущего поколения. Упомянутые изменения конструкции питания и NVLink помогли обеспечить больше пространства для прохождения воздушного потока через самый большой на сегодня радиатор, а увеличенные отверстия и ребра оригинальной формы ускоряют движение воздуха. Куда бы вы ни посмотрели, каждая деталь видеокарт Founders Edition призвана увеличить воздушный поток, уменьшить нагрев и обеспечить самую высокую производительность при минимальном уровне шума.

Эти инновации позволяют обеспечить более высокую производительность без сопутствующего повышения температуры или шума по сравнению с решениями предыдущего поколения.

Nvidia позиционирует топовую RTX 3090 в качестве первой в мире видеокарты с поддержкой игр на разрешении 8K (4320×7680). Однако не все обратили внимание, что речь о т.н. апскейле, а не нативном разрешении. Что вполне естественно — 2-кратного роста производительности при 4-кратном увеличении нативного разрешения явно недостаточно. Компания сообщает, что для игр в 8K на GeForce RTX 3090 разработан новый режим DLSS Ultra Performance. Он использует новую модель суперразрешения на базе алгоритмов ИИ, которая специально разработана для 8K и обеспечивает качество на уровне нативного разрешения, отрисовывая при этом в 9 раз меньше пикселей. Таким образом, нативным разрешением для GeForce RTX 3090 в режиме DLSS Ultra Performance является 2K (1440×2560), которое апскейлится в 8K (4320×7680). Такой подход может показаться чрезмерно консервативным для видеокарты с производительностью 36 TFLOPS, но следует принять во внимание трассировку лучей — она существенно замедляет быстродействие даже самых мощных графических ускорителей.

Для нормальной передачи такого огромного объема данных (72 Гбит/с до сжатия) на телевизор с разрешением 8K (ценой этак в ₽6 млн) посредством одного кабеля, представители семейства GeForce RTX 30 впервые среди видеокарт получили поддержку стандарта HDMI 2.1.

Насколько такое высокое разрешение целесообразно — вопрос отдельный. Рискну утверждать, что даже на разрешении 144p (144×176), которое все еще поддерживается YouTube, степень фотореализма обычного кино окажется выше, чем у графического рендеринга на разрешении 8K. И это при том, что соотношение объемов данных составляет 25 Кб vs 33 Мб. Даже если с учетом поддерживаемой трассировки лучей опустить верхнюю планку до нативного 2K (1440×2560), т.е. 3.7 Мб, разница все равно огромная — получается, что возможности GeForce RTX 3090 в полтораста раз превосходят компьютерные ресурсы, требуемые для рендеринга графики с разрешением 144p. С поправкой на используемые в старом кино 24 к/с и 60 к/с в графическом рендеринге, мы получаем как минимум 300-кратный задел производительности.

И тем не менее среднестатистический зритель догадается, что в первом случае смотрит кино, а во втором — анимацию. По меньшей мере, если главными действующими лицами являются люди или животные, а не природные красоты. Вышеупомянутый Тим Суини, говоря про 40 TFLOPS (по его мнению номинально достаточные для фотореалистичной графики), отметил, что это не относится к человеку. По его словам, в этом вопросе производительность не имеет значения, поскольку нет алгоритмов, которые научились бы воссоздавать в компьютерной игре интерактивные человеческие эмоции и взаимный зрительный контакт её персонажей. Ведь надо не просто нарисовать некоторую эмоцию, а отобразить её на лице в ответ на какие-то определенные действия. А такая возможность, по мнению Суини, появится лишь спустя много десятилетий.

Тогда может дело не только и не столько в разрешении?.. Впрочем, в Nvidia считают иначе:

Визуальные эффекты становятся все более сложными, и с каждым новым поколением разработчики используют больше полигонов, физики и шейдеров для еще большей реалистичности виртуальных миров. Однако при просмотре этих миров в низких разрешениях, например в 720p или 1080p, детали становятся нечеткими, по краям объектов появляется зубчатость, а далекие предметы размываются, что снижает уровень реализма в игре.

При повышении разрешения детали становятся более прорисованными, картинка — более четкой и резкой, а эффекты — впечатляющими. Значительно улучшается сглаживание и видимость удаленных сцен, что в целом позволяет достичь большего эффекта погружения в игру. Разрешение 8K настолько повышает четкость деталей, что игрок может различить отдельные кирпичи и травинки, мгновенно узнать даже удаленные элементы и увидеть волоски, швы на одежде и морщинки на коже персонажей.

В любом случае от улучшенной поддержки трассировки лучей компьютерные игры только выиграют. Эта технология, широко разрекламированная Nvidia еще два года назад с анонсом архитектуры Turing и семейства видеокарт GeForce RTX 30, пока оказывает на игры незначительный визуальный эффект. Но даже он дается ценой значительного проседания частоты кадров в секунду. Например, на топовой связке RTX 2080 Ti  & Core i9-9900K и не самом высоком разрешении 1440p игра Control идет с частотой 80 к/с при выключенной трассировой лучей и 43 к/с (почти вдвое меньше) — при включенной. Ну или с частотой 72 к/с на нативном разрешении 960×1707 с апскейлом до 1440p посредством технологии DLSS 2.0.

Старшие представители семейства GeForce RTX 30 с этой проблемой справляются. Как уже рассказывал Gadgets News, в протестированных нашими коллегами из Eurogamer (Digital Foundry) играх видеокарта RTX 3080 превосходит RTX 2080 минимум на 70%, причем в играх с поддержкой трассировки лучей эта разница еще больше.

Ну а 28 октября, напомню, новое поколение графических ускорителей представит AMD. В отличие от процессоров, составивших Intel серьезную конкуренцию, видеокарты AMD пока еще не претендуют на топовой уровень. Поменяется ли соотношение сил на рынке графических ускорителей с релизом Big Navie, покажет время.

Nvidia, Tom’s Hardware