Nvidia Quadro RTX: первые графические ускорители с архитектурой Turing и аппаратной поддержкой трассировки лучей

Quadro-RTX-8000

Сегодня состоялось событие, которое Nvidia называет самым большим прорывом со времен изобретения CUDA в 2006 году и результатом работы тысячи инженеров в течение десяти лет. Речь идет об архитектуре Turing, главной особенностью которой является аппаратная поддержка трассировки лучей. Это один из важнейших элементов компьютерной графики — от способности графического ускорителя производить в должном объеме соответствующие вычисления зависит насколько реалистичной эта графика будет. На сегодняшней презентации Nvidia представила семейство графических ускорителей Quadro RTX, ГПУ которых включает три вычислительных компонента:

  • Традиционные шейдерные процессоры
  • Новые тензорные ядра для принятия решений (inference). Впервые они появились в прошлогоднем Tesla V100)
  • Трассировочные ядра (RT-ядра) — впервые среди графических ускорителей.

NVIDIA-Turing-vs-Pascal (2)

Эти ядра обещают значительное ускорение вычислений по трассировке лучей, за которые прежде отвечали шейдерные процессоры. Последние, в свою очередь, способны одновременно выполнять как операции с плавающей точкой, так и целочисленные расчеты. На примере представленного сегодня графического ускорителя Quadro RTX 8000 производительность выглядит так:

  • 4,608 шейдерных ядер: 16 TFLOPS (терафлопс, триллионов операций с плавающей точкой в секунду, FP32) + 16 TIPS (триллионов целочисленных операций в секунду);
  • 576 тензорных ядер: 500 TOPS (триллионов операций в секунду) INT4, или 250 TOPS INT8, или 125 TOPS FP16;
  • трассировочные ядра (количество не сообщается): 10 гига-лучей (миллионов лучей) в секунду.

NVIDIA-Turing-vs-Pascal (1)

Для размещения такого числа специализированных процессоров используется кристалл площадью 754 мм², немногим меньше ГПУ от Tesla V100 (815 мм2). Число транзисторов в ГПУ Quadro RTX 8000 — 18.6 млрд (у Tesla V100 — 21.1 млрд).

Благодаря аппаратной поддержке трассировки лучей соответствующая производительность графических ускорителей Turing в шесть раз превосходит видеокарты с архитектурой Pascal. Nvidia проиллюстрировала это на примере двух сцен. Рендеринг одной из них на графическом ускорителе Tesla P100 занял 308 миллисекунд, а другой — 576 миллисекунд. Очень небольшая часть этого времени отводится под растеризацию и шейдинг, а вся остальная — под трассировку лучей. Та же самая работа графическим ускорителем Quadro RTX 8000 была выполнена соответственно за 45 и 86 миллисекунд, т.е. в 6-7 раз быстрее. Помимо аппаратного ускорения, большую роль в приращении скорости сыграла технология DLAA (Deep Learning Anti-Aliasing). Она позволяет генерировать графику на более низком разрешении, а потом просто растягивать изображение, сглаживания «шероховатости» при помощи глубокого обучения.

Quadro-RTX-8000-render

В результате графику с кинематографической реалистичностью, с которой до сих пор справлялась DGX Station за $69 тыс. (20-ядерный процессор Intel Xeon E5-2698 v4, четыре графических ускорителя Tesla V100), в режиме реального времени смог воспроизвести один графический ускоритель Quadro RTX 8000. При этом рекомендованная розничная цена новинки — $10,000.

Для обработки в режиме реального времени таких больших объемов графической информации требуется много памяти — Quadro RTX 8000 получила целых 48 Гб GDDR6 с пропускной способностью 672 Гб/с (у Tesla V100 — 900 Гб/с).

Помимо Quadro RTX 8000, Nvidia версии с менее производительной конфигурацией. Характеристики всей линейки выглядят так (для сравнения в таблице представлены также данные по Quadro GV100):

RTX 8000 RTX 6000 RTX 5000 GV100
Релизная цена $10,000 $6,300 $2,300 $9,000
Релизная дата 4 кв 2018 4 кв 2018 4 кв 2018 март 2018
TDP ? ? ? 250 Вт
ГПУ ? ? ? GV100
Архитектура Turing Turing Turing Volta
Техпроцесс ? ? ? TSMC 12-нм
Площадь ГПУ 754 мм² ? ? 815 мм²
Ядра CUDA 4,608 4,608 3,072 5,120
Тензорные ядра 576 576 384 640
Boost Clock ~1730 МГц (?) ~1730 МГц (?) ? ~1450 МГц
Память 14 Гбит/с GDDR6 14 Гбит/с GDDR6 14 Гбит/с GDDR6 1.7 Гбит/с HBM2
Объем памяти 48 Гб 24 Гб 16 Гб 32 Гб
Разрядность памяти 384-бит 384-бит 256-бит 4096-бит
Пропускная способность памяти 672 Гб/с ? 448 Гб/с 870 Гб/с
Производительность FP16 32 TFLOPS (?) 32 TFLOPS (?) ? 29.6 TFLOPS
Производительность FP32 16 TFLOPS 16 TFLOPS ? 14.8 TFLOPS
Производительность тензорная 500 TOPS
(INT4)
500 TOPS
(INT4)
? 118.5 TFLOPS
(FP16)
Производительность трассировочная 10 млн
лучей/с
10 млн
лучей/с
6 млн
лучей/с

Как обычно, на базе новых графических ускорителей Nvidia предлагает и серверные решения — например, стойка из четырех серверов по восемь Quadro RTX 8000 каждый обойдется в полмиллиона долларов. Энергопотребление такой стойки составляет 13 кВт.

По словам Дженсена Хуанга, «Turing – это самое значимое решение Nvidia за последнее десятилетие. Гибридный рендеринг кардинальным образом изменит всю индустрию и откроет замечательные возможности, которые привнесут в нашу жизнь более красивые образы, насыщенные развлечения и интерактивные возможности. Появление возможности трассировки лучей в реальном времени – это Святой Грааль нашей индустрии«.

Впрочем, едва ли новая технология появится в играх скоро. Последние поколения игровых консолей Sony и Microsoft выпускаются на базе графических ускорителей AMD, в которых встроенное аппаратное ускорение трассировки лучей отсутствует. Релиз преемников PlayStation 4 Pro и Xbox One X ожидается в 2020 году, а перед этим первые образцы консолей несколько месяцев вероятно будут находится в распоряжении разработчиков. Таким образом, на завершение разработки новых ГПУ для игровых приставок 9-го поколения у AMD остается около года — вряд ли аппаратная поддержка трассировки лучей будет освоена этой компанией так скоро.

Realistic computer graphics

Не стоит питать больших иллюзий и относительно кинематографической реалистичности компьютерных игр в обозримом будущем. В продемонстрированных Nvidia роликах обращает на себя внимание отсутствие кадров с человеческим лицом — между тем оно, как правило, и выдает компьютерную анимацию. Причем если в демонстрационных роликах с заранее заданным сюжетом правдоподобно генерировать мимику лица может и получится, то в играх её придется сделать более интерактивной — а по этой части проблемы признает не кто иной как Тим Суини, создатель игрового движка Unreal Engine и студии Epic Games