Nvidia Quadro RTX: первые графические ускорители с архитектурой Turing и аппаратной поддержкой трассировки лучей

Опубликовано 16:41 14.08.201817:55 28.09.2018 автором Егор Ликоспастов

Сегодня состоялось событие, которое Nvidia называет самым большим прорывом со времен изобретения CUDA в 2006 году и результатом работы тысячи инженеров в течение десяти лет. Речь идет об архитектуре Turing, главной особенностью которой является аппаратная поддержка трассировки лучей. Это один из важнейших элементов компьютерной графики — от способности графического ускорителя производить в должном объеме соответствующие вычисления зависит насколько реалистичной эта графика будет. На сегодняшней презентации Nvidia представила семейство графических ускорителей Quadro RTX, ГПУ которых включает три вычислительных компонента:

Традиционные шейдерные процессоры
Новые тензорные ядра для принятия решений (inference). Впервые они появились в прошлогоднем Tesla V100)
Трассировочные ядра (RT-ядра) — впервые среди графических ускорителей.

Эти ядра обещают значительное ускорение вычислений по трассировке лучей, за которые прежде отвечали шейдерные процессоры. Последние, в свою очередь, способны одновременно выполнять как операции с плавающей точкой, так и целочисленные расчеты. На примере представленного сегодня графического ускорителя Quadro RTX 8000 производительность выглядит так:

4,608 шейдерных ядер: 16 TFLOPS (терафлопс, триллионов операций с плавающей точкой в секунду, FP32) + 16 TIPS (триллионов целочисленных операций в секунду);
576 тензорных ядер: 500 TOPS (триллионов операций в секунду) INT4, или 250 TOPS INT8, или 125 TOPS FP16;
трассировочные ядра (количество не сообщается): 10 гига-лучей (миллионов лучей) в секунду.

Для размещения такого числа специализированных процессоров используется кристалл площадью 754 мм², немногим меньше ГПУ от Tesla V100 (815 мм²). Число транзисторов в ГПУ Quadro RTX 8000 — 18.6 млрд (у Tesla V100 — 21.1 млрд).

Благодаря аппаратной поддержке трассировки лучей соответствующая производительность графических ускорителей Turing в шесть раз превосходит видеокарты с архитектурой Pascal. Nvidia проиллюстрировала это на примере двух сцен. Рендеринг одной из них на графическом ускорителе Tesla P100 занял 308 миллисекунд, а другой — 576 миллисекунд. Очень небольшая часть этого времени отводится под растеризацию и шейдинг, а вся остальная — под трассировку лучей. Та же самая работа графическим ускорителем Quadro RTX 8000 была выполнена соответственно за 45 и 86 миллисекунд, т.е. в 6-7 раз быстрее. Помимо аппаратного ускорения, большую роль в приращении скорости сыграла технология DLAA (Deep Learning Anti-Aliasing). Она позволяет генерировать графику на более низком разрешении, а потом просто растягивать изображение, сглаживания «шероховатости» при помощи глубокого обучения.

В результате графику с кинематографической реалистичностью, с которой до сих пор справлялась DGX Station за $69 тыс. (20-ядерный процессор Intel Xeon E5-2698 v4, четыре графических ускорителя Tesla V100), в режиме реального времени смог воспроизвести один графический ускоритель Quadro RTX 8000. При этом рекомендованная розничная цена новинки — $10,000.

Для обработки в режиме реального времени таких больших объемов графической информации требуется много памяти — Quadro RTX 8000 получила целых 48 Гб GDDR6 с пропускной способностью 672 Гб/с (у Tesla V100 — 900 Гб/с).

Помимо Quadro RTX 8000, Nvidia версии с менее производительной конфигурацией. Характеристики всей линейки выглядят так (для сравнения в таблице представлены также данные по Quadro GV100):

	RTX 8000	RTX 6000	RTX 5000	GV100
Релизная цена	$10,000	$6,300	$2,300	$9,000
Релизная дата	4 кв 2018	4 кв 2018	4 кв 2018	март 2018
TDP	?	?	?	250 Вт
ГПУ	?	?	?	GV100
Архитектура	Turing	Turing	Turing	Volta
Техпроцесс	?	?	?	TSMC 12-нм
Площадь ГПУ	754 мм²	?	?	815 мм²
Ядра CUDA	4,608	4,608	3,072	5,120
Тензорные ядра	576	576	384	640
Boost Clock	~1730 МГц (?)	~1730 МГц (?)	?	~1450 МГц
Память	14 Гбит/с GDDR6	14 Гбит/с GDDR6	14 Гбит/с GDDR6	1.7 Гбит/с HBM2
Объем памяти	48 Гб	24 Гб	16 Гб	32 Гб
Разрядность памяти	384-бит	384-бит	256-бит	4096-бит
Пропускная способность памяти	672 Гб/с	?	448 Гб/с	870 Гб/с
Производительность FP16	32 TFLOPS (?)	32 TFLOPS (?)	?	29.6 TFLOPS
Производительность FP32	16 TFLOPS	16 TFLOPS	?	14.8 TFLOPS
Производительность тензорная	500 TOPS (INT4)	500 TOPS (INT4)	?	118.5 TFLOPS (FP16)
Производительность трассировочная	10 млн лучей/с	10 млн лучей/с	6 млн лучей/с	—

Как обычно, на базе новых графических ускорителей Nvidia предлагает и серверные решения — например, стойка из четырех серверов по восемь Quadro RTX 8000 каждый обойдется в полмиллиона долларов. Энергопотребление такой стойки составляет 13 кВт.

По словам Дженсена Хуанга, «Turing – это самое значимое решение Nvidia за последнее десятилетие. Гибридный рендеринг кардинальным образом изменит всю индустрию и откроет замечательные возможности, которые привнесут в нашу жизнь более красивые образы, насыщенные развлечения и интерактивные возможности. Появление возможности трассировки лучей в реальном времени – это Святой Грааль нашей индустрии«.

Впрочем, едва ли новая технология появится в играх скоро. Последние поколения игровых консолей Sony и Microsoft выпускаются на базе графических ускорителей AMD, в которых встроенное аппаратное ускорение трассировки лучей отсутствует. Релиз преемников PlayStation 4 Pro и Xbox One X ожидается в 2020 году, а перед этим первые образцы консолей несколько месяцев вероятно будут находится в распоряжении разработчиков. Таким образом, на завершение разработки новых ГПУ для игровых приставок 9-го поколения у AMD остается около года — вряд ли аппаратная поддержка трассировки лучей будет освоена этой компанией так скоро.

Не стоит питать больших иллюзий и относительно кинематографической реалистичности компьютерных игр в обозримом будущем. В продемонстрированных Nvidia роликах обращает на себя внимание отсутствие кадров с человеческим лицом — между тем оно, как правило, и выдает компьютерную анимацию. Причем если в демонстрационных роликах с заранее заданным сюжетом правдоподобно генерировать мимику лица может и получится, то в играх её придется сделать более интерактивной — а по этой части проблемы признает не кто иной как Тим Суини, создатель игрового движка Unreal Engine и студии Epic Games

Nvidia Quadro RTX: первые графические ускорители с архитектурой Turing и аппаратной поддержкой трассировки лучей

Добавить комментарий Отменить ответ

Рубрики