Nvidia Quadro RTX: первые графические ускорители с архитектурой Turing и аппаратной поддержкой трассировки лучей
Сегодня состоялось событие, которое Nvidia называет самым большим прорывом со времен изобретения CUDA в 2006 году и результатом работы тысячи инженеров в течение десяти лет. Речь идет об архитектуре Turing, главной особенностью которой является аппаратная поддержка трассировки лучей. Это один из важнейших элементов компьютерной графики — от способности графического ускорителя производить в должном объеме соответствующие вычисления зависит насколько реалистичной эта графика будет. На сегодняшней презентации Nvidia представила семейство графических ускорителей Quadro RTX, ГПУ которых включает три вычислительных компонента:
- Традиционные шейдерные процессоры
- Новые тензорные ядра для принятия решений (inference). Впервые они появились в прошлогоднем Tesla V100)
- Трассировочные ядра (RT-ядра) — впервые среди графических ускорителей.
Эти ядра обещают значительное ускорение вычислений по трассировке лучей, за которые прежде отвечали шейдерные процессоры. Последние, в свою очередь, способны одновременно выполнять как операции с плавающей точкой, так и целочисленные расчеты. На примере представленного сегодня графического ускорителя Quadro RTX 8000 производительность выглядит так:
- 4,608 шейдерных ядер: 16 TFLOPS (терафлопс, триллионов операций с плавающей точкой в секунду, FP32) + 16 TIPS (триллионов целочисленных операций в секунду);
- 576 тензорных ядер: 500 TOPS (триллионов операций в секунду) INT4, или 250 TOPS INT8, или 125 TOPS FP16;
- трассировочные ядра (количество не сообщается): 10 гига-лучей (миллионов лучей) в секунду.
Для размещения такого числа специализированных процессоров используется кристалл площадью 754 мм², немногим меньше ГПУ от Tesla V100 (815 мм2). Число транзисторов в ГПУ Quadro RTX 8000 — 18.6 млрд (у Tesla V100 — 21.1 млрд).
Благодаря аппаратной поддержке трассировки лучей соответствующая производительность графических ускорителей Turing в шесть раз превосходит видеокарты с архитектурой Pascal. Nvidia проиллюстрировала это на примере двух сцен. Рендеринг одной из них на графическом ускорителе Tesla P100 занял 308 миллисекунд, а другой — 576 миллисекунд. Очень небольшая часть этого времени отводится под растеризацию и шейдинг, а вся остальная — под трассировку лучей. Та же самая работа графическим ускорителем Quadro RTX 8000 была выполнена соответственно за 45 и 86 миллисекунд, т.е. в 6-7 раз быстрее. Помимо аппаратного ускорения, большую роль в приращении скорости сыграла технология DLAA (Deep Learning Anti-Aliasing). Она позволяет генерировать графику на более низком разрешении, а потом просто растягивать изображение, сглаживания «шероховатости» при помощи глубокого обучения.
В результате графику с кинематографической реалистичностью, с которой до сих пор справлялась DGX Station за $69 тыс. (20-ядерный процессор Intel Xeon E5-2698 v4, четыре графических ускорителя Tesla V100), в режиме реального времени смог воспроизвести один графический ускоритель Quadro RTX 8000. При этом рекомендованная розничная цена новинки — $10,000.
Для обработки в режиме реального времени таких больших объемов графической информации требуется много памяти — Quadro RTX 8000 получила целых 48 Гб GDDR6 с пропускной способностью 672 Гб/с (у Tesla V100 — 900 Гб/с).
Помимо Quadro RTX 8000, Nvidia версии с менее производительной конфигурацией. Характеристики всей линейки выглядят так (для сравнения в таблице представлены также данные по Quadro GV100):
RTX 8000 | RTX 6000 | RTX 5000 | GV100 | |
Релизная цена | $10,000 | $6,300 | $2,300 | $9,000 |
Релизная дата | 4 кв 2018 | 4 кв 2018 | 4 кв 2018 | март 2018 |
TDP | ? | ? | ? | 250 Вт |
ГПУ | ? | ? | ? | GV100 |
Архитектура | Turing | Turing | Turing | Volta |
Техпроцесс | ? | ? | ? | TSMC 12-нм |
Площадь ГПУ | 754 мм² | ? | ? | 815 мм² |
Ядра CUDA | 4,608 | 4,608 | 3,072 | 5,120 |
Тензорные ядра | 576 | 576 | 384 | 640 |
Boost Clock | ~1730 МГц (?) | ~1730 МГц (?) | ? | ~1450 МГц |
Память | 14 Гбит/с GDDR6 | 14 Гбит/с GDDR6 | 14 Гбит/с GDDR6 | 1.7 Гбит/с HBM2 |
Объем памяти | 48 Гб | 24 Гб | 16 Гб | 32 Гб |
Разрядность памяти | 384-бит | 384-бит | 256-бит | 4096-бит |
Пропускная способность памяти | 672 Гб/с | ? | 448 Гб/с | 870 Гб/с |
Производительность FP16 | 32 TFLOPS (?) | 32 TFLOPS (?) | ? | 29.6 TFLOPS |
Производительность FP32 | 16 TFLOPS | 16 TFLOPS | ? | 14.8 TFLOPS |
Производительность тензорная | 500 TOPS (INT4) |
500 TOPS (INT4) |
? | 118.5 TFLOPS (FP16) |
Производительность трассировочная | 10 млн лучей/с |
10 млн лучей/с |
6 млн лучей/с |
— |
Как обычно, на базе новых графических ускорителей Nvidia предлагает и серверные решения — например, стойка из четырех серверов по восемь Quadro RTX 8000 каждый обойдется в полмиллиона долларов. Энергопотребление такой стойки составляет 13 кВт.
По словам Дженсена Хуанга, «Turing – это самое значимое решение Nvidia за последнее десятилетие. Гибридный рендеринг кардинальным образом изменит всю индустрию и откроет замечательные возможности, которые привнесут в нашу жизнь более красивые образы, насыщенные развлечения и интерактивные возможности. Появление возможности трассировки лучей в реальном времени – это Святой Грааль нашей индустрии«.
Впрочем, едва ли новая технология появится в играх скоро. Последние поколения игровых консолей Sony и Microsoft выпускаются на базе графических ускорителей AMD, в которых встроенное аппаратное ускорение трассировки лучей отсутствует. Релиз преемников PlayStation 4 Pro и Xbox One X ожидается в 2020 году, а перед этим первые образцы консолей несколько месяцев вероятно будут находится в распоряжении разработчиков. Таким образом, на завершение разработки новых ГПУ для игровых приставок 9-го поколения у AMD остается около года — вряд ли аппаратная поддержка трассировки лучей будет освоена этой компанией так скоро.
Не стоит питать больших иллюзий и относительно кинематографической реалистичности компьютерных игр в обозримом будущем. В продемонстрированных Nvidia роликах обращает на себя внимание отсутствие кадров с человеческим лицом — между тем оно, как правило, и выдает компьютерную анимацию. Причем если в демонстрационных роликах с заранее заданным сюжетом правдоподобно генерировать мимику лица может и получится, то в играх её придется сделать более интерактивной — а по этой части проблемы признает не кто иной как Тим Суини, создатель игрового движка Unreal Engine и студии Epic Games