Nvidia DGX-2 и NVSwitch: новый уровень масштабируемости графической производительности

DGX-2

На днях в рамках GTC 2018 состоялась большая презентация Nvidia, в рамках которой компания представила несколько своих новинок. Самыми интересными из них, на мой взгляд, стали новая рабочая станция Nvidia DGX-2 и реализованная в ней технология NVSwitch. Для начала взглянем на то, как изменились конфигурация и производительность DGX-2 по сравнению с предшественником, DGX-1:

DGX-2 DGX-1
Дата анонса март 2018 май 2017
Цена $399,000 $149,000
Энергопотребление 10 кВт 3.5 кВт
Вес 159 кг 61 кг
Процессоры 2 x Intel Xeon
Platinum
2 x Intel Xeon
E5-2698 v4
Графические ускорители 16 x Tesla V100
32 Гб HBM2
8 x Tesla V100
16 Гб HBM2
Чипы NVSwitch 12
Оперативная память до 1.5 Тб DDR4 до 0.5 Тб DDR4
Видеопамять 512 Гб HBM2
(16 x 32 Гб)
256 Гб HBM
(8 x 32 Гб)
Постоянная память (SSD) 30 Тб NVMe
(до 60 Тб)
4 x 1.92 Тб NVMe
Сеть 8 x Infiniband или
8 x 100 GbE
4 x IB +
2 x 10 GbE
Производительность Тензорная: 1920 терафлопс
FP16: 480 терафлопс
FP32: 240 терафлопс
FP64: 120 терафлопс
Тензорная: 960 терафлопс
FP16: 240 терафлопс
FP32: 120 терафлопс
FP64: 60 терафлопс

Итак, что же изменилось по сравнению с предшественником? Вдвое (с 16 Гб до 32 Гб) увеличен объем встроенной видеопамяти графического ускорителя Tesla V100. Соответственно общая видеопамять достигла 0.5 Тб. В три раза увеличен объем дискретной оперативной памяти — теперь она составляет 1.5 Гб. Почти в четыре раза, до 30 Тб, увеличен объем SSD (с возможностью установки до 60 Тб). Также была обновлена пара процессоров Intel Xeon.

DGX-2 Tesla V100

Но самое главное нововведение коснулось количества установленных в этот суперкомпьютер графических ускорителей Tesla V100 — оно выросло с 8 до 16. При этом производительность всей системы в операциях с плавающей точкой также выросла в два раза. Это может показаться очевидным, но на самом увеличение производительности пропорционально количеству используемых в ней вычислительных блоков — чрезвычайно сложная техническая задача. Обратите внимание, что при производительности отдельно взятой Tesla V100 на уровне 15 терафлопс (FP32), быстродействие DGX-1. которая состоит из восьми таких ускорителей, выросло ровно в восемь раз, до 120 терафлопс. Главная заслуга в этом принадлежит разработанной в Nvidia шине NVLink 2 — её пропускная способность составляет 300 Гб/с, что в 10 раз быстрее PCIe 3.

В случае с DGX-2 Nvidia обеспечила пропорциональный рост производительности при двойном увеличении числа графических ускорителей. Для этого были задействованы 12 дополнительных чипов с архитектурой внутриузлового коммутатора NVSwitch. Один такой чип содержит 2 млрд транзисторов и 18 NVLink-портов с пропускной способностью 50 Гб/с на один порт.

NVSwitch

В результате всех этих нововведений почти в три раза выросли энергопотребление, вес и цена системы. С учетом увеличения производительности в два раза, цена почти в $0.4 млн. может показаться завышенной. Однако, принимая во внимание общий уровень производительности с энергопотреблением, DGX-2 наверняка найдет покупателей. К тому же Nvidia заявляет о гораздо более значительном приросте производительности в некоторых задачах. Например, скорость обучения FAIRSEQ, разработанной Facebook нейросетевой модели для языковых переводов, по сравнению с DGX-1 выросла в 10 раз и занимает полтора дня вместо двух недель.

Sunway TaihuLight

Следующее сравнение может показаться не вполне корректным, но тем не менее. Самый производительный в мире суперкомпьютер, Sunway TaihuLight (2016), имеет производительность на уровне 93 петафлопс (FP64) при 15.3 мегаваттах потребляемой энергии и цене $273 млн — не говоря уже о том, что занимает целый зал (см. фото сверху). Скорость Nvidia DGX-2 по сравнению с этим китайским драконом медленнее в 775 раз (120 терафлопс vs 93 петафлопс), но зато он потребляет в 1,530 раз меньше электроэнергии (10 кВт vs 15.3 мВт) и в 683 раза дешевле ($399 тыс vs $273 млн).

Впрочем у Nvidia имеются и более доступные предложения. Как уже рассказывал Gadgets News, в прошлом году, помимо DGX-1 ценой в $149 тыс, компания анонсировала рабочую станцию DGX Station за $69 тыс. на базе четырех графических ускорителей Tesla V100 и одного 20-ядерного процессора Intel Xeon E5-2698 v4. На посвященной DGX-2 презентации Nvidia продемонстрировала короткий фрагмент компьютерной графики, генерируемой в режиме реального времени — включая трассировку лучей, реализованную при помощи анонсированной на днях технологии Nvidia RTX, столь же недавнего расширения DirectX 12, Microsoft DXR, а также игрового движка Unreal Engine 4:

Технология трассировки лучей в режиме  реального времени была анонсирована Nvidia еще три года (Iray 2015), но в чем её принципиальное отличие от Nvidia RTX пока неизвестно — кроме того, что последняя адаптирована для новейшей архитектуры Volta. Но оценить воистину кинематографический уровень графики, генерируемой в режиме реального времени на четырех видеокартах Tesla V100, благодаря ролику выше можно уже сейчас. А на примере остальных роликов можно убедиться, что рендеринг в режиме реального времени создает реалистичное изображение в том числе и людей:

Производительность DGX Station в операциях с плавающей точкой FP32 достигает 60 терафлопс — возможно это и есть тот уровень производительности, при котором графика в играх станет кинематографически реалистичной. По мнению Тиму Суини (разработчика того самого движка Unreal Engine 4, с помощью которого были созданы эти ролики), её потребуется в полтора раза меньше, 40 терафлопс. Из расчета 15 терафлопс графического ускорителя Tesla V100, закона Мура о 2-кратном росте производительности каждые два года, а также усреднения оценок Суини с результатами DGX Station, теоретические предпосылки для появления такой графики в компьютерных играх возникнут через три-четыре года. Вероятно еще два-три года займет подтягивание игровых приставок до этого уровня (например, самая производительная из нынешних, Xbox One X, в 2 раза уступает самой топовой игровой видеокарте, Nvidia GTX 1080 Ti). Так что неотличимую (или скорее почти неотличимую) от кино графику в играх мы вероятно увидим через семь лет, около 2025 года.