Nvidia DGX-2 и NVSwitch: новый уровень масштабируемости графической производительности
На днях в рамках GTC 2018 состоялась большая презентация Nvidia, в рамках которой компания представила несколько своих новинок. Самыми интересными из них, на мой взгляд, стали новая рабочая станция Nvidia DGX-2 и реализованная в ней технология NVSwitch. Для начала взглянем на то, как изменились конфигурация и производительность DGX-2 по сравнению с предшественником, DGX-1:
DGX-2 | DGX-1 | |
Дата анонса | март 2018 | май 2017 |
Цена | $399,000 | $149,000 |
Энергопотребление | 10 кВт | 3.5 кВт |
Вес | 159 кг | 61 кг |
Процессоры | 2 x Intel Xeon Platinum |
2 x Intel Xeon E5-2698 v4 |
Графические ускорители | 16 x Tesla V100 32 Гб HBM2 |
8 x Tesla V100 16 Гб HBM2 |
Чипы NVSwitch | 12 | — |
Оперативная память | до 1.5 Тб DDR4 | до 0.5 Тб DDR4 |
Видеопамять | 512 Гб HBM2 (16 x 32 Гб) |
256 Гб HBM (8 x 32 Гб) |
Постоянная память (SSD) | 30 Тб NVMe (до 60 Тб) |
4 x 1.92 Тб NVMe |
Сеть | 8 x Infiniband или 8 x 100 GbE |
4 x IB + 2 x 10 GbE |
Производительность | Тензорная: 1920 терафлопс FP16: 480 терафлопс FP32: 240 терафлопс FP64: 120 терафлопс |
Тензорная: 960 терафлопс FP16: 240 терафлопс FP32: 120 терафлопс FP64: 60 терафлопс |
Итак, что же изменилось по сравнению с предшественником? Вдвое (с 16 Гб до 32 Гб) увеличен объем встроенной видеопамяти графического ускорителя Tesla V100. Соответственно общая видеопамять достигла 0.5 Тб. В три раза увеличен объем дискретной оперативной памяти — теперь она составляет 1.5 Гб. Почти в четыре раза, до 30 Тб, увеличен объем SSD (с возможностью установки до 60 Тб). Также была обновлена пара процессоров Intel Xeon.
Но самое главное нововведение коснулось количества установленных в этот суперкомпьютер графических ускорителей Tesla V100 — оно выросло с 8 до 16. При этом производительность всей системы в операциях с плавающей точкой также выросла в два раза. Это может показаться очевидным, но на самом увеличение производительности пропорционально количеству используемых в ней вычислительных блоков — чрезвычайно сложная техническая задача. Обратите внимание, что при производительности отдельно взятой Tesla V100 на уровне 15 терафлопс (FP32), быстродействие DGX-1. которая состоит из восьми таких ускорителей, выросло ровно в восемь раз, до 120 терафлопс. Главная заслуга в этом принадлежит разработанной в Nvidia шине NVLink 2 — её пропускная способность составляет 300 Гб/с, что в 10 раз быстрее PCIe 3.
В случае с DGX-2 Nvidia обеспечила пропорциональный рост производительности при двойном увеличении числа графических ускорителей. Для этого были задействованы 12 дополнительных чипов с архитектурой внутриузлового коммутатора NVSwitch. Один такой чип содержит 2 млрд транзисторов и 18 NVLink-портов с пропускной способностью 50 Гб/с на один порт.
В результате всех этих нововведений почти в три раза выросли энергопотребление, вес и цена системы. С учетом увеличения производительности в два раза, цена почти в $0.4 млн. может показаться завышенной. Однако, принимая во внимание общий уровень производительности с энергопотреблением, DGX-2 наверняка найдет покупателей. К тому же Nvidia заявляет о гораздо более значительном приросте производительности в некоторых задачах. Например, скорость обучения FAIRSEQ, разработанной Facebook нейросетевой модели для языковых переводов, по сравнению с DGX-1 выросла в 10 раз и занимает полтора дня вместо двух недель.
Следующее сравнение может показаться не вполне корректным, но тем не менее. Самый производительный в мире суперкомпьютер, Sunway TaihuLight (2016), имеет производительность на уровне 93 петафлопс (FP64) при 15.3 мегаваттах потребляемой энергии и цене $273 млн — не говоря уже о том, что занимает целый зал (см. фото сверху). Скорость Nvidia DGX-2 по сравнению с этим китайским драконом медленнее в 775 раз (120 терафлопс vs 93 петафлопс), но зато он потребляет в 1,530 раз меньше электроэнергии (10 кВт vs 15.3 мВт) и в 683 раза дешевле ($399 тыс vs $273 млн).
Впрочем у Nvidia имеются и более доступные предложения. Как уже рассказывал Gadgets News, в прошлом году, помимо DGX-1 ценой в $149 тыс, компания анонсировала рабочую станцию DGX Station за $69 тыс. на базе четырех графических ускорителей Tesla V100 и одного 20-ядерного процессора Intel Xeon E5-2698 v4. На посвященной DGX-2 презентации Nvidia продемонстрировала короткий фрагмент компьютерной графики, генерируемой в режиме реального времени — включая трассировку лучей, реализованную при помощи анонсированной на днях технологии Nvidia RTX, столь же недавнего расширения DirectX 12, Microsoft DXR, а также игрового движка Unreal Engine 4:
Технология трассировки лучей в режиме реального времени была анонсирована Nvidia еще три года (Iray 2015), но в чем её принципиальное отличие от Nvidia RTX пока неизвестно — кроме того, что последняя адаптирована для новейшей архитектуры Volta. Но оценить воистину кинематографический уровень графики, генерируемой в режиме реального времени на четырех видеокартах Tesla V100, благодаря ролику выше можно уже сейчас. А на примере остальных роликов можно убедиться, что рендеринг в режиме реального времени создает реалистичное изображение в том числе и людей:
Производительность DGX Station в операциях с плавающей точкой FP32 достигает 60 терафлопс — возможно это и есть тот уровень производительности, при котором графика в играх станет кинематографически реалистичной. По мнению Тиму Суини (разработчика того самого движка Unreal Engine 4, с помощью которого были созданы эти ролики), её потребуется в полтора раза меньше, 40 терафлопс. Из расчета 15 терафлопс графического ускорителя Tesla V100, закона Мура о 2-кратном росте производительности каждые два года, а также усреднения оценок Суини с результатами DGX Station, теоретические предпосылки для появления такой графики в компьютерных играх возникнут через три-четыре года. Вероятно еще два-три года займет подтягивание игровых приставок до этого уровня (например, самая производительная из нынешних, Xbox One X, в 2 раза уступает самой топовой игровой видеокарте, Nvidia GTX 1080 Ti). Так что неотличимую (или скорее почти неотличимую) от кино графику в играх мы вероятно увидим через семь лет, около 2025 года.