Новинки Nvidia на GTC 2016

Tesla P100

Главными технологическими событиями этой недели пожалуй стали первая в истории успешная посадка многоразовой ракеты Falcon 9 на платформу в открытом океане, а также презентация Nvidia на GTC 2016 — выставке, посвященной графическим ускорителям. И если космические технологии не вполне вписываются в формат нашего блога, то рассказать о новинках Nvidia мы просто обязаны.

Начнем с Tesla P100. Её отличают следующие уникальные для видеокарт этой серии свойства:

  1. 16-нанометровый техпроцесс. Причем используемая в ГПУ кристаллическая пластина обладает самой большой в мире площадью среди пластин с этой топологией — 610 мм²
  2. Новейшая архитектура Pascal
  3. Память новейшего стандарта HBM2
  4. Поддержка разработанного Nvidia интерфейса NVLink, благодаря которому взаимодействие видеокарт между собой и с процессорами осуществляется в серверах в 5-12 раз быстрее традиционного PCIe 3-го поколения
  5. Поддержка новых алгоритмов искусственного интеллекта.

Это самое крупное обновление видеокарт Nvidia для рабочих станций с тех пор, как в ноябре 2014 года компания представила Tesla K80. Более того, глава Nvidia назвал этот плод усилий нескольких тысяч инженеров самым амбициозным проектом, когда-либо предпринятым компанией. Причем массовое производство новинки уже началось. Ниже представлены сравнительные характеристики Tesla P100 и её предшественников:

Tesla P100 Tesla K80 Tesla K40 Tesla M40
Техпроцесс TSMC 16нм FinFET TSMC 28нм TSMC 28нм TSMC 28нм
Архитектура Pascal Kepler Kepler Maxwell 2
Кол-во транзисторов 15.3 млрд 2 x 7.1 млрд 7.1 млрд 8 млрд
Кол-во ядер FP32 3,584 2 x 2,496 2,880 3,072
Кол-во ядер FP64 1,792 960 96
Частота ядер базовая 1328 МГц 562 МГц 745 МГц 948 МГц
Частота ядер разогнанная 1480 МГц 875 МГц 810 МГц, 875 МГц 1114 МГц
Память HBM2 1.4 Гбит/с GDDR5 5 ГГц GDDR5 6 ГГц GDDR5 6 ГГц
Разрядность шины памяти 4096-бит 2 x 384-бит 384-бит 384-бит
Пропускная способность памяти 720 Гб/с 2 x 240 Гб/с 288 Гб/с 288 Гб/с
Объем видеопамяти 16 Гб 2 x 12 Гб 12 Гб 12 Гб
Производительность FP16 21.2 терафлопс
Производительность FP32 (базовая/ускоренная частота) 10.6 терафлопс 5.6/8.74 терафлопс 4.29/5 терафлопс 6.82 терафлопс
Производительность FP64 (базовая/ускоренная частота) 5.3 терафлопс 1.87/2.91 терафлопс 1.43/1.66 терафлопс 0.21 терафлопс
ГПУ GP100 GK210 GK110B GM200
Энергопотребление 300 Вт 300 Вт 235 Вт 250 Вт

Появление серверов на базе Tesla P100 ожидается в начале 2017, впрочем один из них Nvidia предлагает уже в конце июня — DGX-1. Его конфигурация выглядит так:

Процессоры 2 x Intel Xeon E5-2698 v3
Видеокарты 8 x Nvidia Tesla P100
Оперативная память 512 Гб DDR4-2133 (LRDIMM)
Видеопамять 128 Гб HBM2
Постоянная память 7 Тб SSD (4 x Samsung PM863 1.92 Тб)
Сеть 4 x Infiniband EDR
2 x 10GigE
Энергопотребление 3,200 Вт
Корпус 3U Rackmount (86.6 x 44.4 x 13.1 см, 60.8 кг)
Производительность FP16: 170 терафлопс
FP32: 85 терафлопс
FP64: 42.5 терафлопс
Операционная система Ubuntu Server Linux

DGX-1 представляет собой аппаратную платформу для научных вычислений и одной из самых интересных технологических задач новейшего времени — самообучения искусственного интеллекта. На презентации он был представлен как «первый в мире суперкомпьютер глубокого обучения«. И неудивительно — такие задачи действительно хорошо ложатся на архитектуру графических ускорителей. Если обучение в сети глубокого обучения Alexnet на платформе из двух процессоров Intel Xeon E5-2697 v3 (розничная цене $2.7 тысяч) длится неделю (150 часов), то на DGX-1 — всего два часа, т.е. в 75 раз быстрее. Если сравнивать с более подходящей для выполнения таких задач платформой, то на системе из четырех видеокарт с архитектурой Maxwell этот процесс занял бы сутки (25 часов).

Правда, столь ощутимый выигрыш в скорости будет стоить немалых денег — цена Nvidia DGX-1 в США составляет $129 тысяч. Но в принципе она делает его вполне доступным для крупных и средних коммерческих компаний, исследовательских и научных центров (по крайней мере на Западе).

Но пожалуй самой впечатляющей частью презентации Nvidia стала сеть глубокого обучения DCGAN, умеющая, ни много ни мало, писать картины в заданном стиле на заданный сюжет. Используется при этом т.н. «обучение без учителя» (unsupervised learning) — два десятка тысяч картин были представлены системе без всяких меток (обозначающих, например, сюжет данного полотна). На их основе при помощи кластерного анализа система не только обучается различать искомые жанры и сюжеты, но и создавать их. Например, вы можете поручить DCGAN написать картину в жанре классицизма, на которой будет изображено морское побережье на закате — и она с этим прекрасно справится. Выше вы видите не портрет кисти Ван Гога, а как раз одно из творений обучившегося живописи и, образного говоря, подражающего этому мастеру искусственного интеллекта. С учетом аналогичных экспериментов в музыке, вопрос, заданный роботу героем фантастического кинофильма «Я, робот», уже сегодня представляется совсем не риторическим…

С использованием материалов Nvidia и AnandTech