Новинки Nvidia на GTC 2016

Опубликовано 23:52 10.04.201621:41 16.05.2016 автором Егор Ликоспастов

Главными технологическими событиями этой недели пожалуй стали первая в истории успешная посадка многоразовой ракеты Falcon 9 на платформу в открытом океане, а также презентация Nvidia на GTC 2016 — выставке, посвященной графическим ускорителям. И если космические технологии не вполне вписываются в формат нашего блога, то рассказать о новинках Nvidia мы просто обязаны.

Начнем с Tesla P100. Её отличают следующие уникальные для видеокарт этой серии свойства:

16-нанометровый техпроцесс. Причем используемая в ГПУ кристаллическая пластина обладает самой большой в мире площадью среди пластин с этой топологией — 610 мм²
Новейшая архитектура Pascal
Память новейшего стандарта HBM2
Поддержка разработанного Nvidia интерфейса NVLink, благодаря которому взаимодействие видеокарт между собой и с процессорами осуществляется в серверах в 5-12 раз быстрее традиционного PCIe 3-го поколения
Поддержка новых алгоритмов искусственного интеллекта.

Это самое крупное обновление видеокарт Nvidia для рабочих станций с тех пор, как в ноябре 2014 года компания представила Tesla K80. Более того, глава Nvidia назвал этот плод усилий нескольких тысяч инженеров самым амбициозным проектом, когда-либо предпринятым компанией. Причем массовое производство новинки уже началось. Ниже представлены сравнительные характеристики Tesla P100 и её предшественников:

	Tesla P100	Tesla K80	Tesla K40	Tesla M40
Техпроцесс	TSMC 16нм FinFET	TSMC 28нм	TSMC 28нм	TSMC 28нм
Архитектура	Pascal	Kepler	Kepler	Maxwell 2
Кол-во транзисторов	15.3 млрд	2 x 7.1 млрд	7.1 млрд	8 млрд
Кол-во ядер FP32	3,584	2 x 2,496	2,880	3,072
Кол-во ядер FP64	1,792		960	96
Частота ядер базовая	1328 МГц	562 МГц	745 МГц	948 МГц
Частота ядер разогнанная	1480 МГц	875 МГц	810 МГц, 875 МГц	1114 МГц
Память	HBM2 1.4 Гбит/с	GDDR5 5 ГГц	GDDR5 6 ГГц	GDDR5 6 ГГц
Разрядность шины памяти	4096-бит	2 x 384-бит	384-бит	384-бит
Пропускная способность памяти	720 Гб/с	2 x 240 Гб/с	288 Гб/с	288 Гб/с
Объем видеопамяти	16 Гб	2 x 12 Гб	12 Гб	12 Гб
Производительность FP16	21.2 терафлопс
Производительность FP32 (базовая/ускоренная частота)	10.6 терафлопс	5.6/8.74 терафлопс	4.29/5 терафлопс	6.82 терафлопс
Производительность FP64 (базовая/ускоренная частота)	5.3 терафлопс	1.87/2.91 терафлопс	1.43/1.66 терафлопс	0.21 терафлопс
ГПУ	GP100	GK210	GK110B	GM200
Энергопотребление	300 Вт	300 Вт	235 Вт	250 Вт

Появление серверов на базе Tesla P100 ожидается в начале 2017, впрочем один из них Nvidia предлагает уже в конце июня — DGX-1. Его конфигурация выглядит так:

Процессоры	2 x Intel Xeon E5-2698 v3
Видеокарты	8 x Nvidia Tesla P100
Оперативная память	512 Гб DDR4-2133 (LRDIMM)
Видеопамять	128 Гб HBM2
Постоянная память	7 Тб SSD (4 x Samsung PM863 1.92 Тб)
Сеть	4 x Infiniband EDR 2 x 10GigE
Энергопотребление	3,200 Вт
Корпус	3U Rackmount (86.6 x 44.4 x 13.1 см, 60.8 кг)
Производительность	FP16: 170 терафлопс FP32: 85 терафлопс FP64: 42.5 терафлопс
Операционная система	Ubuntu Server Linux

DGX-1 представляет собой аппаратную платформу для научных вычислений и одной из самых интересных технологических задач новейшего времени — самообучения искусственного интеллекта. На презентации он был представлен как «первый в мире суперкомпьютер глубокого обучения«. И неудивительно — такие задачи действительно хорошо ложатся на архитектуру графических ускорителей. Если обучение в сети глубокого обучения Alexnet на платформе из двух процессоров Intel Xeon E5-2697 v3 (розничная цене $2.7 тысяч) длится неделю (150 часов), то на DGX-1 — всего два часа, т.е. в 75 раз быстрее. Если сравнивать с более подходящей для выполнения таких задач платформой, то на системе из четырех видеокарт с архитектурой Maxwell этот процесс занял бы сутки (25 часов).

Правда, столь ощутимый выигрыш в скорости будет стоить немалых денег — цена Nvidia DGX-1 в США составляет $129 тысяч. Но в принципе она делает его вполне доступным для крупных и средних коммерческих компаний, исследовательских и научных центров (по крайней мере на Западе).

Но пожалуй самой впечатляющей частью презентации Nvidia стала сеть глубокого обучения DCGAN, умеющая, ни много ни мало, писать картины в заданном стиле на заданный сюжет. Используется при этом т.н. «обучение без учителя» (unsupervised learning) — два десятка тысяч картин были представлены системе без всяких меток (обозначающих, например, сюжет данного полотна). На их основе при помощи кластерного анализа система не только обучается различать искомые жанры и сюжеты, но и создавать их. Например, вы можете поручить DCGAN написать картину в жанре классицизма, на которой будет изображено морское побережье на закате — и она с этим прекрасно справится. Выше вы видите не портрет кисти Ван Гога, а как раз одно из творений обучившегося живописи и, образного говоря, подражающего этому мастеру искусственного интеллекта. С учетом аналогичных экспериментов в музыке, вопрос, заданный роботу героем фантастического кинофильма «Я, робот», уже сегодня представляется совсем не риторическим…

С использованием материалов Nvidia и AnandTech

Новинки Nvidia на GTC 2016

Добавить комментарий Отменить ответ

Рубрики