Новинки Nvidia на GTC 2016

Главными технологическими событиями этой недели пожалуй стали первая в истории успешная посадка многоразовой ракеты Falcon 9 на платформу в открытом океане, а также презентация Nvidia на GTC 2016 — выставке, посвященной графическим ускорителям. И если космические технологии не вполне вписываются в формат нашего блога, то рассказать о новинках Nvidia мы просто обязаны.
Начнем с Tesla P100. Её отличают следующие уникальные для видеокарт этой серии свойства:
- 16-нанометровый техпроцесс. Причем используемая в ГПУ кристаллическая пластина обладает самой большой в мире площадью среди пластин с этой топологией — 610 мм²
- Новейшая архитектура Pascal
- Память новейшего стандарта HBM2
- Поддержка разработанного Nvidia интерфейса NVLink, благодаря которому взаимодействие видеокарт между собой и с процессорами осуществляется в серверах в 5-12 раз быстрее традиционного PCIe 3-го поколения
- Поддержка новых алгоритмов искусственного интеллекта.

Это самое крупное обновление видеокарт Nvidia для рабочих станций с тех пор, как в ноябре 2014 года компания представила Tesla K80. Более того, глава Nvidia назвал этот плод усилий нескольких тысяч инженеров самым амбициозным проектом, когда-либо предпринятым компанией. Причем массовое производство новинки уже началось. Ниже представлены сравнительные характеристики Tesla P100 и её предшественников:
| Tesla P100 | Tesla K80 | Tesla K40 | Tesla M40 | |
| Техпроцесс | TSMC 16нм FinFET | TSMC 28нм | TSMC 28нм | TSMC 28нм |
| Архитектура | Pascal | Kepler | Kepler | Maxwell 2 |
| Кол-во транзисторов | 15.3 млрд | 2 x 7.1 млрд | 7.1 млрд | 8 млрд |
| Кол-во ядер FP32 | 3,584 | 2 x 2,496 | 2,880 | 3,072 |
| Кол-во ядер FP64 | 1,792 | 960 | 96 | |
| Частота ядер базовая | 1328 МГц | 562 МГц | 745 МГц | 948 МГц |
| Частота ядер разогнанная | 1480 МГц | 875 МГц | 810 МГц, 875 МГц | 1114 МГц |
| Память | HBM2 1.4 Гбит/с | GDDR5 5 ГГц | GDDR5 6 ГГц | GDDR5 6 ГГц |
| Разрядность шины памяти | 4096-бит | 2 x 384-бит | 384-бит | 384-бит |
| Пропускная способность памяти | 720 Гб/с | 2 x 240 Гб/с | 288 Гб/с | 288 Гб/с |
| Объем видеопамяти | 16 Гб | 2 x 12 Гб | 12 Гб | 12 Гб |
| Производительность FP16 | 21.2 терафлопс | |||
| Производительность FP32 (базовая/ускоренная частота) | 10.6 терафлопс | 5.6/8.74 терафлопс | 4.29/5 терафлопс | 6.82 терафлопс |
| Производительность FP64 (базовая/ускоренная частота) | 5.3 терафлопс | 1.87/2.91 терафлопс | 1.43/1.66 терафлопс | 0.21 терафлопс |
| ГПУ | GP100 | GK210 | GK110B | GM200 |
| Энергопотребление | 300 Вт | 300 Вт | 235 Вт | 250 Вт |
Появление серверов на базе Tesla P100 ожидается в начале 2017, впрочем один из них Nvidia предлагает уже в конце июня — DGX-1. Его конфигурация выглядит так:
| Процессоры | 2 x Intel Xeon E5-2698 v3 |
| Видеокарты | 8 x Nvidia Tesla P100 |
| Оперативная память | 512 Гб DDR4-2133 (LRDIMM) |
| Видеопамять | 128 Гб HBM2 |
| Постоянная память | 7 Тб SSD (4 x Samsung PM863 1.92 Тб) |
| Сеть | 4 x Infiniband EDR 2 x 10GigE |
| Энергопотребление | 3,200 Вт |
| Корпус | 3U Rackmount (86.6 x 44.4 x 13.1 см, 60.8 кг) |
| Производительность | FP16: 170 терафлопс FP32: 85 терафлопс FP64: 42.5 терафлопс |
| Операционная система | Ubuntu Server Linux |

DGX-1 представляет собой аппаратную платформу для научных вычислений и одной из самых интересных технологических задач новейшего времени — самообучения искусственного интеллекта. На презентации он был представлен как «первый в мире суперкомпьютер глубокого обучения«. И неудивительно — такие задачи действительно хорошо ложатся на архитектуру графических ускорителей. Если обучение в сети глубокого обучения Alexnet на платформе из двух процессоров Intel Xeon E5-2697 v3 (розничная цене $2.7 тысяч) длится неделю (150 часов), то на DGX-1 — всего два часа, т.е. в 75 раз быстрее. Если сравнивать с более подходящей для выполнения таких задач платформой, то на системе из четырех видеокарт с архитектурой Maxwell этот процесс занял бы сутки (25 часов).
Правда, столь ощутимый выигрыш в скорости будет стоить немалых денег — цена Nvidia DGX-1 в США составляет $129 тысяч. Но в принципе она делает его вполне доступным для крупных и средних коммерческих компаний, исследовательских и научных центров (по крайней мере на Западе).

Но пожалуй самой впечатляющей частью презентации Nvidia стала сеть глубокого обучения DCGAN, умеющая, ни много ни мало, писать картины в заданном стиле на заданный сюжет. Используется при этом т.н. «обучение без учителя» (unsupervised learning) — два десятка тысяч картин были представлены системе без всяких меток (обозначающих, например, сюжет данного полотна). На их основе при помощи кластерного анализа система не только обучается различать искомые жанры и сюжеты, но и создавать их. Например, вы можете поручить DCGAN написать картину в жанре классицизма, на которой будет изображено морское побережье на закате — и она с этим прекрасно справится. Выше вы видите не портрет кисти Ван Гога, а как раз одно из творений обучившегося живописи и, образного говоря, подражающего этому мастеру искусственного интеллекта. С учетом аналогичных экспериментов в музыке, вопрос, заданный роботу героем фантастического кинофильма «Я, робот», уже сегодня представляется совсем не риторическим…