Новинки Nvidia: Tesla P40, Tesla P4 и одночиповый DRIVE PX 2
Сегодня, в рамках пекинской выставки GTC 2016, компания Nvidia представила несколько своих новинок. В первую очередь это видеокарты (или точнее выражаясь, ускорители) Tesla P40 и Tesla P4, преемники прошлогодних Tesla M40 и M4. Если Tesla P100 предназначена в основном для тренировки систем искусственного интеллекта (training), то 40-я и 4-я серии больше подходят для конечного принятия решений уже обученными системами (inference) — например, распознавания конкретного изображения или конкретной голосовой команды.
Как видно из литеры «P», архитектура Maxwell в ГПУ этих моделей сменилась на Pascal, и соответственно вместо 28нм техпроцесса используется 16нм. Заметно выросла частота., а объем памяти увеличился в два раза. Все это способствовало 1.7-2.5-кратному росту производительности при прежнем энергопотреблении. Еще одним существенным нововведением стало оснащение вычислительных ядер возможностью производить целочисленные 8-разрядные вычисления — у Tesla M40 и M4 её не было. В Tesla P40 используется ГПУ GP102 (им же оснащены TITAN X с Quadro P6000), а в Tesla P4 — GP104 (GTX 1080, GTX 1070 и Quadro P5000). Предлагаем вашему вниманию полные характеристики новинок и их предшественников:
Tesla M4 | Tesla P4 | Tesla M40 | Tesla P40 | |
TDP | 50/75 Вт | 75 Вт (50 Вт опционально) | 250 Вт | 250 Вт |
Техпроцесс | 28-нм | 16-нм | 28-нм | 16-нм |
Кол-во транзисторов | 2.9 млрд | 7.2 млрд | 8 млрд | 12 млрд |
ГПУ | GM206 | GP104 | GM200 | GP102 |
Площадь ГПУ | 227 мм² | 314 мм² | 601 мм² | 471 мм² |
Кол-во SM | 8 | 20 | 24 | 30 |
Кол-во ядер FP32 | 1,024 | 2,560 | 3,072 | 3,840 |
Частота базовая | 872 МГц | 810 МГц | 948 МГц | 1303 МГц |
Частота ускоренная | 1072 МГц | 1063 МГц | 1114 МГц | 1531 МГц |
Производительность INT8 (TOPS) | — | 21.8 | — | 47.0 |
Производительность FP32 (терафлопс) | 2.2 | 5.4 | 6.8 | 11.8 |
Производительность FP64 (гигафлопс) | 69 | 170 | 213 | 367 |
Кол-во TMU (текстурных блоков) | 64 | 160 | 192 | 240 |
Память | GDDR5 128-бит |
GDDR5 256-бит |
GDDR5 384-бит |
GDDR5 384-бит |
Пропускная способность памяти | 88 Гб/с | 192 Гб/с | 288 Гб/с | 346 Гб/с |
Объем памяти | 4 Гб | 8 Гб | 12/24 Гб | 24 Гб |
Объем кэш L2 | 2048 Кб | 2048 Кб | 3072 Кб | 3072 Кб |
Объем файла-регистра | 2048 Кб | 5120 Кб | 6144 Кб | 7680 Кб |
Объем распределенной памяти на SM | 96 Кб | 128 Кб | 96 Кб | 128 Кб |
В продажу Tesla P40 и Tesla P4 поступят в октябре и ноябре соответственно, цены не называются.
Другой новинкой сегодняшней презентации стала одночиповая версия компьютера DRIVE PX 2. Напомню, что в стандартной комплектации он оснащен двумя дискретными видеокартами (предположительно уровня GTX 1060) и двумя мобильными процессорами Tegra, каждый из которых содержит 6-ядерное ЦПУ (4 x Cortex-A57 + 2 x Denver 2) и 256-ядерное ГПУ. Такое же количество ядер в ГПУ самого производительного мобильного процессора Nvidia, анонсированного в январе 2015 Tegra X1 с архитектурой Maxwell. Поэтому фактически речь, судя по всему, идет о его преемнике с архитектурой Pascal. Официально Nvidia его в качестве мобильного процессора не анонсировала — с недавних пор компания утратила интерес к мобильным устройствам. Однако с учетом вполне умеренного, по сравнению с изначальным DRIVE PX 2 (250 Вт), энергопотребления одночиповой версии (10 Вт), не исключено появление процессора Tegra Pascal в будущих версиях игровых консолей Shield Tablet (2014) и Shield Android TV (2015).
Nvidia позиционирует облегченную версию DRIVE PX 2 для автопилота на загородных магистралях, тогда как полная версия позволит ездит на автопилоте «от точки до точки». Одночиповый DRIVE PX 2 в распоряжение партнеров Nvidia будет предоставлен в IV квартале этого года.
Ну и конец третьей главной новостью стал анонс Jetpack 2.3 — очередной версии программного пакета для программирования аппаратной платформы Jetson TX1. Согласно Nvidia, обновление позволит повысить скорость принятия решений (inference) в два раза.