Nvidia Tegra Parker: новые подробности

На стартовавшей вчера трехдневной конференции Hot Chips компания Nvidia раскрыла некоторые подробности о конфигурации анонсированного в начале года бортового компьютера Drive PX 2. Как мы уже рассказывали, он получил четыре чипа: два дискретных ГПУ на базе архитектуры Pascal и два процессора Tegra, в которых комбинируются ГПУ и 12 ядер ЦПУ из 8 x Cortex-A57 и 4 x Denver. Последние представляют собой т.н. системы на кристалле (SoC), каждая из которых включает в себя:
- 6-ядерное ЦПУ: 4 x Cortex-A57 + 2 x Denver 2
- 256-ядерное ГПУ на базе архитектуры Pascal

Судя по названию, Denver 2 представляет собой второе поколение разработанных Nvidia 64-разрядных ядер, которые впервые использовались в одной из версий SoC Tegra K1 (2014). Позднее вышли процессоры Tegra X1 (2015) и Tegra Parker (2016):
| Tegra K1 | Tegra X1 | Tegra Parker | ||
| Техпроцесс | TSMC 28нм | TSMC 20нм | TSMC 16нм | |
| Разрядность | 32 | 64 | ||
| Архитектура ЦПУ | ARMv7-A | ARMv8 | ||
| ЦПУ | 4 x Cortex-A15 | 2 x Denver | 4 x Cortex-A57 4 x Cortex-A53 |
2 x Denver 2 4 x Cortex-A57 |
| Кэш L2 ЦПУ | 2 Мб 512 Кб |
2 Мб | 2 Мб 512 Кб |
2 Мб 2 Мб |
| ГПУ | 192 Kepler | 256 Maxwell | 256 Pascal | |
| Разрядность шины памяти | 64-бит | 128-бит | ||
| Пропускная способность памяти | 15 Гб/с | 25 Гб/с | 50 Гб/с | |
| Производительность FP16 | 0.365 терафлопс | 1 терафлопс | 1.5 терафлопс | |
| Кол-во поддерживаемых камер | 4 | 6 | 12 | |

Напомню, что на презентации Drive PX 2 его заявленная производительность составила 8 терафлопс. Поскольку он сравнивался с Titan X (Maxwell), напрашивался вывод, что речь идет о вычислениях с точностью FP32 (в которых быстродействие Titan X составляет 6.69 терафлопс). В своей свежей публикации Nvidia уточняет, что производительность одного процессора Tegra Parker составляет 1.5 терафлопс с точностью FP16. В свою очередь в характеристиках Drive PX 2 сообщается, что два Tegra [Parker] «вместе обеспечивают производительность 2.5 терафлопс», а «два дискретных GPU …вместе обеспечивают производительность более 5 терафлопс«. Поскольку в совокупности два процессора по 1.5 терафлопс FP16 никак не могут дать производительность 2.5 терафлопс FP32, объявленные на презентации Drive PX 2 8 терафлопс — это скорее всего 7.5 терафлопс FP16.

Nvidia уже не в первый раз жонглирует цифрами производительности (особенно когда речь идет о точности вычислений с плавающей точкой), хотя при этом обвиняет Intel в некорректном бенчмаркетинге.
Как бы то ни было, в Drive PX 2 имеет место интересное сочетание мобильных SoC (включающих себя ЦПУ и ГПУ) и дискретных ГПУ десктопного уровня. О последнем свидетельствует объявленное Nvidia TDP Drive PX 2, которое составляет 250 Вт. Характеристики дискретных ГПУ по-прежнему неизвестны. Ранее звучали обвинения в адрес Nvidia, что в представленном на CES 2016 образце использовались ГПУ вовсе не с архитектурой Pascal, а более ранние Maxwell (возможно GM204 от GTX 980). Впрочем это всего лишь демонстрационный экземпляр, поэтому в использовании ГПУ Pascal можно не сомневаться. А вот какая именно модель — остается только гадать. Самой младшей среди известных на сегодня является GP106 с TDP 120 Вт (используется в GTX 1060). В случае её применения в сочетании с двумя мобильными SoC Tegra Parker (скажем, по 5 Вт) суммарное TDP вполне укладывается в заявленные Nvidia 250 Вт.