Cambricon MLU100 бросает вызов Tesla V100

Созданный в 2016 китайский Cambricon Technologies известен лишь в узком кругу специалистов тем, что разработал нейросетевой сопроцесор Cambricon-1A. Последним оснащен прошлогодний Huawei Kirin 970, один из немногих процессоров для смартфонов, имеющий встроенное аппаратное ускорение задач машинного обучения (распознавания изображений, устной речи и т.д.) А в начале месяца Cambricon Technologies анонсировала ускоритель MLU-100, который предназначен для облачных вычислений и фактически является масштабированной версией мобильного сопроцессора Cambricon-1A.

Cambricon MLU100

Cambricon MLU100 создан на базе техпроцесс TSMC 16FF и может работать в двух режимах: с частотой 1.0 ГГц и 1.3 ГГц, в зависимости от которой потребляет 80 Вт и 110 Вт энергии и имеет быстродействие на уровне 64.0 и 83.2 терафлопс в операциях с плавающей точкой (FP16), или 128.0 и 166.4 TOPS — в операциях глубокого обучения. Много это или мало можно оценить по таблице сравнительных характеристики Cambricon MLU100 и топового графического ускорителя Nvidia, Tesla V100:

Cambricon
MLU100
Tesla V100
(NVLink)
Tesla V100
(PCIe)
ГПУ GV100
Техпроцесс TSMC 16FF TSMC 12FFN
TDP 80 Вт 110 Вт 300 Вт 250 Вт
Кол-во транзисторов ? 21 млрд
Кол-во ядер CUDA 5120
Кол-во тензорных ядер 640
Частота базовая 1.0 ГГц 1.3 ГГц ? 1245 МГц
Частота ускоренная 1455 МГц 1380 МГц
Память DDR4-1600 HBM2 1.75 Гбит/с
Разрядность памяти 256-бит 4096-бит
Пропускная способность памяти 102.4 Гб/с 900 Гб/с
Видеопамять 16 Гб
32 Гб
16 Гб
32 Гб
Кэш L2 6 Мб
FP16 64.0 терафлопс 83.2 терафлопс 30 терафлопс 28 терафлопс
FP32 15 терафлопс 14 терафлопс
FP64 7.5 терафлопс 7 терафлопс
Глубокое обучение (INT8) 128.0 TOPS 166.4 TOPS 120 TOPS 112 TOPS
Встроенный кулер +

Как видно из этой таблицы, в операциях с невысокой степенью точности (FP16 и INT8, вероятно остальные не поддерживаются ) Cambricon MLU100 показывает заметное преимущество по сравнению Tesla V100 (хотя без подробностей такое сравнение возможно не вполне корректно). К числу недостатков новинки относится отсутствие поддержки более точных вычислений (под вопросом), гораздо более низкая пропускная способность видеопамяти, ну и конечно сам бренд. Архитектура графических ускорителей Nvidia хорошо известна разработчикам, поэтому программное обеспечение для них достаточно распространено и оптимизировано — чего нельзя сказать о продукции молодого китайского стартапа. Но в наибольшей степени конкурентоспособность Cambricon MLU100 будет определять его цена, а она пока неизвестна. Официальная цена Tesla V100 также неизвестна — его игровая версия, Nvidia Titan V, официально стоит $3000 (в США, без НДС), а в российском интернет-магазине PCIe-версия Tesla V100 предлагается за ₽670 тыс ($10,780).

AnandTech