Cambricon MLU100 бросает вызов Tesla V100

Опубликовано 13:59 27.05.2018 автором Егор Ликоспастов

Созданный в 2016 китайский Cambricon Technologies известен лишь в узком кругу специалистов тем, что разработал нейросетевой сопроцесор Cambricon-1A. Последним оснащен прошлогодний Huawei Kirin 970, один из немногих процессоров для смартфонов, имеющий встроенное аппаратное ускорение задач машинного обучения (распознавания изображений, устной речи и т.д.) А в начале месяца Cambricon Technologies анонсировала ускоритель MLU-100, который предназначен для облачных вычислений и фактически является масштабированной версией мобильного сопроцессора Cambricon-1A.

Cambricon MLU100 создан на базе техпроцесс TSMC 16FF и может работать в двух режимах: с частотой 1.0 ГГц и 1.3 ГГц, в зависимости от которой потребляет 80 Вт и 110 Вт энергии и имеет быстродействие на уровне 64.0 и 83.2 терафлопс в операциях с плавающей точкой (FP16), или 128.0 и 166.4 TOPS — в операциях глубокого обучения. Много это или мало можно оценить по таблице сравнительных характеристики Cambricon MLU100 и топового графического ускорителя Nvidia, Tesla V100:

	Cambricon MLU100		Tesla V100 (NVLink)	Tesla V100 (PCIe)
ГПУ	—		GV100
Техпроцесс	TSMC 16FF		TSMC 12FFN
TDP	80 Вт	110 Вт	300 Вт	250 Вт
Кол-во транзисторов	?		21 млрд
Кол-во ядер CUDA	—		5120
Кол-во тензорных ядер	—		640
Частота базовая	1.0 ГГц	1.3 ГГц	?	1245 МГц
Частота ускоренная	—		1455 МГц	1380 МГц
Память	DDR4-1600		HBM2 1.75 Гбит/с
Разрядность памяти	256-бит		4096-бит
Пропускная способность памяти	102.4 Гб/с		900 Гб/с
Видеопамять	16 Гб 32 Гб		16 Гб 32 Гб
Кэш L2	—		6 Мб
FP16	64.0 терафлопс	83.2 терафлопс	30 терафлопс	28 терафлопс
FP32	—		15 терафлопс	14 терафлопс
FP64	—		7.5 терафлопс	7 терафлопс
Глубокое обучение (INT8)	128.0 TOPS	166.4 TOPS	120 TOPS	112 TOPS
Встроенный кулер	+		—

Как видно из этой таблицы, в операциях с невысокой степенью точности (FP16 и INT8, вероятно остальные не поддерживаются ) Cambricon MLU100 показывает заметное преимущество по сравнению Tesla V100 (хотя без подробностей такое сравнение возможно не вполне корректно). К числу недостатков новинки относится отсутствие поддержки более точных вычислений (под вопросом), гораздо более низкая пропускная способность видеопамяти, ну и конечно сам бренд. Архитектура графических ускорителей Nvidia хорошо известна разработчикам, поэтому программное обеспечение для них достаточно распространено и оптимизировано — чего нельзя сказать о продукции молодого китайского стартапа. Но в наибольшей степени конкурентоспособность Cambricon MLU100 будет определять его цена, а она пока неизвестна. Официальная цена Tesla V100 также неизвестна — его игровая версия, Nvidia Titan V, официально стоит $3000 (в США, без НДС), а в российском интернет-магазине PCIe-версия Tesla V100 предлагается за ₽670 тыс ($10,780).

AnandTech

Cambricon MLU100 бросает вызов Tesla V100

Добавить комментарий Отменить ответ

Рубрики