Cambricon MLU100 бросает вызов Tesla V100
Созданный в 2016 китайский Cambricon Technologies известен лишь в узком кругу специалистов тем, что разработал нейросетевой сопроцесор Cambricon-1A. Последним оснащен прошлогодний Huawei Kirin 970, один из немногих процессоров для смартфонов, имеющий встроенное аппаратное ускорение задач машинного обучения (распознавания изображений, устной речи и т.д.) А в начале месяца Cambricon Technologies анонсировала ускоритель MLU-100, который предназначен для облачных вычислений и фактически является масштабированной версией мобильного сопроцессора Cambricon-1A.
Cambricon MLU100 создан на базе техпроцесс TSMC 16FF и может работать в двух режимах: с частотой 1.0 ГГц и 1.3 ГГц, в зависимости от которой потребляет 80 Вт и 110 Вт энергии и имеет быстродействие на уровне 64.0 и 83.2 терафлопс в операциях с плавающей точкой (FP16), или 128.0 и 166.4 TOPS — в операциях глубокого обучения. Много это или мало можно оценить по таблице сравнительных характеристики Cambricon MLU100 и топового графического ускорителя Nvidia, Tesla V100:
Cambricon MLU100 |
Tesla V100 (NVLink) |
Tesla V100 (PCIe) |
||
ГПУ | — | GV100 | ||
Техпроцесс | TSMC 16FF | TSMC 12FFN | ||
TDP | 80 Вт | 110 Вт | 300 Вт | 250 Вт |
Кол-во транзисторов | ? | 21 млрд | ||
Кол-во ядер CUDA | — | 5120 | ||
Кол-во тензорных ядер | — | 640 | ||
Частота базовая | 1.0 ГГц | 1.3 ГГц | ? | 1245 МГц |
Частота ускоренная | — | 1455 МГц | 1380 МГц | |
Память | DDR4-1600 | HBM2 1.75 Гбит/с | ||
Разрядность памяти | 256-бит | 4096-бит | ||
Пропускная способность памяти | 102.4 Гб/с | 900 Гб/с | ||
Видеопамять | 16 Гб 32 Гб |
16 Гб 32 Гб |
||
Кэш L2 | — | 6 Мб | ||
FP16 | 64.0 терафлопс | 83.2 терафлопс | 30 терафлопс | 28 терафлопс |
FP32 | — | 15 терафлопс | 14 терафлопс | |
FP64 | — | 7.5 терафлопс | 7 терафлопс | |
Глубокое обучение (INT8) | 128.0 TOPS | 166.4 TOPS | 120 TOPS | 112 TOPS |
Встроенный кулер | + | — |
Как видно из этой таблицы, в операциях с невысокой степенью точности (FP16 и INT8, вероятно остальные не поддерживаются ) Cambricon MLU100 показывает заметное преимущество по сравнению Tesla V100 (хотя без подробностей такое сравнение возможно не вполне корректно). К числу недостатков новинки относится отсутствие поддержки более точных вычислений (под вопросом), гораздо более низкая пропускная способность видеопамяти, ну и конечно сам бренд. Архитектура графических ускорителей Nvidia хорошо известна разработчикам, поэтому программное обеспечение для них достаточно распространено и оптимизировано — чего нельзя сказать о продукции молодого китайского стартапа. Но в наибольшей степени конкурентоспособность Cambricon MLU100 будет определять его цена, а она пока неизвестна. Официальная цена Tesla V100 также неизвестна — его игровая версия, Nvidia Titan V, официально стоит $3000 (в США, без НДС), а в российском интернет-магазине PCIe-версия Tesla V100 предлагается за ₽670 тыс ($10,780).