Fujitsu предрекает своим процессорам для глубокого обучения 10-кратное превосходство над конкурентами
Японская корпорация Fujitsu у большинства людей ассоциируется с электроникой и бытовой техникой. Но помимо прочего она выпускает на своих фабриках разработанные компанией HAL Computer Systems процессоры SPARC64, предназначенные для серверов и дата-центров. На их основе работает и созданный Fujitsu в 2011 году K computer, который первым среди супер-компьютеров преодолел рубеж в 10 петафлопс. В нем 88,128 SPARC64, чья суммарная производительность достигает 10.5 петафлопс (FP64) при энергопотреблении 12.6 мегаватт. Для сравнения самым производительным на сегодня является супер-компьютер Sunway TaihuLight, чья пиковая производительность составляет 93 петафлопс (FP64) при 15.3 мегаваттах потребляемой энергии.
А недавно Fujitsu анонсировала свои планы выпустить в 2018 т.н. «устройство глубокого обучения» (DLU, Deep Learning Unit), которое по производительности на один ватт потребляемой энергии превзойдет конкурентов в 10 раз. О DLU сообщается, что он содержит 16 элементов глубокого обучения (DPE, deep learning processing element), каждый из которых состоит из 8 SIMD-блоков. DLU будет поддерживать операции FP32, FP16, INT16 и INT8.
Fujitsu планирует использовать этот процессор в «пост-K» суперкомпьютере, который она разрабатывает совместно с японским Институтом физико-химических исследований (RIKEN). О каких конкретно конкурентах, которых в 10 раз превзойдет по эффективности DLU, не сообщается. С нейросетями глубокого обучения работают продукты таких, в частности, компаний как Intel, Nvidia и AMD. Особый интерес вызывает Google TPU — кластер из 1000 таких процессоров согласно Google достигает производительности в 180 петафлопс (FP16). С учетом того, что быстродействие одного TPU составляет 180 терафлопс, напрашивается вывод, что кластеры масштабируются без потери скорости. Если исходить из довольно вольного допущения, что FP64 соответствует 4 x FP16, и пренебречь разностью выполняемых задач, то система из 1000 процессоров Google TPU всего в два раза уступает по быстродействию Sunway TaihuLight, который оснащен 40,960 250-ядерных RISC-процессоров SW26010.