Google TPU научился тренироваться и достиг производительности в 180 терафлопс
Сегодня, в рамках мероприятия Google I/O 2017, посвященного главным образом следующему поколению мобильной операционной системы Android O и ряду сервисов Google, был сделан еще один интересный анонс. Компания представила TPU (Tensor Processing Unit, тензорный процессор) нового поколения.
Этот анонс как нельзя своевременен с учетом недавнего сравнения первого поколения TPU (2015) c прошлогодней видеокартой Tesla P40. Средняя скорость принятия решений (Inference) у последней выше в два раза, при этом она может использоваться и для тренировки нейросетей — в отличие от TPU. Правда, по другому показателю (который условно можно назвать пиковой скоростью) первый Google TPU, напротив, в два раза превзошел видеокарту Nvidia, при этом его энергопотребление значительно ниже (75 Вт vs 250 Вт). К этому можно добавить, что он был создан на базе более старого 28-нанометрового техпроцесса (у Tesla P40 — 16-нанометровый), у него память с довольно низкой пропускной способностью (с 4-кратным резервом роста) и не самая оптимальная логика. Улучшение только двух последних параметров позволило бы повысить производительность в 4-5 раз, а в совокупности имелся задел для 9-кратного роста эффективности (быстродействия на один ватт потребляемой энергии).
И вот сегодня стало известно о появлении новой версии, названной Cloud TPU (облачный TPU). В отличие от предшественника этот процессор может быть использован не только для принятия решений уже обученной нейросетью, но и для её тренировки. При этом его производительность может достигать 180 терафлопс в операциях с точностью FP16. Процессор является хорошо масштабируемым — в системе из 64 модулей его производительность вырастает в 64 раза и достигает 11.5 петафлопс.
Позиционирование процессора в качестве облачного подразумевает возможность его использования не только в принятии решений для нужд самой Google (будь то ответы на голосовые запросы пользователей Google Ассистента или игра в Го), но и для тренировки нейросетей по заказу других организаций и частных лиц. Можно надеяться, что это обстоятельство облегчит создание систем искусственного интеллекта небогатыми разработчиками.