Google TPU v4, Habana Gaudi2 и Tachyum Prodigy T16128: новейшие процессоры для искусственного интеллекта [обновлено]

В рамках прошедшей на днях Google I/O (на которой были анонсированы Pixel 6a и другие новинки), компания представила свой новый тензорный процессор для облачных расчетов в области искусственного интеллекта, TPU v4. Это довольно запоздавшее обновление — предыдущие выходили в 2018, 2017 и 2016. Вот как изменились характеристики новинки по сравнению с предшественником:

TPU v4TPU v3
Релиз20222018
Техпроцесс7 нм16 нм
Пиковая производительность (bf16 или int8)275 TFLOPS123 TFLOPS
Объем и пропускная способность HBM232 Гб
1200 Гб/с
16 Гб 1
900 Гб/с
Энергопотребление (мин, среднее, макс)90/170/192 Вт123/220/262 Вт
Кол-во процессоров в вычислительном кластере40961024
Пиковая производительность кластера (bf16 или int8)1.1 EFLOPS126 PFLOPS
Топология3D2D
Минимальная пропускная способность между частями сети24 Тб/с6.4 Тб/с

1 согласно тексту пресс-релиза (в таблице — 32 Гб)

Для сравнения, производительность TPU v2 (2017, 16 нм) достигает 45 TFLOPS (180 TFLOPS у платы с четырьмя чипами). Таким образом, за четыре года быстродействие тензорных процессоров Google увеличилось в 6 раз. По сравнению с TPU v3 пиковая энергоэффективность (производительность на ватт) TPU v4 выросла втрое.

Google не только использует тензорные кластеры для собственных нужд, но и предоставляет их в пользование — для облачных вычислений в области крупномасштабной обработка естественного языка, рекомендательных систем и компьютерного зрения. Компания заявляет, что общая производительность её дата-центра в Оклахоме достигает 9 EFLOPS (экзафлопс), что делает его крупнейшим в мире среди общедоступных. При этом хаб на 90% питается чистой (безуглеродной) энергией. Для сравнения, пиковая производительность самого быстрого в мире суперкомпьютера, Фугаку (Япония), составляет 0.5 экзафлопс. Впрочем, сравнивать их между собой напрямую некорректно: у дата-центра Google 9 экзафлопс получено в Bfloat16 (причем, возможно, на разреженных, т.е. с преимущественно нулевыми элементами, матрицах), а у Фугаку — float64 (FP64). На примере Nvidia H100 (SXM5) разница между BF16 на разреженных матрицах (2000 TFLOPS) и FP64 (30 TFLOPS) может быть 76-кратной. Что касается непосредственного сравнения самих процессоров, то по тензорной производительности расклад такой (для H100 данные приводятся по обычным и разреженным матрицам):

Google TPU v4Nvidia H100 (SXM5)
Техпроцесс7 нм4 нм
Энергопотребление170 Вт700 Вт
bf16275 TFLOPS1000 TFLOPS
2000 TFLOPS

Максимальная цена облачного доступа к одному процессору TPU v4 составляет $3.22 в час (к TPU v3 — $2.00).

Почти одновременно с Google I/O состоялось мероприятие другого IT-гиганта, Intel Vision. На нем были представлены два процессора израильской компании Habana Labs, которую Intel приобрела в декабре 2019 за $2 млрд. Это 2-е поколение ускорителя Gaudi, предназначенного для тренировки глубоких ИНС, и ускоритель Greco — для инференса (вывода данных из модели). Оба созданы на базе 7-нм техпроцесса TSMC. Intel предпочла сравнить производительность не с Nvidia H100, а его предшественником:

Третьим интересным анонсом в области ИИ-вычислений стали три процессора словацкой компании Tachyum: 32-ядерный Prodigy T832, 64-ядерный Prodigy T864 и 128-ядерный Prodigy T16128. Все они созданы на базе 5-нм техроцесса, тактовая частота ядер достигает 5 ГГц. Заявленная производительность самой старшей модели, Prodigy T16128 — 90 TFLOPS FP64 и 12 PFLOPS FP8, что в 3 и 6 раз больше, чем у Nvidia H100. Процессоры Prodigy поддерживают вычисления в формате данных FP64, FP32, TF32, BF16, Int8, FP8 и TAI. Компания называет свое детище первыми в мире универсальными процессорами — они объединяют в себе функциональность ЦПУ, ГПУ и ТПУ. Обновление от 04.10.2022: вышла документация (Whitepaper) по архитектуре Tachyum Prodigy.

По оценкам консалтинговой компании PriceWaterhouseCoopers, сделанным в начале года, вклад технологий искусственного интеллекта в мировой ВВП в 2030 составит $15.7 трлн, из которых $6.6 трлн — за счет выросшей производительности труда, а $9.1 трлн — потребительского спроса (благодаря возросшему качеству и персонификации услуг, появлению дополнительного времени). Согласно PWC, основной вклад в этот рост мирового ВВП внесут Китай ($7 трлн), Северная Америка ($3.7 трлн) и Северная Европа ($1.8 трлн). Социальным последствиям революции, которую обещают произвести технологии искусственного интеллекта, посвящена наша публикация Станет ли Искусственный Интеллект Большим Братом?

Google, Intel, Tachyum, PWC