AMD Instinct MI250x: 48 TFLOPS FP64 на одном ускорителе

Когда год назад AMD представила Instinct MI100, это был самый производительный ускоритель — его быстродействие достигало 11.5 TFLOPS в операциях с плавающей точкой двойной точности (FP64). Герои сегодняшнего анонса затмили предшественника: у состоящих из двух чиплетов Instinct MI250x и Instinct MI250 пиковая производительность достигает 47.9 и 45.3 TFLOPS FP64 соответственно (при мощности 560 Вт). Это больше, чем у самого производительного в мире суперкомпьютера 18-летней давности (40.96 TFLOPS FP64 при мощности 3.2 МВт). Вот как выглядят характеристики сегодняшних ускорителей, их прошлогоднего предшественника и вышедшего в прошлом году соперника от Nvidia:

Instinct MI250XInstinct MI250Instinct MI100A100
TDP560 Вт560 Вт300 Вт400 Вт
Техпроцесс6 нм TSMC6 нм TSMC7 нм TSMC7 нм TSMC
АрхитектураCDNA 2CDNA 2CDNAAmpere
Кол-во транзисторов2 x 29.1 млрд2 x 29.1 млрд25.6 млрд54 млрд
Кол-во ядер (потоковых процессоров)2 x 7,0402 x 6,6567,6806,912
Тактовая частота (максимальная)1.7 ГГц1.7 ГГц1.5 ГГц1.4 ГГц
Память, пропускная способность128 Гб HBM2E
3.2 Тб/с
128 Гб HBM2E
3.2 Тб/с
32 Гб HBM2
1.23 Тб/с
80 Гб HBM2e
2 Тб/с
FP64 (векторная / матричная)47.9 / 95.745.3 / 90.511.59.7
FP32 (векторная / матричная)47.9 / 95.745.3 / 90.523.119.5
FP16 (матричная)383362.1184.678
BF16 (bfloat16)383362.192.339

Еще одним представителем серии MI200 стал Instinct MI210, но его характеристики пока не раскрываются.

Главным отличием новой графической микроархитектуры, CDNA 2, стала поддержка FP64 в матричных и векторных вычислениях, при этом в векторных скорость была удвоена. Поэтому при двух чиплетах скорость векторных вычислений, по сравнению с одночиплетным Instinct MI100, выросла более чем в 4 раза, а скорость матричных — более чем в 8 раз.

Помимо новой микроархитектуры ГПУ, интересным новшеством, которое AMD применила в сегодняшних графических ускорителях, стала новая технология чиплетной упаковки, Elevated Fanout Bridge 2.5D.

Ускорители Instinct MI250x получит 1.5-экзафлопсный суперкомпьютер Frontier — где он будет работать с процессорами EPYC, взаимодействуя с ними посредством шины Infinity Fabric.

На сегодняшней презентации AMD упомянула и свои будущие серверные процессоры EPYC на базе 5-нм техпроцесса. В 2022 выйдет семейство с кодовым именем Genoa — оно получит микроархитектуру Zen 4 и 96 ядер в самом старшем процессора, а в 1-й пол 2023 — семейство Bergamo с Zen 4c и до 128 ядер. Благодаря новому техпроцессу плотность транзисторов и энергоэффективность по сравнению с TSMC 7 нм вырастут вдвое, а «производительность» (по-видимому, речь идет о тактовой частоте) — на 25%.