AMD Instinct MI250x: 48 TFLOPS FP64 на одном ускорителе

Опубликовано 23:00 08.11.202123:59 08.11.2021 автором Егор Ликоспастов

Когда год назад AMD представила Instinct MI100, это был самый производительный ускоритель — его быстродействие достигало 11.5 TFLOPS в операциях с плавающей точкой двойной точности (FP64). Герои сегодняшнего анонса затмили предшественника: у состоящих из двух чиплетов Instinct MI250x и Instinct MI250 пиковая производительность достигает 47.9 и 45.3 TFLOPS FP64 соответственно (при мощности 560 Вт). Это больше, чем у самого производительного в мире суперкомпьютера 18-летней давности (40.96 TFLOPS FP64 при мощности 3.2 МВт). Вот как выглядят характеристики сегодняшних ускорителей, их прошлогоднего предшественника и вышедшего в прошлом году соперника от Nvidia:

	Instinct MI250X	Instinct MI250	Instinct MI100	A100
TDP	560 Вт	560 Вт	300 Вт	400 Вт
Техпроцесс	6 нм TSMC	6 нм TSMC	7 нм TSMC	7 нм TSMC
Архитектура	CDNA 2	CDNA 2	CDNA	Ampere
Кол-во транзисторов	2 x 29.1 млрд	2 x 29.1 млрд	25.6 млрд	54 млрд
Кол-во ядер (потоковых процессоров)	2 x 7,040	2 x 6,656	7,680	6,912
Тактовая частота (максимальная)	1.7 ГГц	1.7 ГГц	1.5 ГГц	1.4 ГГц
Память, пропускная способность	128 Гб HBM2E 3.2 Тб/с	128 Гб HBM2E 3.2 Тб/с	32 Гб HBM2 1.23 Тб/с	80 Гб HBM2e 2 Тб/с
FP64 (векторная / матричная)	47.9 / 95.7	45.3 / 90.5	11.5	9.7
FP32 (векторная / матричная)	47.9 / 95.7	45.3 / 90.5	23.1	19.5
FP16 (матричная)	383	362.1	184.6	78
BF16 (bfloat16)	383	362.1	92.3	39

Еще одним представителем серии MI200 стал Instinct MI210, но его характеристики пока не раскрываются.

Главным отличием новой графической микроархитектуры, CDNA 2, стала поддержка FP64 в матричных и векторных вычислениях, при этом в векторных скорость была удвоена. Поэтому при двух чиплетах скорость векторных вычислений, по сравнению с одночиплетным Instinct MI100, выросла более чем в 4 раза, а скорость матричных — более чем в 8 раз.

Помимо новой микроархитектуры ГПУ, интересным новшеством, которое AMD применила в сегодняшних графических ускорителях, стала новая технология чиплетной упаковки, Elevated Fanout Bridge 2.5D.

Ускорители Instinct MI250x получит 1.5-экзафлопсный суперкомпьютер Frontier — где он будет работать с процессорами EPYC, взаимодействуя с ними посредством шины Infinity Fabric.

На сегодняшней презентации AMD упомянула и свои будущие серверные процессоры EPYC на базе 5-нм техпроцесса. В 2022 выйдет семейство с кодовым именем Genoa — оно получит микроархитектуру Zen 4 и 96 ядер в самом старшем процессора, а в 1-й пол 2023 — семейство Bergamo с Zen 4c и до 128 ядер. Благодаря новому техпроцессу плотность транзисторов и энергоэффективность по сравнению с TSMC 7 нм вырастут вдвое, а «производительность» (по-видимому, речь идет о тактовой частоте) — на 25%.

AMD Instinct MI250x: 48 TFLOPS FP64 на одном ускорителе

Добавить комментарий Отменить ответ

Рубрики