AMD Instinct MI250x: 48 TFLOPS FP64 на одном ускорителе
Когда год назад AMD представила Instinct MI100, это был самый производительный ускоритель — его быстродействие достигало 11.5 TFLOPS в операциях с плавающей точкой двойной точности (FP64). Герои сегодняшнего анонса затмили предшественника: у состоящих из двух чиплетов Instinct MI250x и Instinct MI250 пиковая производительность достигает 47.9 и 45.3 TFLOPS FP64 соответственно (при мощности 560 Вт). Это больше, чем у самого производительного в мире суперкомпьютера 18-летней давности (40.96 TFLOPS FP64 при мощности 3.2 МВт). Вот как выглядят характеристики сегодняшних ускорителей, их прошлогоднего предшественника и вышедшего в прошлом году соперника от Nvidia:
Instinct MI250X | Instinct MI250 | Instinct MI100 | A100 | |
TDP | 560 Вт | 560 Вт | 300 Вт | 400 Вт |
Техпроцесс | 6 нм TSMC | 6 нм TSMC | 7 нм TSMC | 7 нм TSMC |
Архитектура | CDNA 2 | CDNA 2 | CDNA | Ampere |
Кол-во транзисторов | 2 x 29.1 млрд | 2 x 29.1 млрд | 25.6 млрд | 54 млрд |
Кол-во ядер (потоковых процессоров) | 2 x 7,040 | 2 x 6,656 | 7,680 | 6,912 |
Тактовая частота (максимальная) | 1.7 ГГц | 1.7 ГГц | 1.5 ГГц | 1.4 ГГц |
Память, пропускная способность | 128 Гб HBM2E 3.2 Тб/с | 128 Гб HBM2E 3.2 Тб/с | 32 Гб HBM2 1.23 Тб/с | 80 Гб HBM2e 2 Тб/с |
FP64 (векторная / матричная) | 47.9 / 95.7 | 45.3 / 90.5 | 11.5 | 9.7 |
FP32 (векторная / матричная) | 47.9 / 95.7 | 45.3 / 90.5 | 23.1 | 19.5 |
FP16 (матричная) | 383 | 362.1 | 184.6 | 78 |
BF16 (bfloat16) | 383 | 362.1 | 92.3 | 39 |
Еще одним представителем серии MI200 стал Instinct MI210, но его характеристики пока не раскрываются.
Главным отличием новой графической микроархитектуры, CDNA 2, стала поддержка FP64 в матричных и векторных вычислениях, при этом в векторных скорость была удвоена. Поэтому при двух чиплетах скорость векторных вычислений, по сравнению с одночиплетным Instinct MI100, выросла более чем в 4 раза, а скорость матричных — более чем в 8 раз.
Помимо новой микроархитектуры ГПУ, интересным новшеством, которое AMD применила в сегодняшних графических ускорителях, стала новая технология чиплетной упаковки, Elevated Fanout Bridge 2.5D.
Ускорители Instinct MI250x получит 1.5-экзафлопсный суперкомпьютер Frontier — где он будет работать с процессорами EPYC, взаимодействуя с ними посредством шины Infinity Fabric.
На сегодняшней презентации AMD упомянула и свои будущие серверные процессоры EPYC на базе 5-нм техпроцесса. В 2022 выйдет семейство с кодовым именем Genoa — оно получит микроархитектуру Zen 4 и 96 ядер в самом старшем процессора, а в 1-й пол 2023 — семейство Bergamo с Zen 4c и до 128 ядер. Благодаря новому техпроцессу плотность транзисторов и энергоэффективность по сравнению с TSMC 7 нм вырастут вдвое, а «производительность» (по-видимому, речь идет о тактовой частоте) — на 25%.