EPYC 7742 vs Xeon Platinum 8280: новый король на серверном рынке
По оценкам маркетинговых агентств, доля AMD на серверном рынке составляет от 2% (Mercury) до 5% (IDC). Однако уже во 2-м квартале следующего года компания рассчитывает увеличить эту цифру до 10%. На прошлой неделе AMD представила обновленную, 7002-ю (Rome), серию серверных процессоров EPYC. Практически по всем параметрам обновление оказалось весьма значительным — по сравнению как с вышедшим в 2017 году первым поколением EPYC (7001-я серия, Naples), так и с серверными процессорами Xeon от Intel:
EPYC 7742 | EPYC 7601 | Xeon Platinum 9282 | Xeon Platinum 8280 | |
Релиз | 3 кв 2019 | 2 кв 2017 | 2 кв 2019 | |
Цена | $6,950 | $4,200 | $10,000 | |
TDP | 225 Вт | 180 Вт | 400 Вт | 205 Вт |
Кол-во чиплетов | 8+1 | 4 | 2 | 1 |
Техпроцесс | TSMC 7-нм | TSMC 14-нм | Intel 14-нм | Intel 14-нм |
Микроархитектура | Zen 2 (Rome) | Zen 1 (Naples) | Cascade Lake | Cascade Lake |
Кол-во ядер (потоков) | 64 (128) | 32 (64) | 56 (112) | 28 (56) |
Тактовая частота | 2.24/3.4 ГГц | 2.2/3.2 ГГц | 2.6/3.8 ГГц | 2.7/4.0 ГГц |
PCIe | 128 PCIe 4.0 | 128 PCIe 3.0 | 40 PCIe 3.0 | 48 PCIe 3.0 |
Поддержка DDR4 | DDR4-3200 | DDR4-2666 | DDR4-2933 | DDR4-2933 |
Максимальный объем памяти | 4 Тб | 2 Тб | 2 Тб | 1 Тб |
Кэш L1 (инструкции + данные) | 2+2 Мб | 2+1 Мб | 1.75+1.75 Мб | 896+896 Кб |
Кэш L2 | 32 Мб | 16 Мб | 56 Мб | 28 Мб |
Кэш L3 | 256 Мб | 64 Мб | 77 Мб | 38.5 Мб |
К этому можно добавить, что в микроархитектуре Zen 2 количество инструкций за цикл (IPC) выросло примерно на 15%, а плотность размещения транзисторов на кристалле с 7-нм литографией по сравнению с 14-нм удвоилось.
Как видим, по номинальным характеристикам новый топовый серверный процессор AMD превосходит как конкурента от Intel, так и своего непосредственного предшественника. По сравнению с последним, количество чиплетов увеличилось до девяти: восемь — под процессорные ядра (Core Complex Dies, CCD) и один — под интерфейсный контроллер (I/O Die, IOD).
В первом поколении таких чиплетов было четыре, и все они были соединены между собой напрямую. Однако в условиях двойного роста количества чиплетов старая топология привела бы к значительным задержкам при обмене данных между самыми удаленными — в новой топологии такой проблемы не возникает. Другое важное преимущество такой централизованной топологии состоит в том, что она проще с точки зрения разработки серверного софта и его оптимизации — что также скажется на производительности. Правда, в отличие от CCD, IOD создан на базе не 7-нм, а 14-нм техпроцесса — очевидно, с целью снижения расходов там, где это возможно с минимальным ущербом для размеров и энергопотребления процессора. Сочетание 7-нм и 14-нм техпроцессов позволило разместить 32 млрд транзисторов на площади 1,000 мм2.
Что касается Intel, то на самом деле сравнение EPYC 7742 с Xeon Platinum 9282 не вполне корректно, поскольку отдельно он не продается. Процессор можно приобрести в составе вычислительного модуля серверной системы Intel S9256WK1HLC, причем его цена неизвестна. А главное, этот модуль пока никто не тестировал, или во всяком случае не публиковал результаты тестов. Поэтому авторы вышедших на прошлой неделе обзоров EPYC 7742 сравнивают его с 28-ядерным Xeon Platinum 8200, мелкооптовая цена которого составляет $10 тыс. Можно себе представить сколько будет стоить 56-ядерный Xeon Platinum 9282 — и вместе с тем какой переворот на рынке серверных процессоров произведет 64-ядерный EPYC 7742 за $7 тыс!
Итак, почти по всем параметрам EPYC 7742 превосходит Xeon Platinum 8200. Исключение составляет, во-первых, поддержка последним команд Intel AVX-512, названных так благодаря возможности осуществления операций с 512-битными векторами. Как уже рассказывал Gadgets News, по сравнению с набором команд Intel Advanced Vector Extensions 2.0 (Intel AVX2), ширина регистров данных, число регистров и ширина команд Fused Multiply-Add (FMA) у Intel AVX-512 стала вдвое больше. Благодаря Intel AVX-512 приложения могут осуществлять 32 операции с плавающей точкой в секунду с удвоенной точностью (FP64) и 64 операции с плавающей точкой в секунду с одинарной точностью (FP32) за тактовый цикл в 512-битных векторах, а также 8 целочисленных типов шириной 64 бит и 16 целочисленных типов шириной 32 бит и до двух 512-битных команд FMA. Во-вторых, Xeon Platinum 8200 лучше подходит для задач машинного обучения. Ну и наконец в третьих, процессоры Intel традиционно превосходят AMD в однопоточных вычислениях — как обстоят дела у нынешних героев предстоит выяснить из бенчмарков.
Ниже приводятся результаты тестов, проведенных нашими коллегами из Phoronix. В их распоряжении оказался аналог вышеупомянутого вычислительного модуля Intel — референсная система AMD Daytona. Она работает под управлением Ubuntu 19.04, укомплектована парой процессоров Epyc 7742, 16 модулями DDR4-3200 32 Гб, 256 Гб 1100 SATA SSD и 6 дисками 9300 NVMe 3.84 Гб PCIe 4.0 — правда, без поддержки PCIe 4.0 (являющегося одним из главных преимуществ EPYC 7742). Стоимость этой 256-ядерной платформы составляет примерно $25 тыс (включая два процессора Epyc 7742 на сумму $13.9 тыс). Её соперником выступает сервер на базе двух процессоров Xeon Platinum 8200.
Тестирование пропускной способности каналов между процессорами и оперативной памятью (чем больше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
Stream 1.3.1 (Add) | 194,758 Мб/с | 175,264 Мб/с (90%) |
Stream 1.3.1 (Copy) | 185,156 Мб/с | 177,819 Мб/с (96%) |
Stream 1.3.1 (Scale) | 177,569 Мб/с | 165,478 Мб/с (93%) |
Stream 1.3.1 (Triad) | 200,514 Мб/с | 179,321 Мб/с (89%) |
RAMSpeed SMP v3.5.0 (Add) | 49,781 Мб/с | 33,081 Мб/с (66%) |
RAMSpeed SMP v3.5.0 (Copy) | 37,493 Мб/с | 33,944 Мб/с (91%) |
RAMSpeed SMP v3.5.0 (Scale) | 39,456 Мб/с | 29,569 Мб/с (75%) |
Тесты производительности:
- OpenSSL — генерация 4096-битового секретного ключа RSA
- John The Ripper (Blowfish) — утилита для взлома паролей
- 7-Zip — архивирование файлов
- ctx_clock — программа, измеряющая время переключения контекста (в тактах)
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
OpenSSL v1.1.1 (чем больше, тем лучше) | 24,142 подписей/сек | 13,698 подписей/сек (57%) |
John The Ripper — Blowfish (чем больше, тем лучше) | 179,166 комбинаций/с | 84,238 комбинаций/с (47%) |
7-Zip v16.02 (чем больше, тем лучше) | 347,497 MIPS | 228,891 MIPS (66%) |
ctx_clock (чем меньше, тем лучше) | 135 тактов | 135 тактов |
Симуляция молекулярной динамики (чем меньше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
NAMD (327,506 атомов) | 0.27 дней/нс (75%) | 0.36 дней/нс |
CP2K | 600 сек (50%) | 1206 сек |
Трассировка лучей, интенсивно нагружающая процессор вычислениями с плавающей точкой, и графический рендеринг (чем меньше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
C-Ray | 6.1 сек (53%) | 11.5 сек |
POV-Ray | 8.24 сек (68%) | 12.06 сек |
Radiance | 216 сек (96%) | 224 сек |
Blender 3D v2.79a — BMW27 | 30.45 сек (64%) | 47.25 сек |
Blender 3D v2.79a — Classroom | 48.17 сек (51%) | 93.79 сек |
Blender 3D v2.79a — Fishy Cat | 52.02 сек (72%) | 72.29 сек |
Blender 3D v2.79a — Barbershop | 140 сек (63%) | 222 сек |
Appleseed v2.0 Beta — Emily | 174 сек | 155 сек (89%) |
Appleseed v2.0 Beta — Disney Material | 59.71 сек (92%) | 64.80 сек |
Кодировка видео:
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
x264 v2018-09-25 (чем больше, тем лучше) | 155.61 к/с | 118.61 к/с (76%) |
x265 v3.0 (чем больше, тем лучше) | 44.41 к/с | 32.61 к/с (73%) |
dav1d AV1 — 1080p (чем меньше, тем лучше) | 4.80 сек (52%) | 9.16 сек |
dav1d AV1 — 4K (чем меньше, тем лучше) | 11.17 к/с (61%) | 18.24 к/с |
SVT-AV1 v0.5 (чем больше, тем лучше) | 101.9 к/с | 61.43 к/с (60%) |
SVT-HEVC v2019-02-03 (чем больше, тем лучше) | 337 к/с | 261 к/с (77%) |
SVT-VP9 v2019-02-17 (чем больше, тем лучше) | 283.47 к/с | 271.23 к/с (96%) |
Шахматные движки:
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
Stockfish 9 (чем больше, тем лучше) | 236.68 млн узлов/с | 124.65 млн узлов/с (53%) |
asmFish v2018-07-23 (чем больше, тем лучше) | 237 млн узлов/с | 137 млн узлов/с (58%) |
M-Queens (чем меньше, тем лучше) | 7.0 сек (42%) | 16.6 сек |
Компиляция исходников (чем меньше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
GCC v8.2 | 724 сек (81%) | 891 сек |
Linux Kernel v4.18 | 16.1 сек (75%) | 21.36 сек |
LLVM v6.0.1 | 79.37 сек (74%) | 106.79 сек |
Работа с базами данных (Redis — с нереляционной БД: команда SET
создает ключ и присваивает ему какое-то значение, команда GET
возвращает значение по ключу), чем больше, тем лучше:
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
Sysbench | 212,975 событий/сек | 96,208 событий/сек (45%) |
Redis — GET | 2,541,995 запросов/сек | 2,502,317 запросов/сек (98%) |
Redis — SET | 1,993,389 запросов/сек | 1,622,822 запросов/сек (81%) |
MariaDB | 302 запросов/сек (68%) | 441 запросов/сек |
Майнинг криптовалют (чем больше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
CPUMiner-Opt v3.8.8.1 — m7m | 4,431 кило-хэш/с | 1,519 кило-хэш/с (34%) |
CPUMiner-Opt v3.8.8.1 — deep | 80,937 кило-хэш/с | 33,219 кило-хэш/с (41%) |
CPUMiner-Opt v3.8.8.1 — skein | 271,270 кило-хэш/с | 167,277 кило-хэш/с (62%) |
CPUMiner-Opt v3.8.8.1 — sha256t | 580,215 кило-хэш/с | 331,363 кило-хэш/с (57%) |
Как видим, почти во всех этих тестах (кроме Appleseed v2.0 Beta — Emily и MariaDB) лидирует процессор AMD — иногда с очень большим отрывом. В количественном выражении счет составил 41:2 в пользу Epyc 7742.
Правда, необходимо сделать оговорку: в некоторых тестах младшие модели из 7002-й серии процессоров EPYC оказались еще производительнее — вероятно, из-за более высокой тактовой частоты ядер. Еще в некоторых тестах Epyc 7742 и Xeon Platinum 8200 в одиночку работают с такой же скоростью (и даже быстрее), что и в паре со своим «близнецом» — очевидно, из-за неспособности данного бенчмарка масштабировать нагрузку. В частности, в тесте SVT-VP9 (между прочим, бенчмарк SVT разработан Intel) Xeon Platinum 8200 в одиночку набрал 364.52 к/с — на 34% больше платформы с двумя этими процессорами.
Но, как уже отмечалось выше, в задачах машинного обучения и однопоточных вычислениях быстрее оказывается процессор Intel (чем меньше, тем лучше).
Машинное обучение (чем меньше, тем лучше):
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
MKL-DNN v2019-04-16 (обратная свёртка) | 5.63 мс | 0.96 мс (17%) |
MKL-DNN v2019-04-16 — AlexNet (свёртка) | 52.07 мс | 48.93 мс (94%) |
MKL-DNN v2019-04-16 — GoogleNet (свёртка) | 24.73 мс | 21.39 мс (86%) |
Однопоточные вычисления:
2 x Epyc 7742 | 2 x Xeon Platinum 8200 | |
libjpeg-turbo (чем больше, тем лучше) | 170 мпс/с (90%) | 188 мпс/с |
PyBench (чем меньше, тем лучше) | 1,201 мс | 1,017 мс (85%) |
PHPBench (чем меньше, тем лучше) | 302 сек (68%) | 441 сек |
Во всех этих 6 тестах уверенно побеждает Xeon Platinum 8200. Таким образом, подтверждается предположение о превосходстве этого процессора в однопоточных вычислениях и задачах машинного обучения — во всех остальных лидирует Epyc 7742. Особенно сильно это лидерство проявляется в производительности на доллар цены и ватт потребляемой энергии.
В этих обстоятельствах может показаться очевидным, что новые процессоры AMD не оставляют Intel никаких шансов, но в действительности всё обстоит гораздо сложнее. Intel, которая на рынке серверных процессоров занимает 95-98%, имеет давние и хорошо налаженные связи с производителями серверного оборудования — а это, в отличие от персональных компьютеров, довольно консервативная индустрия. Так что AMD придется приложить немало усилий, что занять на серверном рынке желаемые 10%. В любом случае последний релиз компании — безусловный успех, который в очередной раз заставит Intel нервничать и предпринять ответные меры. Три недели назад она представила 11 новых процессоров с новой архитектурой Ice Lake и долгожданным 10-нм техпроцессом. Все они относятся к предназначенным для планшетов и ноутбуков Y и U сериям, с энергопотреблением от 9 Вт до 28 Вт, однако уже в следующем году ожидается релиз моделей для десктопных ПК и серверов. В свою очередь AMD в следующем году планирует релиз новой архитектуры, Zen 3 (Milan), разработка которой уже завершена. Так что в 2020 борьба двух компаний выйдет на новый виток.