EPYC 7742 vs Xeon Platinum 8280: новый король на серверном рынке

amd_rome

По оценкам маркетинговых агентств, доля AMD на серверном рынке составляет от 2% (Mercury) до 5% (IDC). Однако уже во 2-м квартале следующего года компания рассчитывает увеличить эту цифру до 10%. На прошлой неделе AMD представила обновленную, 7002-ю (Rome), серию серверных процессоров EPYC. Практически по всем параметрам обновление оказалось весьма значительным — по сравнению как с вышедшим в 2017 году первым поколением EPYC (7001-я серия, Naples), так и с серверными процессорами Xeon от Intel:

EPYC 7742EPYC 7601Xeon Platinum 9282Xeon Platinum 8280
Релиз3 кв 20192 кв 20172 кв 2019
Цена$6,950$4,200$10,000
TDP225 Вт180 Вт400 Вт205 Вт
Кол-во чиплетов8+1421
ТехпроцессTSMC 7-нмTSMC 14-нмIntel 14-нмIntel 14-нм
МикроархитектураZen 2 (Rome)Zen 1 (Naples)Cascade LakeCascade Lake
Кол-во ядер (потоков)64 (128)32 (64)56 (112)28 (56)
Тактовая частота2.24/3.4 ГГц2.2/3.2 ГГц2.6/3.8 ГГц2.7/4.0 ГГц
PCIe128 PCIe 4.0128 PCIe 3.040 PCIe 3.048 PCIe 3.0
Поддержка DDR4DDR4-3200DDR4-2666DDR4-2933DDR4-2933
Максимальный объем памяти4 Тб2 Тб2 Тб1 Тб
Кэш L1 (инструкции + данные)2+2 Мб2+1 Мб1.75+1.75 Мб896+896 Кб
Кэш L232 Мб16 Мб56 Мб28 Мб
Кэш L3256 Мб64 Мб77 Мб38.5 Мб

К этому можно добавить, что в микроархитектуре Zen 2 количество инструкций за цикл (IPC) выросло примерно на 15%, а плотность размещения транзисторов на кристалле с 7-нм литографией по сравнению с 14-нм удвоилось.

Как видим, по номинальным характеристикам новый топовый серверный процессор AMD превосходит как конкурента от Intel, так и своего непосредственного предшественника. По сравнению с последним, количество чиплетов увеличилось до девяти: восемь — под процессорные ядра (Core Complex Dies, CCD) и один — под интерфейсный контроллер (I/O Die, IOD).

В первом поколении таких чиплетов было четыре, и все они были соединены между собой напрямую. Однако в условиях двойного роста количества чиплетов старая топология привела бы к значительным задержкам при обмене данных между самыми удаленными — в новой топологии такой проблемы не возникает. Другое важное преимущество такой централизованной топологии состоит в том, что она проще с точки зрения разработки серверного софта и его оптимизации — что также скажется на производительности. Правда, в отличие от CCD, IOD создан на базе не 7-нм, а 14-нм техпроцесса — очевидно, с целью снижения расходов там, где это возможно с минимальным ущербом для размеров и энергопотребления процессора. Сочетание 7-нм и 14-нм техпроцессов позволило разместить 32 млрд транзисторов на площади 1,000 мм2.

Что касается Intel, то на самом деле сравнение EPYC 7742 с Xeon Platinum 9282 не вполне корректно, поскольку отдельно он не продается. Процессор можно приобрести в составе вычислительного модуля серверной системы Intel S9256WK1HLC, причем его цена неизвестна. А главное, этот модуль пока никто не тестировал, или во всяком случае не публиковал результаты тестов. Поэтому авторы вышедших на прошлой неделе обзоров EPYC 7742 сравнивают его с 28-ядерным Xeon Platinum 8200, мелкооптовая цена которого составляет $10 тыс. Можно себе представить сколько будет стоить 56-ядерный Xeon Platinum 9282 — и вместе с тем какой переворот на рынке серверных процессоров произведет 64-ядерный EPYC 7742 за $7 тыс!

Итак, почти по всем параметрам EPYC 7742 превосходит Xeon Platinum 8200. Исключение составляет, во-первых, поддержка последним команд Intel AVX-512, названных так благодаря возможности осуществления операций с 512-битными векторами. Как уже рассказывал Gadgets News, по сравнению с набором команд Intel Advanced Vector Extensions 2.0 (Intel AVX2), ширина регистров данных, число регистров и ширина команд Fused Multiply-Add (FMA) у Intel AVX-512 стала вдвое больше. Благодаря Intel AVX-512 приложения могут осуществлять 32 операции с плавающей точкой в секунду с удвоенной точностью (FP64) и 64 операции с плавающей точкой в секунду с одинарной точностью (FP32) за тактовый цикл в 512-битных векторах, а также 8 целочисленных типов шириной 64 бит и 16 целочисленных типов шириной 32 бит и до двух 512-битных команд FMA. Во-вторых, Xeon Platinum 8200 лучше подходит для задач машинного обучения. Ну и наконец в третьих, процессоры Intel традиционно превосходят AMD в однопоточных вычислениях — как обстоят дела у нынешних героев предстоит выяснить из бенчмарков.

Ниже приводятся результаты тестов, проведенных нашими коллегами из Phoronix. В их распоряжении оказался аналог вышеупомянутого вычислительного модуля Intel — референсная система AMD Daytona. Она работает под управлением Ubuntu 19.04, укомплектована парой процессоров Epyc 7742, 16 модулями DDR4-3200 32 Гб, 256 Гб 1100 SATA SSD и 6 дисками 9300 NVMe 3.84 Гб PCIe 4.0 — правда, без поддержки PCIe 4.0 (являющегося одним из главных преимуществ EPYC 7742). Стоимость этой 256-ядерной платформы составляет примерно $25 тыс (включая два процессора Epyc 7742 на сумму $13.9 тыс). Её соперником выступает сервер на базе двух процессоров Xeon Platinum 8200.

Тестирование пропускной способности каналов между процессорами и оперативной памятью (чем больше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
Stream 1.3.1 (Add)194,758 Мб/с175,264 Мб/с (90%)
Stream 1.3.1 (Copy)185,156 Мб/с177,819 Мб/с (96%)
Stream 1.3.1 (Scale)177,569 Мб/с165,478 Мб/с (93%)
Stream 1.3.1 (Triad)200,514 Мб/с179,321 Мб/с (89%)
RAMSpeed SMP v3.5.0 (Add)49,781 Мб/с33,081 Мб/с (66%)
RAMSpeed SMP v3.5.0 (Copy)37,493 Мб/с33,944 Мб/с (91%)
RAMSpeed SMP v3.5.0 (Scale)39,456 Мб/с29,569 Мб/с (75%)

Тесты производительности:

  • OpenSSL — генерация 4096-битового секретного ключа RSA
  • John The Ripper (Blowfish) — утилита для взлома паролей
  • 7-Zip — архивирование файлов
  • ctx_clock — программа, измеряющая время переключения контекста (в тактах)
2 x Epyc 77422 x Xeon Platinum 8200
OpenSSL v1.1.1 (чем больше, тем лучше)24,142 подписей/сек13,698 подписей/сек (57%)
John The Ripper — Blowfish (чем больше, тем лучше)179,166 комбинаций/с84,238 комбинаций/с (47%)
7-Zip v16.02 (чем больше, тем лучше)347,497 MIPS228,891 MIPS (66%)
ctx_clock (чем меньше, тем лучше)135 тактов135 тактов

Симуляция молекулярной динамики (чем меньше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
NAMD (327,506 атомов)0.27 дней/нс (75%)0.36 дней/нс
CP2K600 сек (50%)1206 сек

Трассировка лучей, интенсивно нагружающая процессор вычислениями с плавающей точкой, и графический рендеринг (чем меньше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
C-Ray6.1 сек (53%)11.5 сек
POV-Ray8.24 сек (68%)12.06 сек
Radiance216 сек (96%)224 сек
Blender 3D v2.79a — BMW2730.45 сек (64%)47.25 сек
Blender 3D v2.79a — Classroom48.17 сек (51%)93.79 сек
Blender 3D v2.79a — Fishy Cat52.02 сек (72%)72.29 сек
Blender 3D v2.79a — Barbershop140 сек (63%)222 сек
Appleseed v2.0 Beta — Emily174 сек155 сек (89%)
Appleseed v2.0 Beta — Disney Material59.71 сек (92%)64.80 сек

Кодировка видео:

2 x Epyc 77422 x Xeon Platinum 8200
x264 v2018-09-25 (чем больше, тем лучше)155.61 к/с118.61 к/с (76%)
x265 v3.0 (чем больше, тем лучше)44.41 к/с32.61 к/с (73%)
dav1d AV1 — 1080p (чем меньше, тем лучше)4.80 сек (52%)9.16 сек
dav1d AV1 — 4K (чем меньше, тем лучше)11.17 к/с (61%)18.24 к/с
SVT-AV1 v0.5 (чем больше, тем лучше)101.9 к/с61.43 к/с (60%)
SVT-HEVC v2019-02-03 (чем больше, тем лучше)337 к/с261 к/с (77%)
SVT-VP9 v2019-02-17 (чем больше, тем лучше)283.47 к/с271.23 к/с (96%)

Шахматные движки:

2 x Epyc 77422 x Xeon Platinum 8200
Stockfish 9 (чем больше, тем лучше)236.68 млн узлов/с124.65 млн узлов/с (53%)
asmFish v2018-07-23 (чем больше, тем лучше)237 млн узлов/с137 млн узлов/с (58%)
M-Queens (чем меньше, тем лучше)7.0 сек (42%)16.6 сек

Компиляция исходников (чем меньше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
GCC v8.2724 сек (81%)891 сек
Linux Kernel v4.1816.1 сек (75%)21.36 сек
LLVM v6.0.179.37 сек (74%)106.79 сек

Работа с базами данных (Redis — с нереляционной БД: команда SET создает ключ и присваивает ему какое-то значение, команда GET возвращает значение по ключу), чем больше, тем лучше:

2 x Epyc 77422 x Xeon Platinum 8200
Sysbench212,975 событий/сек96,208 событий/сек (45%)
Redis — GET2,541,995 запросов/сек2,502,317 запросов/сек (98%)
Redis — SET1,993,389 запросов/сек1,622,822 запросов/сек (81%)
MariaDB302 запросов/сек (68%)441 запросов/сек

Майнинг криптовалют (чем больше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
CPUMiner-Opt v3.8.8.1 — m7m4,431 кило-хэш/с1,519 кило-хэш/с (34%)
CPUMiner-Opt v3.8.8.1 — deep80,937 кило-хэш/с33,219 кило-хэш/с (41%)
CPUMiner-Opt v3.8.8.1 — skein271,270 кило-хэш/с167,277 кило-хэш/с (62%)
CPUMiner-Opt v3.8.8.1 — sha256t580,215 кило-хэш/с331,363 кило-хэш/с (57%)

Как видим, почти во всех этих тестах (кроме Appleseed v2.0 Beta — Emily и MariaDB) лидирует процессор AMD — иногда с очень большим отрывом. В количественном выражении счет составил 41:2 в пользу Epyc 7742.

Правда, необходимо сделать оговорку: в некоторых тестах младшие модели из 7002-й серии процессоров EPYC оказались еще производительнее — вероятно, из-за более высокой тактовой частоты ядер. Еще в некоторых тестах Epyc 7742 и Xeon Platinum 8200 в одиночку работают с такой же скоростью (и даже быстрее), что и в паре со своим «близнецом» — очевидно, из-за неспособности данного бенчмарка масштабировать нагрузку. В частности, в тесте SVT-VP9 (между прочим, бенчмарк SVT разработан Intel) Xeon Platinum 8200 в одиночку набрал 364.52 к/с — на 34% больше платформы с двумя этими процессорами.

Но, как уже отмечалось выше, в задачах машинного обучения и однопоточных вычислениях быстрее оказывается процессор Intel (чем меньше, тем лучше).

Машинное обучение (чем меньше, тем лучше):

2 x Epyc 77422 x Xeon Platinum 8200
MKL-DNN v2019-04-16 (обратная свёртка)5.63 мс0.96 мс (17%)
MKL-DNN v2019-04-16 — AlexNet (свёртка)52.07 мс48.93 мс (94%)
MKL-DNN v2019-04-16 — GoogleNet (свёртка)24.73 мс21.39 мс (86%)

Однопоточные вычисления:

2 x Epyc 77422 x Xeon Platinum 8200
libjpeg-turbo (чем больше, тем лучше)170 мпс/с (90%)188 мпс/с
PyBench (чем меньше, тем лучше)1,201 мс1,017 мс (85%)
PHPBench (чем меньше, тем лучше)302 сек (68%)441 сек

Во всех этих 6 тестах уверенно побеждает Xeon Platinum 8200. Таким образом, подтверждается предположение о превосходстве этого процессора в однопоточных вычислениях и задачах машинного обучения — во всех остальных лидирует Epyc 7742. Особенно сильно это лидерство проявляется в производительности на доллар цены и ватт потребляемой энергии.

В этих обстоятельствах может показаться очевидным, что новые процессоры AMD не оставляют Intel никаких шансов, но в действительности всё обстоит гораздо сложнее. Intel, которая на рынке серверных процессоров занимает 95-98%, имеет давние и хорошо налаженные связи с производителями серверного оборудования — а это, в отличие от персональных компьютеров, довольно консервативная индустрия. Так что AMD придется приложить немало усилий, что занять на серверном рынке желаемые 10%. В любом случае последний релиз компании — безусловный успех, который в очередной раз заставит Intel нервничать и предпринять ответные меры. Три недели назад она представила 11 новых процессоров с новой архитектурой Ice Lake и долгожданным 10-нм техпроцессом. Все они относятся к предназначенным для планшетов и ноутбуков Y и U сериям, с энергопотреблением от 9 Вт до 28 Вт, однако уже в следующем году ожидается релиз моделей для десктопных ПК и серверов. В свою очередь AMD в следующем году планирует релиз новой архитектуры, Zen 3 (Milan), разработка которой уже завершена. Так что в 2020 борьба двух компаний выйдет на новый виток.

Phoronix, HEXUS.net