Genoa、Milan 和 Ice Lake 平台的 GPU 基准测试
在我们之前的部落格中,我们宣布 AEWIN SCB-1932C 伺服器已被验证为企业边缘的 NVIDIA 认证系统。今天我们将深入探讨不同 AEWIN 平台上的 GPU 基准测试。
系统配置
应用 AEWIN 高性能设备,SCB-1946C,SCB-1932C 和 SCB-1937C。
| 伺服器测试/基准 | ||||
| 系统 | SCB-1946C | SCB-1932C | SCB-1937C | Nvidia 基准测试 |
| 处理器 | Dual AMD EPYC 9174F
(Genoa) |
Dual Intel Xeon Gold 5318S
(冰湖) |
Dual AMD EPYC 7543
(Milan) |
Dual AMD EPYC 7003
(Milan) |
| Core | 16 | 24 | 32 | N/A |
| Freq | 4.1 GHz | 2.1 GHz | 2.8 GHz | N/A |
| 记忆体 | 1x 32GB | 2x 32GB | 1x 32GB | N/A |
| GPU | 1x Nvidia A30 | 1x Nvidia A30 | 1x Nvidia A30 | 1x Nvidia A30 |
| 作业系统 | Ubuntu 20.04.3 LTS | Ubuntu 20.04.3 LTS | Ubuntu 20.04.3 LTS | N/A |
| 框架 | TensorRT 8.6.1 | TensorRT 8.6.1 | TensorRT 8.6.1 | TensorRT 8.6.1 |
GPU 状态监控器
为了准备,请在主机中编写一个 GPU 监控脚本 "monitor.sh" 以防止降频。

输入状态刷新持续时间作为间隔。输入 "y" 以保存日志或 "n" 不保存日志。

基准测试
从主机运行脚本 "benchmark.sh"。它会将您重定向到 GPU 加速容器。在容器中运行脚本 "benchmark.sh"。它会要求您选择 int8 模式或 fp16 模式进行测试。输入 1 以在 int8 模式下运行。
在主机上运行脚本 "benchmark.sh " 以开始测试。下面的图片显示了基准测试结果的示例。

对于基准测试结果,我们只考虑 GPU 计算的百分位数值。例如,上图中显示的百分位数值等于 8.88623。要计算任何 GPU 的性能(图像/秒),我们使用以下公式:1000/(百分位数/128),其中 128 是当前测试的批次大小。因此,int8(图像/秒)相当于 14,405。
测试脚本
1. 容器中的 sh 脚本
| #!/bin/bash echo -e "进行 int8 测试,按 1;进行 fp16 测试,按 2 : " read testmode if [ "${testmode}" -eq 1 ]; then /workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –int8 elif [ "${testmode}" -eq 2 ]; then /workspace/tensorrt/bin/trtexec –batch=128 –iterations=400 –workspace=1024 –percentile=99 –deploy=ResNet50_N2.prototxt –model=ResNet50_fp32.caffemodel –output=prob –fp16 else echo -e “input wrong !!!” fi |
2. 主机中的 sh 脚本
| #!/bin/bash docker run –gpus ‘”device=0″‘ -it –rm –name trt_2011 -w /workspace/tensorrt/data/resnet50/ trt:2011 |
3. 在容器中烧录脚本 burn.sh
| #!/bin/bash for((i=1;i>0;i++)) do mpirun –allow-run-as-root -np 1 –mca btl ^openib python -u ./resnet.py –batch_size 128 –num_iter 28800 –precision fp16 –iter_unit batch 完成 |
4. 在主机中烧录脚本 burn.sh
| #!/bin/bash docker run –gpus ‘"device=0"‘ -it –rm –name tf_2011tf2 -w /workspace/nvidia-examples/cnn tf:2011tf2 |
5. 主机中的 GPU 监控脚本 "monitor.sh"
| #!/bin/bash #echo ” ” > ./gpu_log.txt echo "请输入间隔(秒):" read interval echo "你想要保存日志文件吗?(y/n)" read logflagfor((i=1;i>0;i++)) do if [ "${logflag}" = "y" ]; then echo -e "\n=====i : ${i}=====\n" > ./gpu_log_tmp.txt nvidia-smi >> ./gpu_log_tmp.txt sleep 1 nvidia-smi -q -d CLOCK | grep -v N/A | grep -v "Not Found" >> ./gpu_log_tmp.txt cat ./gpu_log_tmp.txt cat ./gpu_log_tmp.txt >> gpu_log.txt sleep "${interval}" elif [ "${logflag}" = "n" ]; then echo -e “\n=====i : ${i}===== ” nvidia-smi sleep 1 nvidia-smi -q -d CLOCK | grep -v N/A | grep -v “Not Found” sleep "${interval}" else 输入错误!请输入 y 或 n。 fi 完成 |
摘要
根据基准测试结果,我们在包括 SCB-1946C(Genoa)、SCB-1932C(Ice Lake)和 SCB-1937C(Milan)在内的平台上验证了 A30。它们的结果与 Nvidia 基准相比,表现更佳或相似。

平台范围从边缘 AI 设备到通用计算系统,再到高性能伺服器,客户可以选择最适合的设备,并配备每个应用所需的 GPU。联繫我们友好的销售团队,了解更多 AEWIN GPU 伺服器平台的资讯!
- SCB-1932:2U 双 Ice Lake-SP PCIe 4.0 平台,具有短深度设计,4 个 PCIe Gen4 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC,以及 IPMI。
- SCB-1933:2U Ice Lake-SP PCIe 4.0 平台,具有短深度设计,4 个 PCIe Gen4 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC,以及 IPMI。
- SCB-1942:2U 双 Sapphire Rapids-SP PCIe 5.0/CXL 平台,具短深度设计,4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC,并具备 IPMI。
- SCB-1943:2U Sapphire Rapids-SP PCIe 5.0/CXL 平台,具有短深度设计,4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen5 NIC,以及 IPMI。
- SCB-1946:2U 双 EPYC-9004 (Genoa/Bergamo) PCIe 5.0/CXL 平台,具短深度设计,4 个 PCIe Gen5 插槽加上双 FHFL GPU 插槽或 4 个 PCIe Gen4 NIC,并具备 IPMI。
- SCB-1947:2U EPYC-8004(Siena)PCIe 5.0/CXL平台,具备短深度设计,8个PCIe Gen5插槽NIC、NVMe和IPMI。
- BAS-6101A:2U 高密度边缘计算伺服器,搭载 AMD Bergamo/Genoa/Genoa-X 处理器,总共 8 个 PCIe 插槽(2 个双宽 FHFL PCIe Gen5 x16 或 4 个单宽 FHFL PCIe Gen5 x16,2 个单宽 FHHL PCIe Gen5 x16,2 个 HHHL PCIe Gen4 x8)+ 1 个 OCP 3.0 插槽用于网路介面卡和加速器。
- BAS-6101B:2U高效能伺服器,搭载AMD Bergamo/Genoa/Genoa-X处理器,总共8个PCIe插槽(2个双宽FHFL PCIe Gen5 x16或4个单宽FHFL PCIe Gen5 x16,2个单宽FHHL PCIe Gen5 x16,2个HHHL PCIe Gen4 x8),用于网路介面卡和加速器。

