2022.10.18

Nvidia GPU A30 与 T4 的前一代比较

分享:

Nvidia刚刚在这个秋季发布了最新的GPU,採用了Hopper和Ada Lovelace的新架构。在我们深入了解最新技术的详细信息之前,让我们回顾一下Nvidia之前微架构的足迹。

在2018年,NVIDIA推出了一款能源效率高的T4,具有革命性的多精度性能,能为边缘推理提供卓越的性能。三年后,A30作为最通用的主流计算GPU之一进入市场,专为AI推理而设。让我们来看看它们之间的区别。
这是一个简短的比较表,包含一些规格,但不包括性能结果。

  A30 T4
制程技术 7/8nm 14nm
PCIe Gen4 x16 Gen3 x16
TDP(最大热设计功率) 165W 70W
Size (mm) 268 x 111
(FHFL)
170 x 69
(HHHL/低剖面)
插槽宽度 Double Single

随着制程技术和 PCIe 速度的提升,A30 的性能预期将有大幅度的跃进,这与实际结果相符。随着更大的 TDP 和更大的尺寸,支援这些 GPU 的平台也应随之演进,最新的 AEWIN 平台支援 A30 和 T4,已在这篇技术部落格的最后列出以供参考。
除了提到的技术增长外,NVIDIA 在 A30 中还有一些创新,包括架构张量核心技术。
架构张量核心技术:安培 vs 图灵

Extra Enhancement Ampere 调整
多精度计算 FP64, TF32, FP32, BF16, FP16,
INT8, INT4
FP32, FP16,
INT8, INT4

T4 採用 NVIDIA Turing Tensor Cores 提供革命性的多精度性能(FP32、FP16、INT8 和 INT4),以加速各种现代应用,包括机器学习、深度学习和虚拟桌面。除了之前的精度外,A30 採用 NVIDIA Ampere Tensor Cores 技术,支持包括 Tensor Float 32 (TF32)、BFloat16 (BF16) 和更高性能的双精度 FP64。在 TF32 和 BF16 之外,A30 还配备了新的多实例 GPU (MIG),让我们更仔细地看看它们。

Tensor Float 32
TF32 是处理 AI/HPC 应用的矩阵数学的数学模式。如以下插图所示,TF32 使用与 FP16 数学相同的 10 位尾数,并採用与 FP32 相同的 8 位指数,以支持更大的数字范围和足够的精度要求的边际。关于 TF32 深度学习性能,A30 在不进行任何代码更改的情况下,提供高达 10 倍的性能优于 NVIDIA T4。

a30T4-02-2-1024x615

BFloat16
至于 BF16,正如我们在之前的技术部落格中提到的,它本质上是一种 FP32,具有截断的有效数字,带来了 FP16 的性能和 FP32 的动态范围,同时使用一半的内存。随着内存带宽的减少,允许更快的执行。

多实例GPU
Multi-Instance GPU (MIG) 的新功能使基于 NVIDIA Ampere 架构的 GPU 能够提供 933GB/s 的记忆体频宽,这几乎是 T4 (320GB/s) 的三倍。

性能比较
性能结果的规格比较如下。

  A30 T4
CUDA 核心 3804 2560
张量核心 224 320
双精度 (FP64) TFLOPS 5.2 0.25
Tensor Float 32 (TF32) TFLOPS 82/165* N/A
单精度 (FP32) TFLOPS 10.3 8.1
Tensor Perf. (Bfloat16) TFLOPS 165/330* N/A
半精度 (FP16) TFLOPS 165/330* 65
整数运算 (INT8) TOPS 330/661* 130
整数运算 (INT4) TOPS 661/1321* 260
记忆体频宽 933GB/s 320GB/s

* 具稀疏性
AEWIN已在包括SCB-1932C、SCB-1937C和BIS-3101在内的AEWIN平台上验证了A30和T4。它们与NVidia基准测试的结果相似。

目标市场:主流计算/推断 vs 机器学习/深度学习/推断
我们已经看到了 A30 和 T4 之间的比较。从架构到性能来看,它们应该被归类为两个级别的显示卡,目标市场也不同。根据 NVIDIA 对数据中心 GPU 的公告,A30 主要用于主流企业工作负载,如 AI 推理、训练和高性能计算 (HPC),而 T4 则专注于边缘推理,具有体积小和功耗低的优势。

由于 AEWIN 平台涵盖了从边缘平台到通用计算系统,再到高性能伺服器,客户可以选择最适合的平臺,并配备每个应用所需的 GPU。两款推荐的 AEWIN 边缘 AI 型号是 SCB-1932C 和 SCB-1937C,它们是 2U、2P 伺服器,支持 2x FHFL GPU 和 4x NIC。如需了解更多,请随时与我们友好的销售团队联繫!

SCB-1932C:2U边缘伺服器,搭载双Intel® 第三代Ice Lake-SP,2个双插槽Gen 4 x16 FHFL GPU卡,4个PCIe Gen4 x8插槽,用于NIC、加速器和NVMe SSD
SCB-1937C:2U边缘伺服器,配备双AMD EPYCTM 7000系列,具有2个双插槽Gen 4 x16 FHFL GPU卡,4个PCIe Gen4 x8插槽,用于NIC、加速器和NVMe SSD。
BIS-3101:桌上型工作站,配备 Intel 第 8/9 代 Core i 和 1 个双槽 Gen 3 x 16 FHFL GPU 显示卡

相关讯息

通过本地基础设施赋能网络安全中的代理式 AI
2026.04.08

通过本地基础设施赋能网络安全中的代理式 AI

Agentic AI in cybersecurity is rapidly transforming traditional defense into an autonomous, real-time defense solution. As security systems gain the ability to independently detect and respond to threats, infrastructure must evolve to support instant data processing and decision-making. This shift is driving the need for on-prem AI infrastructure, positioning edge servers, and network appliances as critical enablers of next-generation cybersecurity.

AEWIN 已完成 2025 年碳足迹验证
2026.03.18

AEWIN 已完成 2025 年碳足迹验证

随着可持续性成为全球优先事项,组织被期望更好地理解和管理其温室气体(GHG)排放。碳足迹验证有助于量化排放、识别主要来源,并支持长期减排规划。作为其ESG承诺的一部分,AEWIN每年进行碳足迹验证,以确保透明的报告和负责任的环境管理。

可扩展的存储基础设施,用于人工智慧驱动的数据管理
2026.03.04

可扩展的存储基础设施,用于人工智慧驱动的数据管理

随着数据指数增长和人工智慧在企业、云端和边缘环境中的採用加速,必须有效地处理、移动和保留大量数据集。训练、推理和实时分析需要提供性能一致性、卓越效率和可扩展性的存储基础设施。为了支持以人工智慧驱动的数据管理,存储伺服器必须不仅为容量扩展而设计,还必须考虑到吞吐量稳定性、系统韧性和在动态数据环境中的整体可靠性。

咨询车

您的咨询车共计 0 件产品

产品比较

您的比较共计 0 件产品

订阅电子报

数字验证

请由小到大,依序点击数字

我们使用 cookies 以确保我们的网站正常运作,个性化内容和广告,提供社交媒体功能并分析流量。我们还会与社交媒体、广告和分析合作伙伴分享您使用我们网站的信息。

管理Cookies

隱私權偏好設定中心

我们使用 cookies 以确保我们的网站正常运作,个性化内容和广告,提供社交媒体功能并分析流量。我们还会与社交媒体、广告和分析合作伙伴分享您使用我们网站的信息。

管理同意設定

必要的Cookie

一律啟用

这些 cookies 是网站运作所必需的,您无法在系统上关闭它们。

这些 Cookie 通常仅在您执行某个动作(即服务请求)时设置,例如设置隐私偏好、登录或填写表单。

您可以设置浏览器以阻止或提示您这些Cookie,但这可能会导致某些网站功能无法正常运作。