侵权投诉

性能提升20倍!NVIDIA A100 GPU打破16项AI芯片性能记录

Carol Li 2020-07-31 08:03 次阅读

2020年7月30日,MLPerf组织发布第三个版本MLPerf Trainingv0.7基准测试(Benchmark)结果。结果显示,英伟达基于今年5月最新发布的Ampere架构A100 TensorCore GPU,和HDR InfiniBand实现多个DGXA100系统互联的庞大集群——DGX SuperPOD系统在性能上开创了八个全新里程碑,共打破16项纪录。

MLPerf是成立于2018年5月的行业基准测试组织,致力于机器学习硬件、软件和服务的训练和推理性能测试,囊括行业中几乎所有知名企业和机构,比如Intel、NVIDIA、Google、微软、阿里巴巴等。

DGX SuperPOD系统公布于去年6月17号。最初由96台NVIDIA DGX-2H超级计算机和Mellanox互连操你啦日日操在短短三周内建成,提供9.4千兆次的处理能力,用于该公司在无人驾驶车辆部署计划中的需求。

而此次创造纪录的NVIDIA DGX SuperPOD系统主要基于Ampere架构以及Volta架构,并且搭载了今年5月份发布的Ampere架构GPU A100。

黄仁勋在GTC 2020大会上说道,A100是迄今为止人类制造出的最大7纳米制程芯片。A100采用目前最先进的台积电(TSMC)7纳米工艺,拥有540亿个晶体管,它是一块3D堆叠芯片,面积高达826mm^2,GPU的最大功率达到了400W。

这块GPU上搭载了容量40G的三星HBM2显存(比DDR5速度还快得多,就是很贵),第三代TensorCore。同时它的并联效率也有了巨大提升,其采用带宽600GB/s的新版NVLink,几乎达到了10倍PCIE互联速度。

随着安培架构出现的三代TensorCore对稀疏张量运算进行了特别加速:执行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系统会自动将数据转为TF32格式加速运算,现在你无需修改任何代码量化了,直接自动训练即可。

A100也针对云服务的虚拟化进行了升级,因为全新的multi-instanceGPU机制,在模拟实例时,每块GPU的吞吐量增加了7倍。

最终在跑AI模型时,如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的训练上性能提升6倍,BERT推断时性能提升7倍。

操你啦操bxx发烧友综合报道,参考自镁客网、机器之心,转载请注明来源和出处。

收藏 人收藏
分享:

评论

相关推荐

如何在旧显示器上体验高分辨率?

现在电脑的什么配件最耐用,用电脑时间比较长的小伙伴大概马上就能想到,是显示器!主机都升级好几次,性能....
发表于 08-12 14:45 88次 阅读
如何在旧显示器上体验高分辨率?

下一代的NVIDIA显卡核心规格大泄露 配置和性能到底如何呢

安培(Ampere)核心的GPU最新消息不断,其实作为下一代的NVIDIA显卡核心,它离实际发布、上....
发表于 08-11 14:01 215次 阅读
下一代的NVIDIA显卡核心规格大泄露 配置和性能到底如何呢

软件与硬件之间最重要的连接桥梁就是传感器

调试好了一辆车上的传感器,还要保证可以将其顺利复制到车队里的其他车上。即使已经调试好了多辆车,一旦车....
的头像 自动驾驶说 发表于 08-10 15:56 305次 阅读
软件与硬件之间最重要的连接桥梁就是传感器

ThinkStation P620与AMD 的安全处理器之间的差异

ThinkStation P620 具备灵活的 GPU 配置、更快的内存、更快的存储传输速度,以及 ....
发表于 08-10 11:20 172次 阅读
ThinkStation P620与AMD 的安全处理器之间的差异

麒麟820将会是华为首款G77 GPU的芯片?

麒麟820 5G处理器的CPU将采用A76,GPU为G77,仍将使用7nm制程工艺(此前传闻6nm)....
发表于 08-06 16:29 619次 阅读
麒麟820将会是华为首款G77 GPU的芯片?

MediaTek针对5G芯片做出了快速的响应

针对网络升级,MediaTek 天玑1000系列可以用快、稳、省电、灵活、准确来概括。无论是5G连接....
的头像 联发科技 发表于 07-31 10:32 321次 阅读
MediaTek针对5G芯片做出了快速的响应

NVIDIA生态系统赋能AI产业

目前,客户已经采用这些参考架构来构建自身的DGX POD和DGX SuperPOD。其中包括美国最快....
发表于 07-31 10:08 776次 阅读
NVIDIA生态系统赋能AI产业

骁龙移动平台协助你在游戏战场上纵横驰骋

骁龙移动平台采用先进的制程工艺,集成了强大的Kryo CPU核心,Adreno GPU,拥有强悍性能....
的头像 Qualcomm中国 发表于 07-31 09:59 185次 阅读
骁龙移动平台协助你在游戏战场上纵横驰骋

NVIDIA已经与ARM达成了潜在交易

该报告还补充说,NVIDIA的收购报价有可能无法实现,ARM可能会选择公开上市。如果收购成功,那么它....
的头像 倩倩 发表于 07-29 16:23 534次 阅读
NVIDIA已经与ARM达成了潜在交易

OPPO Find X2 / X2 Pro在中国获得GPU驱动程序更新

 Oppo Find X2 / Find X2 Pro的GPU驱动程序更新当前仅限于设备的中文版本。....
的头像 倩倩 发表于 07-29 09:21 317次 阅读
OPPO Find X2 / X2 Pro在中国获得GPU驱动程序更新

NVIDIA通知三季度GPU芯片供应量仅为70%水平

7月28日消息,据最新爆料,NVIDIA已经通知AIC厂商8月到10月份GPU供应量只有上季度的70....
的头像 Carol Li 发表于 07-29 08:51 1254次 阅读
NVIDIA通知三季度GPU芯片供应量仅为70%水平

用于下一代汽车专用集成操你啦影院(ASIC)的嵌入式现场可编程逻辑门阵列(eFPGA)

用于下一代汽车专用集成操你啦影院(ASIC)的嵌入式现场可编程逻辑门阵列(eFPGA)
发表于 07-24 11:26 283次 阅读
用于下一代汽车专用集成操你啦影院(ASIC)的嵌入式现场可编程逻辑门阵列(eFPGA)

NVIDIA推出改进版深度学习神经网络的DLSS 2.0操你啦日日操

华硕显卡推出了“全超冷”的全新标准,包含了全自动化制程、超合金供电及冷静散热三大操你啦日日操。
的头像 39度创意研究所 发表于 07-23 15:29 925次 阅读
NVIDIA推出改进版深度学习神经网络的DLSS 2.0操你啦日日操

新的Nvidia图形卡将得到新的12针电源连接器,传输高达600功率

似乎有关即将推出的新一代Ampere Nvidia显卡上新的12针电源连接器的谣言已得到证实。消息人....
发表于 07-23 15:00 76次 阅读
新的Nvidia图形卡将得到新的12针电源连接器,传输高达600功率

“显卡交火”质量降低 AMD决定取消RDNA架构RX 5000系列显卡的“交火”支持

不过随着操你啦日日操的发展,现在单张显卡的性能就已经非常强劲了,主流应用基本不需要多显卡的性能,甚至现在很多....
的头像 39度创意研究所 发表于 07-23 14:43 621次 阅读
“显卡交火”质量降低 AMD决定取消RDNA架构RX 5000系列显卡的“交火”支持

英伟达与佛罗里达大学联手打造高等教育AI超级计算机

英伟达周二表示,该公司已与佛罗里达大学合作,将联手打造全球速度最快的高等教育人工大香蕉网站(AI)超级计算....
的头像 21克888 发表于 07-22 10:05 1142次 阅读
英伟达与佛罗里达大学联手打造高等教育AI超级计算机

FPGA取代AI加速器中的GPU

AI软件初创公司Mipsology正在与Xilinx合作,以使FPGA能够仅使用一个附加命令即可替换AI加速器
的头像 物联网评论 发表于 07-21 15:14 743次 阅读
FPGA取代AI加速器中的GPU

英特尔第二代FinFET芯片,有利于开发更好的CPU/GPU/调制解调器设计

在提升的各项指标当中,更低的发热量将是英特尔能否顺利进入大香蕉网站手机及平板电脑市场的关键。因为的体积小、....
的头像 我快闭嘴 发表于 07-18 11:04 644次 阅读
英特尔第二代FinFET芯片,有利于开发更好的CPU/GPU/调制解调器设计

ARM架构的GPU和台式机的GPU有什么区别

1:移动GPU(指的是ARM处理器集成的GPU)和独立的PC的GPU的区别?除了架构,就拿视频解码来说,为什么ARM的处理...
发表于 07-18 08:04 0次 阅读
ARM架构的GPU和台式机的GPU有什么区别

如何使用OpenCL轻松实现FPGA应用编程

实现这一编程思想的转变,是因为 FPGA 借助 OpenCL 实现了编程,程序员只需要通过 C/C+....
发表于 07-16 17:58 141次 阅读
如何使用OpenCL轻松实现FPGA应用编程

MathWorks与NVIDIA 深度学习学院合作提供《MATLAB 深度学习》全新课程

基于数十年来的复杂工程项目支持经验,MathWorks 为构建 AI 驱动系统提供了一个综合平台。
发表于 07-16 15:16 687次 阅读
MathWorks与NVIDIA 深度学习学院合作提供《MATLAB 深度学习》全新课程

NVIDIA CloudXR通过 5G、Wi-Fi 和其他高性能网络优化AR体验

NVIDIA 发布的 NVIDIA CloudXR 1.0 软件开发套件将通过 5G、Wi-Fi 和....
发表于 07-15 15:52 215次 阅读
NVIDIA CloudXR通过 5G、Wi-Fi 和其他高性能网络优化AR体验

Imagination:用领先IP操你啦日日操加速中国IC设计创新和应用落地

在7月3日下午,Imagination中国区市场及业务发展高级经理郑魁在视频采访直播间接受了的采访,....
的头像 荷叶塘 发表于 07-15 13:53 2371次 阅读
Imagination:用领先IP操你啦日日操加速中国IC设计创新和应用落地

Imagination Technologies宣布推新型GPU,可用于大香蕉网站汽车仪盘表

据外媒报道,总部位于英国伦敦的Imagination Technologies公司宣布推出XS系列图....
发表于 07-14 12:36 122次 阅读
Imagination Technologies宣布推新型GPU,可用于大香蕉网站汽车仪盘表

一种同时解决目标独立光栅化和可变频率的像素着色器的通用实现方法

D3D12为了兼顾图像质量和硬件性能,对反走样算法提出了更高的要求—VRS(Variable Rat....
的头像 集成操你啦影院应用杂志 发表于 07-14 11:00 357次 阅读
一种同时解决目标独立光栅化和可变频率的像素着色器的通用实现方法

研华SKY-6420-4U高密度GPU服务器,IPMI监控系统确保GPU的稳定性

过去的两年里,研华着手布局AI领域,将自己定位为一个全面的人工大香蕉网站平台解决方案提供商。为此,研华推出....
发表于 07-12 09:47 244次 阅读
研华SKY-6420-4U高密度GPU服务器,IPMI监控系统确保GPU的稳定性

高通推骁龙865 Plus处理器,GPU图形渲染速度提升10%

7月8日晚,高通公司正式宣布推出全新的骁龙865 Plus处理器,该款处理器相对骁龙865而言,性能....
的头像 牵手一起梦 发表于 07-09 14:46 687次 阅读
高通推骁龙865 Plus处理器,GPU图形渲染速度提升10%

兆芯公布一份详细路线图,国产计算机搭载国产独立显卡将成可能

说到国产独立显卡,对于大家来说可能是距离国产CPU更为遥远的产品,好在这几年国产龙芯3号已经渐成起色....
的头像 牵手一起梦 发表于 07-09 14:39 615次 阅读
兆芯公布一份详细路线图,国产计算机搭载国产独立显卡将成可能

NVIDIA Jetson Nano 荣获“2020年度视觉产品最佳AI处理器”称号

“恭喜NVIDIA得到我们的独立评审团的认可,荣获这一殊荣。” Edge AI and Vision....
的头像 英伟达NVIDIA中国 发表于 07-08 15:31 618次 阅读
NVIDIA Jetson Nano 荣获“2020年度视觉产品最佳AI处理器”称号

NVIDIA初创加速计划会员Trefos正在帮助林业管理员们观测木材本身

这家总部位于费城的公司通过装有定制雷达和摄像头的无人机,收集高分辨率的3D森林地图数据。这些指标可以....
的头像 英伟达NVIDIA中国 发表于 07-08 15:29 396次 阅读
NVIDIA初创加速计划会员Trefos正在帮助林业管理员们观测木材本身

GPU加速的L0范数图像平滑(L0 Smooth)【CUDA】

GPU 加速的 L0 范数图像平滑(L0 Smooth)【CUDA】
发表于 07-08 12:10 25次 阅读
GPU加速的L0范数图像平滑(L0 Smooth)【CUDA】

IDC:预测到2024年中国GPU服务器市场规模将达到64亿美元

目前,云端AI算力主要由三类AI加速器来提供:GPU,FPGA和AI ASIC芯片。这些加速器的优点....
的头像 我快闭嘴 发表于 07-07 10:39 598次 阅读
IDC:预测到2024年中国GPU服务器市场规模将达到64亿美元

GPU是什么,关于vGPU在OpenStack中的应用

一、什么是GPU GPU:Graphics Processing Unit,即图像处理单元,是一种专....
发表于 07-03 10:22 403次 阅读
GPU是什么,关于vGPU在OpenStack中的应用

NVIDIA GPU加速AI推理洞察,推动跨行业创新

这些AI模型被运行在装载了V100Tensor Core GPU的NVIDIADGX系统上的数据中心....
的头像 英伟达NVIDIA中国 发表于 07-02 15:00 411次 阅读
NVIDIA GPU加速AI推理洞察,推动跨行业创新

如何利用ARM Mali在机器视觉操你啦日日操实现应用优势

谈GPU计算的优势,并阐述生态系统合作伙伴是如何利用ARM Mali 在各种图像处理,多媒体和计算机....
的头像 ARM视频 发表于 07-02 13:13 929次 观看
如何利用ARM Mali在机器视觉操你啦日日操实现应用优势

ARM Mali OpenGL ES软件开发工具包

Mali T600系列图形处理器对GPU计算有着针对性设计,其不仅兼容OpenCl 1.1 Full....
的头像 ARM视频 发表于 07-02 13:02 1259次 观看
ARM Mali OpenGL ES软件开发工具包

高通骁龙865可以达到桌面级的gpu水平么?

如果桌面级GPU水平是指同代的话,那么手机soc永远也不可能追上,桌面级的GPU领先手机GPU的原因....
的头像 如意 发表于 07-01 08:58 1409次 阅读
高通骁龙865可以达到桌面级的gpu水平么?

数据库解决了在超级计算机的CPU上的进程安排问题

对抗某一特定蛋白质的化合物数量可达14亿种,另一项测试结果表明,他们可以在短短12小时内完成对这些化....
的头像 英伟达NVIDIA中国 发表于 06-30 14:39 394次 阅读
数据库解决了在超级计算机的CPU上的进程安排问题

NVIDIA GPU提高了TOP500超级计算机的能效

自2019年11月以来,榜单上使用HDR InfiniBand的TOP500系统数量几乎增加了一倍。....
的头像 英伟达NVIDIA中国 发表于 06-30 14:34 450次 阅读
NVIDIA GPU提高了TOP500超级计算机的能效

全球最新TOP500超算榜单出炉!揭秘英伟达雄霸三分之二版图的扩张之路!

全球最新的TOP500超级计算机榜单发布。排名前十的超级计算机中有8台采用了NVIDIA的操你啦日日操;TO....
的头像 墨记 发表于 06-25 07:59 4747次 阅读
全球最新TOP500超算榜单出炉!揭秘英伟达雄霸三分之二版图的扩张之路!

NVIDIA数组GPU助力隐私算法实现百倍加速

Honkela是赫尔辛基大学数据科学副教授,致力于差分隐私研究,这是一种基于个人数据的计算方法,用于....
的头像 英伟达NVIDIA中国 发表于 06-24 16:09 461次 阅读
NVIDIA数组GPU助力隐私算法实现百倍加速

NVIDIA赋能初创公司助力5G时代中的无线行业

采用5G。无论是决定在何处部署复杂网络服务新基础设施,还是将其用于性能和服务水平分析,PB级别的数据....
的头像 英伟达NVIDIA中国 发表于 06-24 16:07 469次 阅读
NVIDIA赋能初创公司助力5G时代中的无线行业

NVIDIA和多家全球领先的服务器制造商发布多款内置NVIDIA A100的系统

NVIDIA和多家全球领先的服务器制造商于今日发布多款内置NVIDIA A100的系统。这些系统具有....
的头像 英伟达NVIDIA中国 发表于 06-24 16:04 771次 阅读
NVIDIA和多家全球领先的服务器制造商发布多款内置NVIDIA A100的系统

NVIDIA发布AI平台,大幅减少超算数据中心的停机时间

UFM平台产品系列已管理InfiniBand系统近十年,此次扩展将使用AI通过实时和历史遥测及工作负....
的头像 英伟达NVIDIA中国 发表于 06-24 16:02 492次 阅读
NVIDIA发布AI平台,大幅减少超算数据中心的停机时间

NVIDIA树立大数据分析新标杆

通过并行处理实现无与伦比的性能。在DGX A100上使用RAPIDS展示了GPU支持的TPCx BB....
的头像 英伟达NVIDIA中国 发表于 06-24 16:00 393次 阅读
NVIDIA树立大数据分析新标杆

大香蕉网站手机显示屏显示的内容定义了帧速率

简而言之,为了获得更好的观看体验,显示器的刷新率应超过内容的帧速率。因此,如果您在60 Hz或120....
的头像 EDA365 发表于 06-24 15:56 747次 阅读
大香蕉网站手机显示屏显示的内容定义了帧速率

壁仞科技开发中国唯一的集成操你啦影院IP授权公司芯原微操你啦操bxx

壁仞科技创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA(....
的头像 IDG资本 发表于 06-23 17:08 1260次 阅读
壁仞科技开发中国唯一的集成操你啦影院IP授权公司芯原微操你啦操bxx

G-SYNC有什么作用

  什么是G-SYNC操你啦日日操?   G-SYNC是NVIDIA的操你啦日日操,可将显示器的刷新率与显卡的帧速率同步,以提高游戏性能。...
发表于 06-22 10:58 128次 阅读
G-SYNC有什么作用

二维位元阵列是否可行?

嗨,正如标题所暗示的,我想知道是否有可能制作一个2维的比特串。我需要它作为CPU和GPU之间的缓冲区。如果可能的话,那么1...
发表于 05-11 06:17 112次 阅读
二维位元阵列是否可行?

在PanGu Board上运行Qt应用实战

PanGu Board开发板是西安湃兔核科技基于STM32MP1系列处理器设计的SoC开发板,提供了HDMI、以太网、LCD、USB...
发表于 12-10 11:30 3206次 阅读
在PanGu Board上运行Qt应用实战

华为的GPU Turbo操你啦日日操你知道是什么吗?

华为GPU Turbo揭秘,吓人的操你啦日日操,原来只是神经网络...
发表于 11-11 06:24 1289次 阅读
华为的GPU Turbo操你啦日日操你知道是什么吗?

NVIDIA 在首个AI推理基准测试中大放异彩

Turing GPU、Xavier芯片系统在MLPerf基准测试中展现了巨大优势 加利福尼亚州圣克拉拉市 —— 2019年11月6日 —— &...
发表于 11-08 19:44 796次 阅读
NVIDIA 在首个AI推理基准测试中大放异彩

为什么基于GPU的二维数组加法灰色的那行会出现报错?

这是基于GPU的二维数组加法。。。然24行,就是灰色的那行,报错too few arguments in function call,但是明明形参数和实参数...
发表于 11-05 22:15 464次 阅读
为什么基于GPU的二维数组加法灰色的那行会出现报错?

多核处理器能够替代FPGA吗?

Peter认为,鉴于其高性能、易编程及低成本特点,GPGPU操你啦日日操在许多情况下能够替代FPGA和DSP ...
发表于 10-17 08:07 624次 阅读
多核处理器能够替代FPGA吗?