仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:IT技术分享-老张
作者:老张666
链接:https ://mp.weixin.qq.com/s/5HWKirkKs-a-IKQn6YcO6Q
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
相信很多朋友对GPU的“硬核参数”是一头雾水:什么是算力?显存带宽到底意味着什么?功耗高低又有多大影响?本文将用最直观的方式,一步步帮大家搞懂GPU卡的核心参数。希望对大家有所帮助。
随着最近加征关税、H20被禁等一系列事件的发生,大家讨论最多的话题依然是GPU卡(严谨一点说是AI加速卡),涉及的影响主要有价格的变化、供应的影响、国产卡的替代等,几个朋友找我交流发现大家对GPU卡核心参数规格有模糊不清,今天的文章我们不聊市场趋势,手把手带大家快速理解“GPU各个核心参数规格”,比如算力、显存(显存类型、显存带宽)、卡间互联、功耗等,我们用形象比喻跟大家介绍!
一、GPU卡的参数规格以A800为例
GPU卡的核心参数主要包括算力、显存大小、显存(类型)带宽、功耗、卡间互联技术等、我们以英伟达A800为例,如下图:
1、算力大小:指的是GPU执行浮点运算的能力,通常以TFLOPS(每秒浮点操作次数)为单位衡量。高计算能力对科学计算、模拟和深度学习等计算密集型任务至关重要。它能加速模型训练、数据分析以及复杂模拟的处理速度。
2、显存容量:是GPU用于存储数据和纹理的专用内存,与系统内存(RAM)不同,显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。
3、显存带宽:作为GPU与显存之间数据传输的桥梁;显存带宽=显存位宽x显存频率,显存与显存类型有关,目前主流英伟达Tesla系列卡都是HBM(高带宽显存)、而GeForce的4090等都是采购GDDR的显存,他们之间的显存带宽差距明显。
4、功耗情况:指单位时间内的能量消耗,反映消耗能量的速率,单位是瓦特(W)。影响的是整机的功耗、机柜的规划和算效比(每KW的算力)等;
5、卡间互联:以NVIDIA®NVLink技术举例,其是世界首项高速GPU互连技术,与传统的PCIe方案相比,能为多GPU间提供更快速的互联方案。目前H200型号的NVLink技术能够做到卡卡间双向互联900GB/s,而PCIe5.0的通用互联技术目前仅能做到128GB/s;
问题来了,很多IT领域的朋友理解上述内容相对比较简单,但是很多智算中心非技术人员(如客户、销售人员、融资机构等),他们理解起来会比较吃力,换句话说“技术小白”怎么快速理解呢?接下来是重点,我们把一张GPU卡比作一辆货车,跟大家慢慢道来!
二、怎么理解GPU算力?类比汽车发动机的马力
算力指标是GPU的主要参数,但是很多新手朋友拿到GPU彩页后会“傻眼”,各类参数眼花缭乱(如下图H100的参数),比如FP64、FP32、FP16、还有FP16TensorCore等,到底该用哪个数值呢?智算中心领域在没有特殊说明情况下以FP16精度为准,但细心朋友可能发现和FP16相关的竟然有三个值(对应标准FP16是133.8T、TensorCoreFP16是989.4T,稀疏矩阵的TensorCoreFP16是1978.9T),到底用哪个呢?按照目前的主流方案,通常会采用FP16Tenser加速的989TFPOPS,约1个P来计算,当然某些项目依然还是用稀疏的算力单卡2P;有啥说法吗?
英伟达视角:为体现自身技术牛x,一般用稀疏矩阵加速后数值做营销,对使用场景有条件限制(并不是所有的场景都能达稀疏算力的性能)。
政府层面:为了突出“业绩”,有时候也会用稀疏矩阵的数值(有面子);
客户视角:会采用FP16,1个P的算力作为指标(实用为主),部分会备注要求稠密算力(我见得不少客户的招标文件明确提出非稀疏);
结合个人理解,我们举一个不是特别恰当的例子,供大家理解GPU算力如下图所示(觉得有道理,帮忙点个赞):
二、怎么理解GPU显存?类比汽车的车厢
GPU的显存大小决定了能够“装下”多少的数据,类比货车就是能装下多大尺寸(重量)的货物。显存类型与带宽密切相关,HBM显存好比货车自动的装卸货装置和普通GDDR好比人工的装卸货方式。
三、怎么理解卡间互联带宽?类比汽车多车厢组合的技术
怎么理解卡间互联技术呢?以大模型训练为例单卡的显存容量有限无法放进去大模型训练的数据,怎么办呢?需要多卡协作,英伟达NVLink技术就是解决的这个问题,可以把多卡的显存形成一个“大显存池”,类比货车的话,好比一个车厢装不下就需要挂多个车厢,不一样的是英伟达NVLink的多卡互联是把算力和显存同时扩大。
目前主流的机型其实是SXM接口的HGX模组产品,单台能够实现八卡的NVLink全互联,NvidiaGPU互联技术最新的(对应B200)是NVLink5.0。与前代4.0相比通道数目不变,速率翻倍至1.8TB/s,PCIe目前最新的版本是Gen5,作为计算机当中最通用的互联技术,和Nvlink相比差距来到了14倍。
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!