顶配超10万!两台Mac Studio在家就能跑满血DeepSeek,网友:这是性价比最高的大模型一体机
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
编译|苏宓
出品|CSDN(ID:CSDNnews)
大模型这场竞赛正酣,国内外科技巨头、创业公司“打”得异常火热。从不断升级的OpenAIGPT系列、GoogleGemini,到国产大模型DeepSeek以及这两天爆火的Manus,各大厂商你追我赶,唯独苹果自推出AppleIntelligence之后,似乎没了太大动静。然而,就在外界以为苹果就要错失先机时,没想到其重磅发布了一款MacStudio,从硬件层面为大模型的运行铺了路。
新款MacStudio提供了号称地表最强的全新M3Ultra和M4Max芯片两种选择。其中,M3Ultra芯片加持下的MacStudio,最高可配备32核CPU和80核GPU,并支持高达512GB的统一内存。
有专门在各种设备上尝试跑大模型的机构深入分析显示,这款设备能够运行超6000亿参数的LLM(大语言模型)。换句话说,个人用户在家就能流畅运行完整体量的DeepSeekR1,这一突破让众多AI爱好者兴奋不已。
搭载M3Ultra芯片的MacStudio来了
值得一提的是,备受期待的M3Ultra版MacStudio今日正式开启预售,成为目前配置最强的MacStudio机型。
与M1Ultra、M2Ultra类似,全新的M3Ultra实际上是由两颗M3Max处理器通过台积电的先进封装技术(苹果将其称为“UltraFusion”)拼接在一起的。从外部看是一颗芯片,但内部实际上是两个M3Max组合,总共包含1840亿个晶体管。
相比前代,M3Ultra带来了大幅升级。该芯片最多可配置32核(24颗高性能核心和8颗高能效核心),而M2Ultra的最高配置为24核(16颗高性能核心和8颗高能效核心)。苹果表示,这使得M3Ultra相比M2Ultra性能提升50%,相比初代M1Ultra提升80%。
GPU方面,这一代的M3Ultra最高配备80核,相较于M2Ultra的76核提升不大。不过,苹果在2023年10月的“ScaryFast”活动中就提到,真正影响GPU速度的,更多是架构优化,而不只是核心数量。
苹果还强调,M3系列的GPU核心相比M2系列快80%,部分原因在于引入了硬件加速的网格着色(MeshShading)和光线追踪(RayTracing)技术。再加上M3Ultra额外的GPU核心,苹果表示其图形处理性能大约是M2Ultra的两倍。
此外,M3Ultra还配备了32核神经引擎(NeuralEngine),用于加速AppleIntelligence相关的AI任务。在AI计算领域,最关键的升级点其实是内存。苹果表示,搭载M3Ultra芯片的MacStudio最低配置96GB的统一内存,最高可选配至512GB,达到个人电脑迄今统一内存配置之最。
两台MacStudio可以跑满血版DeepSeekR1
因为以上强大的更新,据苹果介绍,搭载M3Ultra的MacStudio,足以运行“参数超过6000亿”的LLM。
根据苹果官网显示,M3Ultra版MacStudio运行数千亿参数大模型的token生成速度是M1Ultra的16.9倍。
正因此,MacStudio已成为AI研究人员和爱好者的热门选择之一,被认为是运行高参数大模型最具性价比的平台之一。
据外媒TheRegister披露,凭借800GB/s的内存带宽,在家跑类似DeepSeekR1这样的模型完全可行(至少在4-bit精度下)。DeepSeekR1拥有6710亿个参数,加载后内存占用超过400GB。但由于采用了MixtureofExperts(MoE)架构,实际同时激活的参数只有370亿个,这意味着生成速度可以达到20~30tokens每秒。
针对这一可行性的计划,国外一家专注于在不同设备上运行大模型的EXOLabs在X平台表示,「两台配备512GB内存(总价18,000美元)的M3UltraMacStudio,通过Thunderbolt5连接后,可以以20tokens/秒的速度运行满血的DeepSeekR1(8-bit)」。
那么MacStudio上跑大模型的成本如何?
AlexCheema算了笔账,并分享了其最新观点。他表示,想跑这些超大的AI模型,第一步就是让它们塞进显存(或者是苹果称之为的“统一内存”)。那问题来了,不同平台的内存价格和性能差距有多大?
对此,他做了一个不同硬件平台的内存容量、带宽和成本的对比(注意:这里没有包含DIGITS相关数据,因为具体细节尚未确认):
硬件
内存大小
内存带宽
价格
每GB内存成本
NVIDIAH100
80GB
3TB/s
$25,000
$312.50/GB
AMDMI300X
192GB
5.3TB/s
$20,000
$104.17/GB
AppleM2Ultra
192GB
800GB/s
$5,000
$26.04/GB
AppleM3Ultra
512GB
800GB/s
$9,500
$18.55/GB
相比M2Ultra,M3Ultra在每GB内存成本上降低了28%,性价比提升了不少。
不过,AlexCheema认为,苹果的M3Ultra的MacStudio短板也很明显。有个问题就是——“内存刷新率”,也就是设备的内存带宽和内存大小的比值。这个数值决定了设备每秒可以完整读写多少次全部内存,对单条输入(batch_size=1)推理速度影响很大。如果是一个会占满设备全部内存的密集型模型,它的最大理论token生成速率就受这个数值限制。
硬件
内存刷新率(每秒)
NVIDIAH100(80GB)
37.5次
AMDMI300X(192GB)
27.6次
AppleM2Ultra(192GB)
4.16次(比H100低9倍)
AppleM3Ultra(512GB)
1.56次(比H100低24倍)
可以看出,苹果用更大内存换来了更低的刷新率,M3Ultra的这个数值甚至比H100低24倍。换句话说,苹果设备更适合那些需要大量内存、但对带宽要求不高的AI模型。
再看看单位带宽的成本(每1GB/s内存带宽需要多少钱,数值越低越划算):
硬件
每GB/s带宽成本
NVIDIAH100(80GB)
$8.33
AMDMI300X(192GB)
$3.77
AppleM2Ultra(192GB)
$6.25
AppleM3Ultra(512GB)
$11.875
从数据来看,M3Ultra在这方面性价比比M2Ultra还差,不过它的优势在于超大容量的内存。
在AlexCheema看来,AlexCheema苹果这套方案,在稀疏模型上特别吃香,比如MoE(专家混合)和模块化路由(ModularRouting)这种架构:
MoE(专家混合):
MoE结构在每一层都有多个“专家”(子模型),但每次推理时只激活其中的一小部分。比如DeepSeekR1的激活率是1/32(8/256),如果未来能优化到1/128(8/1024),那就更适合M3Ultra了,因为它主要依赖大内存,而不是高带宽。
模块化路由(ModularRouting):
这类方法(比如DiPaCo)会用多个小模型,然后由一个“控制器”决定激活哪些模型,把结果组合起来。这个方案也是需要大内存但对带宽要求低,刚好适合M3Ultra。
这两种方法的共同点是:
需要大容量内存
对内存带宽要求不高
一次推理只激活部分参数
所以,虽然M3Ultra带宽没优势,但对于只激活少量参数的AI模型,它反而是个不错的选择。
AlexCheema预测道,“如果明年苹果推出M4Ultra版MacStudio,很可能会提升带宽。因为苹果的UltraFusion技术是把两块Max芯片拼在一起,而M4Max的内存带宽比M3Max提升了36.5%,所以如果M4Ultra继续用类似架构,带宽问题应该能得到改善(甚至可能会有更大提升)。”
总的来说,M3Ultra目前是一个高内存、低带宽的AI计算平台,它非常适合稀疏专家模型(MoE)和模块化AI结构。如果苹果在M4Ultra上进一步提升带宽,那么它在AI计算领域的竞争力会更强。
价格不菲的MacStudio
不过,对于个人爱好者而言,想用MacStudio跑这种模型,就如AlexCheema计算的,价格可不便宜。要把内存升级到512GB,就得额外加5,500美元,国行版本从96GB统一内存升级到512GB就需要加3万元,这样一来,M3Ultra版MacStudio的起价(32核CPU+80核GPU+512GB统一内存+1TB固态硬盘)就飙升到74249元,而且这还只是基础配置,不包含存储升级。如果选满16TB的SSD,即32核CPU+80核GPU+512GB统一内存+16TB固态硬盘需要108749元。如果按照ExoLabs提到的配置,两台MacStudio满配下来需要217,498元,价格着实不菲。
对此,TheRegister指出,虽然高端MacStudio用的是M3Ultra,但基础款其实搭载的是M4Max——这颗芯片去年秋天就已经在MacBookPro上亮相了。M4Max最高配备16核CPU(12颗高性能核心+4颗高能效核心)、40核GPU,并支持最高128GB统一内存,存储也能扩展到8TB。不过,考虑到苹果的存储溢价一向不低,而MacStudio主要是桌面设备,更划算的方案可能是选外接USB4或Thunderbolt存储,性价比更高。
尽管价格不菲,MacStudio的发布还是让不少AI爱好者兴奋不已,不少人涌入社交平台分享自己的最新看法。
来自X平台的用户AaronNg评价道:“苹果的512GBMacStudio绝非噱头。别说大多数PC只能支持128GB内存了,而且还不是显存(VRAM)。512GB统一内存的规格,已经能与那些售价五位数的高端GPU相媲美。这台机器不仅能跑DeepSeekR1,几乎所有AI任务都能轻松应对。在AI计算领域,没有比这更强的个人电脑了。”
还有网友直言:
“这可能是全球首款能在家里直接跑满血版DeepSeekV3/R1的「桌面超算」。”
“支持512GB统一内存,让M3Ultra版MacStudio成为了性价比最高的大模型一体机。”
当然也有人觉得普通用户围观一下即可,毕竟价格摆在那里:
“DeepSeekR1是一个拥有6710亿参数的超大规模AI模型,通常需要强大的硬件才能运行。
苹果最新的M3Ultra版MacStudio,配备512GB内存,确实可以运行这个模型,但如果想在家完整运行未量化版本,需要两台设备协同工作。
虽然技术上可行,但这种配置价格昂贵,更适合研究人员或AI爱好者,而非普通用户。
对于大多数人来说,运行较小或经过量化优化的AI模型会更实际,同时依然能提供出色的性能。”
对此,你怎看?会买MacStudio来跑大模型吗?
参考:
https ://www.theregister.com/2025/03/05/apple_m3_ultra_mac_studio/
https ://x.com/alexocheema/status/1897473357756416291
好啦,今天的内容分享就到这,感觉不错的同学记得分享点赞哦!
PS:程序员好物馆持续分享程序员学习、面试相关干货,不见不散!
点分享
点收藏
点点赞
点在看