苹果憋一年终超同参数 Qwen 2.5？三行代码即可接入 Apple Intelligence，自曝如何做推理

发布日期: 2025-06-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

整理|华卫、核子可乐
在今年的WWDC全球开发者大会上，苹果推出新一代专为增强AppleIntelligence功能所开发的语言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行，包括一个约3B参数的紧凑型模型和一个基于服务器的混合专家模型，后者为专门针对私有云量身定制的全新架构。
这两大基座模型，均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推理能力，可以理解图像与文本输入，速度更快、效率更高，而且能够支持15种语言及平台中集成的各种智能功能。
苹果基座模型建模概览
同时，苹果推出了全新基座模型框架（FoundationModelsFramework），允许第三方开发者直接访问AppleIntelligence的核心大型语言模型，并将其构建到他们的APP中。应用开发者将可以免费使用AI推理功能，只需几行代码即可访问，并轻松将文本提取和摘要等功能引入自己的应用。
所有语言环境下均
优于参数更大的Qwen
“苹果开发新的设备端与服务器端模型，是为了满足广泛的性能与部署需求。”据介绍，设备端模型针对效率进行了优化，并专为苹果芯片定制，强调以最低资源占用实现低延迟推理；而服务器端模型则将为更复杂的任务提供高精度与可扩展性支持。
据介绍，苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型，将整个模型按5：3的深度比分为两块。块2中的所有键值（KV）缓存都直接与块1最后一层生成的缓存共享，由此将键值缓存的内存占用量降低了38. 5%，同时显著改善了首个token生成时间（time-to-first-token）。
苹果还引入并行轨道专家混合（PT-MoE）设计，为服务器端模型开发出一套新架构。此模型由多个较小的Transformer（即「轨道」）组成，它们独立处理各token，仅在各轨道块的输入和输出边界处应用同步。每个轨道块还拥有自己的一组MoE层。结合依托轨道独立性实现的轨道级并行机制，这样的设计显著降低了同步开销，使得模型在不影响质量、保持低延迟的前提下拥有高效扩展能力。
PT-MoE架构图
此外，为支持更长的上下文输入窗口，苹果设计了一种交错注意力架构，将滑动窗口局部注意力层与旋转位置嵌入（RoPE）相结合，并将全局注意力层与无位置嵌入（NoPE）相结合。这样的设置提升了长度泛化能力，减少了键值缓存大小，并可在长上下文推荐期间保持更好的模型质量。
完成一系列优化后，苹果从标准的基础语言和推理能力维度，使用人工评分员对设备端和服务器端模型进行了离线质量评估，涵盖分析推理、头脑风暴、对话交互、分类、封闭式问答、编码、创意写作、信息提取、数学推理、开放式问答、改写、总结以及工具使用等方面。随着将模型支持扩展到更多语种及语言环境，苹果也同步扩展了评估任务集，使其能够针对特定语言环境进行评估。
据苹果公布的评测结果显示，设备端模型在所有语言环境下的表现均优于体量略大的Qwen-2. 5-3B，而且在英语环境下可以与体量更大的Qwen-3-4B及Gemma-3-4B相媲美。服务器端模型则优于Llama-4-Scout，后者的总体规模与有效参数数量均与其相当；但仍落后于Qwen-3-235B及专有的GPT-4o等更大模型。
苹果基座模型与公开模型的文本进行并排评估时偏好响应的比例，结果按三种语言环境组呈现。

在对苹果基座模型与同类模型进行图像响应评估时，能够生成最优响应的比例。
据悉，为实现视觉功能，苹果团队还开发了一个由大规模图像数据训练而成的视觉编码器，它由一个用于提取丰富特征的视觉主干网络与一个用于将特征与大模型标记表示对齐的视觉语言适配器组成。苹果使用具有1B参数的标准VisionTransformer（ViT-g）作为服务器模型，并使用具有3亿参数的高效ViTDet-L主干网络作为设备部署模型，还在标准ViTDet中引入了一种新的寄存器窗口（RW）机制，以便更有效地捕捉全局上下文与局部细节。
训练方案大改进，
推理能力是重头戏？
过去一年里，为扩展AppleIntelligence功能以支持更多语言和各类需要图像理解等更广泛的功能，苹果团队对基座模型的训练方案也经历了一系列改进，尤其是针对推理方面。
首先，预训练分多个阶段进行，其中计算量最大的第一阶段仅针对文本模态。其使用蒸馏损失函数对设备端模型进行训练，但具体方式并非使用大规模密集模型作为教师模型来从头开始进行预训练，而是使用少量质量最高的文本数据，将预先训练好的约3B模型稀疏升级为一个包含64个专家、每2层对应一个专家的混合模型（MoE）。这种方式将教师模型的训练成本降低了90%。另一方面，稀疏服务器端模型则是使用14T个文本token从头开始训练而成。
在预训练的第二阶段，该团队使用小模型解码器对视觉编码器及视觉语言自适应模块进行联合训练，使用高质量文本数据、交错图文数据和特定领域的图文数据将图像特征与模型的表征空间进行对齐。之后，他们利用这些视觉编码器与预训练模型来改进代码、数学、多语言及长上下文理解能力，并通过多个持续进行的预训练阶段整合了图像理解。
到持续预训练阶段，苹果团队调整了数据集混合比，同时整合了经过正确性验证的合成数据，借此提升代码、数学与多语言能力；之后又通过多模态自适应整合了视觉理解，且并未损害模型的文本能力。在此阶段，他们从头开始训练了一个视觉语言自适应模块，借此将视觉编码器接入设备端/服务器端两个基座模型。
后训练流程中，该团队将人工编写的演示与合成数据结合起来以扩展监督微调（SFT）规模，旨在重点关注核心视觉功能，其中包括常识、推理、基于文本的图像理解、文本与视觉基础以及多图像推理。通过检索更多图像并合成相应的提示词与响应结果对，其进一步提升了视觉SFT数据的多样性。
在SFT阶段之后，他们将基于人类反馈的强化学习（RLHF）应用于设备端与服务器端模型，同时提出一种基于模型多代奖励方差的新颖提示选择算法，用以整理RLHF训练中使用的提示词数据集。评估结果表明，RLHF在人类与自动基准测试中均取得了显著提升。此外，虽然他们在SFT和RLHF阶段均引入了多语言数据，但从结果来看RLHF的提升比SFT更为显著，在人类评估中的优势比例为16：9。
为在提高推理效率的同时降低设备端与服务器端模型的运行功耗，苹果团队接下来使用量化感知训练（QAT）技术将设备端模型压缩至每权重2bit（bpw），服务器端模型则使用一种名为自适应可扩展纹理压缩（ASTC）且基于块的纹理压缩方法。ASTC解压缩则是通过苹果GPU中的专用硬件组件实现，该组件能够在不增加额外计算开销的情况下实现权重解码。
面向两个模型，苹果团队将嵌入表量化为每权重4bit，对设备端模型使用QAT与基础权重进行联合训练，对服务器端模型使用后训练量化；键值缓存被量化为每权重8bit。然后，他们使用额外数据训练低轶适配器，以恢复因压缩步骤而损失的质量。通过这些技术，研究人员观察到一定程度的质量回归甚至是细微提升，如设备端模型的MGSM回归约为4. 6%，MMLU提升1. 5%；服务器端模型的MGSM回归为2. 7%，MMLU回归为2. 3%。
设备端与服务器端基座模型的压缩与比特率
三行代码接入
AppleIntelligence核心模型
关于苹果将开放其AppleIntelligence平台的传闻，今年早些时候已开始流传。5月，有外媒报道称，苹果将迈出第一步，让第三方应用能够访问其智能系统，不过应用无法直接调用模型本身，只能使用AI驱动的功能。
现在，借助最新发布的基座模型框架，苹果正为开发者提供在自有应用中使用原生AI能力的机会，第三方应用将能够借助这些功能实现图像生成、文本创作等更多场景。开发人员可以使用~~3B参数设备端语言模型开始创建自己的可靠、生产质量的生成式AI功能。作为AppleIntelligence核心的~~3B语言基础模型擅长各种文本任务，如摘要、实体提取、文本理解、优化、简短对话、生成创意内容等。
“我们鼓励应用开发者使用此框架来构建针对其应用量身定制的有用功能。通过这套精心设计的框架，应用开发者可以充分利用设备端模型。”苹果表示。
据了解，这套框架的一大亮点在于，其原生支持Swift语言，开发者只需短短三行代码，即可轻松接入AppleIntelligence模型。框架内置引导式生成、工具调用等功能，使在现有应用中集成生成能力变得前所未有的简单。
例如，Automattic公司正在其DayOne日记应用中使用该框架，为用户带来以隐私为核心的智能功能。“基座模型框架帮助我们重新思考日记应用的可能性，”Automattic旗下DayOne负责人PaulMayne表示，“现在我们能够以深度尊重用户的方式，将智能与隐私结合在一起。”
而且，该框架的工具调用方法建立在引导式生成的基础之上。开发者只需要提供简单的ToolSwift协议实现，框架就会自动以最佳方式处理并行及串行工具调用中的复杂调用图。而基于工具使用数据对模型进行后训练，苹果的模型在此框架下的功能可靠性也得到了提升。苹果称，工具调用功能使得开发者能够创建为模型提供特定类型信息源或服务的工具，借此实现对3B模型的功能定制。
目前，该基座模型框架正通过AppleDeveloperProgram进行测试，公开测试版将于下月初提供。
参考链接：

https ://machinelearning. apple.com/research/apple-foundation-models-2025-updates
https ://techcrunch. com/2025/06/09/apple-lets-developers-tap-into-its-offline-ai-models/
声明：本文为AI前线整理，不代表平台观点，未经许可禁止转载。
活动推荐
恭喜您获得「亚马逊云科技中国峰会」早鸟票！
这里有：
3大主题演讲60+行业与技术分论坛
200+全球重磅演讲嘉宾10000㎡沉浸式体验区
6月19-20日，共聚上海世博中心！
扫码免费报名！
今日荐文
曝豆包多模态负责人准备离职；马云频繁要求汇报Qwen3开发进度；北大“韦神”粉丝破2000万，评论区变高考许愿池|AI周报
别被MCP的包装骗了！重构系统、向智能体转型，CEO亲述：关键时刻还是RPA兜底？
王兴兴回应比赛风波：挣到钱了，但现在的机器人别指望它能干活
13年苦熬到170亿市值，一夜间被用户抛弃！一封“AI吹”全员信让网友“不喷不行”
天塌了，Claude全面断供Windsurf！CEO喊冤控诉也挡不住开发者退订，祸起OpenAI收购？
你也「在看」吗？👇