Siri AI - infra 架构解读

文章元信息

字段	内容
来源	Apple Machine Learning Research + WWDC 2026 官方发布
日期	2026-06-09
原始 URL	https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models
补充参考	https://www.techtimes.com/articles/318039/20260609/wwdc-2026-developer-tools-foundation-models-now-swaps-ai-providers-without-code-changes.htm
标签	`Apple Intelligence` `Siri AI` `Foundation Models` `AFM 3` `Private Cloud Compute` `on-device AI` `三层架构` `稀疏激活` `WWDC 2026`

一句话核心价值

Apple 以「三层算力分级路由 + 设备端稀疏激活 + Private Cloud Compute 零数据驻留」为核心，构建出一套将隐私保护编译进推理路径而非靠策略补丁维系的 AI 基础设施，并通过统一 Swift 协议对外暴露与提供商无关的推理接口，使上层 Siri AI 和第三方应用可在不改业务代码的前提下切换模型后端。

深度解读

1. 系统架构与分层设计

WWDC 2026 发布的 Apple Foundation Models 第三代（AFM 3）是目前为止苹果在 AI 系统架构上最完整的一次公开表达。整个体系由五个模型组成，按算力位置分为三层：

层一：设备端（On-Device）

AFM 3 Core：延续上代 3B 参数 Dense 模型，提升整体质量，覆盖轻量日常任务。
AFM 3 Core Advanced：全新 20B 参数稀疏模型（每次推理激活 1–4B 参数），原生多模态，支持高质量语音和 Dictation。仅在高端 Apple Silicon（如 M4 Pro/Max 等）上解锁。

层二：私有云端（Private Cloud Compute, PCC）

AFM 3 Cloud：服务端主力模型，速度/效率/性能均衡，承接超出设备能力的中等复杂请求。
ADM 3 Cloud（Image）：专用图像生成/编辑模型，驱动 Image Playground、Photos 编辑等。
AFM 3 Cloud Pro：最高档服务端模型，用于 Agentic tool use、复杂推理。运行在 Google Cloud 的 NVIDIA Blackwell B200 GPU 上，但由 PCC 框架承载，隐私机制不变。

层三：第三方云（受协议约束的外部模型）

通过新引入的 LanguageModel Swift 协议，Google Gemini（via Firebase SDK）和 Anthropic Claude 已实现协议适配，开发者可按需路由至外部大模型，无需改动业务代码。

三层之间的流量路由由 Foundation Models 框架在运行时决策：轻量请求在设备本地完成；中等复杂度请求升级到 PCC 服务端；极度复杂的请求（含 1.2 兆参数 Gemini 定制模型）路由到 Google Cloud，但由 Apple 在每个转发节点执行匿名化和 Token 化处理，Apple ID 在请求出设备前已剥离。

这一分层结构在工程上的关键意义：算力消耗与隐私保护呈反比分布——最敏感的个人上下文计算在设备端完成，最昂贵的通用大模型计算在云端完成，两者被隔离在不同安全域中。

2. 并发与调度模型

AFM 3 Core Advanced 的稀疏激活架构引入了显著的**推理时弹性调度（Inference-time Elasticity）**机制，是本次架构中反常识性最强的设计之一。

传统 Dense LLM 需要将全量权重常驻 DRAM；MoE 模型虽然稀疏，但标准实现仍需所有权重在活跃内存中待命（逐 Token 换入换出导致带宽瓶颈）。AFM 3 Core Advanced 的方案：

权重存储在 Flash（NAND）而非 DRAM，突破了消费级硬件的 DRAM 容量上限。
路由决策以 Prompt 为粒度，而非逐 Token 路由。一个轻量 Dense Block 在 Prompt 初始处理阶段确定本次推理所需的 Expert 集合，生成阶段周期性重新选择，但不逐 Token 重路由。
区分「常驻 Expert」和「按需 Expert」：高频共享专家（Shared Experts）始终驻留 DRAM；输入相关专家（Routed Experts）仅在被选中时才从 Flash 换入。

调度结果：同一模型在不同请求难度下激活 1B、2B 或 4B 参数，实现跨请求的资源梯度利用。这等价于在运行时动态决定模型大小，无需维护多个分立模型实例。

3. 上下文与状态管理

Siri AI 的个人上下文感知是本次体验升级的核心卖点，其工程实现通过两个机制支撑：

本地 RAG（Retrieval-Augmented Generation）：Foundation Models 框架新增了 Spotlight 驱动的 Search Tool，使模型可以对用户设备上的邮件、消息、照片、文档进行检索增强推理，全程无网络请求。这是一种完全设备端的向量检索方案，开发者此前需要自建 Vector DB 基础设施，现在框架原生提供。

iCloud 会话同步：Siri AI 引入了专属的 Siri App，允许用户跨设备（iPhone、iPad、Mac、Watch、Vision Pro）访问历史对话。历史会话通过 iCloud 私有加密同步，会话状态跨设备一致。

服务端模型 AFM 3 Cloud 支持 32K Token 上下文窗口，带可配置推理级别（reasoning level），适合多步 Agentic 任务。

值得注意的设计取舍：Siri AI 的个人上下文感知（Personal Context）全部在设备端或 PCC 内执行，不会随请求流到 Google Cloud 层。最高规格的 AFM 3 Cloud Pro 处理的是通用复杂推理，而非个人数据密集型请求，这在路由策略上实现了个人数据与通用算力的隔离。

4. 容错与可靠性

三层降级路由本身即是容错设计的外在表现：当设备端模型无法处理某请求时，请求自动升级到 PCC；PCC 承压过高或请求超出能力时，再路由到 Cloud Pro。上层业务代码对此无感知。

PCC 无状态性：Private Cloud Compute 的每个请求都在无状态的 Apple Silicon 服务节点上处理，处理完毕后数据不驻留，节点可随时扩缩。这是一种 Share-Nothing 架构，消除了状态同步带来的一致性问题，也天然支持水平扩展。

独立安全审计：Apple 维护了一个专门的 PCC 安全研究项目，允许独立安全研究人员检验 PCC 系统。这是可靠性主张（"数据永不驻留"）的可信度机制，而非仅依赖内部承诺。

5. 评估与可观测性

Apple 在本次 ML Research 博文中披露了较为详细的评估体系，体现了几个工程上有借鉴价值的实践：

人工偏好评估（Human Preference Evaluation）：使用内部人工评级员，按「指令遵循」「真实性」「呈现质量」「图像理解」等维度评分，采用 Side-by-Side 偏好比较和单侧独立评分双轨并行。
多维特性评估：语音 TTS 使用 5 分制 MOS（Mean Opinion Score）量化；Dictation 使用7个维度（Overall Quality / Punctuation / Casing / Layout / Meaning Capture / Disfluency Handling / Style）的偏好判断。
分 locale 评估：AFM 3 Cloud 在 side-by-side 评估中对所有地区保持了一致的代际提升（preferred on 64.7% vs 8.7% baseline），说明评估覆盖了多语言泛化。

这一评估框架的设计思路：模型评估（model-level）和特性评估（feature-level）分离，避免单一 benchmark 数字掩盖具体功能退化。

6. 性能与资源优化

AFM 3 Core Advanced 的 Flash 存储架构是本次最具工程创新性的优化点：

DRAM 突破：传统 20B Dense 模型需要约 40GB DRAM（FP16），远超消费设备上限。Flash 存储使完整模型权重（压缩后）可放入 NAND，仅将当次推理所需的 Expert 子集换入 DRAM。
量化感知训练（Quantization Aware Training, QAT）：所有模型使用 QAT 进行大幅压缩同时保持精度，这是苹果在硬件协同设计（co-design）上的积累。
Apple Silicon 专项优化：AFM 3 Core、Core Advanced、Cloud、ADM 3 Cloud 全部针对 Apple Silicon 优化；只有 Cloud Pro 针对 NVIDIA GPU 优化——这意味着 Apple 的核心模型推理路径完全跑在自研芯片上。
iOS 27 性能收益：非 AI 计算层面，iOS 27 实现 App 启动速度提升 30%、照片加载提升 70%、AirDrop 传输速度提升 80%，这些改进降低了 AI 推理的"感知延迟"背景噪声。

7. 安全与权限隔离

PCC 的隐私保证是本次架构中最具工程投入的部分，形成了多层防御：

请求匿名化：Apple ID 在请求出设备前剥离，请求被 Token 化后方可进入 PCC 节点。
无数据驻留（Zero Retention）：PCC 节点是无状态的，处理完请求后数据不写入任何持久化存储。
第三方审计：独立安全研究人员可检查 PCC 系统，验证"无驻留"承诺。
分域路由：个人上下文（邮件、消息、照片等敏感数据）的推理仅在设备端和 PCC 内执行；路由到 Google Cloud 的 AFM 3 Cloud Pro 请求不携带个人上下文。
安全分类法（Safety Taxonomy）：多语言 Post-Training Alignment，语言专属 Guardrail 模型，以及母语者参与的人工 Red Teaming，覆盖所有支持 locale。

SiriKit 的正式弃用（deprecated at WWDC 2026）和 App Intents 的强制迁移，也可视为安全架构重构的一部分：旧的 INExtension 机制权限范围不清晰，App Intents 的声明式接口允许系统更精确地约束每个 App 能执行的 Siri 动作范围。

8. 可扩展性设计

LanguageModel Swift 协议是本次最具平台生态价值的可扩展性设计：

Provider 无关接口：协议定义了统一推理接口（session logic、tool calls、context management），第三方 Provider（当前为 Google、Anthropic）实现协议即可接入生态，开发者切换 Provider 仅需更换 SPM 依赖包，业务代码零改动。
Dynamic Profiles：新引入的动态配置能力，允许开发者在运行时更新模型与应用交互方式，无需等待 App 更新发布。
Core AI 框架：独立于 Foundation Models 框架的全新框架，专为设备端模型运行设计，提供比 Foundation Models 更底层的模型运行 API，开放给需要精细控制的开发者。
工具扩展：BarcodeReaderTool、OCRTool（基于 Vision 框架）和 Spotlight Search Tool 作为内置工具注入模型 Tool Calling 机制，开发者可在此基础上组合构建 Agentic 应用。

9. 反常识设计点

Flash 优先于 DRAM 的推理架构：通常的工程直觉是「将热数据放在最快的存储层」，AFM 3 Core Advanced 反其道而行——将完整模型权重放在较慢的 Flash 上，通过减少数据移动（共享 Expert 常驻 DRAM + 路由 Expert 按需换入）来弥补带宽劣势，最终实现超越 DRAM 容量上限的模型规模。这是一种以计算复杂性换取存储扩展性的权衡，在消费级硬件上行得通的前提是 Neural Engine 的 Flash 读取带宽足够支撑推理延迟要求。

隐私作为架构约束而非策略补丁：Google Gemini 以定制版（非商业部署版）运行在 Apple 的 PCC 框架内，而不是苹果将请求直接发往 Google 的推理端点。这意味着隐私保护机制（匿名化、零驻留）被编码进了请求路径，任何"使用 Google 模型"的请求都必须经过同一安全代理层，无法绕过。

工程模式提炼

#	模式名称	核心思想	适用场景	工程价值
1	三层算力梯度路由	按请求复杂度将流量路由至设备端 / 私有云 / 公共云三层，上层代码无感知	任何需要在隐私、延迟、算力之间动态权衡的 AI 推理系统	消除"一刀切"的云 vs. 端选择，同时控制成本与隐私风险
2	Flash 存储的稀疏推理（IFP + Prompt 级路由）	将完整大模型权重存 Flash，以 Prompt 为粒度决策 Expert 子集，减少 DRAM↔Flash 数据移动	消费级设备上运行超出 DRAM 容量的稀疏大模型	打破设备端模型规模上限，同时维持可接受推理延迟
3	推理时弹性参数激活	同一模型根据请求难度激活不同数量的参数（1B/2B/4B），实现跨请求的资源梯度利用	单一设备端服务多种复杂度请求，避免维护多个模型实例	减少冷启动开销，降低模型管理复杂度
4	Provider 无关推理协议（LanguageModel Protocol）	公开 Swift 协议定义统一推理接口，第三方 Provider 实现协议后与 on-device 模型共享同一 API 面	需要支持多 AI Provider 的 SDK / 平台	开发者切换模型后端零改业务代码；平台生态通过协议而非 API Key 集成
5	无状态安全代理层（PCC Zero-Retention）	推理节点无状态，请求处理后数据不写入持久存储；隐私承诺通过独立第三方审计可验证	需要在云端处理用户敏感数据的 AI 推理服务	将"无驻留"从口头承诺转变为可审计的系统属性
6	本地 RAG 基础设施化（Spotlight-powered Search Tool）	将 Spotlight 索引作为设备端向量检索后端，集成为模型原生 Tool，开发者无需自建 Vector DB	需要检索用户本地数据的设备端 AI 应用	降低 RAG 应用开发门槛；避免个人数据出设备
7	模型评估双轨制（模型级 + 特性级分离）	模型评估（通用 benchmark）和特性评估（具体功能维度）分开跑，防止 benchmark 数字掩盖特性退化	服务多条业务线的基础模型迭代	精确定位回归问题；防止为提升 benchmark 分数而牺牲业务场景质量
8	声明式应用接口强制迁移（App Intents 替代 SiriKit）	通过正式弃用旧接口、强制迁移到声明式接口，使系统能精确约束每个 App 可执行的 AI 动作范围	平台级 AI 能力向应用开放的权限边界设计	权限粒度细化；使 Agentic 跨应用操作的安全边界可审计、可控制

关键引用

"AFM 3 Core Advanced introduces a novel sparsely activated architecture built on Instruction-Following Pruning (IFP)... Rather than using a single model for all tasks or managing an ensemble of smaller models, AFM 3 Core Advanced uses a predetermined number of active parameters tailored to each specific use case." — Apple Machine Learning Research, 2026-06-09

"A developer team can prototype an app using Apple's on-device model, then route complex queries to Google's Gemini or Anthropic's Claude — or swap between them — by updating a Swift Package Manager dependency, with no changes required in the session logic or the rest of the application code." — TechTimes, WWDC 2026 Developer Tools

"Apple uses 'none of the models that Google deploys to its customers' and user requests 'are completely private to you. They're never stored. They're never accessible to anyone.'" — Craig Federighi, WWDC 2026 post-keynote media session

"AFM 3 Cloud Pro... we worked with Google and NVIDIA to extend Private Cloud Compute to NVIDIA GPUs in Google Cloud, while maintaining the same guarantees to protect our users' privacy." — Apple Machine Learning Research

"Apps that have not implemented App Intents are invisible to the new Gemini-powered Siri." — TechTimes, WWDC 2026