苹果智能 2.0:iOS 19.2 中的离线 LLM 和「场景记忆」
作者:Boxu Li
iOS 19.2 带来私有 AI 升级——为何引发热议?
苹果的iOS 19.2 更新在科技爱好者中迅速走红,原因很简单:它通过强大的设备端大语言模型(LLM)和全新的*「场景记忆」*功能,为过去一年推出的「Apple Intelligence」功能提供了强大动力。简单来说,你的 iPhone 或 iPad 变得更智能了——无需依赖云端。用户感到兴奋,因为这次更新意味着 Siri 和其他智能功能可以更好地理解上下文,并且完全离线运行,保障隐私。这是苹果 AI 战略的一次重大飞跃,将尖端生成模型融入日常使用,同时将用户数据保存在设备上。这种热潮因苹果的隐私优先立场而进一步放大:你可以享受 AI 驱动的便利(如高级 Siri 响应、实时翻译、写作辅助、图像生成等)而无需将个人数据传送到服务器上。这种强大与隐私的平衡使苹果的 AI 2.0 在消费技术领域成为潜在的游戏规则改变者。
从消费者的角度来看,iOS 19.2 的 AI 感觉比以往更「智能和上下文感知」。苹果的营销称其为「为我们其他人打造的 AI,直接内置于你的 iPhone 中」[4]。在幕后,这次更新引入了一个新的设备上基础模型(苹果自己的紧凑型 LLM)和我们称之为场景记忆的功能,两者共同实现了更自然的对话式交互。科技论坛和社交媒体上满是例子——比如 Siri 现在可以进行来回对话,或根据你屏幕上的内容主动建议操作。在本文中,我们将解析苹果的设备上 LLM 和场景记忆在技术上究竟发生了什么,以及这对用户、开发者和像 Macaron 这样的个人 AI 应用意味着什么。让我们深入了解。
苹果智能 2.0 究竟是什么?
「Apple Intelligence」是苹果用于iOS、iPadOS、macOS等的生成式AI功能的统称[5]。它首次在iOS 18中推出,包括Writing Tools(在任何文本字段中进行AI驱动的校对和改写)、Image Playground(从文本创建图像)、通知摘要,甚至在Siri中集成了一些ChatGPT功能[6]。可以将其视为苹果为日常任务带来AI助手的答案——但设计为能够本地且安全地运行。Apple Intelligence 2.0(iOS 19.x中的迭代)极大地扩展了这些功能。根据苹果的说法,其基础是一个新的设备上大型语言模型,为整个操作系统的功能提供支持[1]。在此之上,苹果叠加了诸如更好的视觉智能(相机或照片应用识别物体和文本)、更自然的Siri对话,以及一个重要功能:跨设备的上下文感知等改进。
Apple Intelligence 2.0 的一些主要功能包括:
- 设备端基础模型(~30亿参数) —— 由苹果构建的生成式 AI 模型,运行在 A 系列和 M 系列芯片的神经引擎上。它支持文本生成、总结、翻译等多种本地操作(无需联网)[7][3]。尽管体积小巧,苹果优化了该模型,使其在从重写信息到回答问题等广泛任务中表现令人惊讶地强大。(我们将在下一部分深入探讨其工作原理。)
- 「场景记忆」(上下文感知) —— Siri 和系统智能现在可以记住并利用您当前“场景”(您在做什么、屏幕上有什么、最近的互动)的上下文。例如,Siri 可以从一个请求到下一个请求保持对话的连续性[6],或者在您查看收到的活动邀请时,建议将其添加到日历中。苹果内部一直在研究个人上下文感知——这意味着 Siri 将在设备上私密地跟踪您的信息、电子邮件、文件和照片,以更智能地帮助您[8]。它还具备屏幕感知能力,因此知道您正在查看哪个应用或内容,并能够对此采取行动(类似于人类助手的工作方式)[9]。「场景记忆」是一个方便的术语,用于描述这些让 AI 能够记住当前场景并相应反应的上下文功能。
- 开发者访问 AI(基础模型 SDK) —— 在 iOS 19 中,苹果通过新的框架向应用开发者开放了其设备端 LLM[10][11]。这意义重大:第三方应用现在只需几行代码就能利用苹果的 AI 智能,启用离线自然语言搜索或生成文本/图像等功能。重要的是,这种设备端推理无需云成本——不需要昂贵的 API 调用到 OpenAI 或其他服务[12]。开发者可以构建即使在无网络连接时也能工作且不共享用户数据的 AI 功能,与苹果的隐私承诺一致。
- 扩展的多模态技能 —— 苹果的模型不仅仅是一个文本聊天机器人;它还具有视觉能力。在 iOS 19 中,它可以理解图像和界面元素。例如,您可以拍摄传单的照片,iPhone 的 AI 将解析文本以创建日历事件(自动提取日期、时间、地点)[13]。实时翻译功能可以听取口语并提供实时的文本或音频翻译,完全在设备上完成[14]。这些表明 LLM 与视觉和音频系统相结合,使其成为更通用的助手,能“看到”和“听到”,以及阅读。
简而言之,Apple Intelligence 2.0 的目标是让你的设备在原地变得更智能——它更能理解你(你的情境、你的内容),并能即时生成或协助处理内容,同时保持 AI 处理本地化。在 iOS 19.2 中引入强大的离线 LLM 和上下文记忆系统是苹果 AI 计划的一个关键时刻,因此让我们来探索他们是如何实现这一目标的技术细节。
底层技术:苹果的设备端 LLM 如何运作
直接在智能手机上运行大型语言模型是一个巨大的挑战——这些模型通常庞大、对资源要求高,并在云数据中心运行。苹果通过模型压缩、定制芯片和巧妙的工程设计,将 AI 智能浓缩成一个适合你手中的包裹。以下是详细解析:
- 模型蒸馏与体积 – 苹果的核心设备端模型大约有 30亿参数[15],比起像 GPT-4 这样拥有数千亿参数的巨头模型要小得多,但对于设备来说仍然算是“庞大”的。苹果可能使用了知识蒸馏的方法,即将更大“教师”模型的知识传递给这个较小的“学生”模型。事实上,苹果的研究笔记中描述了使用 专家混合(MoE) 的方法来高效训练高质量模型:他们将一个 30亿参数的模型升格为一个稀疏的 64专家模型作为教师,避免了需要一个庞大的密集模型[16]。通过使用智能的教师-学生策略(以及14万亿个训练数据 tokens 用于服务器模型),苹果能够在 30亿参数中挤入令人惊讶的能力[16][17]。翻译: 苹果教会了一个较小的“大脑”像一个较大的“大脑”那样行动,大幅减小了体积,同时保持了智能。
- 优化架构以提升速度 – 为了让模型在设备上运行得更快,苹果不仅缩小了它的体积,还重新设计了其部分结构。例如,模型被分成两个块,这样可以更有效地在层之间共享内存(即 Transformer 的“键值缓存”)[18]。仅此一项调整就减少了约 37.5% 的缓存内存使用,并加快了生成响应第一个 token 的时间[18]。他们还实现了一种新颖的交错注意力机制(结合局部注意力窗口和全局注意力层),以更好地处理长上下文输入,而不会减慢速度或占用过多 RAM[19]。这意味着模型可以拥有更长的“记忆”(支持非常长的提示或文档)——这是场景记忆功能的重要组成部分——同时仍能在设备上高效运行。
- 量化与压缩 – 也许将 LLM 适配到 iPhone 上的最大关键在于对模型权重的激进量化。苹果通过量化感知训练对模型的主要参数应用了 2 位权重量化[20],有效地将模型压缩到其原始大小的一小部分。(2 位意味着每个权重仅存储为 4 个可能的值!)嵌入层使用 4 位,甚至注意力缓存都被压缩为 8 位值[21]。然后,他们使用低秩适配器进行微调,以恢复任何丢失的准确性[21]。最终结果是一个在设备上使用极少内存的模型——表 1 显示了这能达到多远。苹果报告在压缩后质量差异很小(某些基准测试甚至略有改善)[21]。这个超紧凑的模型可以驻留在设备的内存中并快速执行,这对于实时使用至关重要。
- 苹果神经引擎 (ANE) – 苹果的硬件在这里给予了他们巨大优势。现代 iPhone 和 iPad 配备了专用的 16 核神经引擎。例如,A17 Pro 芯片的神经引擎每秒可以执行35万亿次运算[22]。iOS 19 的基础模型设计用于将计算卸载到这个神经引擎上,它擅长处理低精度数据的矩阵运算(正是量化神经网络所需的)。通过利用 ANE,苹果确保了 LLM 以高吞吐量和低功耗运行。19.2 测试版的早期测试表明苹果将更多模型工作转移到了神经引擎上,大大减少了端到端延迟(有报告指出在某些 AI 查询上速度提高了 40%,经过神经引擎优化后)[23]。实际上,这意味着当你询问 Siri 某事时,响应可以在设备上瞬间生成,而不需要联系服务器的延迟。
- 多模态输入 – 设备端模型不仅能读取文本;它还训练能处理图像输入。苹果为模型添加了视觉编码器(一个定制的视觉 Transformer),因此它可以解释视觉数据并与语言对齐[24]。例如,如果你使用 iOS 的视觉查找功能或在用相机指向物体时询问 Siri “这是什么?”,模型本身可以处理图像特征并给出答案。这种视觉+语言能力也是场景记忆扩展到视觉上下文的方式——例如你与 Siri 分享截图并继续聊天。通过在 60亿图文对上进行 CLIP 风格目标训练该模型成为多模态,使苹果的 AI 能够原生理解屏幕上或照片中的内容,而无需单独的云视觉 API。重任——从图像中提取意义——在设备上完成。
表 1. 苹果基础模型的压缩技术(设备端 vs. 服务器)[20][21]
模型变体
权重精度(解码器)
嵌入精度
KV 缓存精度
微调适应
设备端 3B
2 位(QAT 优化)
4 位(QAT)
8 位
是(使用适配器)
服务器 MoE(大)
~3.56 位(ASTC 压缩)[20]
4 位(后训练)
8 位
是(使用适配器)
苹果极大地压缩了其设备上的模型(权重降至 2 位),以便在 iPhone 和 iPad 上高效运行,而云端模型由于规模更大,采用了不同的压缩方式(ASTC)。然后,这两个模型都应用了精细调整的适配器以保持质量。[20][21]
本质上,苹果的设备端LLM是一个缩小版、优化过的大脑,充分利用了苹果芯片的能力。虽然它在原始知识方面无法与100B参数的云模型相媲美,但苹果专门设计它来以速度和准确性处理常见用户任务。内部评估显示,即使与一些竞争对手的4B参数大模型相比,这个3B模型在许多任务中也能表现出色[17]。苹果明确表示,这个本地模型在文本总结、理解、重述和简短对话等方面表现出色,尽管它*“并不是为一般世界知识的聊天机器人设计的。”[26]。换句话说,它可能不清楚每个冷门的知识问答(对于这些,Siri仍然可以在需要时进行在线搜索或使用更大的云模型[27][28]),但在帮助你处理日常内容*——写邮件、消化文档、翻译对话方面,它非常出色。更重要的是,它完全在边缘运行,为下一节的主题——边缘推理的优势以及“场景记忆”的作用做好了铺垫。
「场景记忆」—— Siri 的新上下文超级能力
在 iOS 19.2 中,最显著的改进之一是 Siri(以及其他智能功能)现在如何处理上下文。过去 Siri 忘记你刚刚询问的问题的日子已经过去了——苹果赋予了它一种短期记忆或「场景」意识。那么,什么是「场景记忆」呢?它是个人上下文、屏幕上下文和连续对话记忆的结合,让苹果的 AI 理解用户请求的更广泛情境。
- 对话连续性: Siri 现在可以在对话中从一个请求到下一个请求保持上下文[6]。这意味着你可以问,“埃菲尔铁塔有多高?” 然后接着问 “我可以从蒙马特看到它吗?” ——Siri 理解“它”指的是埃菲尔铁塔,因为之前的查询仍在上下文中。这是对旧版 Siri 的显著升级,旧版 Siri 将每个查询视为独立的。现在可以进行来回对话和后续问题,使 Siri 感觉更加自然和健谈(更接近 Alexa 或 Google 助理的持续对话模式,甚至类似于 ChatGPT 的行为)。设备上的 LLM 的 transformer 架构本质上擅长这种提示链,苹果的实现将最近的互动历史保存在本地,因此 Siri 可以回溯。当然,这种上下文记忆是短暂且私密的——不会上传,只在会话期间保存在 RAM 中。
- 个人上下文感知: iOS 19.2 还让 Siri 更深入地了解设备上的数据(在你允许的情况下)。苹果将其描述为 Siri 学习“你的个人上下文——如你的电子邮件、信息、文件、照片等——以协助完成任务”[8]。例如,你可以问,“Siri,我明天的航班是几点?” Siri 可以在你的邮件应用中查找登机牌或在日历中查找事件来找到答案,而不是像过去那样说“我不知道”。这本质上是在为你构建一个本地知识图谱。另一个场景:你提到“我昨天正在查看的 PDF”——Siri 的个人上下文记忆可以根据你的最近活动识别出你可能指的是哪个文件并打开它。这种设备本地索引你的内容可能是一个长期目标;苹果多年来一直有 Spotlight 搜索和 Siri 建议,但现在 LLM 可以以对话方式利用这些资源。所有这些都保留在设备上(没有发送到苹果的服务器),因此它保持了苹果的隐私承诺,同时使 Siri 显著地更加有用和个性化。
- 屏幕(场景)感知: 也许场景记忆最直接方便的方面是 Siri 能够理解你当前正在查看或在手机上进行的操作——活动场景。苹果称之为屏幕感知,它使 Siri 能够执行“涉及你正在查看的任何内容的操作”[29]。在实际操作中,这可能意味着:如果你在 Safari 中打开了一个食谱,你可以说*“Siri,将此保存到我的笔记”,Siri 知道 “此” 指的是你打开的网页,并自动剪辑它。或者如果你正在查看关于一个事件的文本对话,你可以说“稍后提醒我这个”,Siri 会创建一个包含该对话链接的提醒。在此之前,此类命令会让 Siri 困惑。在幕后,苹果的系统智能 API 可以将上下文(例如最前面的应用程序、选定的文本或网页内容)馈送到 LLM 提示中。iOS 19 甚至增加了“继续当前屏幕”的意图,以便应用程序可以安全地向 Siri 暴露屏幕上的内容。结果是一个情境感知的语音助手——几乎就像它在你肩膀上看你的屏幕(以一种帮助的方式!)。这种场景感知是长期以来的需求(其他平台部分实现过),现在结合 LLM 和系统集成,Siri 可能终于能够理解“将此转换为 PDF”* 或 “与 Alice 分享此内容” 而不需要十几个后续问题。
在幕后,启用场景记忆不仅是一个软件挑战,也是一个 AI 挑战。据报道,苹果需要将 LLM 与 Siri 的传统意图执行器和知识库整合在一起。苹果为 Siri 开发了一个新的「查询规划器」系统,用于决定如何满足请求——无论是通过网页搜索、使用设备上的数据,还是通过 Siri 快捷指令/应用意图调用应用程序。LLM 可能有助于解析复杂或模糊的查询并维护对话状态,而 Siri 的传统系统负责执行命令(打开应用、发送消息等)。苹果还使用一个「摘要器」模块来压缩长内容——例如,询问 Siri “今天我错过了哪些邮件?”可能会触发设备上的模型为你总结最新的邮件。所有这些部分共同作用,使 Siri 更加「主动」。事实上,苹果明确表示目标是让 Siri 在应用程序内外“为你采取行动”,利用这种个人上下文记忆。我们实际上正在见证 Siri 从一个僵硬的语音命令系统逐步转变为一个真正记住上下文并能推理的灵活个人助手。
值得注意的是,这些功能曾多次被推迟——苹果最初计划在 iOS 18 推出,后来推迟到 19,甚至在 .0 版本时也没有全部实现[33][34]。现在在 iOS 19.2 中,似乎个人上下文、屏幕感知和深度应用集成终于实现了[35]。巨大的消费者关注是因为人们突然看到 Siri 做到了之前无法做到的事情。助手感觉更加生动。早期用户报告提到 Siri 能够串联任务(例如,在查看相册时说“把这些照片发给我妈妈”——一位用户说 Siri 实际上一次性完成了,识别出“这些照片”是指打开的相册)。这正是场景记忆的承诺:更少繁琐的命令,更流畅的理解。这让 iPhone 用户更接近之前常常需要云服务(如 ChatGPT)的 AI 助手体验。而且,苹果的区别在于这是离线完成的。您的设备不会将屏幕内容流传到云端进行分析;大语言模型在本地解释上下文。隐私在设计上得以保护[36][37],因此您可以信任这些个性化功能,而不会有被“老大哥”监视的不安感。
总结场景记忆:这是苹果提炼的 AI 大脑与丰富的本地上下文数据的有效结合。这种组合解锁了更强大的交互。Siri 终于在学习“你在谈论谁/什么/哪里”,并能以有用的方式作出回应。对于技术精通的用户来说,这意味着减少手动澄清事情或在应用之间复制粘贴的时间——助手自行解决问题。虽然还处于早期阶段(Siri 还不完美,有时会弄错上下文或需要澄清),但这是一项显著的改进。苹果计划在下一个 iOS 中推出更大规模的 AI(传闻 iOS 20 将在 2026 年推出完整的 GPT 类 Siri[38]),而 19.2 的场景记忆是朝这个方向迈出的基础性一步。
边缘推理:为什么设备端 AI 如此重要
苹果智能 2.0 的核心主题之一是边缘推理——在用户的设备(网络的“边缘”)上运行 AI,而不是在集中化的云中。我们已经触及了技术手段,但让我们来阐明它为何重要:
- 隐私和安全:将大语言模型(LLM)保留在设备上意味着您的数据不会离开手机进行处理。正如苹果所说,个人对话和内容保持私密[39]。使用写作工具草拟电子邮件或询问Siri您的日程安排——这些都不需要上传。这与将您的语音和上下文发送到服务器的云助手形成鲜明对比。即使苹果的Siri在某些查询中使用云帮助(如ChatGPT集成),他们也会通过私人云计算进行路由——在这种系统中,您的数据是加密的,不会被第三方保留[40][27]。但在19.2版本中,大多数任务可以在设备本地处理。这满足了端到端加密和隐私保护者的需求,与苹果的品牌理念一致。从安全角度来看,设备上的推理也意味着减少了网络攻击或泄漏的风险;您的AI请求不会在可能被拦截的互联网中传输。
- 离线可用性:边缘AI可以在无互联网的情况下工作。这可能是救命稻草——想象一下您在没有数据的情况下旅行需要语言翻译,或者您在偏远地区希望通过Siri从Notes中获取一些信息。凭借iOS 19的离线大语言模型,许多功能仍然可以工作。例如,实时翻译即使在没有信号的情况下,也可以在信息或通话中翻译文本,因为翻译模型在设备上。苹果的设计是核心智能功能的*“离线优先”*。他们甚至在设备上缓存经常使用的AI程序和最近的上下文,以便在断网时造成的干扰最小[41][42]。这种稳健性更具包容性——并不是每个人都有稳定的高速互联网,即使在发达地区我们也会遇到盲区。一个随时随地离线就断线的个人AI并不太“个人化”。苹果意识到了这一点,Macaron(我们将很快讨论的个人AI代理)也秉持同样的理念:您的AI应该随时随地为您服务[43]。
- **低延迟与实时互动:**当推理在设备上进行时,往返服务器的延迟消失了。任务感觉更迅捷。例如,Safari或Mail中的“总结”功能几乎可以立即生成摘要,而云API可能需要几秒钟加上网络延迟。苹果的神经引擎加速进一步确保了响应几乎是实时的。一个亮点是,苹果通过将工作卸载到19.2版本的神经引擎中,缩短了某些Siri查询的响应时间[23]。从用户体验的角度来看,这种低延迟让AI感觉更具响应性和互动性,这鼓励人们更多地使用它。您可以与Siri对话,几乎就像与房间里的人交谈一样快。同样,像键盘的预测文本(现在由大语言模型增强)这样的功能可以以最小的延迟运行,甚至可以即时生成整个句子的建议,因为它是在设备上计算的。还值得注意的是,通过在设备上进行推理,苹果绕过了有时会限制云AI服务的服务器成本和速率限制——没有繁忙的服务器队列,您的手机专注于您。
- **成本和可持续性:**在云端为数百万用户运行庞大的AI模型成本高昂(就GPU服务器成本而言)且耗能。通过将推理转移到边缘设备,苹果将计算转移到用户手中已经存在的硬件上(并且是专为效率而设计的)。苹果甚至强调,使用设备上模型的开发人员无需支付使用费[3]——与按每次API调用支付给外部AI服务相比,这是一个很大的激励。从可持续性角度来看,去中心化AI可以减轻数据中心的负担(这些中心消耗大量电力)。每台iPhone执行少量AI工作可能比数十万次请求集中到一个中心服务器群更节能(尤其是因为苹果的神经引擎针对高性能/瓦特进行了优化)。从长远来看,广泛的边缘AI可能缓解一些云计算瓶颈和成本。
尽管如此,苹果的做法也有其权衡之处。由于设备上的模型较小,它不像 GPT-4 那样具备广泛的知识。苹果承认它并不打算取代处理所有查询的大型聊天机器人[26]。这就是为什么苹果仍计划使用极其庞大的模型(甚至通过协议使用谷歌 1.2 万亿参数的 Gemini)来增强未来 Siri 对世界的理解[44][27]。但他们在 iOS 19.2 中展示的是,对于大量的个人助理任务,一个设计良好的 3B 模型已经足够——而且在本地运行的好处是巨大的。这是一种战略性赌注:在设备上处理个人和情境任务,而云端仅用于重度任务(配备隐私保护措施如私人计算)。这种混合边缘云模型可能会成为常态。
要看到这个策略的实际应用,我们来看看Macaron,一个同样专注于用户特定任务和离线功能的个人AI助手。苹果在设备上AI的进步实际上与像Macaron这样的工具正在做的事情相辅相成。
Macaron迷你应用和低延迟个人助手的未来
Macaron是一个个人AI助手平台,用户可以通过对话创建“迷你应用”,本质上是为您的日常需求定制的AI驱动工作流程。如果说iOS内置的智能是苹果为所有用户提供的广泛解决方案,那么Macaron采取的是更个性化、用户驱动的方法:您告诉它您的需求,它会即时构建解决方案。那么,苹果的离线LLM和场景记忆如何融入其中呢?用一个词来概括:完美。
Macaron 的理念强调「离线优先、低延迟和以用户为中心的设计」。根据 Macaron 团队的说法,真正的个人 AI 应该能够「随时随地工作,即使在连接不良的情况下」,并且适应用户[43][42]。这正是 Apple 设备端 AI 升级的强项。借助 iOS 19.2 的基础模型,Macaron 可以潜在地利用 Apple 的设备端智能,而不必总是调用云端 API。例如:
- 即时迷你应用创建: Macaron 让用户可以说出类似「帮我创建一个餐饮计划应用」这样的话,它会使用生成式 AI 组装一个用于该目的的迷你应用[45][46]。如果这一步生成过程可以在设备上运行(通过 Apple 的模型和新的 Foundation Models SDK),那么创建将实时完成,没有服务器延迟。用户可以在几秒钟内获得一个可用的迷你应用。这也意味着您提供的指令(可能包括个人偏好或数据)在生成过程中会保留在设备上[3]。
- 迷你应用中的上下文理解: Macaron 的迷你应用通常涉及个人数据 —— 例如习惯追踪器或个人财务分析器 —— 并从上下文感知中获益。现在有了场景记忆功能,Macaron 可以询问系统智能,获取屏幕上下文或个人上下文,以融入其迷你应用工作流中。例如,如果您有一个 Macaron 的电子邮件管理迷你应用,它可以利用 Siri 的新功能来总结邮件或识别重要邮件(这是 Apple 在 iOS 19 智能套件中推出的功能)[47][48]。Macaron 基本上获得了更智能的创作平台,得益于 Apple 的操作系统级别 AI 服务。
- 低延迟代理用户体验: Macaron 的卖点之一是流畅、对话式的用户体验 —— AI 代理像伙伴一样与您合作。Apple 的边缘 AI 确保响应和动作以最小的延迟发生,这对于保持自然的交流至关重要。Macaron 的迷你应用现在可以在设备上即时执行语言翻译、图像识别或文本分析等任务,而之前可能需要调用云 API 并等待。例如,一个指导您完成烹饪食谱的 Macaron 手册,可以通过设备上的视觉识别实时识别食材,或使用 LLM 回答「黄油可以替代什么?」而无需进行互联网搜索。这创造了一种更沉浸和可靠的助手体验。
- 增强个人 AI 的隐私: 作为个人代理,Macaron 处理用户的私人信息(如日程安排、笔记、健康数据等)。通过与 Apple 的设备端处理对齐,Macaron 可以向用户保证,在 AI 操作期间,他们的信息不会离开设备。事实上,Macaron 明确提供低带宽或离线使用模式,在本地缓存重要数据,甚至在需要时使用较小的备用模型[49][42]。Apple 的 19.2 LLM 可以作为离线模型 —— 当完整的云 AI 不可用时,提供基本请求的能力备用。这里的协同是 Apple 和 Macaron 都在朝着**“为您在设备上工作的 AI”**这一目标收敛,这提升了用户的信任和自主性。
- 工作流中的上下文延续: Macaron 的迷你应用往往是多步骤的过程(Macaron 称之为手册或微流程[50])。场景记忆概念可以帮助在这些步骤之间保持状态。假设您有一个旅行计划迷你应用:步骤 1 寻找航班,步骤 2 找酒店,步骤 3 创建行程。通过上下文记忆,AI 可以在不需要重新提示所有内容的情况下,从一个步骤中继承信息到下一个步骤。Macaron 已经将流程结构化为逻辑块以减少认知负荷[51] —— 现在 AI 后端可以更好地跟踪已完成的任务和下一步要做什么,甚至可以处理后续更改,如“实际上,推迟一天”并理解当前计划。
总体而言,苹果的边缘 AI 升级为像 Macaron 这样存在于 iOS 之上的平台提供了强大动力。我们正迈向一个生态系统,在这个系统中,个人 AI 助手不再局限于云端,而是在我们的个人设备上运行,与系统智能和谐共处。Macaron 的指尖迷你应用愿景得到了增强,因为底层操作系统可以更流畅地执行 AI 任务。值得注意的是,Macaron 的设计原则(例如,适应性内容、深度个性化、强大的离线模式[52][43])与苹果在 iOS 19.2 中提供的功能高度契合。曾经看似未来主义的低延迟、情境感知代理用户体验正迅速成为现实。
结论:个人设备 AI 的新时代
苹果的 iOS 19.2 标志着消费级 AI 演变中的一个关键时刻——权力明确地转向了终端设备。通过部署本地运行的精调大型语言模型(LLM)并引入“场景记忆”以提供上下文,苹果彻底改变了 iPhone 的功能。这不仅仅是让 Siri 更加智能(尽管这是一个受欢迎的结果);更在于重新定义用户对 AI 功能中隐私和响应速度的期望。你现在可以与手机进行类似对话,获得即时的 AI 帮助,并相信你的数据不会被秘密传输到某个远程服务器农场[39][36]。在数据隐私日益受关注的时代,苹果的离线优先策略为“我们能否同时拥有先进的 AI 和 隐私?”这一问题提供了一个引人注目的答案——显然,我们可以。
从技术上讲,Apple Intelligence 2.0 是模型压缩、软硬件协同设计以及集成到消费操作系统中的杰作。它展示了通过蒸馏、量化和优化,一个拥有数十亿参数的模型也能在电池供电的设备上顺畅运行[18][20]。这为更多创新打开了大门:我们可能很快会看到更智能的设备端语音模型用于语音输入,或是无需云训练即可学习你偏好的本地推荐模型。Apple 还通过 Foundation Models 框架赋能开发者搭乘这股浪潮[10][11]——期待一批新的应用程序利用设备端 LLM 来实现创意和实用目的,同时对用户无任何额外成本或延迟。
对于技术达人来说,19.2更新特别令人满意。这就像通过软件进行硬件升级——突然之间,你的现有设备可以做出你意想不到的新花样。高级用户将享受测试Siri的上下文极限,创建使用设备内模型的复杂快捷方式,或运行像Macaron这样的应用程序来推动个人AI的边界。我们还看到边缘AI如何增强可访问性:诸如实时字幕、文本简化或图像描述等功能在设备上完成时更加即时和可靠,惠及有残疾或连接有限的用户[53][54]。
当然,在边缘AI趋势中,苹果并不孤单(高通、谷歌等也在致力于设备端AI加速),但苹果通过自定义芯片、操作系统和高级功能的紧密集成,使其在向数百万用户大规模推出精致产品方面获得了领先优势。iOS 19.2的AI引发的「巨大消费者热潮」证明了人们关心能力和信任。苹果有效地传达了:你不必在两者之间做出选择。 你的iPhone可以既聪明又属于你。
展望未来,可以想象Apple Intelligence 3.0将拥有更多的「场景记忆」——可能是随时间积累的持久个性化(同样存储在本地),或一个完全统一的多模态助手,可以无缝处理文本、语音、视觉和动作。基础已就位。像Macaron这样的个人AI助手将在这种环境中蓬勃发展,每个用户可能拥有一个既深刻了解他们又保护其隐私的独特AI。
总而言之,苹果在 iOS 19.2 中推出的离线大语言模型和场景记忆功能,代表了一个技术里程碑与道德立场的结合。这展示了当 AI 的进步与对用户隐私和体验的尊重相结合时的可能性。对用户而言,这意味着设备更智能、更有帮助。对于开发者来说,这是一片新的设备端 AI 可能性的天地。对于行业来说,这提升了标准:AI 的未来不仅仅是在云端——它就在我们的口袋里。欢迎来到设备端 AI 时代——你的手机本身就是智能代理,并且日益变得更聪明[7][10]。
**来源:**本文中的信息由苹果的官方公告和技术报告以及独立分析支持。主要参考包括苹果在 WWDC 2025 上关于设备端模型和开发者框架的新闻[55][10],Apple 机器学习研究的技术报告详细介绍了其基础模型(包括 3B 模型设计、蒸馏和量化)[15][20],以及关于 Siri 新上下文功能和延迟推出的可靠报告[35][28]。这些来源及更多内容在全文中进行了引用以供验证和深入阅读。截至 2025 年底,这些发展标志着设备端 AI 部署的最新技术水平。
[1] [2] [3] [5] [6] [7] [10] [11] [12] [14] [39] [47] [48] [55] 苹果智能在各类苹果设备上引入新功能,变得更加强大 - 苹果 (加拿大)
https://www.apple.com/ca/newsroom/2025/06/apple-intelligence-gets-even-more-powerful-with-new-capabilities-across-apple-devices/
[4] Apple Intelligence - Apple
https://www.apple.com/apple-intelligence/
[8] [9] [29] [32] [33] [34] [35] Apple 表示用户将不得不忍受常规 Siri 直到 iOS 19 或 2026 年 - MacTrast
https://www.mactrast.com/2025/03/apple-says-users-will-have-to-put-up-with-regular-siri-until-ios-19-or-2026/
[13] [15] [16] [17] [18] [19] [20] [21] [24] [25] [26] [36] [37] Apple 的设备和服务器基础语言模型更新 - Apple 机器学习研究
https://machinelearning.apple.com/research/apple-foundation-models-2025-updates
[22] Apple A17 - 维基百科
https://en.wikipedia.org/wiki/Apple_A17
[23] 关键AI与技术发展(2025年11月1-2日)
https://www.jasonwade.com/key-ai-tech-developments-november-1-2-2025
[27] [28] [30] [31] [40] [44] Apple 将使用来自 Google 的 1.2 万亿参数、非常昂贵的 AI 模型作为 Siri 的支撑
https://wccftech.com/apple-will-use-a-1-2-trillion-parameter-very-expensive-ai-model-from-google-as-a-crutch-for-siri/
[38] iOS 19 将允许开发者在应用中使用 Apple 的 AI 模型 - MacRumors
https://www.macrumors.com/2025/05/20/ios-19-apple-ai-models-developers/
[41] [42] [43] [49] [50] [51] [52] [53] [54] Macaron 的 AI 如何适应每位用户 - Macaron
https://macaron.im/blog/macaron-ai-adaptive-accessibility-features
[45] [46] Macaron AI 实战:在指尖创建个性化迷你应用 - Macaron
https://macaron.im/blog/macaron-personalized-ai-solutions