Apple 智能 2.0:iOS 19.2 的離線 LLM 與「場景記憶」

作者:Boxu Li

iOS 19.2 帶來私人 AI 升級 — 為何引起熱議?

蘋果的 iOS 19.2 更新因為一個好理由而在科技愛好者中爆紅:它強化了過去一年推出的「Apple Intelligence」功能,新增了強大的裝置上大型語言模型(LLM)和新的*「場景記憶」*功能。簡單來說,你的 iPhone 或 iPad 更聰明了——而且不依賴雲端。用戶興奮的是,這次更新意味著 Siri 和其他智能功能可以更好地理解上下文,並且完全在離線狀態下運行,保護隱私。這是蘋果 AI 策略的重要飛躍,將尖端的生成模型融入日常使用,同時保持用戶數據在設備上[1]。蘋果的隱私至上立場進一步推動了這一熱潮:你可以享受 AI 驅動的便利(如高級 Siri 回應、即時翻譯、寫作協助、影像生成等),而不必將個人數據發送到伺服器[2][3]。這種強大私密的平衡使蘋果的 AI 2.0 成為消費科技領域的潛在改變者。

從消費者的角度來看,iOS 19.2 的 AI 感覺比以往更加智能且具上下文感知能力。蘋果的行銷將其稱為「為我們其他人而設的 AI,就內建在你的 iPhone 中」[4]。在背後,這次更新提供了一個新的裝置上基礎模型(蘋果自己的小型 LLM)以及我們稱之為場景記憶的功能,這兩者共同實現了更自然、對話式的互動。科技論壇和社交媒體上充滿了各種例子——像是 Siri 現在能夠進行往返對話,或是根據螢幕上的內容主動建議操作。在這篇文章中,我們將解析蘋果的裝置上 LLM 和場景記憶在技術上實際發生了什麼,以及這對用戶、開發者和像 Macaron 這樣的個人 AI 應用程式有什麼意義。我們開始深入探討吧。

蘋果智慧 2.0 究竟什麼?

「Apple Intelligence」是蘋果用來統稱整合進 iOS、iPadOS、macOS 等系統的生成式 AI 功能。它首次推出於 iOS 18,包括像是 寫作工具(AI 驅動的校對和重寫功能,適用於任何文字欄位)、圖像遊樂場(從文字創建圖像)、通知摘要,甚至在 Siri 中有一點 ChatGPT 的整合。可以將其視為蘋果將 AI 助理帶入日常任務的解決方案——但設計上是要在本地安全運行。Apple Intelligence 2.0(iOS 19.x 版本)大大擴展了這些功能。根據蘋果的說法,其基礎是一個新的裝置內大型語言模型,驅動系統內的各項功能。在此基礎上,蘋果還增加了改進,比如更好的視覺智能(相機或照片應用能識別物體和文字)、更自然的 Siri 對話,以及一個重要的:裝置上的 上下文感知

Apple Intelligence 2.0 的一些主要功能包括:

  • 裝置端基礎模型 (~30億參數) – 由 Apple 建置的生成式 AI 模型,運行於 A 系列和 M 系列晶片的神經引擎上。此模型可在本地進行文本生成、摘要、翻譯等(不需要網路連接)[7][3]。儘管體積小巧,Apple 優化了此模型,使其在從重寫訊息到回答問題的各種任務中表現出色。(我們將在下一節深入探討如何做到這一點。)
  • 「場景記憶」(情境感知) – 現在 Siri 和系統智慧可以記住並利用您當前「場景」的上下文(您在做什麼、螢幕上顯示什麼、最近的互動)。例如,Siri 可以從一個請求到下一個請求中保持對話連續性[6],或者當您正在查看傳來的事件邀請時,主動提議將其添加到您的日曆中。Apple 在內部一直在研發個人情境感知——這意味著 Siri 會私密地追蹤您的訊息、電子郵件、文件和照片,以便更智能地協助您[8]。它還具備螢幕感知,因此可以知道您在查看什麼應用程序或內容,並據此行動(類似於人類助理)[9]。「場景記憶」是一個方便的術語,用來概括這些讓 AI 記住當前場景並相應反應的情境功能。
  • 開發者訪問 AI (基礎模型 SDK) – 在 iOS 19 中,Apple 通過一個新的框架向應用開發者開放了其裝置端的 LLM[10][11]。這是巨大的突破:第三方應用現在可以僅用幾行代碼就利用 Apple 的 AI 智能,啟用離線自然語言搜索或在任何應用中生成文本/圖像等功能。重要的是,這種裝置端推理免除雲端費用——不需要昂貴的 OpenAI 等 API 調用[12]。開發者可以構建即使沒有網路也能運行的 AI 功能,並且無需共享用戶數據,符合 Apple 的隱私承諾。
  • 擴展的多模態技能 – Apple 的模型不僅僅是一個文本聊天機器人;它還擁有視覺能力。在 iOS 19 中,它可以理解圖像和界面元素。例如,您可以拍攝一張傳單的照片,iPhone 的 AI 將解析文本以創建日曆事件(自動提取日期、時間、地點)[13]。即時翻譯功能可以聆聽語音並在裝置上提供即時翻譯文本或音頻[14]。這些表明 LLM 與視覺和音頻系統相結合,使其更像是一個通用助手,既能「看」又能「聽」,同時也能閱讀。

簡而言之,Apple Intelligence 2.0 是關於讓你的設備在現場變得更智能——它更了解(你的上下文、你的內容),並且可以即時生成或協助內容,同時保持 AI 處理本地化。在 iOS 19.2 中引入了強大的離線 LLM 和上下文記憶系統,這是 Apple AI 抱負的一個關鍵時刻,所以讓我們來探索一下他們是如何技術上實現的。

背後的技術:Apple 的設備內 LLM 如何運作

在智慧手機上直接運行大型語言模型是一個艱鉅的任務——這些模型通常龐大、資源密集,並在雲端資料中心運行。Apple 透過模型壓縮、定制芯片和巧妙的工程來將 AI 智慧濃縮到一個適合手持的包裝中。以下是詳細分析:

  • 模型蒸餾與尺寸 – Apple 的核心設備端模型約有 30 億個參數[15],比起 GPT-4 這種上百億參數的巨型模型小得多,但對於設備來說仍是「大型」模型。Apple 可能使用了 知識蒸餾 訓練模型,即將更大「教師」模型的知識轉移到這個較小的「學生」模型上。事實上,Apple 的研究筆記中描述了使用 專家混合 (MoE) 方法來高效訓練高質量模型:他們將一個 3B 模型升級為稀疏的 64 專家模型,作為教師模型,從而避免了需要巨型密集模型[16]。通過使用聰明的教師-學生策略(以及 14 兆個訓練數據 的服務器模型),Apple 能夠將驚人的能力壓縮到 3B 的參數中[16][17]。*翻譯:*Apple 教會一個較小的腦袋像一個較大的腦袋一樣運作,大幅減少尺寸同時保持聰明。
  • 速度優化架構 – 為了讓模型在設備上運行得更快,Apple 不僅僅是縮小了它,還重新設計了其中的部分。例如,模型被劃分為兩個區塊,以便記憶體(Transformer 的「鍵值緩存」)可以在層之間更有效地共享[18]。僅此一項調整就降低了約 37.5% 的緩存記憶體使用量並加快了生成回應第一個標記的時間[18]。他們還實施了一種新的 交錯注意力 機制(將局部注意力窗口與全局注意力層結合起來)以更好地處理長上下文輸入而不會變慢或使用過多 RAM[19]。這意味著模型可以有更長的「記憶」(支持非常長的提示或文檔)–這是 場景記憶 功能的重要部分–同時仍能在設備上有效運行。
  • 量化與壓縮 – 也許在 iPhone 上安裝一個 LLM 的最大關鍵是積極的 量化 模型權重。Apple 透過量化感知訓練為模型的主要參數應用了 2 位元權重量化[20],有效地將模型壓縮到其原始尺寸的一小部分。(2 位元表示每個權重僅用 4 個可能值存儲!)嵌入層是 4 位元,甚至注意力緩存也被壓縮到 8 位元值[21]。然後他們用 低秩調適器 微調以恢復任何丟失的準確度[21]。最終結果是一個在設備上使用極少記憶體的模型–表 1 顯示了這一點能走多遠。Apple 報告壓縮後只有微小的質量差異(有些基準甚至略有提高)[21]。這個超緊湊的模型可以駐留在設備的記憶體中並快速執行,這對於即時使用至關重要。
  • Apple 神經引擎 (ANE) – Apple 的硬體在這方面給了他們巨大的優勢。現代 iPhone 和 iPad 擁有一個具有 16 核的專用神經引擎。例如,A17 Pro 晶片的神經引擎每秒可以執行 35 兆次計算[22]。iOS 19 的基礎模型被設計為將計算卸載到這個神經引擎上,該引擎擅長於低精度數據的矩陣運算(這正是量化神經網絡所需的)。通過利用 ANE,Apple 確保 LLM 以高吞吐量和低功耗運行。19.2 beta 的早期測試顯示,Apple 將更多的模型工作轉移到神經引擎上,顯著降低了端到端延遲(有報告指出,神經引擎優化後某些 AI 查詢加速了 40%)[23]。實際上,這意味著當你詢問 Siri 某事時,回應可以在設備上以片刻生成,而不需聯絡伺服器的延遲。
  • 多模態輸入 – 設備端模型不僅能讀取文本;它還被訓練來處理影像作為輸入。Apple 為模型添加了視覺編碼器(量身定制的視覺 Transformer),使其能夠解釋視覺數據並與語言對齊[24]。例如,如果你使用 iOS 視覺查找功能或在用相機指向物體時問 Siri 「這是什麼?」,模型本身可以處理影像特徵並生成答案。這種視覺+語言能力也是 場景記憶 擴展到視覺上下文的方式–例如,你與 Siri 分享一張截圖並繼續討論它。訓練模型成為多模態(通過 CLIP 風格的目標在 60 億圖像-文本對上進行訓練[25])使得 Apple 的 AI 能夠本地理解你螢幕上或相片中的內容,而不需要單獨的雲端視覺 API。重點工作–從影像中提取意義–在設備上完成。

表 1. Apple 基礎模型的壓縮技術(設備端 vs. 伺服器)[20][21]

模型變體
權重精度(解碼器)
嵌入精度
KV 緩存精度
微調適應
設備端 3B
2 位(QAT 優化)
4 位(QAT)
8 位
是(使用適配器)
伺服器 MoE(大型)
~3.56 位(ASTC 壓縮)[20]
4 位(訓練後)
8 位
是(使用適配器)

Apple 將其設備上的模型大幅壓縮(縮小到 2 位元權重),以便在 iPhone 和 iPad 上高效運行,而雲端模型則使用不同的壓縮方式(ASTC),因其規模較大。兩種模型隨後都應用精調的適配器來保留品質。[20][21]

本質上,蘋果的設備端 LLM 是一個縮小且優化的大腦,充分發揮蘋果晶片的能力。雖然它在原始知識上無法與 100B 參數的雲端模型匹敵,但蘋果專門設計它來以速度準確性處理常見的用戶任務。內部評估顯示,這個 3B 模型在許多任務上甚至能與競爭對手的某些 4B 參數模型相媲美[17]。蘋果明確表示,這個本地模型在文本摘要、理解、改寫和短對話等方面表現出色,但它並非*「為了解決一般世界知識而設計的聊天機器人。」[26]。換句話說,它可能不知道每一個冷門的瑣事(對於這些,Siri 仍然可以在線搜索或在需要時使用更大的雲端模型[27][28]),但在幫助你處理你的日常內容——撰寫電子郵件、消化文件、翻譯對話方面,它已經非常調整到位。而且,最重要的是,它完全在邊緣運行*,為下一部分鋪路:邊緣推理的好處及「場景記憶」如何發揮作用。

「場景記憶」– Siri 的新上下文超能力

在 iOS 19.2 中,最顯著的改進之一就是 Siri(以及其他智能功能)現在如何處理上下文。Siri 忘記你剛才問過什麼的日子已經結束——蘋果賦予了它一種短期記憶或「場景」意識。那么什麼是「場景記憶」呢?它是個人背景、螢幕上的上下文以及持續對話記憶的結合,使得蘋果的 AI 能夠理解使用者請求的更廣泛情境。

  • 對話連續性: Siri 現在可以在對話中從一個請求到下一個請求中追蹤上下文[6]。這意味著你可以問,「艾菲爾鐵塔多高?」,接著問*「我可以從蒙馬特看到它嗎?」*——Siri 會理解「它」是指艾菲爾鐵塔,因為之前的查詢仍在上下文中。這相較於舊的 Siri 是一個戲劇性的升級,舊版本會將每個查詢獨立處理。現在來回對話和後續問題終於成為可能,讓 Siri 感覺更加自然和健談(更接近 Alexa 或 Google 助理的持續對話模式,甚至類似於 ChatGPT 的行為)。裝置上的 LLM 的轉換器架構本質上非常擅長這種提示鏈接,蘋果的實現方式是將最近的互動歷史存儲在本地,讓 Siri 可以回溯。當然,這種上下文記憶是短暫且私密的——不會上傳,只保留在 RAM 中,供當次會話使用。
  • 個人上下文感知: iOS 19.2 也讓 Siri 更深入地了解你設備上的數據(在你許可的情況下)。蘋果描述這個功能為 Siri 學習你的「個人上下文——如你的電子郵件、消息、文件、照片等——來協助完成任務」[8]。例如,你可以問,「Siri,我明天的航班是幾點?」,Siri 可以查詢你的郵件應用中的登機證或日曆中的事件來找到答案,而不再像過去那樣說「我不知道」。這本質上是在建立一個關於的本地知識圖譜。另一個場景:你提到「我昨天查看的 PDF」——Siri 的個人上下文記憶可以根據你的最近活動識別你可能指的是哪個文件並打開它。這種設備本地索引你的內容可能是長期目標;蘋果多年前就有 Spotlight 搜索和 Siri 建議,但現在 LLM 可以以對話的方式利用這些資源。所有這一切都是在設備上進行的(不會發送到蘋果的伺服器),因此保持蘋果的隱私承諾,同時讓 Siri 顯著更有用和個性化
  • 螢幕(場景)感知: 場景記憶最直接的實用性之一可能就是 Siri 能夠理解你目前在手機上看到的或正在做的事情——即活動場景。蘋果稱這為螢幕感知,它讓 Siri 可以執行「涉及你正在看的內容的操作」[29]。實際上,這可能意味著:如果你在 Safari 中打開了一個食譜,你可以說*「Siri,把這保存到我的筆記」,Siri 知道「這」是指你打開的網頁,自動將其剪輯。或者如果你正在查看一個關於活動的文本對話,你可以說「稍後提醒我這個」,Siri 會創建一個帶有該對話連結的提醒。此前,此類命令會讓 Siri 困惑。在幕後,蘋果的系統智能 API 可以將上下文(如最前面的應用程序,或選擇的文本,或網頁內容)輸入到 LLM 提示中。iOS 19 甚至增加了「繼續當前螢幕」的意圖,讓應用可以安全地將螢幕上的內容暴露給 Siri。結果是一個情境感知的語音助手——幾乎就像在你螢幕上看著(以幫助的方式!)。這種場景感知是長期以來的需求(其他平台有部分實現),現在通過 LLM 和系統集成的結合,Siri 可能最終「懂得」你說的「把這轉成 PDF」「分享給 Alice」*是什麼意思,而不需要一大堆後續問題。

幕後,啟用場景記憶既是軟體挑戰,也是 AI 挑戰。蘋果必須將 LLM 與 Siri 的傳統意圖執行器和知識庫整合起來。根據報導,蘋果為 Siri 引入了新的「查詢規劃器」系統,該系統決定如何滿足請求——無論是通過網頁搜索、使用設備上的數據,還是通過 Siri 快捷方式/應用意圖調用應用程序[30]。LLM 可能幫助解析複雜或模糊的查詢並保持對話狀態,而 Siri 的傳統系統負責執行命令(打開應用程序、發送消息等)。蘋果還使用「摘要器」模組來壓縮冗長內容——例如,讓 Siri 幫你總結今天漏掉的電子郵件[31]。所有這些組件共同作用,使 Siri 更加「主動」。事實上,蘋果明確表示,目標是讓 Siri 利用這個個人上下文記憶「為你在應用程序內外採取行動」[32]。我們正在見證 Siri 從一個僵硬的語音指令系統慢慢轉變為一個靈活的個人助手,它能夠「真正記住上下文」並能夠進行推理。

值得注意的是,這些功能被多次延遲——蘋果公司最初計劃在 iOS 18 推出,然後推遲到 19,即便如此,它們仍未全部出現在 .0 版本中。現在,在 iOS 19.2 中,似乎個人上下文、螢幕感知和深度應用整合終於實現了。巨大的消費者熱潮是因為人們突然看到 Siri 做到了以前無法做到的事情。這個助手感覺更加「活生生」。早期用戶報告提到 Siri 可以串接任務(例如,當查看相冊時,說「把這些照片電郵給我媽」——一名用戶表示 Siri 確實一次性完成了,識別出「這些照片」就是指打開的相冊)。這正是場景記憶的承諾:更少笨拙的指令,更流暢的理解。這讓 iPhone 用戶更接近那種通常需要像 ChatGPT 這樣的雲服務才能實現的 AI 助手體驗。而蘋果的差異化在於它是離線完成的。你的設備不會將螢幕內容串流到雲端進行分析;大型語言模型在本地解讀上下文。隱私在設計上就被保護,因此你可以信任這些個性化功能,而不會有被老大哥監視的詭異感。

總結場景記憶:這是 Apple 精煉的 AI 大腦與豐富的本地上下文數據的有效結合。這種組合解鎖了更強大的互動。Siri 終於在學習「你在說誰/什麼/哪裡」,並能夠以有用的方式回應。對技術精通的用戶來說,這意味著需要手動澄清事情或在應用程序之間複製粘貼的時間更少——助手自己會弄明白。這仍然是早期階段(Siri 還不完美,有時會弄錯上下文或需要請求澄清),但這是一個顯著的改進。隨著 Apple 計劃在下一版本的 iOS 中推出更大的 AI(傳聞到 2026 年的 iOS 20 會有完整的類 GPT Siri),19.2 版的場景記憶是邁向那個方向的基礎一步。

邊緣推理:為何設備端 AI 如此重要

Apple Intelligence 2.0 的核心主題之一是邊緣推理——在用戶設備(網絡的“邊緣”)上運行 AI,而不是在集中化的雲端。我們已經觸及了技術手段,但讓我們來說明為什麼這很重要

  • 隱私與安全: 將 LLM 保持在裝置上意味著您的數據不會離開手機進行處理。正如蘋果所說,個人對話和內容保持個人化[39]。用寫作工具草擬電子郵件或詢問 Siri 關於您的日程安排——這些都不需要上傳。這與雲端助理形成鮮明對比,因為它們將您的語音和上下文發送到伺服器。即使蘋果的 Siri 在某些查詢中使用雲端輔助(如 ChatGPT 整合),它們也會通過 Private Cloud Compute 來路由——一個您的數據是加密的且不會被第三方保留的系統[40][27]。但在大多數 19.2 的任務中,裝置可以本地處理。這滿足了 E2E 加密 和隱私愛好者的需求,符合蘋果的品牌理念。從安全角度來看,裝置上的推理也意味著減少了網絡攻擊或洩漏的風險;您的 AI 請求不會在網絡上傳輸,從而避免可能被攔截。
  • 離線可用性: 邊緣 AI 無需互聯網即可運行。這可能會救命——想像一下您在沒有數據的情況下旅行並需要語言翻譯,或者您在偏遠地區並希望通過 Siri 從備忘錄中調取一些信息。借助 iOS 19 的離線 LLM,許多功能仍然可以運行。例如,即使您沒有信號,實時翻譯也能在信息或語音通話中翻譯文本,因為翻譯模型是在裝置上。蘋果的設計是核心智能功能的「離線優先」。它們甚至將常用的 AI 例程和最近的上下文緩存在裝置上,以減少離線造成的干擾[41][42]。這種強大的功能更具包容性——不是每個人都有不間斷的高速互聯網,即使在發達地區,我們也會遇到信號盲區。個人 AI 在您離線時無法使用就不太「個人化」。蘋果認識到了這一點,Macaron(我們稍後會討論的個人 AI 助理)也採用了相同的理念:您的 AI 應隨時隨地為您服務[43]
  • 低延遲與即時互動: 當推理在裝置上進行時,與伺服器的往返延遲消失了。任務感覺更快。例如,Safari 或郵件中的總結功能可以幾乎即時生成摘要,而雲端 API 可能需要幾秒鐘加上網絡延遲。蘋果的神經引擎加速進一步確保了接近即時的回應。談論的一個重點是,蘋果通過將工作卸載到 19.2 中的神經引擎,縮短了某些 Siri 查詢的回應時間[23]。在用戶體驗方面,這種低延遲使 AI 感覺更具回應性和互動性,這鼓勵人們更多地使用它。您可以與 Siri 的對話幾乎像與房間裡的人交談一樣快。同樣,像鍵盤的預測文本(現在由 LLM 增強)這樣的功能可以以最小的滯後運行,甚至可以即時生成整句建議,因為它是在本地計算的。還值得注意的是,通過在裝置上進行推理,蘋果繞過了有時會限制雲端 AI 服務的伺服器成本和速率限制——沒有繁忙的伺服器隊列,您的手機的全部注意力集中在身上。
  • 成本與可持續性: 在雲端運行大型 AI 模型以滿足數百萬用戶的需求可能非常昂貴(就 GPU 伺服器成本而言)且耗能巨大。通過將推理推向邊緣設備,蘋果將計算轉移到用戶手中已經存在的硬件(專為效率而設計)。蘋果甚至強調,使用裝置上的模型的開發者不會產生使用費用[3]——相比於向外部 AI 服務支付每次 API 調用費用,這是一個巨大的激勵。從可持續性角度來看,去中心化 AI 可以減少數據中心的負荷(這些數據中心消耗大量電力)。每個 iPhone 只需進行少量 AI 工作,可能比數十萬次請求打擊中央伺服器群更高效(尤其是蘋果的神經引擎優化了高效能每瓦特)。從長遠來看,廣泛的邊緣 AI 或許可以緩解一些雲計算的瓶頸和成本。

話雖如此,蘋果的做法也有其取捨。由於設備上的模型較小,它不像 GPT-4 那樣廣泛博學。蘋果承認它並不是為了取代每個查詢的廣泛聊天機器人[26]。這就是為什麼蘋果仍計劃使用極大的模型(甚至透過協議使用 Google 的 1.2 兆參數 Gemini)來增強 Siri 對世界的理解[44][27]。但他們在 iOS 19.2 中展示的是,對於大量的個人助手任務,一個設計良好的 3B 模型已經足夠——而且在本地運行的好處是巨大的。這是一個戰略性賭注:在設備上處理個人和上下文任務,並僅將雲端保留給繁重的工作(使用像 Private Compute 這樣的隱私包裝)。這種混合邊緣雲模型可能成為常態。

為了看到這個策略的實際效果,我們來看看Macaron,這是一個專注於用戶特定任務和離線功能的個人 AI 助手。蘋果在設備上的 AI 進步實際上補充了像 Macaron 這樣的工具正在做的事情。

Macaron 迷你應用程式與低延遲個人助手的未來

Macaron 是一個個人 AI 助手平台,讓用戶可以通過對話創建「迷你應用程式」,本質上是為您的日常需求量身打造的 AI 驅動工作流程。如果 iOS 的內建智能是蘋果為所有用戶提供的廣泛解決方案,那麼 Macaron 則採取了一種更個性化、用戶驅動的方法:您告訴它您的需求,它即時構建解決方案。那麼,蘋果的離線 LLM 和情景記憶是如何與此完美結合的呢?總之:完美

Macaron 的理念強調「離線優先、低延遲和以用戶為中心的設計」。根據 Macaron 團隊所說,真正的個人 AI 應該能夠「隨時隨地運作,即使在連接不佳的情況下」,並能適應用戶[43][42]。這正是蘋果裝置上 AI 升級的強項。有了 iOS 19.2 的基礎模型,Macaron 可能會利用蘋果裝置上的智慧,而不必總是呼叫雲端 API。例如:

  • 即時迷你應用程式創建: Macaron 讓用戶可以說出像是「幫我創建一個餐食規劃應用程式」這樣的話,並使用生成式 AI 組裝出一個迷你應用程式來達成該目的[45][46]。如果這個生成步驟可以在裝置上運行(使用 Apple 經由新的 Foundation Models SDK 提供的模型),那麼創建就可以在沒有伺服器延遲的情況下即時發生。用戶可以在幾秒鐘內獲得一個可運行的迷你應用程式。這也意味著您提供的指示(可能包含個人偏好或資料)在生成過程中會留在您的裝置上[3]
  • 迷你應用程式中的情境理解: Macaron 的迷你應用程式通常涉及個人資料,例如習慣追蹤器或個人理財分析器,並因為情境感知而受益。現在有了場景記憶功能,Macaron 可以向系統智能詢問螢幕上的情境或個人情境,並將其融入到迷你應用程式的工作流程中。例如,如果您有一個 Macaron 的電子郵件管理迷你應用程式,它可以利用 Siri 的新功能來總結電子郵件或識別重要的電子郵件(這是 Apple 在 iOS 19 的智能套件中公開的功能)[47][48]。Macaron 基本上獲得了一個更智能的畫布來進行創作,這要歸功於 Apple 的作業系統級 AI 服務。
  • 低延遲代理用戶體驗: Macaron 的賣點之一是流暢的對話式用戶體驗——AI 代理像合作夥伴一樣與您合作。Apple 的邊緣 AI 確保了回應和操作的最小延遲,這對於維持自然的流程至關重要。Macaron 的迷你應用程式現在可以在裝置上即時執行語言翻譯、圖像識別或文字分析等任務,而以前可能需要調用雲端 API 並等待。舉例來說,Macaron 的操作手冊可以在帶您完成烹飪食譜時,利用裝置上的視覺功能即時識別食材,或者使用 LLM 回答「奶油可以用什麼代替?」而不需要上網搜索。這創造了一個更具沉浸感和可靠性的助手體驗。
  • 增強隱私的個人 AI: 作為個人代理的 Macaron 處理親密的用戶資訊(行程表、筆記、健康數據等)。通過與 Apple 的裝置內處理對齊,Macaron 可以讓用戶放心,他們的資訊在 AI 運行期間不會離開裝置。事實上,Macaron 明確提供了低頻寬或離線使用的模式,本地緩存重要數據,甚至在需要時使用較小的備用模型[49][42]。Apple 的 19.2 LLM 可以作為離線模型——一個能在雲端 AI 無法連接時滿足基本請求的有力備用。這裡的協同效應在於 Apple 和 Macaron 都正在朝著**「在您裝置上為您工作的 AI」**的方向發展,這增強了用戶的信任和自主性。
  • 工作流程中的情境延續: Macaron 的迷你應用程式通常是多步驟的流程(Macaron 稱之為操作手冊或微流程[50])。場景記憶概念可以幫助在這些步驟中保持狀態。假設您有一個旅遊規劃迷你應用程式:步驟 1 尋找航班,步驟 2 找酒店,步驟 3 創建行程表。通過情境記憶,AI 可以在不必重新提示所有內容的情況下,將資訊從一個步驟延續到下一個步驟。Macaron 已經將流程結構化為邏輯塊,以減少認知負擔[51]——現在 AI 後端可以更好地跟蹤已完成的工作和下一步要做的事情,甚至能夠處理後續更改,例如「其實,改為晚一天」時,理解當前計劃的變化。

總體而言,Apple 的邊緣 AI 升級大幅提升了像 Macaron 這樣基於 iOS 平台的應用。我們正邁向一個生態系統,在這裡個人 AI 助理不再只依賴雲端,而是在個人設備上運行,與系統智能協同工作。Macaron 的指尖迷你應用願景得到了推動,因為底層操作系統可以更流暢地執行 AI 任務。值得注意的是,Macaron 的設計原則(例如:自適應內容、深度個性化、強大的離線模式[52][43])與 Apple 在 iOS 19.2 中呈現的內容完美契合。低延遲、情境感知的代理用戶體驗曾被視為未來的情景,現正迅速成為現實。

結論:個人化、設備上 AI 的新時代

蘋果的 iOS 19.2 標誌著消費者 AI 發展中的一個關鍵時刻——一個權力明顯轉向邊緣的時刻。透過部署一個精細調整的本地運行的 LLM 並引入「場景記憶」以提供上下文,蘋果改變了您的 iPhone 能做的事情。不僅僅是讓 Siri 不那麼笨拙(儘管這是一個受歡迎的結果),而是重新定義了用戶對 AI 功能的隱私和響應性的期望。您現在可以與手機進行類似對話,獲得即時的 AI 幫助,並相信您的數據不會被秘密傳送到某個遙遠的伺服器場[39][36]。在數據隱私日益受關注的時代,蘋果的離線優先方法為“我們能否擁有先進的 AI 隱私?”提供了一個有力的答案——顯然,我們可以。

從技術上講,Apple Intelligence 2.0 是模型壓縮、硬體和軟體共同設計以及整合到消費者作業系統中的一個傑作。它展示了通過模型精煉、量化和優化,擁有數十億參數的模型可以在電池供電的設備上流暢運行[18][20]。這為更多創新開啟了大門:我們可能很快就會看到設備上的語音模型,用於更智能的語音輸入,或者本地推薦模型,能夠在不需要雲端訓練的情況下學習您的偏好。Apple 也透過 Foundation Models 框架賦能開發者[10][11]——預計會有一批新應用利用設備上的大型語言模型來達成創意和實用目的,且對用戶來說零額外成本或延遲。

對於技術精通的用戶來說,19.2 更新特別令人滿意。這感覺就像透過軟體獲得硬體升級一樣——突然之間,你現有的設備可以做你未曾預料的新花招。高階用戶將樂於測試 Siri 的上下文限制,創建使用設備模型的複雜捷徑,或運行像 Macaron 這樣的應用程式來推動個人 AI 的界限。我們也看到邊緣 AI 如何增強無障礙功能:像即時字幕、文字簡化或圖像描述等功能,在設備上完成時更即時可靠,這對於有障礙或連線受限的用戶來說非常有利。[53][54].

當然,Apple 在這個邊緣 AI 趨勢中並不孤單(Qualcomm、Google 等公司也在努力推動設備上的 AI 加速),但 Apple 自訂晶片、作業系統和高階功能的緊密整合使其在向數百萬用戶大規模提供精緻產品方面佔據了先機。iOS 19.2 的 AI 引起的「巨大消費者熱潮」證明了人們關心能力和信任。Apple 有效地表示:你不必在兩者之間做出取捨。 你的 iPhone 可以既智能又屬於你自己

展望未來,可以想像 Apple Intelligence 3.0 具備更多的「情境記憶」——或許是隨時間累積的持續個性化(同樣存儲在本地),或是一個完全整合的多模態助手,無縫處理文字、語音、視覺和動作。基礎已經到位。像 Macaron 這樣的個人 AI 助手將在這種環境中蓬勃發展,每位用戶可能擁有一個既深入了解他們又保護其隱私的獨特 AI。

總之,蘋果在 iOS 19.2 中的離線 LLM 和情境記憶功能代表著技術里程碑與倫理立場的結合。這展示了當 AI 的進步與對用戶隱私和體驗的尊重相結合時,可能實現的成果。對用戶而言,這意味著一個更智能、更有幫助的設備。對開發者來說,這是新的裝置內 AI 可能性的遊樂場。對行業而言,這提高了標準:AI 的未來不僅僅在雲端——它就在我們的口袋裡。歡迎來到裝置內 AI 的時代——在這裡,你的手機本身就是智能代理,並且每天都在變得更聰明[7][10]

Sources: The information in this article is supported by Apple’s official announcements and technical reports, as well as independent analyses. Key references include Apple’s WWDC 2025 news on the on-device model and developer framework[55][10], Apple Machine Learning Research’s technical report on their foundation models (detailing the 3B model design, distillation, and quantization)[15][20], and credible reports on Siri’s new context features and delayed rollout[35][28]. These sources and more are cited throughout for verification and deeper reading. The developments are current as of late 2025, marking the state-of-the-art in on-device AI deployment.

[1] [2] [3] [5] [6] [7] [10] [11] [12] [14] [39] [47] [48] [55] Apple 智能在 Apple 裝置上的新功能讓它變得更強大 - Apple (CA)

https://www.apple.com/ca/newsroom/2025/06/apple-intelligence-gets-even-more-powerful-with-new-capabilities-across-apple-devices/

[4] Apple Intelligence - Apple

https://www.apple.com/apple-intelligence/

[8] [9] [29] [32] [33] [34] [35] Apple 表示用戶將必須忍受傳統 Siri 直到 iOS 19 或 2026 年 – MacTrast

https://www.mactrast.com/2025/03/apple-says-users-will-have-to-put-up-with-regular-siri-until-ios-19-or-2026/

[13] [15] [16] [17] [18] [19] [20] [21] [24] [25] [26] [36] [37] 蘋果設備端和伺服器基礎語言模型的更新 - Apple 機器學習研究

https://machinelearning.apple.com/research/apple-foundation-models-2025-updates

[22] Apple A17 - Wikipedia

https://en.wikipedia.org/wiki/Apple_A17

[23] 關鍵AI及技術發展(2025年11月1-2日)

https://www.jasonwade.com/key-ai-tech-developments-november-1-2-2025

[27] [28] [30] [31] [40] [44] 蘋果將使用谷歌的一個擁有1.2兆參數的昂貴AI模型作為Siri的支撐

https://wccftech.com/apple-will-use-a-1-2-trillion-parameter-very-expensive-ai-model-from-google-as-a-crutch-for-siri/

[38] iOS 19 將允許開發者在他們的應用中使用 Apple 的 AI 模型 - MacRumors

https://www.macrumors.com/2025/05/20/ios-19-apple-ai-models-developers/

[41] [42] [43] [49] [50] [51] [52] [53] [54] Macaron 的 AI 如何適應每位用戶 - Macaron

https://macaron.im/blog/macaron-ai-adaptive-accessibility-features

[45] [46] Macaron AI 實際運作:在指尖創建個人化迷你應用 - Macaron

https://macaron.im/blog/macaron-personalized-ai-solutions

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友