Appleインテリジェンス2.0:iOS 19.2のオフラインLLMと「シーンメモリー」

著者: Boxu Li

iOS 19.2がプライベートAIを強化 – なぜ注目されるのか?

Appleの「iOS 19.2アップデート」は、その優れた理由でテック愛好者の間で話題になっています。それは、過去1年間に導入された「Apple Intelligence」機能を、強力なオンデバイスの大規模言語モデル(LLM)と新しい「シーンメモリー」機能で強化するからです。簡単に言えば、iPhoneやiPadがクラウドに依存せずにかなり賢くなったということです。ユーザーはこのアップデートにワクワクしています。というのも、Siriや他のインテリジェント機能が文脈をよりよく理解し、完全にオフラインで動作することでプライバシーを保護するからです。これは、ユーザーデータをデバイス上に置いたまま、最先端の生成モデルを日常的に利用するというAppleのAI戦略における大きな飛躍です。この話題は、Appleのプライバシーファーストの姿勢によってさらに高まっています。AI駆動の便利さ(高度なSiriの応答、ライブ翻訳、執筆支援、画像生成など)を享受しつつ、個人データをサーバーに送信しないということです。この「強力」と「プライベート」のバランスは、AppleのAI 2.0をコンシューマーテクノロジーのゲームチェンジャーとしての地位に押し上げています。

消費者視点から見ると、iOS 19.2のAIはこれまで以上に知的でコンテキストを理解しているように感じられます。Appleのマーケティングでは、それを*「私たちのためのAI、iPhoneに直接組み込まれています」*と呼んでいます。[4]。内部では、アップデートにより新しいデバイス上の基盤モデル(Apple独自のコンパクトなLLM)と、シーンメモリーと呼ばれるものが提供され、より自然で会話的なインタラクションが可能になります。テックフォーラムやソーシャルメディアでは、Siriが今では会話を続けたり、画面上の内容に基づいてアクションを提案したりする能力を持つ例が多数取り上げられています。この記事では、Appleのデバイス上のLLMとシーンメモリーについて実際に技術的に何が起こっているのか、そしてそれがユーザー、開発者、MacaronのようなパーソナルAIアプリにとってなぜ重要なのかを解説します。それでは始めましょう。

Apple Intelligence 2.0とは一体何か?

「Apple Intelligence」は、iOS、iPadOS、macOS などに統合された生成 AI 機能の総称です[5]。iOS 18 で最初に導入され、Writing Tools(AI が支援する校正および文章修正機能)、Image Playground(テキストから画像を生成)、通知の要約、さらに Siri における少しの ChatGPT 統合が含まれていました[6]。これは、日常のタスクに AI 支援をもたらす Apple の答えとして考えられますが、ローカルで安全に実行されるように設計されています。Apple Intelligence 2.0(iOS 19.x のバージョン)では、これらの機能が大幅に拡張されています。Apple によれば、その基盤は、OS 全体の機能を支える新しいオンデバイスの大規模言語モデルです[1]。これに加え、視覚的インテリジェンスの向上(カメラや写真アプリでのオブジェクトやテキスト認識)、より自然な Siri の対話、そして大きな進化として、デバイス全体でのコンテキスト認識が追加されました。

Apple Intelligence 2.0 の主な特徴には以下が含まれます:

  • デバイス内ファウンデーションモデル(~30億パラメータ) – Appleが構築した生成型AIモデルで、AシリーズおよびMシリーズチップのNeural Engine上で動作します。テキスト生成、要約、翻訳などをローカルで行うことができ(インターネットは不要)[7][3]。そのコンパクトなサイズにもかかわらず、Appleはこのモデルを驚くほど多機能に最適化しました。メッセージの書き換えから質問への回答まで、幅広いタスクに対応します。(次のセクションで詳細を説明します。)
  • 「シーンメモリー」(コンテキスト認識) – Siriやシステムインテリジェンスは、現在の「シーン」(あなたがしていること、画面に表示されているもの、最近のインタラクション)からコンテキストを記憶し、活用できるようになりました。たとえば、Siriは1つのリクエストから次のリクエストにかけて会話の流れを維持することができます[6]、またはテキストで送られたイベント招待を表示中にカレンダーに予定を追加する提案をすることもできます。内部的には、Appleは個人コンテキスト認識に取り組んでいます。これは、Siriがメッセージ、メール、ファイル、写真(デバイス内でプライベートに)を追跡し、よりインテリジェントにサポートすることを意味します[8]。また、画面認識も得ており、どのアプリやコンテンツを見ているかを把握し、それに基づいて行動することができます(人間のアシスタントのように)[9]。「シーンメモリー」は、AIが現在のシーンを記憶し、それに応じて反応するこれらのコンテキスト機能を捉える便利な用語です。
  • AIへの開発者アクセス(ファウンデーションモデルSDK) – iOS 19では、Appleは新しいフレームワークを通じてアプリ開発者にオンデバイスのLLMを公開しました[10][11]。これは大きな進展です。サードパーティアプリは、数行のコードでAppleのAIを活用し、オフラインの自然言語検索や生成テキスト/画像作成などの機能をアプリ内で実現できます。特に重要なのは、このオンデバイス推論がクラウドコストを免れていることです。OpenAIや他社への高価なAPIコールが不要です[12]。開発者は、インターネットがなくても動作し、ユーザーデータを共有せずにAI機能を構築でき、Appleのプライバシー約束に沿っています。
  • 拡張マルチモーダルスキル – Appleのモデルは単なるテキストチャットボットではなく、視覚能力も備えています。iOS 19では、画像やインターフェース要素を理解できます。たとえば、フライヤーの写真を撮ると、iPhoneのAIがテキストを解析してカレンダーイベントを作成します(日時や場所は自動で抽出)[13]。ライブ翻訳機能は、話された言語を聞き取り、リアルタイムで翻訳されたテキストや音声を提供します。すべてデバイス内で行われます[14]。これらは、LLMが視覚および音声システムに結びついていることを示しており、読み取りだけでなく「見る」「聞く」こともできる汎用アシスタントとなっています。

要するに、Apple Intelligence 2.0とは、デバイスをその場でより賢くすることです。つまり、デバイスがあなた(あなたの状況、あなたのコンテンツ)についてより多く理解し、リアルタイムでコンテンツを生成したり支援したりできるようにすることです。すべての処理をローカルで行うことで、AIのプロセスを保ちます。iOS 19.2での強力なオフラインLLMとコンテキストメモリシステムの導入は、AppleのAIの野心における決定的な瞬間です。技術的な側面を探ってみましょう。

内部: AppleのオンデバイスLLMの仕組み

スマートフォン上で直接大規模な言語モデルを実行するのは非常に難しいことです。これらのモデルは通常、巨大で、リソースを大量に消費し、クラウドデータセンターで実行されます。Appleはモデルの圧縮、カスタムシリコン、巧みなエンジニアリングを組み合わせることで、AIの賢さを手のひらサイズに凝縮しました。以下にその詳細を説明します。

  • モデル蒸留とサイズ – Appleのコアオンデバイスモデルは約30億パラメータ[15]で、GPT-4のような巨大なモデル(数千億パラメータ)よりもかなり小さいですが、デバイスにとっては依然として「大きい」ものです。Appleは、おそらく知識蒸留を使用してこのモデルを訓練し、大きな「教師」モデルの知識をこの小さな「生徒」モデルに移しました。実際、Appleの研究ノートでは、高品質なモデルを効率的に訓練するためにMixture-of-Experts (MoE)アプローチを使用したことが説明されています。30億パラメータのモデルをスパースな64エキスパートモデルにアップサイクルし、巨大な密集モデルを避けることができました[16]。このスマートな教師-生徒戦略を使用し(およびサーバーモデルの訓練データとして14兆トークンを使用)、Appleは30億パラメータに驚くべき能力を詰め込むことができました[16][17]翻訳: Appleは小さな脳に大きな脳のように振る舞う方法を教え、サイズを劇的に減らしつつも賢さを保ちました。
  • 速度のための最適化されたアーキテクチャ – モデルをデバイス上でより速く実行するために、Appleは単にそれを縮小するだけでなく、その一部を再設計しました。例えば、モデルは2つのブロックに分けられており、メモリ(トランスフォーマーの「キー-バリューキャッシュ」)を層間でより効率的に共有できるようになっています[18]。この調整だけで、キャッシュメモリの使用が約37.5%削減され、レスポンスの最初のトークンを生成する時間が短縮されました[18]。また、新しいインターリーブドアテンションメカニズム(ローカルアテンションウィンドウとグローバルアテンションレイヤーを組み合わせたもの)を実装し、長いコンテキスト入力をより効率的に処理できるようにしました[19]。これにより、モデルはより長い「記憶」を持ち(非常に長いプロンプトやドキュメントをサポート)、デバイス上で効率的に動作することができます。
  • 量子化と圧縮 – iPhoneにLLMを搭載するための最大の鍵は、モデルの重みを積極的に量子化することです。Appleは、量子化認識トレーニングを通じてモデルの主要なパラメータに2ビットの重み量子化を適用し、モデルを元のサイズのわずかな部分に効果的に圧縮しました。(2ビットとは、各重みが4つの可能な値で保存されることを意味します)埋め込み層は4ビットに、アテンションキャッシュは8ビットの値に圧縮されます[21]。その後、低ランクアダプタで微調整し、失われた精度を取り戻しました[21]。最終結果として、非常に少ないメモリを使用するオンデバイスモデルが生まれました – 表1はこの可能性の範囲を示しています。Appleは、圧縮後の品質の違いはわずかであると報告しています(いくつかのベンチマークではわずかに改善さえしました)[21]。この超コンパクトなモデルは、デバイスのメモリに常駐し、迅速に実行され、リアルタイム使用に不可欠です。
  • Apple Neural Engine (ANE) – Appleのハードウェアはここで大きなアドバンテージを提供します。最新のiPhoneやiPadには16コアの専用ニューラルエンジンがあります。例えば、A17 Proチップのニューラルエンジンは毎秒35兆回の演算を実行できます[22]。iOS 19の基盤モデルは、このニューラルエンジンに計算をオフロードするように設計されており、低精度データの行列演算に優れています(まさに量子化されたニューラルネットワークが必要とするものです)。ANEを利用することで、AppleはLLMが高スループットで低消費電力で動作することを保証します。19.2ベータでの初期テストでは、Appleがモデルの作業のさらに多くをニューラルエンジンに移し、エンドツーエンドの遅延を大幅に削減したことが示されました(ある報告では、ニューラルエンジンの最適化後に特定のAIクエリで40%の速度向上が見られました)[23]。実際のところ、Siriに何かを尋ねると、サーバーに接続する遅延なしに、デバイス上で瞬時に応答が生成されます。
  • マルチモーダル入力 – オンデバイスモデルはテキストを読むだけでなく、画像も入力として処理するよう訓練されています。Appleはモデルにビジョンエンコーダー(カスタマイズされたビジョントランスフォーマー)を追加し、視覚データを解釈して言語と整合させることができます[24]。例えば、iOSのVisual Look Up機能を使用したり、Siriに*「これは何ですか?」*と尋ねながらカメラを物体に向けたりすると、モデル自体が画像の特徴を処理し、答えを生成できます。このビジョン+言語の能力は、シーンメモリが視覚コンテキストに拡張される方法でもあります – 例えば、Siriにスクリーンショットを共有し、それについてチャットを続けることができます。モデルをマルチモーダルに訓練することで(6億の画像-テキストペアをCLIPスタイルの目的で使用[25])、AppleのAIはクラウドビジョンAPIを別途必要とせずに、画面上や写真内の内容をネイティブに理解することができます。重要な処理 – 画像から意味を引き出すこと – はデバイス上で行われます。

表1. Appleの基盤モデルの圧縮技術(デバイス上 vs サーバー)[20][21]

モデルバリアント
重み精度(デコーダー)
埋め込み精度
KVキャッシュ精度
ファインチューニング適応
デバイス上 3B
2ビット(QAT最適化)
4ビット(QAT)
8ビット
はい(アダプター使用)
サーバー MoE(大規模)
~3.56ビット(ASTC圧縮)[20]
4ビット(後処理トレーニング)
8ビット
はい(アダプター使用)

Appleは、iPhoneやiPadで効率的に動作するように、デバイス上のモデルを劇的に圧縮(2ビットの重みまで)し、クラウドモデルはその大規模さから異なる圧縮(ASTC)を使用します。どちらのモデルも品質を維持するために微調整されたアダプターを適用します。[20][21]

本質的に、Appleのデバイス上で動作するLLMは、Appleのチップ性能を最大限に活用するために縮小され、最適化された脳です。100Bパラメーターのクラウドモデルと知識の量で匹敵することはできませんが、Appleは一般的なユーザータスクを迅速かつ正確に処理するために特別に設計しました。内部評価では、3Bモデルが多くのタスクで競合他社の一部の4Bパラメーターモデルと互角に渡り合ったことが示されました[17]。Appleは、このローカルモデルがテキスト要約、理解、言い換え、短い対話に優れていると明言していますが、「一般的な世界知識のためのチャットボットとして設計されているわけではない」[26]とも述べています。つまり、珍しいトリビアの事実をすべて知っているわけではないかもしれません(その場合、Siriはオンライン検索や必要に応じて大きなクラウドモデルを利用することができます[27][28])、しかしあなたの日常的なコンテンツ、例えばメールの作成、文書の要約、会話の翻訳を支援するためには、高度に調整されています。そして重要なのは、完全にエッジ上で実行されることで、次のセクションで紹介するエッジ推論と「シーンメモリー」がどのように役立つかを示す準備が整います。

「シーンメモリー」– Siri の新しい文脈スーパーパワー

iOS 19.2 で最も注目すべき改善点の一つは、Siri(や他のインテリジェント機能)が文脈をどのように処理するかです。Siri が2秒前に尋ねたことを忘れる時代は終わり、Apple は短期記憶、つまり「シーン」認識の形を与えました。それでは、シーンメモリー とは一体何なのでしょうか? それは、個人の文脈、画面上の文脈、継続的な会話の記憶を組み合わせたもので、Apple の AI がユーザーのリクエスト周辺の広範な状況を理解できるようにするものです。

  • 対話の継続性: Siriは、対話で一つのリクエストから次のリクエストまでの文脈を追跡できるようになりました[6]。これにより、*「エッフェル塔の高さは?」と聞いた後に「モンマルトルから見える?」*と続けて質問することが可能です。Siriは、前の質問がまだ文脈に残っているため、「それ」がエッフェル塔を指すと理解します。これは、各質問を独立して扱っていた古いSiriからの劇的なアップグレードです。行ったり来たりの会話やフォローアップの質問がやっと可能になり、Siriがより自然で会話的に感じられるようになります(AlexaやGoogleアシスタントの継続会話モード、さらにはChatGPTのような振る舞いに近づきます)。デバイス内のLLMのトランスフォーマーアーキテクチャは、この種のプロンプトチェーンに向いており、Appleの実装では最近の対話履歴をローカルに保存してSiriが参照できるようにしています。もちろん、この文脈メモリは一時的でプライベートであり、アップロードされず、セッション中はRAMに保持されます。
  • 個人のコンテキスト認識: iOS 19.2は、Siriにデバイス上のデータに対するより深い認識を与えます(許可を取得した上で)。Appleはこれを、「メール、メッセージ、ファイル、写真などの個人のコンテキストを学び、タスクを支援する」と表現しています[8]。例えば、*「Siri、明日のフライトは何時?」*と聞くと、Siriはメールアプリの搭乗券やカレンダーのイベントを探して答えを見つけ出します。過去のように「わかりません」と答えることはありません。これは本質的に「あなた」に関するローカルな知識グラフを構築しているのです。別のシナリオでは、「昨日レビューしていたPDF」と言及すると、Siriは最近の活動に基づいてどのファイルを指しているかを特定し、それを開くことができます。デバイス内でのコンテンツのインデックス作成は長期的な目標だった可能性があり、Appleはスポットライト検索やSiriの提案を長年提供してきましたが、今ではLLMがその情報を会話形式で利用できるようになりました。これらはすべてデバイス上に留まり(Appleのサーバーには送信されません)、Appleのプライバシーの約束を維持しながら、Siriを著しく役立ち、パーソナライズされたものにします。
  • 画面上のシーン認識: シーンメモリの最も便利な側面は、Siriが現在見ているものや行っていること、つまりアクティブなシーンを理解する能力です。Appleはこれを画面認識と呼び、Siriが「見ているものに関するアクションを実行できる」ようにします[29]。実際には、Safariでレシピを開いているときに*「Siri、これをメモに保存して」と言うと、Siriは「これ」が開いているウェブページを意味すると知り、自動的にクリッピングします。また、イベントに関するテキストスレッドを見ているときに「後でこれを思い出させて」*と言うと、Siriはその会話へのリンクを含むリマインダーを作成します。以前は、こうしたコマンドはSiriを困惑させるものでした。裏側では、AppleのシステムインテリジェンスAPIがコンテキスト(最前面のアプリ、選択されたテキスト、ウェブページの内容など)をLLMのプロンプトに提供することができます。iOS 19は「現在の画面で続行する」ためのインテントも追加し、アプリが画面に表示されている内容を安全にSiriに公開できるようにしました。その結果、音声アシスタントが状況を理解し、まるで画面を覗き込んでいるかのように(便利な方法で)感じられます。このシーン認識は長い間要求されてきた機能であり(他のプラットフォームは部分的に実装していました)、今やLLMとシステム統合の組み合わせにより、Siriが「これをPDFに変換して」や「これをアリスと共有して」といった意味を、何度もフォローアップの質問をせずに理解できるようになるかもしれません。

舞台裏では、Scene Memoryの有効化はソフトウェアの課題であると同時にAIの課題でもありました。AppleはSiriの従来のインテント実行機構と知識ベースをLLMと統合する必要がありました。報告によると、AppleはSiriのための新しい「クエリプランナー」システムを持っており、リクエストをどのように満たすかを決定します – ウェブ検索を使うか、デバイス上のデータを使用するか、Siriショートカット/アプリインテントを通じてアプリを呼び出すかということです。LLMは恐らく複雑または曖昧なクエリを解析し、会話の状態を維持するのに役立ち、Siriの従来のシステムはコマンドの実行(アプリの起動、メッセージの送信など)を担当します。またAppleは「要約モジュール」を使用して長いコンテンツを要約することもしています – 例えば、Siriに「今日のメールで何を逃したか?」と尋ねると、デバイス上のモデルが最新のメールを要約してくれるかもしれません。これらの要素が一体となって、Siriをより積極的にしています。実際に、AppleはSiriが「アプリ内およびアプリをまたいであなたのために行動する」ことを目標としていると明言しており、この個人的なコンテキストメモリを活用しています。我々は基本的に、Siriが硬直した音声コマンドシステムから、コンテキストを実際に覚えて推論できる柔軟なパーソナルアシスタントへのゆっくりとした変革を目撃しています。

これらの機能が何度も遅延されたことは注目に値します。Appleは当初、これらをiOS 18用に計画していましたが、19に延期し、さらにそれでもすべてが.0リリースに含まれるわけではありませんでした。現在、iOS 19.2で、個人的なコンテキスト、画面認識、深いアプリ統合がついに具現化しているようです。大きな消費者の注目の理由は、人々が突然、Siriが以前にはできなかったことをするのを目にしているからです。アシスタントはより生き生きと感じられます。早期のユーザーレポートでは、Siriがタスクをまとめて行うことができる(例えば、アルバムを見ている間に「これらの写真を母にメールして」と言うと、一度にそれを実行し、「これらの写真」がオープンしているアルバムを指していると認識した)と報告されています。これはまさにシーンメモリーの約束:ぎこちないコマンドが少なく、より流れるような理解です。これにより、iPhoneユーザーはこれまでクラウドサービスのようなものを必要としていたAIヘルパー体験に一歩近づきます。そして再び、Appleの差別化要素は、それをオフラインで行うことです。デバイスが画面の内容を分析のためにクラウドにストリーミングしているわけではなく、LLMがコンテキストをローカルで解釈しています。プライバシーは設計によって保護されていますので、監視されているという気味の悪い感覚なしに、これらのパーソナライズされた機能を信頼できます。

シーンメモリーをまとめると、Appleの洗練されたAIと豊富なローカルコンテキストデータの効果的な結合です。この組み合わせによりはるかに強力なインタラクションが可能になります。Siriはついに「誰/何/どこについて話しているか」を学び、有用な形で応答できるようになりました。テクノロジーに詳しいユーザーにとっては、手動での確認やアプリ間のコピー&ペーストにかける時間が減り、アシスタントが自動的に把握してくれます。まだ初期段階で(Siriは完璧ではなく、時々コンテキストを誤解したり確認を求めたりすることがありますが)、顕著な改善です。Appleが次のiOSでさらに大きなAIを計画している中(iOS 20でのGPTのようなSiriが2026年に登場するという噂があります[38])、19.2のシーンメモリーはその方向性への基盤となるステップです。

エッジ推論:デバイス内AIが重要な理由

Apple Intelligence 2.0の核心テーマは、エッジ推論です。これは、AIを集中したクラウドではなく、ユーザーのデバイス(ネットワークの「エッジ」)で実行することを意味します。その技術的手段には触れましたが、なぜそれが重要なのかを明らかにしましょう:

  • プライバシーとセキュリティ: デバイス上でLLMを実行することは、データが処理のために電話を離れることがないことを意味します。Appleの表現を借りれば、個人の会話やコンテンツは個人のままです[39]。Writing Toolsでメールの下書きをしたり、Siriにスケジュールを聞いたりする際に、データをアップロードする必要はありません。これは、音声やコンテキストをサーバーに送信するクラウドアシスタントとは大きく異なります。AppleのSiriがクラウドの助けを借りる場合でも(例えばChatGPTの統合のような一部のクエリで)、それはプライベートクラウドコンピュートを通じてルーティングされます。これはデータが暗号化され、第三者によって保持されないシステムです[40][27]。しかし、19.2のほとんどのタスクはデバイスがローカルで処理できます。これはE2E暗号化とプライバシーを重視する人々を満足させ、Appleのブランドのエートスに沿っています。セキュリティの観点からは、デバイス上で推論を行うことで、ネットワーク攻撃や漏洩のリスクが減少します。AIリクエストがインターネットを経由することがないため、傍受される可能性が低くなります。
  • オフラインでの可用性: エッジAIはインターネットなしで動作します。これは命を救う場合があります。たとえば、データなしで旅行中に言語翻訳が必要なときや、リモートエリアでSiriを使ってNotesから情報を得たいときなどです。iOS 19のオフラインLLMのおかげで、多くの機能が動作し続けます。たとえば、ライブ翻訳はメッセージや音声通話でテキストを翻訳し、信号がなくても動作します[14]。これは翻訳モデルがデバイス上にあるためです。Appleの設計は*「オフラインファースト」*で、コアインテリジェンス機能に重点を置いています。頻繁に使用されるAIルーチンや最近のコンテキストをデバイス上にキャッシュすることで、オフラインになっても最小限の中断で済むようにしています[41][42]。この堅牢性はより包括的であり、常に高速インターネットを持っているわけではない人々や、開発された地域でもデッドゾーンに遭遇することがあります。オフラインになるたびに切断されるパーソナルAIはあまり「パーソナル」ではありません。Appleはこれを認識し、Macaron(後ほど詳しく説明します)が同じ哲学を採用しています:AIがいつでもどこでもあなたのためにあるべきです[43]
  • 低遅延とリアルタイムのインタラクション: デバイスで推論が行われると、サーバーへの往復遅延がなくなります。タスクはより迅速に感じられます。たとえば、SafariやMailでの要約機能はほぼ瞬時に要約を生成できますが、クラウドAPIを使用すると、数秒かかることがあります。AppleのNeural Engineの加速により、応答はほぼリアルタイムで得られます。Appleは19.2における特定のSiriクエリの応答時間をNeural Engineにオフロードすることによって短縮したと指摘しています[23]。ユーザー体験の観点からは、この低遅延によりAIがより反応的でインタラクティブに感じられ、人々がより多く使用することを促します。Siriに対して、部屋の中の人とほぼ同じ速さで話すことができます。同様に、キーボードの予測テキスト(現在はLLMによって強化されています)も最小限の遅れで機能し、ローカルで計算されるため、即座に文全体の提案を生成できます。また、デバイスで推論を行うことで、AppleはサーバーコストやクラウドAIサービスを制限するレートリミットを回避します。忙しいサーバーキューはなく、電話はあなたに完全な注意を向けます。
  • コストと持続可能性: 数百万のユーザー向けにクラウドで巨大なAIモデルを運用することは、(GPUサーバーコストの観点で)非常に高価でエネルギー集約的です。推論をエッジデバイスに移行することで、Appleはすでにユーザーの手元にあるハードウェア(効率性に特化して構築されたもの)に計算をシフトします。Appleは、デバイス上のモデルを使用する開発者が使用料を請求されないことを強調しています[3] - 外部AIサービスへのAPIコールごとに支払う必要があるのと比べて大きなインセンティブです。持続可能性の観点からは、AIの分散化によりデータセンターの負荷が軽減される可能性があります(データセンターは多くの電力を消費します)。各iPhoneが少量のAI作業を行うことは、中央サーバーファームに数十万のリクエストが集中するよりも集団的にエネルギー効率が高いかもしれません(特にAppleのNeural Engineは高性能とワット当たりの効率に最適化されています)。長期的には、広範なエッジAIが一部のクラウドコンピューティングのボトルネックやコストを緩和する可能性があります。

とはいえ、Appleのアプローチにもトレードオフがあります。デバイス上で動作するモデルは小型で、GPT-4のように一般的な知識を持っているわけではありません。Appleは、これはすべての質問に答える広範なチャットボットの代わりになるものではないと認めています。それが理由で、Appleは将来、Siriの世界理解を強化するために、非常に大規模なモデル(Googleの1.2兆パラメータのGeminiを契約して使用することも含めて)を使う計画があります。しかし、iOS 19.2で示されたのは、多くのパーソナルアシスタントタスクにおいて、よく設計された3Bモデルで十分であるということです。そして、ローカルで実行する利点は非常に大きいです。これは戦略的な選択です:パーソナルでコンテキストに応じたタスクをデバイス上で処理し、クラウドは重い作業にのみ使う(Private Computeのようなプライバシーラッパーを使って)。このハイブリッドなエッジ-クラウドモデルが標準になるかもしれません。

この戦略を実際に見てみるために、ユーザー固有のタスクやオフライン機能に重点を置く個人用AIエージェントであるMacaronを考えてみましょう。Appleのデバイス内AIの進歩は、実際にはMacaronのようなツールが行っていることを補完しています。

Macaronミニアプリと低遅延のパーソナルエージェントの未来

Macaronは、ユーザーが会話を通じて「ミニアプリ」を作成できる個人用AIアシスタントプラットフォームであり、日常のニーズに合わせたカスタムAI駆動のワークフローを実現します。iOSの内蔵インテリジェンスがすべてのユーザーに向けたAppleの広範なソリューションであるなら、Macaronはよりパーソナライズされたユーザー主導のアプローチを取ります。必要なことを伝えれば、それに応じたソリューションを即座に作成します。では、AppleのオフラインLLMとシーンメモリはどのようにこれに関わるのでしょうか?一言で言えば:完璧にです。

Macaron の哲学は、オフライン優先、低遅延、ユーザー中心のデザインを強調しています。Macaron のチームによれば、本当にパーソナルな AI は、どんな時でも、どこでも、接続が悪い場合でも動作し、ユーザーに適応すべきだと言います[43][42]。それこそが、Apple のオンデバイス AI アップグレードの強みです。iOS 19.2 の基盤モデルにより、Macaron は常にクラウド API にアクセスするのではなく、Apple のオンデバイスインテリジェンスを活用できる可能性があります。例えば:

  • インスタントミニアプリ作成: Macaronはユーザーが「食事プランナーアプリを作って」と言えば、生成AIを使ってその目的のためのミニアプリを組み立てます[45][46]。この生成ステップがデバイス上で実行できる場合(Appleの新しいFoundation Models SDKを使用)、作成はリアルタイムで行われ、サーバーの遅延はありません。ユーザーは数秒で動作するミニアプリを得られます。つまり、個人の好みやデータを含む指示は生成中にデバイス上に留まります[3]
  • ミニアプリにおけるコンテクスト理解: Macaronのミニアプリは、習慣トラッカーや個人財務分析ツールのように個人データを扱うことが多く、コンテクスト認識から恩恵を受けます。Scene Memory機能が利用できるようになったことで、Macaronはシステムインテリジェンスから画面上のコンテクストや個人のコンテクストをミニアプリのワークフローに取り入れることができます。例えば、メール管理のためのMacaronミニアプリがあれば、Siriの新機能を活用してメールの要約や重要なメールの特定が可能です(iOS 19のインテリジェンススイートで公開された機能)[47][48]。Macaronは基本的にAppleのOSレベルのAIサービスによって、より賢いキャンバスを手に入れています。
  • 低遅延エージェントUX: Macaronの売りの一つはスムーズで会話的なユーザー体験です。AIエージェントがパートナーのように協力します。AppleのエッジAIは、応答とアクションが最小の遅延で行われることを保証し、自然な流れを維持することが重要です。Macaronのミニアプリは、デバイス上で即座に言語翻訳、画像認識、テキスト分析などのタスクを実行できます。以前はクラウドAPIを呼び出して待つ必要がありましたが、今では必要ありません。例えば、料理レシピを案内するMacaronのプレイブックは、リアルタイムで材料を認識したり、「バターの代わりに何を使える?」といった質問にインターネット検索なしで答えることができます。これにより、より没入的で信頼性のあるアシスタント体験が生まれます。
  • 個人AIのための強化されたプライバシー: Macaronは個人的なエージェントであり、スケジュール、メモ、健康データなどの親密なユーザー情報を扱います。Appleのデバイス上での処理に合わせることで、ユーザーの情報がAI操作中にデバイスを離れないことを保証できます。実際、Macaronには低帯域幅またはオフライン使用のためのモードがあり、重要なデータをローカルにキャッシュし、必要に応じて小さなフォールバックモデルを使用します[49][42]。Appleの19.2 LLMは、オフラインモデルとして機能することができ、クラウドAIが利用できないときに基本的なリクエストをカバーする優れたフォールバックとなります[42]。ここでのシナジーは、AppleとMacaronの両方が**「ユーザーのためにデバイス上で動作するAI」**に収束していることです。これにより、ユーザーの信頼と自律性が向上します。
  • ワークフローにおけるコンテクストの引継ぎ: Macaronのミニアプリは多くの場合、複数のステップを含むプロセスです(Macaronではこれをプレイブックやマイクロフローと呼びます[50])。Scene Memoryの概念は、これらのステップ間で状態を維持するのに役立ちます。例えば、旅行計画のミニアプリがあるとします。ステップ1でフライトを見つけ、ステップ2でホテルを見つけ、ステップ3で旅程を作成します。コンテクストメモリを使用することで、AIは1つのステップから次のステップに情報を引き継ぐことができ、すべてを再プロンプトする必要がありません。Macaronはすでにフローを論理的なチャンクに構造化して認知負荷を軽減しています[51]が、AIバックエンドは何が完了し、次に何をするかをより良く追跡でき、現在の計画を理解しながら「実際には1日後にして」といったフォローアップの変更にも対応できます。

全体として、AppleのエッジAIアップグレードは、iOS上に存在するMacaronのようなプラットフォームを大幅に強化します。私たちは、パーソナルAIエージェントがクラウドで孤立するのではなく、私たちの個人デバイス上でシステムインテリジェンスと調和して動作するエコシステムに向かっています。Macaronの「指先で操作できるミニアプリ」というビジョンは、基盤となるOSがAIタスクをより流動的に実行できることで推進されます。Macaronのデザイン原則(例:適応型コンテンツ、深いパーソナライズ、強力なオフラインモード[52][43])が、iOS 19.2でAppleが提供したものと非常にうまく一致していることは示唆的です。かつて未来的に思われた低レイテンシーでコンテキストに応じたエージェントUXが、急速に現実になりつつあります。

結論: パーソナルでデバイス上に存在するAIの新時代

AppleのiOS 19.2は、消費者AIの進化における重要な瞬間を示しています。それは、力が決定的にエッジにシフトする時です。ローカルで動作する精密に調整されたLLMを展開し、コンテキストのための「シーンメモリー」を導入することで、AppleはiPhoneの可能性を変革しました。Siriをもう少し賢くすることだけではなく(それも歓迎される結果ですが)、AI機能におけるプライバシーと応答性に対するユーザーの期待を再定義することです。今では、電話とほぼ会話をしたり、コンテンツに瞬時にAIの助けを得たり、データがどこか遠くのサーバーファームに秘密裏に転送されていないことを信頼することができます[39][36]。データプライバシーに対する懸念が高まる時代において、Appleのオフラインファーストのアプローチは、「高度なAIとプライバシーの両立は可能か?」という問いに対する説得力のある答えを提供しています。そして、どうやらその答えは、はい、可能です。

技術的には、Apple Intelligence 2.0 はモデル圧縮、ハードウェアとソフトウェアの協調設計、そして消費者向けOSへの統合の傑作です。これは、蒸留、量子化、最適化を通じて、数十億のパラメータを持つモデルがバッテリー駆動のデバイス上でスムーズに動作できることを示しています[18][20]。これにより、さらなる革新への扉が開かれます。近い将来、デバイス上で動作する音声モデルによるよりスマートな音声入力や、クラウドトレーニングなしであなたの好みを学習するローカル推薦モデルが登場するかもしれません。また、Apple は Foundation Models フレームワークを通じて開発者にこの波に乗る力を与えました[10][11] 。デバイス上の LLM を活用したクリエイティブかつ実用的な新しいアプリが、ユーザーに追加のコストや遅延をかけずに登場することが期待されます。

テクノロジーに詳しいユーザーにとって、19.2アップデートは特に満足のいくものです。まるでソフトウェアでハードウェアをアップグレードするような感覚で、既存のデバイスが予想もしなかった新しい機能を発揮できるようになります。パワーユーザーは、Siriのコンテキストの限界を試したり、オンデバイスモデルを使用した複雑なショートカットを作成したり、Macaronのようなアプリを実行してパーソナルAIの限界を押し広げることを楽しむでしょう。また、エッジAIがアクセシビリティをどのように強化できるかを見ています。ライブキャプション、テキストの簡素化、画像の説明などの機能は、オンデバイスで行うことでより即時性があり信頼性が高くなり、障害を持つユーザーや接続が限られているユーザーに利益をもたらします[53][54]

確かに、AppleはこのエッジAIトレンドで唯一ではありません(QualcommやGoogleなどもデバイス上AIの加速に取り組んでいます)が、Appleのカスタムシリコン、OS、そして高機能の緊密な統合は、数百万のユーザーにスケールで洗練された製品を提供する上で先行しています。iOS 19.2のAIに対する「大きな消費者の関心」は、人々が能力と信頼の両方を重視していることの証です。Appleは効果的にこう伝えています:どちらか一方を犠牲にする必要はありません。 あなたのiPhoneは賢く、同時にあなたのものであることができます。

将来を見据えると、Apple Intelligence 3.0がさらに多くの「シーンメモリー」を備えることが想像できます。例えば、時間とともに蓄積される持続的なパーソナライゼーション(再び、ローカルに保存されます)や、テキスト、音声、ビジョン、アクションをシームレスに処理する完全な統合マルチモーダルアシスタントなどです。基盤は整っています。そして、Macaronのような個人用AIエージェントはこの環境で繁栄し、各ユーザーが自分を深く理解しながらもプライバシーを守るユニークなAIを持つ可能性があります。

要約すると、iOS 19.2のAppleのオフラインLLMとシーンメモリは、技術的なマイルストーンと倫理的姿勢を一体化したものです。AIの進歩がユーザーのプライバシーと体験への配慮と結びつくときに何が可能かを示しています。ユーザーにとっては、より賢く、より役立つデバイスを意味します。開発者にとっては、デバイス上でのAIの新しい可能性の舞台です。そして業界にとっては、クラウドだけでなく、私たちのポケットの中にAIの未来があることを示しています。デバイス上のAIの時代へようこそ。あなたの電話自体が知的エージェントであり、日々賢くなっています。

情報源: この記事の情報は、Appleの公式発表と技術レポート、独立した分析に基づいています。主な参考資料には、AppleのWWDC 2025でのオンデバイスモデルと開発者フレームワークに関するニュース[55][10]、Apple Machine Learning Researchの基盤モデルに関する技術レポート(3Bモデル設計、蒸留、量子化の詳細)[15][20]、Siriの新しいコンテキスト機能と展開の遅延に関する信頼性の高いレポート[35][28]があります。これらの情報源は検証と詳細な読解のために引用されており、開発は2025年後半の最新のオンデバイスAI展開を示しています。

[1] [2] [3] [5] [6] [7] [10] [11] [12] [14] [39] [47] [48] [55] Apple Intelligenceは、Appleデバイス全体で新しい機能によってさらにパワーアップ - Apple (CA)

https://www.apple.com/ca/newsroom/2025/06/apple-intelligence-gets-even-more-powerful-with-new-capabilities-across-apple-devices/

[4] Apple Intelligence - Apple

https://www.apple.com/apple-intelligence/

[8] [9] [29] [32] [33] [34] [35] Appleは、ユーザーがiOS 19または2026年まで通常のSiriを受け入れなければならないと述べています – MacTrast

https://www.mactrast.com/2025/03/apple-says-users-will-have-to-put-up-with-regular-siri-until-ios-19-or-2026/

[13] [15] [16] [17] [18] [19] [20] [21] [24] [25] [26] [36] [37] Appleのオンデバイスおよびサーバーの基盤言語モデルのアップデート - Apple Machine Learning Research

https://machinelearning.apple.com/research/apple-foundation-models-2025-updates

[22] Apple A17 - Wikipedia

https://en.wikipedia.org/wiki/Apple_A17

[23]  主要なAIと技術の発展(2025年11月1日-2日)

https://www.jasonwade.com/key-ai-tech-developments-november-1-2-2025

[27] [28] [30] [31] [40] [44] Appleは、Siriの支えとしてGoogleの1.2兆パラメータの非常に高価なAIモデルを使用

https://wccftech.com/apple-will-use-a-1-2-trillion-parameter-very-expensive-ai-model-from-google-as-a-crutch-for-siri/

[38] iOS 19では、開発者がAppleのAIモデルをアプリで使用可能に - MacRumors

https://www.macrumors.com/2025/05/20/ios-19-apple-ai-models-developers/

[41] [42] [43] [49] [50] [51] [52] [53] [54] マカロンのAIがすべてのユーザーに適応する方法 - マカロン

https://macaron.im/blog/macaron-ai-adaptive-accessibility-features

[45] [46] マカロンAIが実現する: 指先でカスタマイズされたミニアプリの作成 - マカロン

https://macaron.im/blog/macaron-personalized-ai-solutions

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達