Learn-to-Steer: NVIDIAのデータ駆動型ソリューション、テキストから画像への拡散における空間的推論

著者： Boxu Li

テキストから画像を生成する拡散モデルは驚くべきビジュアルを生成できますが、空間的推論という悪名高い盲点があります。現在の最高のモデルでも、シーン内でオブジェクトを誤って配置したり、特定のレイアウトを求められたときに奇妙に融合したりすることがあります。例えば、「テディベアの右に犬」といったプロンプトでは、モデルが混乱するかもしれません。犬を左に置いたり、犬とテディベアを融合させたりすることがあります。これらは幼い子供でも簡単にこなせるタスクですが、拡散モデルはしばしば失敗します[1]。問題は、珍しい組み合わせ（例えば、飛行機の上に立つキリン）ではさらに顕著になります[1]。従来の修正方法は、特別なデータでモデルをファインチューニングするか、生成時に手作りの空間損失を追加するかのいずれかですが、どちらのアプローチにも欠点があります[1]。ファインチューニングは高価な再トレーニングを必要とし、モデルの創造性やスタイルを変えるリスクがあります。一方、手作りの損失は空間関係についての不完全な仮定をエンコードしており、しばしば最適でない結果をもたらします。

NVIDIAの新しいアプローチ、Learn-to-Steerに参加しよう。（WACV 2026で発表予定）これは、モデル自体から直接学ぶことによって空間的推論に取り組む方法です。オブジェクトの配置をハードコーディングする代わりに、データ駆動の損失関数を使用して画像生成中にモデルが自らを導く方法を教えるという考え方です。このブログ投稿では、拡散モデルにおける空間的推論の課題と、NVIDIAのLearn-to-Steerメソッドがどのように機能するかを探ります。このメソッドのアーキテクチャを掘り下げ、特にクロスアテンションマップと学習された分類器を推論時にどのように活用するかを含め、ベンチマークでの定量的な向上を確認します。また、推論時の最適化のトレードオフ（計算コストや一般化可能性など）を批判的に検討し、プロンプトの忠実性、マルチモーダルな整合性、そして生成モデル設計の未来に対する広範な影響を考慮します。

空間的推論：拡散モデルにおける欠けたピース

Stable Diffusionのような最新の拡散モデルは、写真のようにリアルなシーンや幻想的なシーンを印象的なディテールで描くことができます。しかし、単純な空間配置を求めると、期待を裏切られることがあります。空間推論、つまり正しい相対位置（左/右、上/下、内/外）を理解し生成することは、依然として難題です。オブジェクトの関係を指定するプロンプトは、しばしば要求に合わない画像を生成します。例えば、「本棚の上にいる猫」というプロンプトは、猫が本棚の横にいる画像や、シュールな猫と本棚のハイブリッドを生み出すことがあります。なぜこうしたことが起こるのでしょうか？

一つの理由は、拡散モデルが、明確な空間的関係が希薄または曖昧な巨大な画像テキストデータセットから学習することです。これらはスタイルやオブジェクトの忠実性に優れていますが、トレーニングデータが各オブジェクトが他に対してどこに現れるべきかを強く強制しているわけではありません。その結果、モデルの空間的用語（「上に」「右に」など）の内部表現が弱くなります。最近のベンチマークでは、最先端のテキストから画像へのモデルでさえ、単純な幾何学的関係を含む空間的タスクに苦労していることが確認されています。これらの失敗は主に3つの問題として現れます: オブジェクトの配置が不正確、プロンプトにあったオブジェクトの欠落、またはモデルが2つのものを混ぜ合わせようとする際の融合されたキメラのようなオブジェクトです。要するに、モデルはしばしば「何」を求められているかは理解していても、「どこ」に置くべきかは理解していないのです。

既存の方法はこのギャップを埋めようと試みています。ある研究者たちは、既知のレイアウトや関係を持つ画像で拡散モデルを微調整し、モデルを空間的に認識するように効果的に再訓練しています。他の研究者はテスト時の介入を使用します。例えば、オーバーラップを罰したり、オブジェクトの正しい順序を報いる追加の損失項で生成を誘導します。しかし、このような損失関数を手動で設計することは難しく、「左にある」や「上にある」をモデルの内部データを使用して測定する方法を推測する必要があります。これらの手作りの損失は単純なケースには効果的かもしれませんが、複雑なシーンでは不適切なヒューリスティックをエンコードし、失敗する可能性があります[4]。一方で微調整は良好な空間精度を達成できます（例えば、COMPASS法は空間的に整列されたデータでモデルを再訓練します[5]）が、それはリソースを多く消費し、他の画像品質を意図せずに低下させる可能性があります（あるケースでは、空間関係の微調整後に色の正確さやオブジェクトのカウントが悪化しました[6]）。モデル全体を再訓練することなく、また脆弱なヒューリスティックスに依存せずに空間的忠実度を改善する解決策が求められています。

データ駆動型の損失を用いた拡散の学習

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

NVIDIAのLearn-to-Steerフレームワークは新しいアプローチを提供します：ルールを押し付けるのではなく、モデル自身のシグナルから学ぶ[7]。重要な洞察は、拡散モデルが生成中にすでに豊富な内部データを生成しているということです。特にクロスアテンションマップで、これを利用して空間的な関係を理解することができます。クロスアテンションマップは、拡散ノイズ除去プロセスの各ステップで生成され、本質的にどの画像領域がプロンプト内の特定の単語に注目しているかを示します[8]。言い換えれば、これらはテキストトークン（例えば「犬」、「テディベア」、「右側に」）と画像の位置との間の架け橋を形成します[8]。これらのアテンションマップは物体を特定するために解釈できることが以前の研究で発見されており、それらをガイドとして使用するのは自然なことです。テスト時の最適化手法は、この解釈可能性と直接的なテキストと画像の整合性のために、しばしばクロスアテンションマップを空間損失のターゲットとして選びます[9]。

Learn-to-Steer (L2S) は、目的関数を手作りするのではなく、データから学習することによってこのアイデアを発展させています。これにより、拡散モデルのクロスアテンションパターンから空間的な関係を認識する軽量な関係分類器がオフラインで訓練されます[7]。推論時には、この分類器が学習済みの損失関数として作用し、生成された画像がプロンプトの関係を正しく反映しているかを評価し、正しくない場合は生成を正しい方向に導きます[7]。本質的に、NVIDIAのチームは拡散モデルに自身のアテンションマップを批評し、それに応じて調整することを教え、モデルの重みを変えずにそのままリアルタイムで実行します。

この関係分類器のトレーニングは、思ったよりも微妙なものになりました。一見すると単純なアプローチは、既知の関係を持つ一連の画像（例：「犬は猫の左にある」と注釈された画像）を取り、拡散モデルの反転プロセスを実行して「犬」と「猫」の注意マップを取得し、それらのマップに対して分類器を「左にある」と出力するようにトレーニングすることかもしれません。これにより、確かに監督が提供されます。しかし、予想外の落とし穴として、著者が「関係リーケージ問題」と呼ぶものが浮上しました。分類器は、空間レイアウトを本当に理解するのではなく、注意マップ内の関係の言語的痕跡を拾って不正をし始めたのです。どうしてそんなことが可能なのでしょうか？正しい記述プロンプト（例えば「猫の左に犬がいる」）を使って画像を反転すると、「左」という単語に関する微妙な手がかりがモデルの内部活性化にエンコードされることがあると判明しました。分類器はこれらの手がかりに頼り始め（実質的に注意マップからプロンプトを読み取る）、視覚的な「左にある」という概念を学ぶのではなくなってしまいます。その結果、トレーニングデータではうまくいきますが、生成時には失敗します。なぜなら、生成時にはプロンプトの関係語が常に画像と一致するため、分類器が単にプロンプトを反響している場合、空間配置が正しいかどうかを区別するものがないからです。

これを解決するために、Learn-to-Steer は巧妙な二重反転トレーニング戦略を使用します[13][14]。各トレーニング画像に対して、注意マップの2つのバージョンを生成します：1つは空間的関係を正しく記述する肯定的なプロンプト（例：「猫の左に犬がいる」）から、もう1つは意図的に間違った関係を使用する否定的なプロンプト（例：「猫の上に犬がいる」）からです[15][16]。両方の注意マップセットは、実際の画像レイアウトに基づいて真の関係（この例では「左」）でラベル付けされます。矛盾するテキスト記述とともに同じ画像関係を見ることで、分類器は信頼できない言語的手がかりを無視し、注意マップの本物の幾何学的パターンに集中せざるを得なくなります[14]。これにより、プロンプトが「左」と言おうと「上」と言おうと、分類器は空間的な証拠のみから犬が実際に猫の左にいると検出する必要があるという不変性を学びます。この二重反転アプローチは、リーク問題を中和し、モデルのビジョンに基づいて空間関係を実際に理解する分類器を生み出します。単なるテキストプロンプトではありません[17]。

この分類器のもう一つの重要な側面は、トレーニングデータです。チームは実画像と合成画像の両方から幅広いシナリオをカバーするためにデータを引き出しました[18]。実画像（GQAというデータセットから）は、自然な複雑さと多様なオブジェクトの配置を提供しますが、シーンが混雑しているときに注意マップがノイズになることがあります[18]。合成画像は、制御された方法で生成され（Image-Generation-CoT法を使用）、拡散生成中に遭遇するものに似た、より明確な注意パターンを持つ単純なシーンを提供します[18]。実データと合成データを組み合わせることで、分類器はリアリズムと明瞭さの両方の利点を享受します。アブレーションスタディは、両方のデータソースを使用することで、どちらか一方のみを使用するよりも高い精度を達成できることを確認しました[19]。

学習した損失関数を用いた推論時のステアリング

関係分類器の訓練が完了すると、「Learn-to-Steer」がそれを拡散プロセスに組み込み、画像が生成される際にステアリングします。これは推論（生成時）に行われ、拡散モデルの重みに変更を加える必要はありません。仕組みは次の通りです：

空間関係を含むテキストプロンプトが与えられた場合（例：「テディベアの右に犬」）、システムはまずプロンプトを解析して主語、目的語、関係を識別します（この場合、主語：犬、関係：右に、目的語：テディベア）[20]。拡散モデルがランダムな潜在ノイズを画像にデノイズし始めると、「Learn-to-Steer」が特定のタイムステップで介入します。選択された頻度（例：拡散プロセスの最初の半分で各ステップまたは数ステップごと）で、対象の2つのオブジェクトに対応するクロスアテンションマップを抽出します[20]。これらは、生成中の画像において各オブジェクトがどこにある可能性があるかについてのモデルの現在の「信念」を示しています。抽出されたアテンションマップは、訓練された関係分類器に入力され、可能な関係（左、右、上、下など）に対する確率分布を生成します[20][21]。プロンプトからの望ましい関係がわかっているので、システムは損失を計算できます。例えば、分類器が正しい関係に自信を持っていない場合にペナルティを与えるクロスエントロピー損失などです[20][22]。

ここからが操縦の部分です。この損失の勾配は、そのタイムステップで拡散モデルの潜在表現（進行中のノイズのある画像）に逆伝播されます[23]。実際には、分類器に従って正しい関係の確率を高める方向に潜在変数を促すことを意味します。直感的には、分類器が現在の部分画像で犬がテディベアの右に十分にいないと判断した場合、勾配は犬の特徴を右に（またはテディを左に）動かすように潜在をシフトします。その後、このわずかに調整された潜在とノイズで拡散プロセスが続行されます。これらの指示された更新を反復的に適用することで、生成は各オブジェクトをどこに描くかをモデルに明示的に指示することなく、空間的指示に従う画像に「操縦」されます。まるでモデルが絵を描くときに「犬をもう少し右に動かして」と囁くコーチがいるかのようです。

Learn-to-Steerの興味深い点は、異なる拡散アーキテクチャで動作することです。著者たちは、人気のUNetベースモデルであるStable Diffusionと、MMDiTベースの拡散モデルであるFluxの両方で、最小限の変更で実証しました[24]。このアプローチは、一般的な信号（アテンションマップ）と個別の分類器に依存しているため、アーキテクチャに依存しません。これは、将来または代替のテキストから画像へのモデルが、そのモデルのアテンション出力に基づいて新しい分類器を訓練することで、同じステアリングメカニズムに「プラグイン」可能であることを意味します。さらに、システムは単一のオブジェクトペア関係で訓練されましたが、複数の関係を連鎖させたプロンプトを処理できます。例えば、「スニーカーの上にカエル、ティーポットの下にスニーカー」というプロンプトを考えてみてください。これは3つのオブジェクトに関与する2つの関係（「カエルがスニーカーの上」「スニーカーがティーポットの下」）を持っています。Learn-to-Steerは、異なるタイムステップで関係の間で最適化の焦点を交互に切り替えることでこのようなケースに対処します[25][26]。この戦略を使用することで、方法は単一の画像に複数の空間的制約を適用できました。これは、静的な損失関数や単純なプロンプトではしばしば達成できません。（実際、著者たちは、「スニーカーの上にカエル、ティーポットの下にスニーカー」のように単純に連鎖させたプロンプトの方が、接続詞を使った冗長な文章よりも良い結果をもたらすことを発見しました[27]。)

空間ベンチマークでの定量的な向上

Learn-to-Steerは生成された画像の空間理解をどの程度向上させるのでしょうか？この論文は、空間関係に関する標準的なテキストから画像への評価ベンチマークでの正確性の大幅な向上を報告しています。2つのベンチマークが使用されています：GenEval（生成された画像が与えられた関係プロンプトを満たしているかをチェック）とT2I-CompBench（テキストから画像への構成ベンチマーク、空間配置のもう一つのテスト）。チームは4つの異なる拡散モデル - 2つのFluxバリアントとStable Diffusion 2.1と1.4 - を評価し、バニラジェネレーションと様々な手法を比較しました。結果は明確です：学習されたステアリングの目的は、無指導のモデルや以前の手法を大きく上回りました[28]。いくつかのハイライト：

Stable Diffusion 2.1 (SD2.1): Learn-to-Steerを使用した場合、GenEvalでの空間的精度が0.07 (7%) から 0.54に向上しました[29]。つまり、「ほとんど動作しない」空間タスク用モデルが、半分以上の確率で正確に動作するものに変わりました[29]。T2I-CompBench指標では、SD2.1が0.089から0.365に向上し、同様に大きな改善を示しました[29]。
Flux 1.0-dev (MMDiTベース): Learn-to-Steerを使用することで、GenEvalでの精度が0.20 から 0.61に向上し、関連する指標も0.177から0.392に上昇しました[30]。これにより、当たり外れのあるモデルが空間入力に対して確実に正確なモデルに変わりました。
手動設計損失を上回る: 手動設計の損失に依存する競合のテスト時手法は、全体的に低いスコアを示しました。例えば、以前のアプローチであるSTORMはSD2.1のGenEvalで0.19しか達成しませんでしたが、Learn-to-Steerは同じテストで0.54を達成しました[31]。別のベースラインである**FOR (Fast Optimizer for Restoration)**とその空間変種は、SD2.1で約0.26–0.35に達しましたが、L2Sのパフォーマンスには遠く及びませんでした[32]。これらのギャップは、データ駆動の学習損失が人間による推測損失よりも効果的であることを示しています。
微調整モデルに匹敵: 特に注目すべきは、学習されたステアリングが空間関係に特化して微調整されたモデルの精度にほぼ匹敵またはそれを上回る点です。COMPASSメソッド（空間的に配慮されたデータと特別なトークン順序で拡散モデルを再訓練する方法）は、Fluxのベンチマークで0.60を達成しました[33]。Learn-to-Steerは、モデルの再訓練なしで0.61を記録し、ほぼ同等の結果を出しました[33]。これは、テスト時の最適化が、以前は大規模なモデル訓練が必要とされた最先端の忠実性を達成できることを示しています。さらに、ベースモデルの他の機能を維持したままでした（対照的に、COMPASSは空間スキルを向上させましたが、副作用として色やカウントの精度が低下しました[34]）。
複数の関係の一般化: 関係分類器が単一の関係でのみ訓練されたにもかかわらず、Learn-to-Steerは複数の同時関係を持つプロンプトを処理する能力を示しました。3～5個のオブジェクトとプロンプト内の最大3つの関係でストレステストを行ったところ、ベースモデル単体ではほとんど常に失敗しました（成功率はほぼ0%）[35][36]。L2Sを有効にすると、モデルは大幅に向上し、例えば3つのオブジェクト間の2つの関係を持つプロンプトで約28%の精度を達成し、非常に複雑な4つまたは5つのオブジェクト間の3つの関係の場合でも約10-12%の精度を達成しました[37][38]。これらの数値は絶対的には高くないですが、補助なしモデルのゼロに近い状態と比較して桁違いに優れています。この方法は、ある程度、複数の学習目的を組み合わせられることを示しています。特に、関係が追加されるにつれてパフォーマンスが徐々に低下することはありますが、崩壊することはなく、それぞれの関係がある程度独立して処理される可能性を示唆しています[39]。この構成的な一般化は、将来的により複雑なシーン記述に取り組むための有望な兆候です。

同様に示唆的なのは、質的な結果です。論文の例では、Learn-to-Steerを使用することで、生成された画像がプロンプト内の空間的指示を忠実に反映しながら、高い画像品質を維持していることが示されています[40]。通常のディフュージョンや他の方法ではオブジェクトが誤って配置されたり、いくつかの要素が省略される状況でも、L2Sはオブジェクトが正しく配置され、すべてが存在する画像を生成します。また、「歯ブラシの下のバス」や「サーフボードの下の象」といった珍しいリクエストにも対応し、正しい空間配置で他の方法が生み出す奇妙な合成を避けることができます[41]。NVIDIAチームは、彼らの方法が3つの一般的な失敗モードを克服することを指摘しています：オブジェクトの誤配置を修正し、要素の省略を防ぎ（プロンプト内のすべてのオブジェクトが画像に表示される）、オブジェクトの融合を回避します（モデルが2つのアイテムを混同することによって生じる不合理なハイブリッドを防ぎます）[3]。並列比較では、他のベースラインはシーンから花瓶やシマウマを省略したり絡ませたりする可能性がありますが、Learn-to-Steerの出力は正しい構成で必要なすべての要素を含んでいます[3]。このプロンプトの忠実性の向上は、生成AIの出力の信頼性において大きな進歩を示しています。

推論時最適化: コストとトレードオフ

Learn-to-Steerの推論時の最適化アプローチは、利点と考慮すべき点の両方をもたらします。プラス面として、テスト時最適化により、モデルの重みを変更したり、空間タスクのために高価なファインチューニングを行う必要がないということがあります[42]。同じ事前訓練済みモデルを、必要なときだけ柔軟に「操縦」できるため、空間制御が不要な場合には元の多様性を保持します[34]。これは、ファインチューニングされたモデルで見られるような、空間関係に過適合することで他のスキル（色の正確さやカウントなど）を犠牲にするトレードオフを避けます[34]。NVIDIAのアプローチでは、プロンプトが空間関係を指定しない場合、拡散モデルを通常通りに実行するだけで、元の速度と出力特性を維持しつつ、追加のオーバーヘッドを発生させません。操縦は、必要を求められたプロンプトに対してのみ作動します[43]。

しかし、逆に推論時の損失を呼び出すと、計算コストがかかります。このプロセスでは、生成中に分類器を実行し、勾配を逆伝播させる必要があり、画像生成がかなり遅くなる可能性があります。著者はどのくらい遅くなるかを測定しました。小型のFlux 1.0-schnellモデルの場合、生成は1枚あたり約0.5秒からLearn-to-Steerを使うと約16.5秒に増え、およそ33倍の遅延が発生しました[44]。より大きなFlux 1.0-devでは、11秒が6分（約33倍）になりました。通常、彼らのハードウェアで1枚あたり約4.5秒かかるStable Diffusion 2.1は、舵取りを使用すると約90秒に増えました（約20倍）[44]。SD1.4も同様の増加を見せました（4.5秒から約80秒）[44]。これらは無視できないオーバーヘッドです。速度とスケーラビリティが重要なシナリオ（例：高スループット画像生成やリアルタイムアプリケーション）では、テスト時の最適化をすべての画像に適用することは現実的でないかもしれません。

これを軽減する方法はいくつかあります。一つは、最適化が適用されるタイミングと方法を制限することです。Learn-to-Steerは、実装において拡散ステップの前半のみ最適化を行います[23]。これにより、画像の方向性を決定するには十分であるとされました。加えて、選択的に使用することも可能です。AI画像サービスは通常の画像生成を行い、結果が空間的に不正確である場合（またはユーザーが厳密な空間レイアウトを明示的に要求した場合）のみ、L2Sを有効にして二度目の処理を行うことができます。別のアプローチとしては、効率の向上があります。関係性分類器は非常に小さく、関与するアテンションマップも少数であるため、主な負荷は大規模な拡散モデルを用いた複数ステップのバックプロパゲーションに起因します。将来的な研究では、より良いオプティマイザや部分的な更新でこれを加速することが探求されるかもしれません。それにもかかわらず、現時点ではこの手法は速度よりも精度が重要な場合に最適です。例えば、正確な図やシーンをデザインのために生成する場合や、品質が量に勝る比較的小規模な画像バッチを扱う場合などです。

トレードオフのもう一つの側面は、一般性と堅牢性です。Learn-to-Steerフレームワークは、モデルアーキテクチャ（UNet対MMDiT）を超えて驚くほど一般的であることが証明されました[24]。これは、他の拡散モデルや将来のシステムにも最小限の適応で適用できる可能性を示唆しています。必要なのは、モデルからクロスアテンションや類似のアライメントシグナルを抽出できることです。また、複数の関係や未経験のオブジェクトの組み合わせを扱う際に、トレーニング方法（一般的なアテンションパターンに焦点を当てた）により堅牢性を示します。しかし、いくつかの制約もあることに注意が必要です。論文の分析は、「上」や「下」といった判断が2Dで行われていることを指摘しており、画像のピクセルやアテンションによるもので、必ずしも真の3D空間の理解と一致するとは限りません[45]。例えば、3D空間であるオブジェクトが別のオブジェクトの前にある場合、あるカメラアングルからは2D画像でそのオブジェクトが下に見えるかもしれず、空間的な関係が混乱する可能性があります。Learn-to-Steerは、深度や現実世界のサイズ関係を明示的にモデル化しておらず、視覚的なアテンションオーバーレイから学習するだけです。したがって、パースペクティブのある複雑なシーンでは、2Dプロジェクションでは意味をなすが、真に物理的な意味ではない関係を強制することがあります[45]。さらに、この方法は最大3つの関係を処理できますが、シーンが非常に混雑してくると精度が低下します[46]。例えば、5つのオブジェクトが互いに関係している完璧なシーンを生成することは、まだ未解決の課題です。時には方法が成功し、時にはそうではありません[37]。これらの制約は、より洗練された推論や複雑なプロンプトに対するマルチステップ計画を組み込むことで改善の余地があることを強調しています。

より広範な影響: プロンプトの忠実性と将来のモデル設計

空間的忠実性を劇的に向上させることで、NVIDIAのLearn-to-Steerはより信頼性の高いマルチモーダルシステムへの重要な一歩を示しています。アーティスト、デザイナー、企業の開発者にとって、空間的指示を実際に尊重するテキストから画像へのモデルを持つことは、フラストレーションや手動での修正を減らします。これは「プロンプトしたものがそのまま得られる」ことに近づくものです。この忠実性は単に美しい画像を作るだけでなく、AIの出力をユーザーの意図に合わせて制御可能にすることに関わります。ある意味で、マルチモーダルアライメントを強化します: 言語で記述された関係が視覚的モダリティ（生成された画像）により忠実に反映されます[3]。空間的推論の改善されたアライメントは、他のプロンプトの側面にも波及する可能性があります。このアプローチは、特定の失敗モード（オブジェクト配置など）をターゲットにすることが可能であることを示しており、他の要素（色、数、全体の一貫性など）を損なうことなく実現できます[34]。これは、大きな生成モデルに後からドメイン固有の「常識」を注入できることを示すデモンストレーションであり、単一の巨大モデルがすべてを完璧にこなすことを期待するのではなく、その可能性を示しています。

クロスアテンションマップを教育信号として使用する成功は、将来のモデル設計やトレーニング体制に影響を与える可能性があります。一つの示唆は、将来の拡散モデルが内部で特定の制約を監視または強制するモジュールを統合する可能性があるということです。例えば、次世代モデルは、推論だけでなくトレーニングの一部として学習された損失（この分類器のような）を含むことができます。このようなモデルは、物体を誤って配置したときにペナルティを与えるチューターと共に効果的にトレーニングを行い、空間的な推論をエンドツーエンドで内面化する可能性があります。これにより、長期的にはテスト時の最適化の必要性が減少するかもしれません。その間、Learn-to-Steerのようなアプローチは多用途なツールキットを提供します：既存のモデルにレイヤーとして追加し、トレーニング後の専門化の形で使用できます。これは、一般的な事前トレーニングモデルをニッチな要件（例えば、常にレイアウト指示に従う）に安全に適応させる必要がある企業のユースケースにとって魅力的です。他のタスクにおけるモデルの整合性を損なうことなく行うことができます。

データ駆動型の損失設計に関する広範なメッセージもあります。損失関数を手作業で作成することは、モデルがどのように振る舞うべきかを推測することに他なりませんが、損失関数を学習させることで、モデル自身が何が効果的かを教えてくれます。ここでは、モデルの注意を探ることにより、研究者たちはデータ（反転画像や注意マップ）に適切な目的を明らかにさせました。この原則は、他の生成的整合性の問題にも応用できるかもしれません。例えば、属性の一貫性を確保するための「学習型の操縦」が見られるかもしれません（例：「赤い立方体」が赤く出てくること）、カウント（5つのリンゴを求めるプロンプトが5つの異なるリンゴを生成することを保証）、または複数の画像にわたるスタイルの一貫性さえも。これらはすべて、生成の特定の側面を誘導するために、モデルの内部に小さなネットワークを訓練することを伴います。

最終的に、プロンプトエンジニアリングは、このような技術のおかげでアートよりも科学に近づくかもしれません。テキストプロンプトを工夫してモデルに意図を理解させる必要がある代わりに（「『テディベアの右端にいる犬』と言えばモデルが聞いてくれるかも…」）、学習されたコントローラーに解釈を任せることができます。これにより、ユーザーは望むものを率直に指定し、システムがそれを処理することを信頼できます。マルチパートプロンプトや複雑なシーンでは、各関係や詳細を制御する能力があるため、生成モデルはより構成的なタスクに使用できます。例えば、ストーリーボードの作成、ユーザーインターフェースレイアウトの設計、科学的図表の生成など、空間的な正確さが重要なケースです。

要約すると、NVIDIAのLearn-to-Steer論文は、機械学習と実践的な問題解決の洞察に満ちたバランスを示しています。モデル自身の知識（クロスアテンションを通じて）を活用し、推論時に学習された目的を注入することで、空間要求に対する新しいレベルのプロンプト忠実性を達成します。このアプローチは計算コストのトレードオフを伴いますが、生成モデルを一から再学習せずに高度に特化した改善を可能にします。拡散モデルがAIコンテンツ作成にますます重要になる中、このようなソリューションは、画像内の物の位置といった「細かい詳細」が簡単に見落とされなくなることを保証します。学習された損失関数という形で少しの追加知能が巨大な生成モデルをさらに人間の意図に合致させる方向に導くという、説得力のある例です。今後は、このようなメカニズムをモデルのトレーニングに直接統合したり、新しい制約タイプに拡張したりすることが考えられますが、モデルが自分自身の操縦方法を学ぶことは、将来ますます見られるであろう強力なアイデアであることは明らかです。

[1] [4] [7] テキストから画像生成における推論時間最適化のためのデータ駆動型損失関数

https://learn-to-steer-paper.github.io/

[2] [3] [5] [6] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] テキストから画像生成における推論時間最適化のためのデータ駆動型損失関数