Learn-to-Steer: 텍스트-이미지 확산에서 공간 추론을 위한 NVIDIA의 데이터 기반 솔루션

저자: Boxu Li

텍스트-이미지 확산 모델은 놀라운 시각적 결과를 생성할 수 있지만, 공간 추론이라는 악명 높은 맹점이 있습니다. 오늘날의 최고의 모델들도 종종 장면에서 물체를 잘못 배치하거나 특정 레이아웃을 요구할 때 이상하게 합쳐버립니다. 예를 들어, '테디베어 오른쪽에 있는 개'와 같은 프롬프트는 모델을 혼란스럽게 할 수 있습니다. 개를 왼쪽에 두거나 개와 테디를 한데 합쳐버릴 수도 있습니다. 이는 어린 아이도 쉽게 할 수 있는 작업이지만, 확산 모델은 자주 실패합니다[1]. 문제는 비정상적인 조합에서 더욱 두드러집니다(예를 들어, 비행기 위에 서 있는 기린을 상상해 보세요)[1]. 전통적인 해결책은 특수 데이터를 사용해 모델을 미세 조정하거나 생성 시간에 수작업으로 공간 손실을 추가하는 것이지만, 두 접근법 모두 단점이 있습니다[1]. 미세 조정은 비용이 많이 드는 재교육이 필요하고 모델의 창의성이나 스타일을 변경할 위험이 있습니다. 반면에 수작업으로 만든 손실은 공간 관계에 대한 우리의 불완전한 가정을 인코딩하여 종종 최적이 아닌 결과를 초래합니다.

새로운 접근 방식인 Learn-to-Steer를 소개합니다. NVIDIA가 WACV 2026에서 발표할 예정인 이 방법은 모델 자체로부터 직접 학습하여 공간 추론 문제를 해결합니다. 객체의 위치를 하드코딩하는 대신, 데이터 기반 손실 함수를 통해 이미지 생성 중 모델이 스스로 방향을 잡도록 가르치는 것입니다. 이 블로그 게시물에서는 확산 모델에서의 공간 추론의 도전 과제와 NVIDIA의 Learn-to-Steer 방법이 어떻게 작동하는지를 탐구합니다. 교차 주의 맵과 학습된 분류기를 추론에 어떻게 활용하는지 등 그 아키텍처를 깊이 파고들고, 벤치마크에서의 정량적 향상을 검토할 것입니다. 또한 추론 시 최적화할 때의 트레이드오프(예: 계산 비용과 일반화 가능성)와 프롬프트 충실도, 멀티모달 정렬, 생성 모델 디자인의 미래에 대한 더 넓은 함의를 고려할 것입니다.

공간 추론: 확산 모델의 누락된 조각

Stable Diffusion 같은 현대적인 확산 모델은 인상적인 세부 묘사로 사진처럼 현실감 있는 장면이나 환상적인 장면을 그릴 수 있습니다. 그러나 간단한 공간 배열을 요청하면 실망할 수도 있습니다. 공간 추론 – 올바른 상대적 위치(왼쪽/오른쪽, 위/아래, 안/밖)를 이해하고 생성하는 것 – 은 여전히 걸림돌입니다. 객체 관계를 명시하는 프롬프트는 종종 요청과 일치하지 않는 이미지를 생성합니다. 예를 들어, *“책장 위의 고양이”*라는 프롬프트는 책장 옆에 있는 고양이나 초현실적인 고양이-책장 혼합체를 생성할 수 있습니다. 왜 이런 일이 발생할까요?

한 가지 이유는 확산 모델이 명확한 공간적 관계가 드문 또는 모호한 방대한 이미지-텍스트 데이터셋에서 학습하기 때문입니다. 이들은 스타일과 객체 충실도에 뛰어나지만, 훈련 데이터가 각 객체가 다른 객체에 상대적으로 어디에 나타나야 하는지를 강하게 강조하지 않을 수 있습니다. 그 결과, 모델의 내부 공간 용어(“위에”, “오른쪽에”)에 대한 표현이 약합니다. 최근 벤치마크에 따르면, 최첨단 텍스트-이미지 모델조차도 간단한 기하학적 관계를 포함하는 공간 작업에서 어려움을 겪고 있다는 것이 확인되었습니다[2]. 이러한 실패는 세 가지 주요 문제로 나타납니다: 잘못된 객체 배치, 프롬프트에 있었던 객체의 누락, 또는 두 가지를 합치려 할 때의 융합된 키메라 객체[3]. 요약하자면, 모델은 무엇을 요청했는지는 자주 알지만, 그것을 어디에 놓아야 할지는 알지 못합니다.

기존 방법들은 이 격차를 해결하려고 시도해 왔습니다. 일부 연구자들은 알려진 레이아웃이나 관계를 가진 이미지에 대해 확산 모델을 미세 조정하여 모델이 공간적으로 인식되도록 효과적으로 재훈련합니다. 다른 연구자들은 테스트 시 개입을 사용합니다. 예를 들어, 겹침을 벌하거나 객체의 올바른 순서를 보상하는 추가 손실 항목으로 생성을 유도합니다. 그러나 이러한 손실 함수를 수동으로 설계하는 것은 까다롭습니다. 이는 모델의 내부 데이터를 사용하여 '왼쪽에' 또는 '위에'를 측정하는 방법을 추측해야 하기 때문입니다. 이러한 수작업의 손실은 간단한 경우에는 작동할 수 있지만 복잡한 장면에서는 최적이 아닌 휴리스틱을 인코딩하여 실패할 수 있습니다[4]. 한편, 미세 조정은 좋은 공간 정확도를 달성할 수 있습니다(예: COMPASS 방법은 공간적으로 정렬된 데이터로 모델을 재훈련하여 달성합니다[5]) 그러나 이는 자원이 많이 소모되며, 다른 이미지 품질을 의도치 않게 악화시킬 수 있습니다(한 경우, 공간 관계에 대해 미세 조정한 후 색상 정확도와 객체 수가 악화되었습니다[6]). 전체 모델을 재훈련하거나 취약한 휴리스틱에 의존하지 않고 공간 충실도를 향상시키는 솔루션이 필요합니다.

데이터 기반 손실로 확산 조종 배우기

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

NVIDIA의 Learn-to-Steer 프레임워크는 새로운 접근 방식을 제공합니다: 규칙을 부과하는 대신 모델의 자체 신호로부터 학습합니다[7]. 핵심 통찰은 확산 모델이 생성 중에 이미 풍부한 내부 데이터를 생성한다는 것입니다 – 특히 크로스 어텐션 맵의 형태로 – 이를 통해 공간적 관계를 이해할 수 있습니다. 크로스 어텐션 맵은 확산 디노이징 프로세스의 각 단계에서 생성되며, 본질적으로 어떤 이미지 영역이 주어진 프롬프트의 단어에 주의를 기울이는지 알려줍니다[8]. 즉, 이는 텍스트 토큰(예: “개”, “테디 베어”, “오른쪽에”)과 이미지 위치 간의 다리를 형성합니다[8]. 이전 연구들은 이러한 어텐션 맵이 객체를 찾기 위해 해석될 수 있음을 발견했으며, 따라서 이를 가이드로 사용하는 것이 자연스럽습니다. 테스트 시 최적화 방법들은 종종 이러한 해석 가능성과 직접적인 텍스트-이미지 정렬 때문에 공간적 손실의 대상으로 크로스 어텐션 맵을 선택합니다[9].

**Learn-to-Steer (L2S)**는 데이터를 통해 목표 함수를 학습하여 기존의 수작업 방식 대신 이를 구축하는 아이디어를 기반으로 합니다. 여기에는 확산 모델의 교차 주의 패턴에서 공간적 관계를 인식하도록 오프라인으로 훈련된 경량 관계 분류기가 도입됩니다[7]. 추론 중에 이 분류기는 학습된 손실 함수로 작용합니다: 생성된 이미지가 프롬프트의 관계를 올바르게 반영하는지 평가하며, 그렇지 않다면 올바른 방향으로 생성 과정을 조정합니다[7]. 본질적으로 NVIDIA의 팀은 확산 모델이 자신의 주의 맵을 비판하고 이에 맞춰 실시간으로 조정하도록 가르쳤으며, 모델의 가중치를 변경하지 않았습니다.

이 관계 분류기를 훈련시키는 것은 생각보다 복잡했습니다. 간단한 접근 방식은 다음과 같습니다: 알려진 관계가 있는 이미지들(예: "개는 고양이의 왼쪽에 있다"로 주석이 달린 이미지들)을 가져와, 확산 모델의 역변환 과정을 실행하여 "개"와 "고양이"에 대한 주의 지도(attention map)를 얻고, 그런 지도들에 대해 "왼쪽에"라는 출력을 내도록 분류기를 훈련시키는 것입니다. 이것은 분명히 감독을 제공합니다. 그러나 예상치 못한 함정이 나타났습니다 – 저자들이 "관계 누출" 문제라고 부르는 것입니다[10][11]. 분류기는 주의 지도에서 관계의 언어적 흔적을 감지하여 속이기 시작했으며, 공간적 레이아웃을 진정으로 이해하기보다는 이를 이용했습니다. 어떻게 그럴 수 있을까요? 이미지에 올바른 설명 프롬프트(예: "고양이의 왼쪽에 있는 개")를 사용하여 이미지를 역변환하면 "왼쪽"이라는 단어에 관한 미묘한 단서가 모델의 내부 활성화에 인코딩될 수 있습니다. 분류기는 이러한 단서에 집착하여(효과적으로 주의 지도에서 프롬프트를 다시 읽어냄) "왼쪽에"라는 시각적 개념을 배우기보다는 이러한 단서에 의존하게 됩니다[10][12]. 그 결과: 훈련 데이터에서는 잘 수행되지만 생성 중에는 실패합니다. 왜냐하면 생성 시 프롬프트의 관계 단어는 항상 이미지와 일치하기 때문에(분류기가 프롬프트를 단순히 반향하는 경우 공간적 배열이 올바른지 여부를 구별할 수 없음).

이를 해결하기 위해 Learn-to-Steer는 기발한 이중 반전 학습 전략을 사용합니다[13][14]. 각 학습 이미지에 대해, 그들은 주의 맵의 두 가지 버전을 생성합니다: 하나는 공간적 관계를 올바르게 설명하는 긍정적 프롬프트에서, 다른 하나는 잘못된 관계를 의도적으로 사용하는 부정적 프롬프트에서 생성됩니다(예: “고양이 왼쪽에 있는 개”와 “고양이 위에 있는 개”)[15][16]. 두 세트의 주의 맵은 실제 이미지 레이아웃을 기반으로 실제 관계(이 예에서는 “왼쪽”)로 라벨링됩니다. 동일한 이미지 관계를 상충하는 텍스트 설명과 함께 보면서, 분류기는 신뢰할 수 없는 언어적 단서를 무시하고 주의 맵의 진정한 기하학적 패턴에 집중하도록 강요됩니다[14]. 이는 불변성을 학습하도록 보장합니다: 프롬프트가 “왼쪽”이라고 했든 “위”라고 했든, 분류기는 공간적 증거만으로 개가 실제로 고양이 왼쪽에 있음을 탐지해야 합니다. 이 이중 반전 접근법은 누출 문제를 중화시켜, 모델의 시각에 따른 공간 관계를 진정으로 이해하는 분류기를 제공합니다, 단순히 텍스트 프롬프트에 의존하지 않고[17].

이 분류기에 중요한 또 다른 측면은 훈련 데이터입니다. 팀은 다양한 시나리오를 포괄하기 위해 실제 이미지와 합성 이미지를 모두 활용했습니다[18]. 실제 이미지는 (GQA라는 데이터셋에서 가져온) 자연스러운 복잡성과 다양한 객체 배열을 제공하지만, 장면이 복잡할 때 주의 맵이 혼란스러울 수 있습니다[18]. 합성 이미지는 (Image-Generation-CoT 방법을 사용하여) 통제된 방식으로 생성되어, 확산 생성 동안 접하게 되는 것과 유사한 명확한 주의 패턴을 가진 단순한 장면을 제공합니다[18]. 실제 및 합성 데이터를 혼합함으로써 분류기는 현실성과 명확성을 모두 얻을 수 있습니다. 소거 연구는 두 데이터 소스를 모두 사용하는 것이 어느 하나만 사용하는 것보다 더 나은 정확도를 제공한다는 것을 확인했습니다[19].

학습된 손실 함수로 추론 시간 조정하기

관계 분류기가 학습되면, Learn-to-Steer는 이를 확산 과정에 연결하여 이미지가 생성될 때 조정합니다. 이는 추론(생성 시간) 중에 발생하며, 확산 모델의 가중치를 변경할 필요가 없습니다. 작동 방식은 다음과 같습니다:

공간적 관계(예: "곰인형 오른쪽의 개")가 포함된 텍스트 프롬프트가 주어지면, 시스템은 먼저 프롬프트를 분석하여 주제, 객체, 관계를 식별합니다(이 경우, 주제: 개, 관계: 오른쪽의, 객체: 곰인형)[20]. 확산 모델이 무작위 잠재 노이즈를 이미지로 디노이즈하기 시작하면, Learn-to-Steer가 특정 시간 단계에서 개입합니다. 선택한 빈도(예: 확산 과정의 첫 절반 동안 각 단계 또는 몇 단계마다)로 두 객체에 해당하는 교차 주의 맵을 추출합니다[20]. 이는 기본적으로 각 객체가 나타나고 있는 이미지에서의 위치에 대한 모델의 현재 "신념"입니다. 추출된 주의 맵은 훈련된 관계 분류기에 입력되어 가능한 관계(왼쪽, 오른쪽, 위, 아래 등)에 대한 확률 분포를 생성합니다[20][21]. 프롬프트에서 원하는 관계를 알고 있기 때문에, 시스템은 손실을 계산할 수 있습니다. 예를 들어, 올바른 관계에 대해 분류기가 자신감이 없을 경우 교차 엔트로피 손실로 이를 벌할 수 있습니다[20][22].

이제 조정 단계가 옵니다: 이 손실의 기울기는 해당 시점의 확산 모델의 잠재 표현(진행 중인 노이즈 이미지)에 역전파됩니다[23]. 실질적으로 이것은 분류기에 따라 올바른 관계의 확률을 높이는 방향으로 잠재 변수를 살짝 움직이는 것을 의미합니다. 직관적으로, 만약 분류기가 현재 부분 이미지에서 개가 곰인형의 오른쪽에 충분히 위치하지 않았다고 생각한다면, 기울기는 개의 특징을 오른쪽(또는 곰인형의 왼쪽)으로 이동시키는 방식으로 잠재 변수를 조정할 것입니다. 그런 다음 이 약간 조정된 잠재 변수와 노이즈로 확산 과정이 계속됩니다. 이러한 유도된 업데이트를 반복적으로 적용함으로써 생성은 각 객체를 어디에 그릴지 명시적으로 모델에 지시하지 않고도 공간적 지시에 맞는 이미지로 "조정"됩니다. 마치 모델이 그림을 그리는 동안 코치가 속삭이는 것처럼: "개를 조금 더 오른쪽으로 움직여."

Learn-to-Steer의 흥미로운 점은 다양한 확산 아키텍처에서 작동한다는 것입니다. 저자들은 Stable Diffusion(인기 있는 UNet 기반 모델)과 Flux(MMDiT 기반 확산 모델) 모두에서 최소한의 변경으로 이를 시연했습니다[24]. 이 접근법은 일반적인 신호(주의 맵)와 별도의 분류기에 의존하기 때문에 아키텍처에 구애받지 않습니다. 이는 미래의 텍스트-이미지 모델이나 대안 모델도 해당 모델의 주의 출력에 대해 새로운 분류기를 훈련함으로써 동일한 조정 메커니즘에 "플러그인" 될 수 있음을 의미합니다. 또한, 시스템은 단일 객체 쌍 관계로 훈련되었지만 여러 관계를 연결하는 프롬프트도 처리할 수 있습니다. 예를 들어, "주전자 아래에 스니커가 있고 그 위에 개구리가 있는"이라는 프롬프트를 고려해보세요. 이는 세 개의 객체가 관련된 두 가지 관계("개구리가 스니커 위에 있음"과 "스니커가 주전자 아래에 있음")를 포함합니다. Learn-to-Steer는 다른 시간 단계에서 관계 간 최적화 초점을 교차하며 이러한 사례를 해결합니다[25][26]. 이는 한 단계에서는 개구리-스니커 관계의 잠재를 최적화하고, 다음 단계에서는 스니커-주전자 관계의 잠재를 최적화하는 방식으로 순환적으로 진행됩니다. 이 전략을 사용하여 여러 공간 제약을 단일 이미지에서 강제할 수 있었으며, 이는 정적 손실 함수나 단순한 프롬프트로는 종종 달성할 수 없는 것입니다. (실제로 저자들은 "주전자 아래에 스니커가 있고 그 위에 개구리가 있는"과 같이 간단한 체인 방식으로 다중 관계 프롬프트를 표현하는 것이 접속사가 포함된 장황한 문장보다 더 나은 결과를 낸다고 발견했습니다[27].)

공간 벤치마크에서의 양적 향상

Learn-to-Steer가 생성된 이미지의 공간 이해를 얼마나 개선할까요? 이 논문은 공간 관계에 대한 표준 텍스트-이미지 평가 벤치마크에서 정확도의 상당한 도약을 보고합니다. 두 가지 벤치마크가 사용됩니다: GenEval(생성된 이미지가 주어진 관계 프롬프트를 만족하는지 확인)과 T2I-CompBench(텍스트-이미지 구성 벤치마크, 공간 배열에 대한 또 다른 테스트). 팀은 두 가지 Flux 변형과 Stable Diffusion 2.1 및 1.4를 포함한 네 가지 다른 확산 모델을 평가하여 기본 생성과 다양한 방법을 비교했습니다. 결과는 명확합니다: 학습된 조정 목표는 비유도 모델과 이전 방법을 큰 차이로 능가합니다[28]. 몇 가지 하이라이트:

Stable Diffusion 2.1 (SD2.1): Learn-to-Steer를 사용했을 때 GenEval에서 공간 정확도가 0.07 (7%)에서 0.54로 상승했습니다[29]. 즉, 공간 작업에 거의 작동하지 않았던 모델이 절반 이상 정확하게 수행할 수 있게 변했습니다[29]. T2I-CompBench 지표에서도 SD2.1은 0.089에서 0.365로 상승하며 유사한 큰 개선을 보였습니다[29].
Flux 1.0-dev (MMDiT 기반): Learn-to-Steer를 사용했을 때 GenEval에서 정확도가 0.20에서 0.61로 상승했으며, 관련 지표도 0.177에서 0.392로 상승했습니다[30]. 이는 공간 입력에 대해 신뢰할 수 있는 정확성을 제공하는 모델로 변했습니다.
수작업 손실을 능가: 수작업으로 설계된 손실에 의존하는 경쟁 테스트 시간 방법은 전반적으로 낮은 점수를 기록했습니다. 예를 들어, STORM이라는 이전 접근 방식은 SD2.1 GenEval에서 0.19에 불과했지만 Learn-to-Steer는 같은 테스트에서 0.54를 기록했습니다[31]. 또 다른 기준선인 FOR (Fast Optimizer for Restoration) 및 그 공간 변형은 SD2.1에서 약 0.26–0.35에 도달했지만 여전히 L2S의 성능에 미치지 못했습니다[32]. 이러한 격차는 데이터 기반 학습된 손실이 인간이 인코딩한 추측 손실보다 더 효과적임을 보여줍니다.
미세 조정 모델과의 매칭: 특히 인상적인 점은 학습된 조정이 공간 관계에 대해 명시적으로 미세 조정된 모델의 정확도와 거의 일치하거나 이를 초과한다는 것입니다. COMPASS 방법(공간적으로 인지된 데이터와 특별한 토큰 순서를 사용하여 확산 모델을 재훈련함)은 Flux의 벤치마크에서 0.60을 달성했습니다[33]. Learn-to-Steer는 모델을 재훈련하지 않고도 0.61을 기록하여 사실상 동등한 수준을 보였습니다[33]. 이는 테스트 시간 최적화가 이전에는 무거운 모델 훈련이 요구되었던 최신 상태의 충실도를 달성할 수 있음을 보여줍니다. 게다가 기본 모델의 다른 기능을 유지하면서 이를 달성했습니다 (COMPASS는 대조적으로 공간 기술을 향상시켰지만 부작용으로 색상 및 카운팅 정확도가 떨어졌습니다[34]).
다중 관계 일반화: 관계 분류기가 단일 관계에서만 훈련되었음에도 불구하고, Learn-to-Steer는 여러 동시 관계가 있는 프롬프트를 처리할 수 있는 능력을 보여주었습니다. 3-5개의 객체와 최대 세 개의 관계가 있는 프롬프트로 진행된 스트레스 테스트에서 기본 모델은 거의 항상 실패했습니다 (거의 0% 성공)[35][36]. L2S를 활성화하면 모델은 상당한 증가를 보였으며, 예를 들어 세 개의 객체 중 두 개의 관계가 있는 프롬프트에서 약 28%의 정확도를 기록했고, 네 개 또는 다섯 개의 객체 중 세 개의 관계가 있는 매우 복잡한 경우에서는 약 10-12%의 정확도를 보였습니다[37][38]. 이러한 수치는 절대적인 면에서는 높지 않지만, 보조 없는 모델의 거의 제로와 비교하면 수십 배 나은 성능을 나타내며, 이 방법이 어느 정도 여러 학습된 목표를 구성할 수 있음을 나타냅니다. 중요한 것은, 더 많은 관계가 추가될 때 성능이 급격히 떨어지기보다는 점진적으로 저하된다는 점입니다 – 이는 각 관계가 접근 방식에 의해 어느 정도 독립적으로 처리될 수 있음을 암시합니다[39]. 이러한 구성적 일반화는 미래의 더 복잡한 장면 설명을 해결하는 데 유망한 신호입니다.

동일하게 중요한 것은 질적 결과입니다. 논문의 예제는 Learn-to-Steer를 사용하면 생성된 이미지가 프롬프트의 공간적 지시를 충실히 반영하면서도 높은 이미지 품질을 유지한다는 것을 보여줍니다[40]. 일반적인 확산 방식이나 다른 방법들이 객체를 잘못 배치하거나 일부 엔티티를 생략하는 시나리오에서, L2S는 객체가 정확하게 배치되고 모두 존재하는 이미지를 생성합니다. 또한 비정상적인 요청도 우아하게 처리합니다 – 예를 들어, "칫솔 아래에 버스를" 또는 "서핑보드 아래에 코끼리를" 올바른 공간 순서로 렌더링할 수 있으며, 다른 방법들이 생성하는 기괴한 병합 현상 없이 가능합니다[41]. NVIDIA 팀은 그들의 방법이 세 가지 일반적인 실패 모드를 극복한다고 지적합니다: 객체의 잘못된 배치를 수정하고, 엔티티 무시를 방지하며(프롬프트의 모든 객체가 이미지에 나타남), 객체 융합을 피합니다(모델이 두 항목을 혼동하여 초현실적인 혼종을 생성하지 않음)[3]. 나란히 비교했을 때, 다른 기준선들은 장면에서 꽃병이나 얼룩말을 생략하거나 얽히게 할 수 있지만, Learn-to-Steer의 출력은 모든 적절한 요소를 올바른 구성으로 포함합니다[3]. 프롬프트 충실도의 이 향상 – 요청한 것을 정확히, 요청한 위치에 얻는 것 – 은 생성 AI 출력의 신뢰성에 큰 진전을 의미합니다.

추론 시간 최적화: 비용과 거래

Learn-to-Steer의 추론 시 최적화 접근 방식은 장점과 고려 사항을 모두 제공합니다. 우선, 테스트 시간 최적화는 모델의 가중치를 변경하거나 공간 작업을 위해 비용이 많이 드는 미세 조정을 수행할 필요가 없다는 의미입니다[42]. 동일한 사전 학습된 모델을 필요할 때만 유연하게 '조정'할 수 있어, 공간 제어가 필요하지 않을 때는 원래의 다재다능함을 유지합니다[34]. 이는 공간 관계에 과적합되어 다른 기술(예: 색상 정확도나 세기)을 희생할 수 있는 미세 조정된 모델에서 보이는 거래를 피합니다[34]. NVIDIA의 접근 방식에서는 프롬프트가 공간 관계를 지정하지 않으면, 추가 오버헤드 없이 단순히 확산 모델을 정상적으로 실행하여 원래의 속도와 출력 특성을 유지할 수 있습니다. 조정은 프롬프트가 요구할 때만 활성화됩니다[43].

하지만, 반면에 이 추론 시 손실을 호출할 때는 계산 비용이 발생합니다. 이 과정은 생성 중에 분류기를 실행하고 기울기를 역전파해야 하므로 이미지 합성을 상당히 느리게 할 수 있습니다. 저자들은 얼마나 더 느려지는지를 측정했습니다: 작은 Flux 1.0-schnell 모델의 경우, 생성 시간이 이미지당 약 0.5초에서 Learn-to-Steer를 사용하면서 약 16.5초로 늘어났습니다 – 대략 33배 느려졌습니다[44]. 더 큰 Flux 1.0-dev의 경우, 11초가 6분이 되었습니다 (약 33배 느려짐). 그들의 하드웨어에서 보통 한 이미지당 약 4.5초가 걸리는 Stable Diffusion 2.1은 조정과 함께 약 90초로 늘어났습니다 (약 20배 느려짐)[44]. SD1.4도 비슷한 증가를 보였습니다 (4.5초에서 약 80초로)[44]. 이는 무시할 수 없는 오버헤드입니다. 속도와 확장성이 중요한 시나리오 (예: 고처리량 이미지 생성이나 실시간 애플리케이션)에서는, 모든 이미지를 테스트 시간 최적화하는 것이 비현실적일 수 있습니다.

이를 완화하는 몇 가지 방법이 있습니다. 하나는 최적화가 적용되는 시기와 방법을 제한하는 것입니다. Learn-to-Steer는 구현에서 확산 단계의 전반부에만 최적화를 적용하며, 이는 이미지의 방향을 설정하는 데 충분함을 발견했습니다[23]. 또한, 선택적으로 사용할 수 있습니다: AI 이미지 서비스는 일반적으로 이미지를 생성하고, 결과가 공간적으로 어긋나 보이거나 사용자가 명시적으로 엄격한 공간 배치를 요청할 경우에만 L2S를 활성화하여 두 번째 패스를 실행할 수 있습니다. 또 다른 접근법은 효율성을 향상시키는 것입니다: 관계 분류기가 상당히 작고 몇 개의 어텐션 맵만 관여하므로, 오버헤드는 주로 대형 확산 모델을 여러 단계에 걸쳐 역전파하는 데서 발생합니다. 향후 연구에서는 더 나은 최적화 도구나 부분 업데이트를 통해 이를 가속화할 수 있는 방법을 탐구할 수 있습니다. 그럼에도 불구하고 현재 이 방법은 속도보다 정확성이 더 중요한 경우에 가장 적합합니다 – 예를 들어, 설계를 위한 정밀한 다이어그램이나 장면 생성, 또는 품질이 양보다 중요한 상대적으로 작은 이미지 배치 처리에 적합합니다.

Generality and robustness are another aspect of trade-offs. The Learn-to-Steer framework proved surprisingly general across model architectures (UNet vs MMDiT)[24], which suggests it could be applicable to other diffusion models or future systems with minimal adaptation. The requirement is that one can extract cross-attention or a similar alignment signal from the model. It also shows robustness in handling multiple relations and never-before-seen object combinations by virtue of how it was trained (focusing on generic attention patterns). However, it’s worth noting some limitations. The paper’s analysis points out that what counts as “above” or “below” is judged in 2D – by the image’s pixels and attention – which might not always align with true 3D spatial understanding[45]. For instance, if an object is in front of another in 3D space, from a certain camera angle it might appear below the other in the 2D image, confusing the spatial relation. Learn-to-Steer doesn’t explicitly model depth or real-world size relationships; it purely learns from visual attention overlays. So in complex scenes with perspective, it might enforce a relation that makes sense in the 2D projection but not in a truly physical sense [45]. Moreover, while the method can handle up to three relations, its accuracy drops as scenes get very crowded[46]. Generating a perfect scene with, say, five objects, all relative to each other is still an open challenge – sometimes the method succeeds, other times not[37]. These limitations highlight that there is room to improve, possibly by incorporating more sophisticated reasoning or multi-step planning for complex prompts.

더 넓은 의미: 프롬프트 충실도와 미래 모델 설계

공간 충실도를 극적으로 향상시킴으로써, NVIDIA의 Learn-to-Steer는 더 신뢰할 수 있는 멀티모달 시스템을 향한 중요한 단계로 자리잡았습니다. 예술가, 디자이너, 또는 기업 개발자 등 사용자들에게 있어, 공간 지시를 실제로 준수하는 텍스트-이미지 모델은 덜한 좌절감과 수동 수정의 감소를 의미합니다. 이는 *“당신이 요청한 것이 당신이 얻는 것”*에 한 걸음 더 다가가게 합니다. 이 충실도는 단순히 보기 좋은 그림에 관한 것이 아니라, 사용자의 의도를 제어 가능한 방식으로 AI의 출력에 맞추는 것에 관한 것입니다. 한편으로, 멀티모달 정렬을 향상시킵니다: 언어로 설명된 관계(텍스트 모달리티)가 시각적 모달리티(생성된 이미지)에 보다 충실하게 반영됩니다[3]. 공간 추론에 대한 향상된 정렬은 프롬프트의 다른 측면에도 영향을 미칠 수 있습니다. 이 접근 방식은 특정 실패 모드(예: 객체 배치)를 목표로 하면서도 다른 요소들(예: 색상, 수량, 전반적 일관성)을 망치지 않고도 가능함을 보여줍니다[34]. 이는 대형 생성 모델에 도메인별 “상식”을 사후에 주입할 수 있음을 보여주는 시연으로서, 단일 거대 모델이 처음부터 모든 것을 올바르게 하기를 바라는 대신입니다.

교차 주의 맵을 교육 신호로 사용하는 성공은 미래 모델 설계와 훈련 체계에 영향을 미칠 수 있습니다. 한 가지 암시는 미래의 확산 모델이 내부적으로 특정 제약을 모니터링하거나 강제하는 모듈을 통합할 수 있다는 것입니다. 예를 들어, 차세대 모델은 훈련의 일부로 학습된 손실(이 분류기와 같은)을 포함할 수 있으며, 단순한 추론이 아닙니다. 이러한 모델은 객체를 잘못 배열할 때마다 벌점을 주는 튜터와 함께 효과적으로 훈련되어, 공간적 추론을 처음부터 끝까지 내재화할 수 있습니다. 이는 장기적으로 테스트 시 최적화의 필요성을 줄일 수 있습니다. 그 사이에 Learn-to-Steer와 같은 접근법은 다용도의 도구 세트를 제공합니다: 이는 훈련 후 전문화의 형태로 기존 모델 위에 레이어링될 수 있습니다. 이는 일반적으로 사전 훈련된 모델을 받아 안전하게 틈새 요구 사항(예: 항상 레이아웃 지침 준수)을 충족하도록 적응시키는 엔터프라이즈 사용 사례에 매력적입니다. 이렇게 하면서도 다른 작업에서 모델의 무결성을 위험에 빠뜨리지 않습니다.

또한 데이터 기반 손실 설계에 대한 넓은 메시지도 있습니다. 손실 함수를 수작업으로 설계하는 것은 본질적으로 모델이 어떻게 동작해야 하는지를 추측하는 것이지만, 손실 함수를 학습하는 것은 모델이 무엇이 효과적인지를 알려주도록 합니다. 여기서 연구자들은 모델의 자체 주의를 탐색함으로써 데이터 (반전된 이미지와 주의 맵)가 올바른 목표를 드러내도록 했습니다. 이 원칙은 다른 생성적 정렬 문제에 적용될 수 있습니다. 우리는 속성 일관성을 보장하기 위한 유사한 “학습된 조정”을 볼 수 있을지도 모릅니다 (예: “빨간 큐브”가 빨간색으로 나오는 것을 보장), 개수 세기 (다섯 개의 사과에 대한 프롬프트가 다섯 개의 구별되는 사과를 생성함을 보장) 또는 여러 이미지 간의 스타일 일관성 등에 대해서도 말입니다. 각각은 모델의 내부 요소를 훈련시켜 특정 생성 측면을 안내하는 작은 네트워크를 포함할 것입니다.

마침내, 이러한 기술 덕분에 프롬프트 엔지니어링이 더 이상 예술이 아닌 과학이 될 수 있습니다. 텍스트 프롬프트를 왜곡하여 모델이 우리가 의도한 대로 작동하게 하려는 대신(“'테디베어의 오른쪽 끝에 있는 개'라고 말하면 들어줄지도…”), 학습된 컨트롤러를 사용하여 해석을 강제할 수 있습니다. 이를 통해 사용자는 원하는 것을 간단한 용어로 지정하고 시스템이 나머지를 처리할 것을 신뢰할 수 있습니다. 여러 부분으로 구성된 프롬프트나 복잡한 장면에서는 각 관계나 세부사항을 유지할 수 있는 능력이 있어 생성 모델을 더 구성적인 작업에 사용할 수 있습니다. 예를 들어 스토리보드 작성, 사용자 인터페이스 레이아웃 디자인, 과학적 다이어그램 생성 등 공간적 정확성이 중요한 작업에 활용할 수 있습니다.

요약하자면, NVIDIA의 Learn-to-Steer 논문은 기계 학습과 실질적인 문제 해결의 통찰력 있는 균형을 보여줍니다. 모델 자체의 지식(교차 주의를 통해)을 활용하고 추론 시 학습된 목표를 주입함으로써 공간 요청에 대한 새로운 수준의 프롬프트 충실도를 달성합니다. 이 접근 방식은 계산 비용에 있어서 대가가 따르지만, 생성 모델을 처음부터 재훈련하지 않고도 매우 목표 지향적인 개선을 가능하게 합니다. 확산 모델이 AI 콘텐츠 생성에서 점점 더 중심적 역할을 하게 되면서, 이와 같은 솔루션은 이미지 내의 사소한 세부 사항이 쉽게 간과되지 않도록 보장합니다. 학습된 손실 함수를 통해 약간의 추가적인 지능이 거대한 생성 모델을 인간의 의도와 더욱 맞춰주는 설득력 있는 사례입니다. 앞으로 이러한 메커니즘을 모델 훈련에 직접 통합하거나 새로운 유형의 제약으로 확장하는 일이 포함될 수 있지만, 모델이 스스로 방향을 배우게 하는 것은 미래에 훨씬 더 많이 보게 될 강력한 아이디어라는 것은 분명합니다.

[1] [4] [7] 텍스트-이미지 생성의 추론 시 최적화를 위한 데이터 기반 손실 함수

https://learn-to-steer-paper.github.io/

[2] [3] [5] [6] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] 텍스트-이미지 생성에서 추론 시간 최적화를 위한 데이터 기반 손실 함수