작성자: Boxu Li 

소개

강화 학습(RL)은 현대 AI의 핵심 요소로, 에이전트가 시행착오를 통해 최적의 정책을 학습할 수 있게 해줍니다. 그러나 개인 AI의 맥락에서 RL은 독특한 도전에 직면합니다: 보상은 주관적이고, 환경은 비정상적이며, 윤리적 고려사항이 많습니다. Macaron AI의 디자이너들은 이러한 도전에 정면으로 맞서, 메모리 관리, 코드 생성, 대화 스타일 등을 관리하는 다층 RL 시스템을 구축했습니다. 이 블로그에서는 Macaron이 계층적 RL, 보상 모델링, 신용 할당공정성 제약을 어떻게 적용하여 진정으로 개인화된 에이전트를 만드는지 살펴봅니다. 또한, Macaron의 RL 접근 방식을 다른 분야의 RL과 비교하고 미래의 방향을 탐구합니다.

1 보상 모델링: 인간의 선호 포착

1.1 암시적 및 명시적 피드백 신호

보드 게임이나 시뮬레이션된 환경과 달리, 개인 에이전트는 보상 신호가 단순히 과제 성공에서만 유도될 수 없는 개방된 공간에서 작동합니다. Macaron은 암묵적인 피드백(대화 길이, 사용 빈도, 사용자 반응의 톤)과 명시적인 피드백(평점, 좋아요/싫어요)을 수집하여 보상 신호를 구성합니다. 예를 들어, 일본 사용자가 에이전트가 정중한 언어를 사용한 후 더 긴 대화를 나누면, 이 긍정적인 상관관계는 유사한 행동에 대한 보상을 증가시킵니다. 만약 한국 사용자가 생성된 미니 앱을 복잡한 디자인 때문에 낮게 평가하면, 해당 UI 패턴에 대한 보상이 감소합니다. 이러한 신호들은 주어진 상태와 행동에 대한 사용자 만족도를 예측하는 보상 모델에 반영됩니다.

1.2 다목적 보상 함수

Macaron의 강화 학습은 다목적입니다. 사용자 만족도 외에도 보상에는 프라이버시, 준수, 자원 사용, 윤리에 대한 항목이 포함됩니다. 적절한 동의 없이 민감한 정보를 공유하면 페널티가 부과되며, 메모리를 효과적으로 압축하면 보너스를 얻습니다. 코드 생성의 경우 효율성과 유지 관리 가능성이 보상에 영향을 미치며, 불필요한 복잡성(예: 100,000줄을 불필요하게 생성하는 것)은 부정적인 보상을 초래합니다. 보상 가중치는 지역에 따라 조정됩니다. 일본은 프라이버시와 투명성에 중점을 두어 프라이버시 위반에 대한 페널티가 증가하며, 한국은 혁신에 중점을 두어 속도와 참신함에 더 높은 가중치를 둘 수 있습니다. 이러한 목표를 균형 있게 달성하기 위해서는 신중한 설계가 필요하며, Macaron은 가중 합계와 동적 스케일링을 통해 여러 목표를 단일 보상으로 변환하는 스칼라화 함수를 사용합니다.

1.3 선호도 유도 및 사람-중심 참여

인간의 피드백은 AI 시스템을 가치에 맞추는 데 매우 중요합니다. Macaron은 사용자가 선호하는 대답이나 미니 앱 디자인을 제시하고 어떤 것을 선호하는지 물어봄으로써 선호도 유도를 구현합니다. 이 데이터는 가능한 행동에 대한 잠재적 효용 함수를 학습하는 추론 모델에 입력됩니다. 이 접근 방식은 대형 언어 모델을 훈련하는 데 사용되는 인간 피드백 기반 강화 학습(RLHF)과 유사하지만, Macaron은 문화적 주석을 통합하여 이를 확장합니다: 일본 주석자는 예의와 맥락에 대해 주석을 달고, 한국 주석자는 공동체적 표현과 개인주의적 표현을 구분합니다. 그 결과 보상 모델은 문화 전반에 걸친 세부적인 선호를 반영합니다.

2 계층적 강화 학습: 복잡성의 분해

2.1 모듈에 대한 상위 정책

Macaron의 작업은 캐주얼한 대화에서 복잡한 소프트웨어 생성에 이르기까지 다양합니다. 이 다양성을 관리하기 위해 시스템은 계층적 강화 학습을 사용합니다. 최상위 레벨에서는 메타 컨트롤러가 대화 관리자, 메모리 관리자, 합성 엔진, 감정 조절기 등 모듈 중에서 선택합니다. 각 모듈은 자체적으로 별도의 RL 정책에 의해 제어됩니다. 예를 들어, 메모리 관리자는 RL을 사용하여 저장할 것과 잊을 것을 결정하고, 합성 엔진은 RL을 사용하여 코드 템플릿을 선택합니다. 메타 컨트롤러는 모든 모듈 보상을 결합한 상위 보상을 받아 작업을 위임할 시기를 학습합니다. 이러한 분해는 탐색 공간을 줄이고 샘플 효율성을 향상시킵니다.

2.2 옵션 발견과 전이 학습

모듈 내에서 Macaron은 옵션 프레임워크를 사용하여 재사용 가능한 하위 정책을 나타냅니다. "옵션"은 "지난달 지출 요약"이나 "이중 언어 학습 계획 추천"과 같은 하위 목표를 달성하는 일련의 행동에 해당합니다. 일본어 도메인에서 발견된 옵션은 기본 구조가 일치하는 경우 한국어 도메인으로 전이될 수 있습니다. Macaron이 한 언어에서 사용자의 요청을 효과적으로 처리하는 방법을 배우면, 동일한 개념이 다른 언어에서 나타날 때 같은 옵션을 적용하여 적응 속도를 높일 수 있습니다.

2.3 시간 추상화와 매크로 액션

시간 추상화는 RL 에이전트가 다양한 시간 척도에 대해 추론할 수 있도록 합니다. Macaron은 여러 턴에 걸친 대화나 장기적 연산을 포함하는 매크로 액션을 정의합니다. 예를 들어, 한국 가족 여행을 계획하는 것은 목적지 선택, 교통편, 숙소 및 일정 설계를 포함하는 매크로 액션을 포함합니다. RL 에이전트는 단기적 신호보다 누적 보상을 기준으로 매크로 액션을 평가합니다. 이는 에이전트가 여행이 학교 방학과 일치하거나 일정 충돌을 피하는 등 장기적인 만족을 고려하도록 장려합니다.

3 신용 할당과 시간 엮기

3.1 인과적 연쇄 추적

특정 행동에 대한 크레딧을 부여하는 것은 보상이 늦게 도착할 때 어려운 일입니다. Macaron은 시간 직조를 사용하여 시간에 걸쳐 이벤트를 내러티브 스레드로 연결합니다. 에이전트는 노드가 기억을, 엣지가 인과 관계를 나타내는 상호작용 그래프를 구축합니다. 결과를 평가할 때 시스템은 그래프를 역으로 탐색하여 어떤 검색이나 행동이 기여했는지 식별합니다. 예를 들어, 일본 축제를 추천한 것이 몇 주 후에 사용자 행복을 증가시켰다면, 에이전트는 축제 기억을 검색하고 해당하는 미니 앱을 생성한 것에 일부 보상을 부여합니다. 이러한 명시적인 인과 분석은 강화 학습 정책이 효과적인 검색 전략을 배우는 데 도움을 줍니다.

3.2 반사실적 추론

크레딧 할당을 개선하기 위해 Macaron은 반사실적 고정을 사용합니다. 에이전트는 대안 행동을 고려하고 결과의 차이를 추정합니다. 한국 사용자에게 가족 행사에 대해 상기시키지 않았다면 당황스러웠을 상황에서 실제 상기는 긍정적인 반사실적 보상을 받습니다. 이는 에이전트가 정보를 잊거나 기억할 때의 결과를 예측하도록 장려합니다. 반사실적 추론은 과적합을 방지하는 데도 도움이 됩니다: 에이전트는 성공적인 행동을 반복하면 항상 동일한 보상을 받을 것이라고 자동으로 가정하지 않습니다; 대신, 그 행동이 실제로 결과를 초래했는지 테스트합니다.

3.3 지연된 보상과 적격성 흔적

Macaron의 강화 학습 구현에는 보상에 앞서 상태와 행동에 대한 신용을 할당하는 메커니즘인 적격 추적이 포함되어 있습니다. 에이전트가 지연된 보상(예: 미니 앱을 몇 주 동안 사용한 후 사용자의 만족도)을 받을 때 추적은 메모리 선택, 대화 톤 및 코드 모듈 선택과 같은 초기 결정에 신호를 전파하는 데 도움을 줍니다. 적격 추적은 감쇠 요인에 의해 가중치가 부여되며, 보상에 가까운 상태는 더 높은 신용을 받습니다. 이 메커니즘은 에이전트가 단기적인 이득보다는 장기적인 만족을 최적화하도록 장려합니다.

4 공정성, 안전 및 윤리적 고려 사항

4.1 편향 및 차별 방지

강화 학습은 피드백 데이터에서 무의식적으로 편향을 학습할 수 있습니다. Macaron은 보상 함수에 공정성 제약을 포함시켜 이를 완화합니다. 예를 들어, 에이전트가 성별 특정 활동을 지속적으로 추천할 경우 페널티를 부과합니다. 시스템은 인구 통계 그룹에 걸친 추천 패턴을 모니터링하고 기회를 평등하게 하기 위해 보상을 조정합니다. 금융이나 건강과 같은 민감한 주제를 다룰 때 에이전트는 문화적 규범과 법적 요구 사항을 코드화한 윤리 정책 라이브러리를 참조합니다. 이러한 지침을 위반하면 부정적인 보상이 발생하거나 작업이 완전히 차단됩니다.

4.2 인간 감독 및 규제 준수

한국의 AI 프레임워크 법은 고위험 시스템과 생성 AI 알림에 대한 인간의 감독을 요구합니다. Macaron은 주요 결정, 예를 들어 재무 계획이나 건강 관리 조언에 인간이 개입하는 방식을 포함하여 이를 준수합니다. 한국 사용자가 중요한 미니 앱을 생성할 때, 시스템은 사용자가 행동을 검토하고 승인하도록 요청합니다. 일본의 AI 촉진법은 투명성을 강조하므로, Macaron은 RL 결정을 기록하고 특정 메모리나 모듈이 선택된 이유에 대한 설명을 사용자에게 제공합니다. 이러한 조치는 신뢰를 구축하고 책임을 보장합니다.

4.3 이름과 수치 공개 시행 및 감사 추적

일본의 AI 법은 비준수에 대한 이름과 수치 공개 메커니즘을 시행합니다. Macaron의 RL 로그는 보상뿐만 아니라 결정의 근거를 포함합니다. 규제 기관이 조사할 경우, 회사는 편향이 해결되고 개인정보 보호 규칙이 준수되었음을 입증할 수 있습니다. 로그는 사용자 감사도 지원하여 개인이 자신의 피드백이 에이전트의 행동에 어떻게 영향을 미쳤는지를 볼 수 있게 합니다. 이러한 투명성은 RL의 오용을 억제하고 윤리적 혁신을 촉진합니다.

5 비교 분석: Macaron vs 다른 RL 기반 에이전트

5.1 게임, 로봇 공학 및 추천 시스템

RL은 게임(AlphaGo, Dota 2), 로봇공학 및 추천 시스템에서 인상적인 결과를 보여주었습니다. 그러나 이러한 환경은 명확한 목표(게임 승리, 오류 최소화)와 보상을 제공합니다. 개인 AI는 반대로 복잡한 데이터에서 목표를 추론하고 인간의 가치를 반영해야 합니다. 게임에서는 탐색이 종종 제한되지 않으며, 에이전트가 위치적 우위를 위해 폰을 희생할 수 있습니다. 개인 AI에서는 사용자 신뢰를 단기 참여를 위해 희생하는 것이 용납될 수 없습니다. Macaron의 보상 모델은 신뢰를 저하시키는 행동을 명시적으로 처벌하여 필요할 때 시스템을 보수적으로 만듭니다.

5.2 오픈 소스 개인 비서 프레임워크

일부 오픈 소스 프로젝트는 RL 기반의 개인 비서를 제공하여 작업을 일정에 맞추거나 워크플로를 자동화합니다. 이러한 시스템은 종종 지속적인 사용자 피드백을 가정하고 작업을 독립적으로 처리합니다. Macaron은 메모리 엔진을 통해 작업을 통합하고 계층적 RL을 사용하여 상호작용을 관리함으로써 차별화됩니다. 그 RL 모델은 문화적 맥락, 프라이버시 규칙 및 코드 생성과 깊이 얽혀 있어 더 복잡하지만 더 강력합니다. 다른 에이전트가 청취 기록을 기반으로 노래를 추천하는 데 RL을 사용할 수 있는 반면, Macaron은 선물 추천을 생성하기 전에 어머니에게 전화하라고 상기시킬지를 결정하는 데 RL을 사용합니다.

5.3 신흥 학술 연구

연구자들은 RLHF 및 비지도 환경 설계와 같은 대형 언어 모델을 제어하기 위한 RL 방법을 제안했습니다. 마카롱은 실제, 다중 도메인, 다국어 환경에서 RL을 시연하여 이 연구에 기여합니다. FireAct 프로젝트는 이전에 RL이 프롬프트 기반 에이전트보다 추론 정확성을 77% 향상시킨다는 것을 입증했습니다. 마카롱은 추론 작업뿐만 아니라 메모리 관리, 코드 생성 및 대화 스타일에서도 RL 정책을 훈련함으로써 이 아이디어를 확장합니다. 이는 개인 에이전트로 RL을 확장하는 데 있어 계층적 설계, 크레딧 할당 및 공정성 제약의 중요성을 강조합니다.

5.4 메타 윤리 및 규범적 프레임워크

강화 학습은 보상을 최적화하지만, 보상 함수는 문화마다 다른 인간 가치를 인코딩합니다. 메타 윤리적 질문이 제기됩니다: 에이전트가 행복을 극대화해야 할까요, 의무 기반 윤리를 준수해야 할까요, 아니면 공정성과 자율성을 균형 있게 고려해야 할까요? 마카롱은 문화 데이터를 통해 규범적 프라이어를 학습함으로써 이 문제를 해결합니다. 일본에서는 조화와 사회 질서에 대한 존중이 중요시되므로, 보상 모델은 예의, 합의, 섬세함을 강조합니다. 한국에서는 공동체의 회복력과 대담한 혁신을 중시하므로, 모델은 적극적인 지원과 투명성을 보상합니다. 이러한 규범적 틀은 고정되어 있지 않으며, 사용자는 윤리적 슬라이더를 조정할 수 있으며, 마카롱은 제약 하에서 가치 공간을 탐색합니다. 지속적인 연구 방향은 형식적 윤리 이론—공리주의, 의무론, 덕 윤리—를 RL 에이전트에 통합하여 그들이 행동의 도덕적 선택을 설명할 수 있도록 하는 것입니다. 이는 재정 계획이나 의료 권장과 같은 높은 영향력을 미치는 결정에 특히 중요합니다.

5.5 미래 방향: 사회적 RL과 그룹 보상

개인 에이전트는 점점 더 가족, 팀, 커뮤니티 내 상호작용을 중재합니다. 사회적 강화 학습은 다중 에이전트 설정에 RL을 확장하여 에이전트가 여러 이해관계자의 복지를 고려해야 합니다. 예를 들어, 가족 행사를 계획할 때, Macaron은 개인의 선호(프라이버시, 작업량)와 집단의 만족을 균형 있게 맞춰야 합니다. 그룹 보상은 파레토 효율성을 사용하여 한 구성원의 결과를 개선하면서 다른 구성원에게 해를 끼치지 않거나 공정 분할 원칙을 통해 형성할 수 있습니다. 다국어 맥락에서는 그룹 커뮤니케이션이 여러 언어로 이루어질 수 있으며, 에이전트는 문화적 규범을 존중하면서 언어 경계를 넘어 보상을 통합해야 합니다. 미래 연구는 소외된 목소리가 더 중시되는 공평한 RL을 탐구하여 포용성을 보장할 것입니다. 다른 방안으로는 에이전트 간 상호작용을 시뮬레이션하기 위한 자기 놀이, 새로운 그룹 역학에 적응하기 위한 메타 학습, 사회적 피드백에서 상관관계와 인과관계를 구분하기 위한 인과 추론이 있습니다. 이러한 발전을 통해 Macaron과 유사한 개인 AI는 1:1 상호작용에서 사회적 경험을 조율하는 방향으로 나아가, 일본과 한국 사회에서 귀중한 파트너가 될 것입니다.

Boxu는 에모리 대학교에서 정량 경제학 학사 학위를 받았습니다. Macaron에 합류하기 전, Boxu는 미국에서 사모펀드 및 벤처 캐피탈 분야에서 대부분의 경력을 쌓았습니다. 현재 그는 Macaron AI의 비서실장 겸 마케팅 부사장으로, 재무, 물류 및 운영을 관리하고 마케팅을 총괄하고 있습니다.

지원하기 Macaron 의 첫 친구들