마카롱의 메모리 엔진 내부: 압축, 검색 및 동적 게이팅

소개

Macaron AI의 새로움은 종종 맞춤형 미니 앱을 생성하거나 공감하는 친구로서의 역할에 주목받지만, 그 진정한 핵심은 복잡한 메모리 엔진입니다. 이 시스템은 Macaron이 중요한 것을 기억하고 중요하지 않은 것은 잊어버리며 관련 경험을 빠르고 안전하게 검색할 수 있게 합니다. 음악에 대한 간단한 대화가 다음 달 콘서트에 대한 알림, 자동으로 구성된 재생 목록, 또는 노래방 어시스턴트 생성으로 이어질 수 있습니다. 이러한 모든 것은 긴 대화와 다양한 주제를 처리할 수 있는 메모리 메커니즘 없이는 불가능합니다. 이 블로그는 Macaron의 메모리 엔진에 대한 깊이 있는 기술적 탐구를 제공하며, 계층적 압축, 벡터 검색, 강화 학습 기반 게이팅 및 프라이버시 제어를 논의합니다. 우리는 Macaron의 설계를 다른 검색 증강 생성(RAG) 시스템과 비교하며 이러한 메커니즘이 일본과 한국 사용자에게 맞춤형 경험을 제공하는 방법을 설명합니다.

1 계층적 메모리 표현

1.1 다중 저장 구조: 단기, 에피소드, 장기

Macaron은 메모리를 여러 저장소로 조직합니다. 단기 저장소는 현재 대화를 유지하며 대략 8-16개의 메시지를 포괄합니다. 이는 일반적인 변환기 컨텍스트처럼 작동하며, 토큰은 주의와 함께 순차적으로 처리됩니다. 에피소드 저장소는 최근 상호작용(예: 지난 며칠)을 보관하며 주기적으로 새로 고침됩니다. 이곳에서 Macaron은 압축 변환기를 사용하여 메시지를 요약 벡터로 압축하며, 이는 컨볼루션 주의를 사용하여 기본 창 길이를 넘어 컨텍스트를 유지할 수 있게 합니다. 장기 저장소는 중요한 이벤트, 사실 및 미니 앱 구성을 보관하며, 벡터 데이터베이스로 구현됩니다. 각 메모리 항목은 메타데이터(타임스탬프, 도메인 태그, 언어 태그)와 다국어 인코더에 의해 생성된 임베딩을 포함합니다.

1.2 잠재적 요약 및 오토인코딩을 통한 압축

긴 대화에서의 주요 과제 중 하나는 자기 주의의 비용이 시퀀스 길이에 따라 제곱적으로 증가한다는 것입니다. 이를 관리하기 위해 Macaron은 잠재 요약 층을 사용합니다. 모든 토큰에 주의를 기울이는 대신, 모델은 중요한 부분을 식별하고 이를 고정 길이의 표현으로 압축하는 방법을 학습합니다. 이 층은 압축된 요약에서 숨겨진 상태를 재구성하는 자동 인코딩 목적을 사용하여 훈련됩니다. 강화 학습은 요약자를 미세 조정합니다: 에이전트가 나중에 중요한 세부 사항을 기억하지 못하면 정책에 페널티가 부여되어, 유사한 이벤트에 대한 정보를 더 많이 유지하도록 장려합니다.

1.3 포인터 네트워크로서의 동적 메모리 토큰

대만 뉴스 기사에서 설명된 메모리 토큰은 메모리를 탐색하여 관련 항목을 선택하는 포인터처럼 작동합니다. 회상 중에는 토큰이 메모리 뱅크를 반복적으로 쿼리합니다: 후보 메모리를 검색하고, 학습된 점수 함수로 현재 컨텍스트에 대한 관련성을 평가하며, 반환할지 계속 검색할지를 결정합니다. 이 과정은 신경 조합 최적화에 사용되는 포인터 네트워크와 유사합니다. 강화 신호는 사용자 만족도를 극대화하는 메모리 시퀀스를 선택하도록 토큰을 안내합니다 (예: 사용자의 재즈 선호도를 정확하게 예측). 토큰은 또한 메모리를 업데이트할 수 있습니다: 새로운 정보가 도착하면 기존 메모리와 통합할지 새로운 슬롯을 할당할지를 결정합니다.

2 벡터 검색 및 쿼리 확장

2.1 근사 최근접 이웃 검색

Macaron의 장기 기억은 고차원 벡터 데이터베이스를 사용합니다. 쿼리는 다국어 인코더를 통해 임베딩으로 변환되고, 근사 최근접 이웃 (ANN) 검색을 통해 상위 k개의 기억을 반환합니다. 시스템은 제품 양자화를 사용하여 검색 속도를 높이고, 수백만 개의 메모리 항목을 저장할 때에도 지연 시간을 50ms 이하로 유지합니다. 중복된 사소한 결과를 피하기 위해 시스템은 최대 여백 관련성(MMR)을 적용하여 결과 간의 유사성과 다양성을 균형 있게 유지합니다.

2.2 컨텍스트와 사용자 목표를 활용한 쿼리 확장

간단한 키워드 매칭만으로는 사용자 의도를 포착하기에 충분하지 않습니다. Macaron은 사용자의 현재 목표와 잠재적 의도를 사용하여 쿼리를 확장합니다. 예를 들어, 도쿄의 사용자가 "花火大会"(불꽃놀이 축제)를 언급하면 시스템은 축제와 관련된 일반적인 행동에 따라 "티켓", "날짜" 및 "날씨"를 포함하도록 쿼리를 확장합니다. 한국 사용자가 "김치전 만드는 법"을 물으면, 시스템은 과거 요리 경험, 영양 데이터 및 지역 재료 가용성도 검색합니다. 쿼리 확장은 대화 컨텍스트를 관련 하위 주제로 매핑하도록 훈련된 목표 예측기에 의해 처리됩니다.

2.3 교차 도메인 검색 및 관련성 연합

메모리 엔진은 여러 도메인에 걸친 쿼리를 처리할 수 있어야 합니다. Macaron의 자기 모델 아티클에서 설명된 관련성 연합 메커니즘은 시스템이 도메인 경계를 넘어 기억에 접근할 수 있게 합니다. 에이전트가 일본 사용자의 결혼식을 계획할 때, 신혼여행지(여행 기억), 예산(재정 기억), 결혼 예절(문화 기억)을 검색해야 할 수도 있습니다. 각 도메인은 자체 검색 인덱스를 가지며, 시스템은 소프트맥스 게이팅 함수를 사용하여 도메인 간 검색 확률을 분배합니다. 게이팅 함수는 불필요한 항목의 검색을 최소화하면서 중요한 도메인 간 연결이 누락되지 않도록 RL로 학습됩니다. 다국어 쿼리에 대해서는 게이팅 함수가 언어 태그를 고려하여 동일 언어의 기억을 선호하지만, 의미적 유사성이 높을 때는 다국어 검색을 허용합니다.

3 강화 학습 가이드 메모리 게이팅

3.1 보상 모델링과 FireAct 영감

Macaron 팀은 RL 후속 훈련이 프롬프트 기반 방법에 비해 추론 정확도를 77% 향상시킨다는 것을 보여준 FireAct 프로젝트에서 영감을 받았습니다. Macaron에서는 RL을 사용하여 정보를 저장, 업데이트 또는 폐기할지 여부와 검색된 기억을 얼마나 강하게 가중할지를 결정하는 신경망인 기억 게이팅 정책을 훈련합니다. 보상 함수는 작업 완료, 사용자 만족도, 프라이버시 준수 및 계산 효율성 등 여러 신호를 결합합니다. 예를 들어, 지나치게 많은 기억을 검색하면 응답이 느려지므로 보상은 불필요한 회상을 벌합니다. 관련 세부 정보를 잊으면 사용자 만족도가 낮아지므로 정책은 이를 더 오래 유지하는 법을 배웁니다. 보상 함수는 일본과 한국 시장에 따라 다르게 조정됩니다: 일본 사용자는 개인 정보 과잉 공유를 벌할 수 있지만, 한국 사용자는 속도와 적극적인 제안을 가치 있게 여길 수 있습니다.

3.2 시간적 크레딧 할당 및 시간 엮기

강화 학습은 종종 긴 시간대에서 어려움을 겪습니다. 현재의 행동이 먼 미래의 결과에 영향을 미칠 수 있기 때문입니다. 마카롱은 시간 엮기라는 메커니즘을 통해 이를 해결합니다. 이는 시간에 걸쳐 이벤트가 타임스탬프와 내러티브 스레드로 연결되는 방식입니다. 과거의 기억을 떠올리는 것이 미치는 영향을 평가할 때, 시스템은 그 이후의 상호작용 체인을 추적할 수 있습니다. 이를 통해 RL 에이전트는 특정 기억 회수 결정에 대해 긍정적 또는 부정적인 평가를 할당할 수 있습니다. 예를 들어, 잊혀진 기념일을 참조하여 관계가 개선된다면, 시스템은 기념일 기억을 보존하는 메모리 게이트에 긍정적인 보상을 할당합니다. 반대로, 당황스러운 순간을 다시 떠올려 불편함을 초래했다면, 해당 게이트는 부정적인 보상을 받습니다.

3.3 계층적 강화 학습과 모듈식 게이팅 정책

마카롱은 계층적 강화 학습을 사용하여 복잡성을 관리합니다. 고수준 컨트롤러는 사용자의 현재 목표에 따라 모듈 (예: 회수, 요약, 압축)을 선택하고, 저수준 정책은 각 모듈 내에서 구체적인 행동을 처리합니다. 이 모듈식 디자인은 전이 학습을 촉진합니다: 일본 요리 대화에 대해 훈련된 게이팅 정책은 한국 요리법에도 재사용할 수 있습니다. 또한 마카롱은 전체 시스템을 재훈련하지 않고도 개별 모듈을 업데이트할 수 있습니다. 안정성을 보장하기 위해 마카롱은 **근접 정책 최적화 (PPO)**를 신뢰 구역 클리핑과 함께 사용하여 탐험과 이용의 균형을 맞추고, 치명적인 망각을 방지합니다.

4 다른 메모리 시스템과의 비교

4.1 검색 증강 생성 (RAG)

많은 AI 시스템은 외부 데이터베이스에서 정보를 가져와 사실 정확성을 개선하기 위해 검색 증강 생성을 사용합니다. GPT‑4와 같은 모델은 RAG를 통해 정적 지식 기반에 의존하며 사용자 피드백에 따라 검색을 조정하지 않습니다. Macaron의 메모리 엔진은 세 가지 주요 방식에서 다릅니다:

개인화된 콘텐츠: 메모리는 일반적인 웹 문서가 아닌 사용자 특화된 것입니다. 검색 결과는 백과사전적 사실이 아니라 경험과 목표를 제공합니다.
강화 학습 기반 저장: 시스템은 보상 신호에 따라 무엇을 저장하거나 잊을지를 학습하며, RAG 시스템은 종종 무분별하게 모든 것을 저장합니다.
프라이버시 및 정책 준수: 각 메모리는 프라이버시 메타데이터를 포함하며, 검색은 접근 규칙을 준수합니다. 대부분의 RAG 구현에는 이러한 세밀한 제어가 부족합니다.

4.2 장기 문맥 언어 모델

최근 Anthropic의 Claude 3와 Google의 Gemini와 같은 최신 LLM은 주의 창을 확장하여 수십만 개의 토큰 컨텍스트를 처리할 수 있습니다. 이러한 모델은 명시적인 검색을 수행하지 않으며, 대신 긴 시퀀스를 주목하는 능력에 의존합니다. 이는 이전 대화 내용을 기억할 수 있게 하지만, 연산 비용이 많이 들고 사용자 제어 삭제 기능을 지원하지 않습니다. Macaron은 중간 컨텍스트와 검색을 결합하여 더 낮은 비용으로 유사한 범위를 달성하고 더 큰 프라이버시 제어를 제공합니다. 동적 메모리 토큰은 외부 저장소에 대한 포인터 역할을 하여 활성 컨텍스트에 모든 데이터를 저장하지 않고도 수년간의 데이터를 처리할 수 있게 합니다.

4.3 벡터 데이터베이스와 메모리 네트워크

Pinecone과 Faiss 같은 벡터 데이터베이스는 검색 작업을 위한 임베딩을 저장하는 데 자주 사용됩니다. Macaron의 장기 저장소는 이러한 기술을 기반으로 하지만, RL 제어 게이팅과 결합합니다. 한편, End-to-End Memory Network와 같은 초기 메모리 네트워크는 고정된 메모리 슬롯을 사전에 계산하고 부드러운 주의를 통해 이를 참조합니다. Macaron은 슬롯의 수가 동적으로 증가하거나 감소할 수 있도록 하고, 어떤 슬롯을 유지할지 RL을 통해 결정하여 이를 확장합니다. 이 점에서 Macaron의 메모리 엔진은 외부 메모리 테이프를 읽고 쓰는 학습된 컨트롤러를 가진 신경 튜링 머신에 더 가깝습니다.

5 프라이버시 및 규제 조율

5.1 정책 바인딩과 차별화된 투명성

지역 규정을 준수하는 것은 매우 중요합니다. 정책 바인딩은 기계 판독 가능한 개인정보 보호 규칙을 데이터에 부착합니다. 예를 들어, 금융 데이터를 포함하는 메모리는 생체 인증 후에만 접근할 수 있다는 규칙을 포함할 수 있습니다. 차별화된 투명성은 다양한 이해 관계자에게 다른 수준의 정보를 제공합니다: 일본 소비자는 자신의 데이터를 검토할 수 있고, 한국 규제 기관은 집계된 통계를 볼 수 있으며, 개발자는 모델 개선을 위한 익명화된 피드백을 받을 수 있습니다. 이러한 메커니즘은 투명성을 강조하는 AI 촉진법과 한국의 AI 프레임워크법의 위험 관리 및 인간 감독 요건에 부합합니다.

5.2 이름 공개를 통한 집행과 책임

일본의 AI 촉진법은 직접적인 처벌 조항은 없지만, 이름 공개 메커니즘을 통해 비준수 기업을 공개적으로 식별합니다. Macaron의 감사 로그는 메모리 접근과 정책 결정을 추적하여, 감사 시 준수를 입증할 수 있도록 합니다. 한국의 프레임워크는 위반에 대해 최대 3천만 원의 벌금을 부과할 수 있습니다. Macaron은 모든 메모리 이벤트에 메타데이터를 첨부하여 자동으로 준수 보고서를 생성할 수 있습니다. 이 시스템은 사용자가 자신의 데이터를 내보내고 삭제할 수 있도록 하여, 데이터 이동성의 글로벌 기준에 부합합니다.

5.3 인간 기억에 대한 유추

마카롱의 메모리 시스템은 인간 기억의 구조를 반영합니다. 인지 과학자들은 작업 기억을 전두엽 피질의 제한된 버퍼로, 삽화 기억을 해마에 의해 중재되는 사건 기반 저장소로, 의미 기억을 피질 전반에 분포된 일반 지식으로 설명합니다. 마찬가지로, 마카롱은 단기 컨텍스트 창, 삽화 저장소 및 장기 벡터 데이터베이스를 가지고 있습니다. 참고 감소는 강화되지 않으면 기억이 사라지는 인간의 망각 곡선을 닮았습니다. 시간 엮기는 인간이 시간을 초월하여 사건을 연결하여 인생 이야기를 만드는 방식과 유사합니다. 이러한 메커니즘을 모방함으로써 마카롱은 컴퓨팅 자원을 최적화할 뿐만 아니라 더 자연스러운 상호작용을 생성합니다. 사용자가 어린 시절 축제에 대해 회상할 때, 에이전트는 관련된 사건을 기억하고 그것을 현재 대화에 엮을 수 있습니다. 이는 마치 인간 친구가 하는 것과 비슷합니다.

5.4 미래 연구 방향

그 정교함에도 불구하고, 마카롱의 메모리 엔진에는 여전히 많은 질문이 남아 있습니다. 한 가지 영역은 자체 압축 메모리로, 외부 감독 없이 자동으로 기억을 요약하고 압축하는 신경 모듈을 개발하는 것입니다. 또 다른 영역은 평생 학습으로, 사용자의 행동이 진화함에 따라 에이전트가 메모리 전략을 지속적으로 적응할 수 있도록 하는 것입니다. 다국어 정렬은 여전히 활발한 연구 주제로, 미래 모델은 일본어, 한국어 및 다른 언어 간의 기억을 더욱 매끄럽게 정렬하기 위해 대조적 표현 학습을 사용할 수 있습니다. 연구자들은 또한 낮은 에너지 비용으로 메모리를 구현하기 위해 뉴로모픽 하드웨어와 스파이킹 신경망을 탐구하고 있습니다. 마지막으로, 연합 학습을 통합하면 사용자가 원시 데이터를 공유하지 않고 모델 업데이트만 공유하여 마카롱의 메모리 모델을 로컬에서 훈련시키고, 집단 성능을 향상시키면서 프라이버시를 강화할 수 있습니다.