작성자: Boxu Li
Macaron AI가 2025년 8월에 공개되었을 때, 단순한 기업용 비서가 아닌 일상생활을 풍요롭게 하는 개인 동반자로 자리매김했습니다. 그 사명은 본질적으로 국제적입니다. 처음부터 이 플랫폼은 영어, 중국어, 일본어, 한국어, 스페인어를 지원하여 언어적, 문화적 경계를 넘어 운영하려는 야망을 표방했습니다. 독특한 디지털 생태계가 발달한 일본과 한국의 사용자들에게 이 다국어 약속은 단순한 마케팅 슬로건 이상입니다. 이는 기술적 질문을 제기합니다: Macaron은 다국어 대화를 어떻게 처리할까요? 다양한 문자, 어휘 및 문화적 참조를 갖춘 메모리 시스템을 어떻게 운영할까요? 하나의 에이전트가 히라가나로 생각하다가 다음 순간 한글로 전환할 수 있게 하는 디자인 선택은 무엇일까요? 이 블로그에서는 Macaron AI의 다국어 아키텍처와 일본 및 한국 사용자에게 맞춤형 경험을 제공하면서 일관된 정체성을 유지하는 메커니즘을 탐구합니다.
대규모 개인화를 위해서는 단순한 번역 이상의 것이 필요합니다. 마카롱은 일상적인 상호작용을 통해 여러분이 누구인지 모델링하고, 단순한 사실뿐 아니라 식이 목표나 감정적 고조와 같은 미묘한 점도 기억하는 것을 목표로 합니다. 여러 언어에 대해 이를 달성하려면 의미를 포착할 수 있는 데이터 구조와 알고리즘이 필요하며, 이는 작성 시스템을 넘어서 코드 전환을 처리하고 문화적 규범을 존중해야 합니다. 이 포스트에서는 기본 기술인 다국어 토큰화, 강화 학습 기반 메모리 검색, 분산 신원 관리, 문화적 적응을 분석합니다. 또한 편향, 개인 정보 보호, 지역 간 규정 준수와 같은 문제를 논의하고, 다국어 개인 에이전트에 대한 연구 방향을 개괄할 것입니다.
대형 언어 모델은 토크나이저를 사용하여 원시 텍스트를 모델이 처리할 수 있는 단위로 분해합니다. 영어와 스페인어 같은 언어의 경우, 서브워드 토큰화(바이트 페어 인코딩 또는 SentencePiece)를 통해 형태학을 합리적으로 포착할 수 있습니다. 그러나 일본어와 한국어는 독특한 과제를 제기합니다. 일본어는 세 가지 문자(한자, 히라가나, 가타카나)를 혼합 사용하며 공백이 없고, 한국어의 한글은 음절 블록으로 조립되는 특징적 알파벳입니다. 그래서 Macaron의 엔지니어들은 스크립트 인식 서브워드 유닛이 포함된 다국어 어휘를 구축합니다. 각 토큰은 문자뿐만 아니라 언어 식별자도 인코딩하여 모델이 동형이의어를 구별할 수 있게 합니다(예: "ha"는 한국어 음소일 수도 있고 일본어의 조사 "は"일 수도 있음). 이 어휘에는 일반적인 한자 복합어, 부수, 한글 자모에 대한 토큰이 포함되어 있어 모델이 형태학적 단위를 효율적으로 표현하고 희귀한 단어를 의미 있는 조각으로 나눌 수 있게 합니다.
언어 간에 서브워드 유닛을 공유함으로써, Macaron은 언어 간 전이를 활용합니다. 예를 들어, "study"라는 개념은 일본어로 勉強 (benkyō)이고 한국어로는 공부 (gongbu)입니다. 문자와 소리는 다르지만, 에이전트는 언어 간에 학습된 의미 임베딩을 사용하여 이러한 토큰을 유사한 벡터 공간에 매핑합니다. 이 통합된 표현은 Macaron이 일본어 사용자의 "언어 공부"에 대한 관심을 이해하고 나중에 한국 친구가 "공부 계획"에 대해 물을 때 그 지식을 적용할 수 있게 해줍니다. 통합된 어휘가 없을 경우, 모델은 이를 관련 없는 개념으로 취급할 것입니다.
Macaron의 6710억 매개변수 모델은 대규모 다국어 코퍼스에서 훈련되었지만, 대화의 순차적 길이는 효율적인 컨텍스트 윈도우를 필요로 합니다. 일본어와 한국어 문장은 동사와 내포된 조사 때문에 영어보다 길어질 수 있습니다. 긴 대화를 지원하기 위해 Macaron은 계층적 주의 메커니즘을 사용합니다: 모델은 로컬 윈도우(문장 또는 단락)를 처리한 후 요약된 표현을 글로벌 레이어로 전달합니다. 이 접근 방식은 메모리 사용량을 줄이면서도 에이전트가 확장된 대화에서도 문맥을 유지할 수 있게 합니다. 또한 스크립트 간 정렬을 지원하여, 모델이 훈련 중에 일본어와 한국어의 세그먼트 간 대응을 학습하면서 그 표현 간의 거리를 최소화합니다(이는 언어 간 자연어 처리에서 차용한 기법입니다).
일본어와 한국어 사용자들은 특히 기술 분야나 대중문화에서 영어 또는 중국어 용어를 대화에 자주 섞어 사용합니다. Macaron의 추론 파이프라인에는 지원되는 언어에 대한 확률 점수로 각 들어오는 발화를 태그하는 실시간 언어 감지기가 포함되어 있습니다. 문장에 여러 언어의 차용어 또는 구문이 포함된 경우, 에이전트는 입력을 세그먼트로 나누고 적절한 언어 컨텍스트로 각각 처리합니다. 이를 통해 음성 출력에서 올바른 발음과 관용어의 적절한 처리가 보장됩니다. 메모리 서브시스템은 검색된 항목에 언어 태그를 부착하여 쿼리 언어가 저장된 언어와 다르더라도 관련 경험을 검색할 수 있게 합니다.

Macaron의 대표적인 혁신은 메모리 토큰입니다. 이는 에이전트가 무엇을 기억할지, 언제 메모리를 업데이트할지, 그리고 어떻게 현재 작업에 그 기억을 적용할지를 결정하는 데 도움을 주는 동적 포인터입니다. 이 토큰은 단기 문맥, 중기 에피소드 메모리, 장기 지식을 포함한 계층적 메모리 뱅크와 상호작용합니다. 강화 학습(RL)은 사용자 만족도 및 작업 성공과 같은 피드백을 기반으로 토큰을 조정하도록 에이전트를 훈련시킵니다. 일본 사용자가 동일한 기차 시간표에 대해 반복적으로 묻는 경우, RL 정책은 해당 세부 정보를 메모리에 우선적으로 저장하도록 학습합니다. 한국 사용자가 과거 댓글이 다시 나타날 때 불편함을 표현하면, 정책은 참조를 더 빨리 감소시키도록 학습합니다.
Macaron 팀은 단일한 사용자 프로필이라는 개념을 거부하고, 대신 작은 상호작용으로부터 형성된 발생 서사로서 정체성을 다룹니다. 기억은 도메인 경계 (예: 직장, 취미, 가족) 별로 조직되며, 관련성 연합 메커니즘을 통해 도메인 간 검색이 가능합니다. 일본 및 한국 사용자의 경우, 도메인 경계에는 언어 도메인도 포함됩니다. 메모리 항목은 "일본어—취미—음악" 또는 "한국어—가족—금융"과 같이 태그될 수 있습니다. 에이전트가 한국어로 쿼리를 받으면 먼저 한국어 기억을 검색하지만, 의미가 일치할 경우 일본어 기억으로 연합할 수 있습니다. 이는 교차 오염을 방지하면서 교차 언어 연속성을 가능하게 합니다.
자주 접근하지 않는 기억은 시간이 지남에 따라 소멸합니다. 소멸 속도는 도메인에 따라 다를 수 있습니다. 참조 소멸 메커니즘은 사용되지 않는 기억의 가중치를 줄여, 일본 사용자가 한국 드라마에 잠깐 관심을 가졌을 때 그 기억이 영구적으로 저장되지 않도록 합니다. 소멸은 개인정보 보호에도 기여합니다. 가족이나 재정에 관한 민감한 정보는 더 빠르게 소멸하도록 설정할 수 있습니다. 사용자는 기억을 명시적으로 삭제하거나 기밀로 표시할 수 있습니다. Macaron의 정책 바인딩 프레임워크는 기계가 읽을 수 있는 개인정보 보호 규칙을 데이터에 직접 연결하여, "비공개—한국어" 태그가 붙은 기억은 해당 언어의 인증된 세션에서만 접근할 수 있도록 합니다. 차별화된 투명성과 결합하여, 서로 다른 이해관계자에게 다른 수준의 공개를 제공함으로써 Macaron은 일본의 개인정보 보호 규범과 한국의 진화하는 AI 규제를 탐색할 수 있습니다.
가입 시, 사용자는 세 가지 성격 테스트를 완료하여 Macaron이 개인화된 페르소나를 매칭할 수 있도록 합니다. 여기에는 색상, 의사소통 스타일 및 음성이 포함됩니다. 미적 조화와 격식을 중시하는 일본에서는 테스트가 사회적 예절을 강조할 수 있으며, 한국의 설문지는 가족 역학과 또래 관계에 중점을 둘 수 있습니다. 결과적으로 형성된 페르소나는 사용자 인터페이스뿐만 아니라 에이전트의 공손함 수준, 톤 및 문화적 참조 선택에도 영향을 미칩니다. 일본 페르소나는 간접적인 제안(「다음 주에 소풍 계획 어때요?」)을 선호할 수 있는 반면, 한국 페르소나는 직접적인 격려(「가족 여행을 계획해요!」)를 더 좋아할 수 있습니다.
Macaron의 미니 앱 생성 능력은 일반적인 생산성 도구에 국한되지 않습니다. 이 플랫폼은 일본의 가계부 전통(가계부 방법론)에서 영감을 받은 예산 도구나 한국의 호지관 계획 앱(가족 행사 및 조상 기념 관리)과 같이 10만 줄 이상의 코드로 맞춤형 애플리케이션을 제작할 수 있습니다. 사용자가 자연어로 자신의 필요를 설명하면, 에이전트는 지역 관습에 맞는 프로그램을 합성합니다. 이를 위해 도메인별 템플릿 라이브러리와 지역 캘린더, 공휴일 및 금융 규정을 통합할 수 있는 능력이 필요합니다. 강화 학습은 사용자 만족도를 평가하여 생성 프로세스를 최적화합니다: 일본 사용자가 자주 '오미야게'(기념품)와 '오츠쿠리'(월간 자선)와 같은 카테고리를 추가하는 가계부 앱을 수정하는 경우, 생성기는 향후 앱에서 이러한 항목을 기본적으로 포함하도록 학습합니다.
일본과 한국은 감정을 표현하는 데 있어 서로 다른 규범을 가지고 있습니다. 일본 문화는 종종 겸손과 문맥 민감성을 중요시하는 반면, 한국 문화는 표현적인 사회적 상호작용을 중시합니다. 마카롱은 이러한 차이를 반영해 응답 스타일을 조정하며, 유동적인 정체성과 사용자 권한 강화를 강조하는 디지털 인격 연구에 기반을 둡니다. 실제로, 일본어로 대화할 때는 존경어와 간접적인 표현을 사용할 수 있으며, 한국어로 대화할 때는 더 적극적인 제안을 할 수 있습니다. 메모리 시스템은 톤에 대한 피드백을 기록하고 대화 스타일을 적응적으로 조정합니다. 이러한 적응은 하드코딩되지 않고 RL을 통해 발생합니다: 사용자가 특정 커뮤니케이션 스타일에 일관되게 긍정적으로 반응하면 그 보상 신호가 해당 행동을 강화합니다.
일본어와 한국어로 대화할 수 있는 개인 에이전트를 만들려면 고품질의 데이터가 필요합니다. 마카롱의 훈련 코퍼스에는 모든 지원 언어에 걸쳐 라이선스된 책, 뉴스 기사, 블로그, 전사 및 사용자 생성 콘텐츠가 포함되어 있습니다. 데이터는 예의, 편견 및 도메인 적용 범위에 대해 필터링됩니다. 사전 훈련 단계에서는 결합된 다국어 데이터를 사용하여 마스크된 언어 모델링과 다음 토큰 예측을 통해 공유 표현을 학습합니다. 미세 조정은 인간 피드백을 통한 강화 학습(RLHF)을 도입합니다: 도쿄와 서울의 이중 언어 주석자들이 문화적 적절성에 따라 응답을 평가하여 모델이 존칭 사용 시기나 명확한 질문을 해야 할 시기와 같은 미묘한 단서를 학습할 수 있도록 합니다. 추가적인 대조 학습 목표는 언어 간 의미적으로 동등한 구문 간의 정렬을 장려합니다.
Macaron의 메모리 뱅크는 임베딩을 고차원 벡터 공간에 저장합니다. 각 메모리 항목에 대해 에이전트는 콘텐츠와 언어를 모두 포착하는 표현을 계산합니다. 교차 언어 메모리 인덱스는 언어와 상관없이 항목을 검색하기 위해 근사 최근접 탐색을 사용합니다. 예를 들어, 한국 사용자가 "피자 만들기 레시피"를 물어보면, 에이전트는 "ピザの作り方"(피자 만드는 방법)에 대한 일본어 메모리를 찾을 수 있습니다. 둘 다 피자라는 개념에 가까운 임베딩을 갖기 때문입니다. 검색 시 에이전트는 사용자 권한에 따라 필터링한 후, 내장된 번역기와 요약기를 사용하여 검색된 메모리를 사용자의 선호 언어로 변환합니다. 이는 언어 간 지식 공유를 가능하게 하면서도 프라이버시 경계를 유지합니다.
다국어 모델은 학습 데이터에 존재하는 편견을 전파할 위험이 있습니다. 성 역할과 나이 위계가 중요한 문화적 역할을 하는 일본과 한국에서는, 마카롱이 편견 완화 전략을 구현합니다. 미세 조정 시, RL 보상에는 고정관념을 강화하거나 지역 규범을 위반하는 응답에 대한 패널티가 포함됩니다 (예: 여성만이 가계 재정을 관리한다고 가정하는 경우). 정책 바인딩 시스템은 사용자의 동의 없이 개인 데이터가 언어 간에 번역되지 않도록 보장합니다. 또한, 마카롱의 차별화된 투명성은 규제 당국이 다양한 수준의 세부 사항으로 모델의 행동을 감사할 수 있게 합니다: 일본 당국은 일반적인 사용 패턴을 검토할 수 있고, 한국 규제 기관은 엄격한 기밀 하에 원시 로그를 검사할 수 있습니다.
일본어와 한국어 모두 지역 방언이 있습니다. 일본에서는 간사이 방언이 표준 도쿄 말과 다른 어휘와 억양을 사용합니다. 한국의 전라와 경상 방언도 유사한 도전을 제공합니다. 현재의 언어 감지기는 방언 입력을 잘못 분류하여 어색한 응답을 초래할 수 있습니다. 향후 연구에서는 지역 코퍼스에 기반한 방언 임베딩을 도입하여, 에이전트가 적절한 방언으로 식별하고 응답할 수 있도록 할 수 있습니다. 사용자는 심지어 마카롱에게 특정 억양을 흉내내도록 요청할 수 있으며, 이는 역할극 게임이나 언어 학습 모듈에 매력적일 수 있습니다.
현재 모델은 언어 간 의미 표현을 조정하고 있지만, 상식 추론은 여전히 문화적 차이로 인해 어려움을 겪고 있습니다. "츠운도쿠"(積ん読, 책을 사놓고 읽지 않는 것)나 "빵셔틀"과 같은 표현은 영어에 직접적인 대응어가 없습니다. 언어 간 상식 지식 그래프에 대한 연구는 Macaron이 이러한 문화 특유의 개념을 이해하고 설명하는 데 도움이 될 수 있습니다. ConceptNet이나 ATOMIC의 현지화된 버전과 같은 지식 기반과의 통합은 LLM의 통계적 학습을 보완하는 구조화된 문화 지식을 제공할 수 있습니다.
일본의 AI 진흥법은 투명성을 강조하며 AI 개발을 기존 규제와 일치시키고, 한국의 AI 프레임워크 법안은 위험 관리와 인간 감독에 대한 의무를 도입합니다. 개인 에이전트는 사용자 개인정보를 존중하면서 이러한 프레임워크를 탐색해야 합니다. 연합 학습을 통해 사용자 데이터를 기기에 보관하고, 차등 개인정보 보호를 통해 언어 간 식별을 방지하며, 일본어와 한국어로 된 규제 텍스트를 해석하고 정책 바인딩 규칙으로 매핑할 수 있는 법적 준수 엔진에 대한 연구가 필요합니다.
미래의 개인 에이전트는 텍스트에만 국한되지 않을 것입니다. 마카롱의 비전에는 IoT 기기, VR 인터페이스 및 웨어러블과의 연결이 포함됩니다. 다중 언어를 다룰 때 교차 모달 상호 작용은 새로운 복잡성을 추가합니다: 일본 사용자가 스마트 스피커에 일본어로 말하면서 혼합 현실 헤드셋에서 한국어 자막을 읽을 수 있습니다. 오디오, 텍스트 및 시각 데이터를 여러 언어에 걸쳐 정렬하려면 음성, 텍스트 및 이미지를 동시에 처리할 수 있는 멀티모달 변환기와 모달 사이의 시간 동기화가 필요합니다.
교차 언어 개인화가 실제로 어떻게 작동하는지 보여주기 위해, 한국어를 배우고 싶어하는 일본 사용자가 마카롱에게 학습 앱을 만들어달라고 요청하는 사례를 고려해보세요. 에이전트는 사용자의 이전 언어 경험을 참고하여 시작합니다. 예를 들어, 사용자가 영어를 공부한 적이 있다면, 시각적 보조 도구와 간격 반복을 선호한다는 것을 알고 있습니다. 의도 파서는 "목표 언어: 한국어", "출발 언어: 일본어", "학습 초점: 문법 및 어휘", "일일 시간: 20분"과 같은 슬롯을 추출합니다. 마카롱의 프로그램 합성 엔진은 그런 다음 모듈을 조립합니다: 한글을 위한 형태소 분석기, 일본어 자막을 위한 문장 분할 모듈, 간격 반복 일정 관리자, 사용자의 관심사(예: 한국 드라마나 J-pop 가사)에서 예제를 통합하는 퀴즈 생성기.
결과물로 만들어진 앱은 발음, 예문, 문화 노트를 포함한 어휘 카드를 제공합니다. 양방향 번역 레이어는 앞서 설명한 교차 언어 임베딩을 사용하여 한국어 어휘를 일본어 구문과 연결합니다. 강화 학습은 순서를 개인화합니다: 사용자가 동사 활용에 어려움을 겪으면 보상 모델이 문법 연습을 우선시하고, 노래 가사를 읽는 것을 즐기면 에이전트가 더 많은 가사 번역을 제공합니다. 메모리 시스템이 각 수업에 언어와 도메인을 태그하기 때문에, 한국어 공부의 진행 상황이 나중에 사용자의 일본어 창작 글쓰기에 정보를 제공할 수 있어 전이 학습을 촉진합니다. 사용자는 Macaron 커뮤니티에서 이중언어 학습 계획을 공유할 수 있으며, 에이전트는 피드백을 모니터링하여 모듈 라이브러리를 개선합니다.
언어를 넘나드는 능력은 디지털 정체성에 대한 더 깊은 질문을 제기합니다. Macaron의 자기 모델은 정체성을 상호작용에서 형성되는 발생적 서사로 간주합니다. 이러한 상호작용이 여러 언어로 이루어질 때, 서사는 더욱 유동적으로 변합니다. 단어는 문화적 함의를 담고 있습니다: 일본어의 코코로와 한국어의 마음은 모두 "심장/마음"으로 번역되지만, 서로 다른 뉘앙스를 불러일으킵니다. Macaron이 사용자의 기억을 여러 언어로 엮어갈 때, 감정이나 기억을 언급할 때 어떤 단어를 사용할지 결정해야 합니다. 이 선택은 사용자의 자기 인식을 형성합니다. 언어 철학자들은 우리가 사용하는 단어가 사고에 영향을 미친다고 주장합니다; Macaron은 이 아이디어를 맥락과 원하는 감정적 톤에 따라 언어를 선택함으로써 실현합니다.
다언어적 정체성은 디지털 인격의 개념에도 연관됩니다. 사용자는 일본어 및 한국어 환경에서 서로 다른 페르소나를 유지할 수 있습니다—직장에서는 공식적이고 절제된 모습, 팬덤 커뮤니티에서는 캐주얼하고 표현력 있는 모습을 보일 수 있습니다. Macaron은 이러한 경계를 존중하며, 별도의 기억 클러스터를 유지하면서도 의도적인 교차 수분을 허용합니다. 시간이 지남에 따라 사용자는 자신의 정체성 측면을 통합하기로 선택할 수 있으며, 일본어와 한국어 삶 사이의 공통된 실마리를 발견하게 됩니다. Macaron은 두 기억 세트에서 발견되는 유사한 가치, 습관 및 포부를 강조하여 사용자가 문화를 넘나드는 일관된 개인 서사를 만들어가는 과정을 돕습니다.