처음에 GLM-4.7이란 무엇인가를 실제로 알아보려고 앉았을 때, 그저 또 다른 최첨단 모델의 진화라고 생각했습니다. 약간 개선된 벤치마크, 모호한 추론 능력 주장, 그리고 그다지 특별할 것 없는.
그건... 예상 밖이었습니다.
코딩, 긴 문서 리뷰, 에이전트 스타일 워크플로우 등에서 GLM-4.7을 일주일 동안 테스트한 후, 몇 가지 기본 도구를 재정비하게 되었습니다. 이 모델은 매우 독특한 틈새에 자리잡고 있습니다: 200K 컨텍스트 윈도우, 뛰어난 코딩 능력, 358B 파라미터의 공개 가중치. 이 문장을 2025년에 쓸 줄은 몰랐습니다.
GLM-4.7이 실제로 무엇인지, 어떻게 작동하는지, 그리고 창작자/인디 개발자 워크플로우에 어디에 적합한지 안내해드리겠습니다.
결론: 방대한 컨텍스트와 오픈 가중치의 유연성을 가진 최첨단 수준의 추론이 필요하다면, Zhipu AI의 GLM-4.7을 추천합니다. 코딩 플랜은 월 $3로, 2025년 1월 기준으로 최고의 가치를 제공하는 AI 도구 중 하나입니다.
GLM-4, GLM-4-Air, GLM-4.6을 사용해본 적이 있다면, GLM-4.7은 Zhipu의 "이제 진짜로 시작한다"는 버전입니다. 최첨단 수준의 추론 + 큰 컨텍스트 + 오픈 가중치를 생각하세요, 이는 생산 API와 파워 유저를 정확히 겨냥한 것입니다.
Zhipu는 2024년 말 조용히 GLM-4.7을 출시, 2025년 초에는 이를 자사의 새로운 주력 코딩 및 추론 모델로 적극적으로 홍보하기 시작했어요. 제가 테스트를 위해 접했을 때, 공식 문서에는 이미 기본 고급 GLM 모델로 참조되어 있었어요.
보통 Zhipu API에서는 glm-4.7로 노출되며, Hugging Face에서는 셀프 호스팅을 위한 358B 오픈 웨이트 릴리스로 제공돼요.
GLM-4.7 모델 포지셔닝을 실제로 사용한 후 요약해보자면:
등급: 최전선 수준의 범용 LLM 초점: 코딩, 복잡한 추론, 긴 맥락 작업 대상: 강력한 코딩 지원과 긴 문서 작업을 원하는 팀, 오픈 웨이트를 좋아하는 인디 개발자, 연구자
Zhipu의 자체 생태계 내에서, GLM-4.7은 SWE-bench (73.8)와 HLE (42.8)에서 벤치마크 승리를 기반으로 최고의 코딩 및 추론 모델로 제시돼요. 현실 세계에서는: 품질을 비용보다 더 중시할 때 선택하는 모델이에요.
저에게 가장 큰 "와, 진짜 해냈네" 순간은 이거였어요: GLM-4.7의 358B-매개변수 버전이 오픈 웨이트로 제공된다는 점.
여러분은:
제 테스트에서, 오픈-웨이트 각도는 솔로 제작자에게는 덜 중요하고(아마도 API를 사용하고 있을 것입니다) 데이터 제어가 필요하거나 전문적인 내부 보조 도구를 만들고자 하는 팀에게 더 중요합니다.
GLM-4.7과 GLM-4.6 사이에서 궁금하시다면, 두 모델을 나란히 사용한 짧은 요약은 다음과 같습니다:
자체 기준 세트(모델 간에 재사용하는 약 40개의 실제 작업)에서, GLM-4.7은 GLM-4.6보다 18-20% 더 복잡한 코딩 작업을 해결했습니다. 추가적인 프롬프트 노력 없이 말이죠.
그래서 중요한 작업에 아직 4.6을 사용하고 있다면, GLM-4.7은 단순한 외관 개선이 아니라 GLM 라인의 새로운 기준입니다.
사양만으로는 모든 것을 설명할 수 없지만, GLM-4.7과 함께라면 사용자가 실제로 어떻게 사용하는지에 직접적으로 관련된 사양 몇 가지가 있습니다.
GLM-4.7은 200,000 토큰 컨텍스트 윈도우를 제공합니다. 인간의 용어로는 다음과 같습니다:
실제 테스트: 저는 **620페이지 PDF (약 180K 토큰)**를 로드하고 구조화된 요약 + Q&A 가이드를 요청했습니다.
결과:
이로 인해 GLM-4.7은 긴 문서 처리에서 2025년 1월 현재 대부분의 모델을 앞서게 되었습니다.
이야기의 또 다른 절반은 출력입니다. GLM-4.7은 최대 128,000 토큰의 생성된 텍스트를 지원합니다.
저는 합성 테스트로 "전체 코스 개요 + 설명 + 예제(약 80K 토큰)를 생성하라"고 요청했습니다. 결과:
창작자에게 이는 현실적으로 다음을 의미합니다:
매일 10만 이상의 출력을 기록하지는 않을 것입니다. 하지만 상한선이 그렇게 높다는 것을 아는 것만으로도 GLM-4.7은 긴 문서 처리와 대규모 코드베이스 작업에 아주 매력적입니다.
이론적으로, GLM-4.7은 358B 매개변수 모델이며 가중치가 공개되어 있습니다.
실제로, 제 테스트에서 이는 다음을 의미합니다:
GLM-4.7이 무엇인지뿐만 아니라 왜 중요한지 궁금하셨다면, 이것이 주요 이유 중 하나입니다: 단순한 "또 다른 30B급 모델에 마케팅 과장만 있는" 것이 아니라 공개 가중치 최전선을 진정으로 앞으로 밀어줍니다.
좋습니다, 벤치마크는 귀엽지만, 제 작업 흐름에서 무엇이 바뀌었는지가 중요합니다. 저는 GLM-4.7과 GLM-4.6을 제가 새 모델을 점검하는 데 사용하는 동일한 코딩, 추론 및 도구 사용 과제에 실행했습니다.
공식적으로, GLM-4.7은 SWE-bench에서 73.8점을 기록합니다, 이는 실질적인 GitHub 문제 해결에 대한 진지한 점수입니다.
제 자체 코딩 테스트에서 (약 25개의 과제):
이 작업에는 다음이 포함되었어요:
주요 차이점: GLM-4.7은 패치를 작성했을 뿐만 아니라 종종 실패한 테스트 출력을 정확히 참조하고 여러 파일을 일관되게 업데이트했어요. GLM-4.6은 즉각적인 오류를 수정했지만 다른 문제를 발생시키기도 했죠.

벤치마크에는 나타나지 않는 한 가지: 바이브 코딩—프론트엔드를 위한 레이아웃, 카피, 미세한 인터랙션의 조합이에요.
GLM-4.7에 다음과 같은 프롬프트를 입력했어요:
"미니멀한 AI 작성 도구를 위한 랜딩 페이지를 디자인하세요. TailwindCSS + React. 차분하지만 자신감 있는 느낌을 주고, 은은한 애니메이션을 추가하세요."
GLM-4.6과 비교했을 때 GLM-4.7은:
프론트엔드 생성이나 UI/UX 아이디어 다듬기가 워크플로에 포함되어 있다면, GLM-4.7이 훨씬 더 유쾌해요. 미적 힌트를 더 잘 이해하고 이를 감각적인 HTML/CSS/JS로 변환해요.
저는 GLM-4.7을 소규모 에이전트 워크플로우로 스트레스 테스트했습니다:
목표: 구성 업데이트, 코드 조정, 검색된 정보에 기반한 짧은 변경 로그 작성.
20회 이상 실행:
특히 두드러진 점은 GLM-4.7이 스키마를 준수하는 JSON을 처리하는 방식이었습니다. 거의 추가 필드를 잘못 생성하지 않아서 실제 에이전트 플로우에서 훨씬 덜 번거로웠습니다.
추론 측면에서 GLM-4.7은 HLE에서 42.8을 기록했습니다 (환상 및 논리 평가), 즉, 허구를 덜 만들고 논리적 사슬을 잘 따르는 것입니다.
저의 더 인간적인 버전의 테스트:
GLM-4.7:
연구 노트, 정책 초안 또는 복잡한 추론이 단어 수보다 중요한 작업을 하는 경우, GLM-4.7은 더 안전하고 투명한 파트너처럼 느껴집니다.

이제 모두가 조용히 스크롤을 내릴 부분입니다: GLM-4.7의 가격은 얼마인지, 실제로 어떻게 사용하는지 알아보겠습니다.
Zhipu의 공개 가격은 GLM-4.7에 대해 다음과 같습니다:
실제로, 제 긴 문서 테스트에서 이 가격이 어떻게 적용되었는지:
다른 최전선 모델과 비교하여, GLM-4.7의 가격 대비 품질 비율은 꽤 경쟁력이 있습니다, 특히 긴 문맥 기능을 활용할 경우 더욱 그렇습니다.
인디 크리에이터와 개인 개발자를 위해, GLM 코딩 플랜 $3/월은 조용히 가장 흥미로운 제안 중 하나입니다.
GLM-4.7 수준의 모델 위에 코딩 최적화 환경을 제공하며, 경험상 다음을 수행하기에 충분합니다:
5일 동안 코드와 관련된 모든 작업에 사용하도록 강제하면서, 일상적인 코드 작성, 리팩터링, 테스트 작성에서 하루에 1.5~2시간을 절약할 수 있었다고 추정합니다.
세 달러밖에 안 되는 가격에, 코딩에 조금이라도 진지하다면 당연히 해야 할 일입니다.
전체 제어를 원하신다면, Hugging Face에서 GLM-4.7의 오픈 가중치를 받아 자체 호스팅할 수 있습니다.
하지만 현실 점검:
하지만 이를 처리할 수 있는 팀이라면, GLM-4.7을 로컬에서 실행함으로써:
만약 초기 질문이 "GLM-4.7이 무엇인가 그리고 API를 어떻게 사용하는가"였다면, 이 부분은 무시하셔도 됩니다. 인프라에 관심이 있다면, Hugging Face 경로는 이번 릴리스에서 가장 매력적인 부분 중 하나입니다.
GLM-4.7이 실제로 저의 작업 루틴에 자리 잡은 곳입니다.
작업에 다음이 포함된다면:
…GLM-4.7의 200K 컨텍스트와 128K 출력 조합은 매우 유용합니다.
내 테스트의 예시: 제품 연구, 로드맵 노트, 사용자 피드백을 담은 170K 토큰 묶음을 입력했습니다. 우선순위 로드맵, 위험 분석, 메시징 가이드를 요청했습니다.
결과: 한 번에 일관된 계획을 만들어내고, 이를 가볍게 편집했습니다.
다른 도구로 10-20개로 쪼개는 것에 비해, GLM-4.7은 수작업을 최소 50-60% 줄였습니다.
GLM-4.7의 강력한 도구 사용과 더 나은 JSON 규율은 다단계 에이전트 워크플로우에 훌륭한 두뇌가 됩니다.
예를 들어, 작은 파이프라인에 연결했습니다:
성공률 (의미: 스키마 오류 없음, 패치가 깨끗하게 적용됨, 변경 로그 정확함):
에이전트나 내부 코파일럿을 사용하거나 개발 중이라면, 여기서 GLM-4.7의 조용한 강점이 드러납니다.
바이브 코딩에서, GLM-4.7은 실제로 경청하는 주니어 디자이너 + 프론트엔드 개발자를 데리고 있는 느낌이었습니다.
테스트에서 잘 작동한 사용 사례:
솔로 창작자나 마케터로서 작은 변경마다 Figma를 열지 않고 UI 아이디어를 반복하고 싶다면, GLM-4.7은 놀랍도록 유능한 파트너입니다. 특히 "Linear처럼 느껴지게" 또는 "Notion의 미학에 더 가깝지만 더 따뜻하게"와 같은 참조로 고정하면 더욱 그렇습니다.
사람들이 GLM-4.7이 다른 모델에 비해 어떤 점이 좋은지 물어볼 때, 저는 이렇게 설명합니다:
현재 제 개인 스택에서는:
GLM-4.7은 358B 파라미터, 200K 컨텍스트, 코딩에 강한, 오픈 웨이트의 최첨단 모델로, 긴 컨텍스트와 고품질의 추론을 사용 가능하게 만들어줍니다. 데모 친화적인 것에 그치지 않습니다.
궁금하다면 제 조언: 한 가지 워크플로우—긴 PDF 분석, 고집스러운 코딩 문제, 작은 에이전트 파이프라인—를 선택하고 GLM-4.7과 현재 즐겨 사용하는 모델을 나란히 실행해 보세요. 차이는 읽는 것보다 느끼는 것이 훨씬 쉽습니다.
이번 주 테스트를 통해 다시금 확신한 한 가지: GLM-4.7 같은 모델들은 단순히 더 똑똑해지는 것이 아니라, 우리의 사고, 계획, 그리고 의사 결정 방식의 기반이 되어가고 있습니다.
이러한 아이디어가 바로 우리가 Macaron을 만드는 이유입니다. 단순히 '더 많은 일을 더 빠르게' 하는 AI가 아니라, 조용히 적합한 모델을 선택해주는 개인 에이전트 — 코딩, 읽기, 계획, 혹은 단순히 생각하는 일 — AI가 우리의 삶에 맞춰지게 하기 위해서입니다.
실제로 어떤 느낌인지 궁금하다면, Macaron을 무료로 체험해보세요.
테스트 자격: 저는 2023년부터 코딩, 추론, 생산 워크플로우를 통해 50개 이상의 LLM을 테스트한 AI 모델 평가 전문가입니다. 이 GLM-4.7 분석은 2024년 12월부터 2025년 1월까지 일주일간의 실습 테스트를 기반으로 합니다.
테스트 방법론:
제휴 공개: 이 글에는 Macaron의 추천 링크가 포함되어 있습니다. 저는 Zhipu AI로부터 어떠한 보상도 받지 않으며, 모든 테스트는 공용 API와 코딩 플랜을 사용하여 독립적으로 수행되었습니다.
테스트된 소프트웨어 버전:
출처 및 참고 자료: