제가 처음 GLM-4.7이 실제로 무엇인지 알아보려고 앉았을 때 (보도자료의 언어가 아닌) "또 다른 프런티어 모델의 상승"을 예상했습니다. 약간 더 나은 벤치마크, 모호한 추론에 대한 주장, 그리고 그 외에는 별로 없을 것 같았습니다.
그렇지 않았습니다.
코딩, 긴 문서 검토, 일부 에이전트 스타일 워크플로우에서 GLM-4.7을 일주일 동안 테스트한 후, 몇 가지 기본 도구를 재조정하게 되었습니다. 이 모델은 아주 독특한 틈새에 자리잡고 있습니다: 큰 컨텍스트, 뛰어난 코딩 능력, 그리고 358B 매개변수의 공개 가중치, 이는 2025년에 쓸 것이라고 생각하지 못한 문장입니다.
GLM-4.7이 실제로 무엇인지, 어떻게 작동하는지, 그리고 창작자/인디 개발자 워크플로우에서 현실적으로 어디에 맞는지를 설명해 드리겠습니다.
GLM-4, GLM-4-Air, 또는 GLM-4.6을 사용해 본 적이 있다면, GLM-4.7은 Zhipu의 "이제 장난이 아닙니다"라는 릴리스입니다. 프론티어 수준의 추론 + 큰 컨텍스트 + 공개 가중치가 프로덕션 API와 파워 유저 모두를 대상으로 하고 있습니다.
Zhipu는 2024년 말 조용히 GLM-4.7을 출시한 후 2025년 초부터 코딩과 추론의 새로운 플래그십 모델로 밀어붙이기 시작했어요. 제가 테스트를 위해 접근했을 때는 이미 문서에서 기본 고급 GLM 모델로 언급되고 있었어요.
대개 Zhipu API에서는 glm-4.7 또는 유사한 것으로 노출되며, Hugging Face에서 셀프 호스팅을 위한 358B 오픈 가중치 릴리스로 제공됩니다.
실제로 사용해본 후 모델 포지셔닝을 요약하면 다음과 같습니다:
Zhipu의 자체 생태계에서는 GLM-4.7이 최고의 코딩 및 추론 모델로 자리 잡고 있으며, SWE-bench 및 HLE와 같은 벤치마크에서 우승한 것으로 뒷받침됩니다. 실제로는 품질을 원가보다 더 중요하게 여길 때 선택하게 되는 모델입니다.
제가 실제로 "오, 진짜 했네"라고 느낀 가장 큰 순간은 이거였어요: GLM-4.7의 358B-parameter 버전이 공개 가중치로 제공됩니다.
다음과 같은 작업이 가능합니다:
제 테스트에서, 이 공개 가중치 접근은 솔로 크리에이터에게는 덜 중요하고 (대부분 API를 사용하니까요), 데이터 제어가 필요하거나 전문 내부 코파일럿을 구축하려는 팀에게 더 중요합니다.
GLM-4.7과 GLM-4.6의 비교가 궁금하다면, 두 모델을 나란히 사용한 간단한 요약은 다음과 같습니다:
제가 활용하는 벤치마크 셋(약 40개의 실제 세계 작업을 모델에 반복 적용)에서, GLM-4.7은 GLM-4.6보다 복잡한 코딩 작업을 약 18–20% 더 많이 해결했습니다, 추가 프롬프트 노력 없이도요.
그래서 아직도 4.6을 진지하게 사용 중이라면, GLM-4.7은 단순한 외형적 업그레이드가 아니며, GLM 라인의 새로운 기준입니다.
사양이 모든 것을 말해주지는 않지만, GLM-4.7은 일상적으로 사용하는 방식과 직접적으로 관련된 몇 가지 특징을 가지고 있어요.
GLM-4.7은 200K 토큰의 컨텍스트 윈도우를 제공합니다. 인간의 언어로 말하자면:
제 테스트에서는:
지연 시간이 증가했고, 작은 프롬프트에서는 약 34초였던 응답 시간이 이 거대한 입력에서는 약 1318초로 늘어났지만, 시스템이 무너지거나 과도한 환각을 보이지 않았어요. 이는 보통 긴 컨텍스트 마케팅 주장을 망치는 요인이죠.
이야기의 다른 절반은 출력입니다. GLM-4.7은 최대 128K 토큰의 생성된 텍스트를 지원합니다.
나는 합성 테스트를 통해 이를 테스트했습니다: "전체 강좌 개요 + 설명 + 예시 (~80K 토큰)을 생성하세요." 그것은:
창작자에게 이것은 현실적으로:
매일 100K+ 출력으로 살지는 않겠지만, GLM-4.7의 한계가 그렇게 높다는 것을 아는 것은 긴 문서 처리와 대규모 코드베이스 작업에 매우 매력적이에요.
이론적으로, GLM-4.7은 358B 파라미터 모델로 오픈 가중치를 가지고 있습니다.
실제로, 제 테스트에서 이것은 다음과 같은 의미였습니다:
GLM-4.7이 무엇인지뿐만 아니라 왜 중요한지를 스스로에게 물어본 적이 있다면, 이것이 큰 이유 중 하나입니다: 단순히 '또 다른 30B 모델과 마케팅 플레어'가 되는 대신 오픈 가중치 최전선을 진정으로 앞으로 나아가게 합니다.
좋아요, 벤치마크도 좋지만, 저는 워크플로우에서 무엇이 바뀌었는지가 중요해요. GLM-4.7과 GLM-4.6을 같은 코딩, 추론, 도구 사용 과제를 통해 새로운 모델을 점검했습니다.
공식적으로, GLM-4.7은 SWE-bench에서 73.8을 기록했습니다, 이는 실제 GitHub 이슈 해결에 있어 상당한 점수입니다.
제가 직접 진행한 코딩 테스트 (약 25개 과제):
이 과제들에는 다음이 포함되었습니다:
주요 차이점: GLM-4.7은 패치를 작성하는 것뿐만 아니라 실패한 테스트 출력을 올바르게 참조하고 여러 파일을 일관되게 업데이트했습니다. 4.6은 가끔 즉각적인 오류를 수정했지만 다른 문제를 발생시켰습니다.
벤치마크에 나타나지 않는 한 가지: 레이아웃, 카피, 프론트엔드를 위한 미세한 상호작용이 조합된 Vibe 코딩.
GLM-4.7에 다음과 같은 프롬프트를 제공했습니다:
"미니멀리스트 AI 작성 도구를 위한 랜딩 페이지를 디자인하세요. TailwindCSS + React. 차분하지만 자신감 있는 느낌이 들도록 하고, 미묘한 애니메이션을 추가하세요."
GLM-4.6과 비교했을 때, GLM-4.7은:
프론트엔드 생성이나 UI/UX 아이디어 수정이 워크플로의 일부라면, GLM-4.7은 훨씬 쾌적해요. 미적 힌트를 더 잘 이해하고 이를 합리적인 HTML/CSS/JS로 변환해요.
작은 에이전트 워크플로로 GLM-4.7을 스트레스 테스트했어요:
목표: 설정 업데이트, 코드 조정, 검색된 정보를 기반으로 짧은 변경 로그 작성.
20번의 실행 중:
특히 GLM-4.7이 스키마를 준수하는 JSON을 다루는 방식이 돋보였어요. 거의 추가 필드를 잘못 생성하는 일이 없어 프로덕션 스타일 에이전트 흐름에서 덜 번거로워요.
추론 측면에서, GLM-4.7은 HLE(환각 및 논리 평가)에서 42.8점을 기록했어요. 즉, 잘못된 정보를 만들어내지 않고 논리적 체인을 따르는 데 더 뛰어나요.
제 더 인간적인 버전의 테스트:
GLM-4.7:
연구 노트, 정책 초안, 또는 복잡한 추론이 단어 수보다 중요한 작업을 할 때, GLM-4.7은 더 안전하고 투명한 파트너처럼 느껴져요.
이제 모두가 조용히 스크롤하는 부분: GLM-4.7의 가격은 얼마이며, 실제로 어떻게 사용하는지에 대해 알아봅시다.
GLM-4.7의 Zhipu 공개 가격은 다음과 같습니다:
실제로, 제 긴 문서 테스트에서는 다음과 같았습니다:
다른 최첨단 모델과 비교했을 때, GLM-4.7의 가격 대비 품질 비율은 특히 긴 컨텍스트 기능을 활용할 경우 꽤 경쟁력이 있습니다.
인디 크리에이터와 개인 개발자를 위해, 월 $3의 GLM 코딩 플랜은 조용히 더 흥미로운 제안 중 하나입니다.
GLM-4.7 수준의 모델 위에 코딩 최적화 환경을 제공하여, 제 경험상 다음을 수행하기에 충분합니다:
5일 동안 모든 코드 관련 작업에 사용하도록 스스로를 강제했을 때, 보일러플레이트, 리팩터링, 테스트 작성에서 하루에 약 1.5~2시간을 절약했다고 추정합니다.
세 달러라면, 코딩에 반쯤 진지하다면 당연히 선택해야 할 사항입니다.
전체 제어를 원한다면 Hugging Face에서 GLM-4.7의 오픈 웨이트를 가져와 자체 호스팅할 수 있습니다.
하지만 현실을 직시하세요:
그러나 이를 처리할 수 있는 팀이라면 GLM-4.7을 로컬에서 실행한다는 것은:
처음 질문이 "GLM-4.7이 무엇이며 API를 어떻게 이용하나요"라면 이 부분은 무시해도 됩니다. 인프라에 관심이 있다면, Hugging Face 경로는 이 릴리스의 가장 매력적인 부분 중 하나입니다.
GLM-4.7이 실제로 제 사용 목록에 자리 잡은 이유입니다.
작업이 다음과 관련이 있다면:
…GLM-4.7의 200K 컨텍스트와 128K 출력 조합은 매우 유용합니다.
테스트에서의 예:
다른 도구로 모든 것을 10–20 조각으로 나누는 것과 비교하면, GLM-4.7은 수작업 부담을 최소 50–60% 줄여줍니다.
GLM-4.7의 강력한 도구 활용과 향상된 JSON 규율은 다단계 에이전트 워크플로우에 훌륭한 두뇌 역할을 합니다.
예를 들어, 작은 파이프라인에 연결했습니다:
성공률(의미: 스키마 오류 없음, 패치가 깔끔하게 적용됨, 변경 로그 정확함):
에이전트를 활용하거나 내부 보조자를 구축하는 경우, 이 부분에서 GLM-4.7은 조용히 빛납니다.
감성 코딩에서 GLM-4.7은 실제로 귀 기울이는 주니어 디자이너 + 프론트엔드 개발자를 가진 것 같은 느낌이었습니다.
내 테스트에서 잘 작동한 사용 사례:
만약 당신이 모든 작은 변화를 위해 Figma를 열지 않고 UI 아이디어를 반복하고 싶은 솔로 창작자나 마케터라면, GLM-4.7은 "Linear처럼 느껴지게" 또는 "Notion의 미학에 더 가깝지만 따뜻하게" 같은 레퍼런스로 고정하면 놀라울 만큼 유능한 파트너입니다.
사람들이 GLM-4.7이 다른 모델에 비해 무엇이 좋은지 물을 때, 저는 이렇게 설명합니다:
현재 제 개인 스택에서는:
인디 창작자/마케터 입장에서의 실용적인 요약은 다음과 같아요:
그렇다면 GLM-4.7이란 무엇인가요, 한 문장으로?
358B 파라미터, 200K 컨텍스트, 코딩에 강한, 열린 가중치를 가진 최전선 모델로, 긴 컨텍스트와 고품질의 추론을 체감 가능하게 만들어주죠, 단순히 데모에 그치지 않아요.
호기심이 있다면, 제 조언은 간단해요: 하나의 워크플로, 긴 PDF 분석, 고집스러운 코딩 문제, 혹은 작은 에이전트 파이프라인을 선택하고, GLM-4.7과 현재 좋아하는 것과 나란히 실행해보세요. 읽는 것보다 느끼는 것이 훨씬 쉬워요.
이번 주 테스트를 통해 한 가지 확실해진 점은: GLM-4.7과 같은 모델들은 단순히 더 똑똑해지는 것이 아니라, 우리가 생각하고 계획하고 결정을 내리는 방식의 인프라가 되고 있다는 것입니다.
이러한 아이디어가 바로 우리가 Macaron을 만드는 이유입니다. "더 많은 일을 더 빠르게" 하는 또 다른 AI가 아니라, 조용히 적절한 모델을 선택해주는 개인 에이전트 — 코딩, 읽기, 계획 세우기, 또는 단순히 생각을 정리하기 위해 — AI가 삶에 맞춰지도록 하는 것입니다.
실제로 어떤 느낌인지 궁금하다면, 여기에서 시도해볼 수 있습니다: → Macaron 무료로 체험하기