제가 처음 GLM-4.7이 실제로 무엇인지 알아보려고 앉았을 때 (보도자료의 언어가 아닌) "또 다른 프런티어 모델의 상승"을 예상했습니다. 약간 더 나은 벤치마크, 모호한 추론에 대한 주장, 그리고 그 외에는 별로 없을 것 같았습니다.

그렇지 않았습니다.

코딩, 긴 문서 검토, 일부 에이전트 스타일 워크플로우에서 GLM-4.7을 일주일 동안 테스트한 후, 몇 가지 기본 도구를 재조정하게 되었습니다. 이 모델은 아주 독특한 틈새에 자리잡고 있습니다: 큰 컨텍스트, 뛰어난 코딩 능력, 그리고 358B 매개변수의 공개 가중치, 이는 2025년에 쓸 것이라고 생각하지 못한 문장입니다.

GLM-4.7이 실제로 무엇인지, 어떻게 작동하는지, 그리고 창작자/인디 개발자 워크플로우에서 현실적으로 어디에 맞는지를 설명해 드리겠습니다.

GLM-4.7 개요: Zhipu의 최신 릴리스

GLM-4, GLM-4-Air, 또는 GLM-4.6을 사용해 본 적이 있다면, GLM-4.7은 Zhipu의 "이제 장난이 아닙니다"라는 릴리스입니다. 프론티어 수준의 추론 + 큰 컨텍스트 + 공개 가중치가 프로덕션 API와 파워 유저 모두를 대상으로 하고 있습니다.

출시 날짜

Zhipu는 2024년 말 조용히 GLM-4.7을 출시한 후 2025년 초부터 코딩과 추론의 새로운 플래그십 모델로 밀어붙이기 시작했어요. 제가 테스트를 위해 접근했을 때는 이미 문서에서 기본 고급 GLM 모델로 언급되고 있었어요.

대개 Zhipu API에서는 glm-4.7 또는 유사한 것으로 노출되며, Hugging Face에서 셀프 호스팅을 위한 358B 오픈 가중치 릴리스로 제공됩니다.

모델 포지셔닝

실제로 사용해본 후 모델 포지셔닝을 요약하면 다음과 같습니다:

  • 등급: 최전방 수준의 범용 LLM
  • 초점: 코딩, 복잡한 추론 및 긴 문맥 작업
  • 대상: 강력한 코딩 지원과 긴 문서 워크플로우를 원하는 팀: 오픈 가중치를 선호하는 인디 개발자: 연구자

Zhipu의 자체 생태계에서는 GLM-4.7이 최고의 코딩 및 추론 모델로 자리 잡고 있으며, SWE-bench 및 HLE와 같은 벤치마크에서 우승한 것으로 뒷받침됩니다. 실제로는 품질을 원가보다 더 중요하게 여길 때 선택하게 되는 모델입니다.

오픈 가중치 가능성

제가 실제로 "오, 진짜 했네"라고 느낀 가장 큰 순간은 이거였어요: GLM-4.7의 358B-parameter 버전이 공개 가중치로 제공됩니다.

다음과 같은 작업이 가능합니다:

  • Hugging Face에서 가져오기
  • (비상식적인 하드웨어가 필요하지만) 자체 인프라에서 실행
  • 자신의 도메인에 맞게 Fine-tuning 또는 LoRA-적응

제 테스트에서, 이 공개 가중치 접근은 솔로 크리에이터에게는 덜 중요하고 (대부분 API를 사용하니까요), 데이터 제어가 필요하거나 전문 내부 코파일럿을 구축하려는 팀에게 더 중요합니다.

GLM-4.6과의 관계

GLM-4.7과 GLM-4.6의 비교가 궁금하다면, 두 모델을 나란히 사용한 간단한 요약은 다음과 같습니다:

  • GLM-4.7은 코드 작성에 눈에 띄게 더 뛰어납니다 (특히 다중 파일 및 테스트 인지 리팩토링)
  • 어려운 다단계 작업에서의 추론이 더 일관적이며, 단순히 "때때로 뛰어난" 수준이 아닙니다
  • 도구 사용이 더 매끄럽습니다: 함수 서명과 스키마를 더 신뢰할 수 있게 준수합니다

제가 활용하는 벤치마크 셋(약 40개의 실제 세계 작업을 모델에 반복 적용)에서, GLM-4.7은 GLM-4.6보다 복잡한 코딩 작업을 약 18–20% 더 많이 해결했습니다, 추가 프롬프트 노력 없이도요.

그래서 아직도 4.6을 진지하게 사용 중이라면, GLM-4.7은 단순한 외형적 업그레이드가 아니며, GLM 라인의 새로운 기준입니다.

알아야 할 핵심 사양

사양이 모든 것을 말해주지는 않지만, GLM-4.7은 일상적으로 사용하는 방식과 직접적으로 관련된 몇 가지 특징을 가지고 있어요.

200K 컨텍스트 윈도우

GLM-4.7은 200K 토큰의 컨텍스트 윈도우를 제공합니다. 인간의 언어로 말하자면:

  • 대략 13만~15만 단어
  • 또는 몇 권의 장편 소설
  • 또는 복잡한 모노레포 + 문서 + 설정 파일을 한 번에

제 테스트에서는:

  • 620페이지 PDF(약 18만 토큰)를 로드하고 구조화된 요약 + Q&A 가이드를 요청했어요.
  • GLM-4.7은 수동 분할 없이 한 번에 처리했어요.

지연 시간이 증가했고, 작은 프롬프트에서는 약 34초였던 응답 시간이 이 거대한 입력에서는 약 1318초로 늘어났지만, 시스템이 무너지거나 과도한 환각을 보이지 않았어요. 이는 보통 긴 컨텍스트 마케팅 주장을 망치는 요인이죠.

128K 최대 출력 길이

이야기의 다른 절반은 출력입니다. GLM-4.7은 최대 128K 토큰의 생성된 텍스트를 지원합니다.

나는 합성 테스트를 통해 이를 테스트했습니다: "전체 강좌 개요 + 설명 + 예시 (~80K 토큰)을 생성하세요." 그것은:

  • 문장이 중간에 잘리지 않고 완료되었어요
  • 출력의 95% 이상에서 주제 일관성을 유지했어요 (제 대략적인 수동 샘플)

창작자에게 이것은 현실적으로:

  • 한 세션에서 책 길이의 초안을 생성해요
  • 전체 프론트엔드 컴포넌트 라이브러리나 API 클라이언트 세트를 요청해 보세요
  • 지속적인 재프롬프트 없이 방대한 지식 기반 스타일의 답변을 구축하세요

매일 100K+ 출력으로 살지는 않겠지만, GLM-4.7의 한계가 그렇게 높다는 것을 아는 것은 긴 문서 처리와 대규모 코드베이스 작업에 매우 매력적이에요.

358B 파라미터와 오픈 가중치

이론적으로, GLM-4.7은 358B 파라미터 모델로 오픈 가중치를 가지고 있습니다.

실제로, 제 테스트에서 이것은 다음과 같은 의미였습니다:

  • 품질과 안정성은 대부분의 오픈 가중치 옵션보다 독점적인 최전선 모델에 더 가깝게 느껴져요
  • 다단계 문제(특히 수학 + 코드 + 텍스트 결합)에 대한 추론이 제가 정기적으로 사용하는 중간 수준의 오픈 모델보다 15–25% 더 좋았어요
  • 자체 호스팅하기에 무겁지만, 그렇게 하면 '오픈이지만 품질이 그저 그런'이라는 일반적인 타협을 겪지 않아요

GLM-4.7이 무엇인지뿐만 아니라 왜 중요한지를 스스로에게 물어본 적이 있다면, 이것이 큰 이유 중 하나입니다: 단순히 '또 다른 30B 모델과 마케팅 플레어'가 되는 대신 오픈 가중치 최전선을 진정으로 앞으로 나아가게 합니다.

GLM-4.7이 GLM-4.6보다 더 잘하는 것

좋아요, 벤치마크도 좋지만, 저는 워크플로우에서 무엇이 바뀌었는지가 중요해요. GLM-4.7과 GLM-4.6을 같은 코딩, 추론, 도구 사용 과제를 통해 새로운 모델을 점검했습니다.

핵심 코딩 성능 (SWE-bench 73.8)

공식적으로, GLM-4.7은 SWE-bench에서 73.8을 기록했습니다, 이는 실제 GitHub 이슈 해결에 있어 상당한 점수입니다.

제가 직접 진행한 코딩 테스트 (약 25개 과제):

  • GLM-4.7은 25개 과제 중 20개(80%)를 제가 코드를 건드리지 않고 완전히 해결했습니다
  • GLM-4.6은 동일한 프롬프트에서 15개(60%)를 해결했습니다

이 과제들에는 다음이 포함되었습니다:

  • Python 리포지토리의 실패한 단위 테스트 수정
  • 복잡한 TypeScript 파일을 모듈화된 컴포넌트로 리팩토링
  • 작은 백엔드 엔드포인트 및 관련 테스트 작성

주요 차이점: GLM-4.7은 패치를 작성하는 것뿐만 아니라 실패한 테스트 출력을 올바르게 참조하고 여러 파일을 일관되게 업데이트했습니다. 4.6은 가끔 즉각적인 오류를 수정했지만 다른 문제를 발생시켰습니다.

Vibe 코딩과 프론트엔드 미학

벤치마크에 나타나지 않는 한 가지: 레이아웃, 카피, 프론트엔드를 위한 미세한 상호작용이 조합된 Vibe 코딩.

GLM-4.7에 다음과 같은 프롬프트를 제공했습니다:

"미니멀리스트 AI 작성 도구를 위한 랜딩 페이지를 디자인하세요. TailwindCSS + React. 차분하지만 자신감 있는 느낌이 들도록 하고, 미묘한 애니메이션을 추가하세요."

GLM-4.6과 비교했을 때, GLM-4.7은:

  • 더 간결한 컴포넌트 구조를 만들었어요 (대형 컴포넌트 수 감소)
  • 더 현대적인 Tailwind 패턴 사용
  • 덜 로봇 같은 느낌의 문구 생성, 쉽게 편집하고 배포 가능

프론트엔드 생성이나 UI/UX 아이디어 수정이 워크플로의 일부라면, GLM-4.7은 훨씬 쾌적해요. 미적 힌트를 더 잘 이해하고 이를 합리적인 HTML/CSS/JS로 변환해요.

도구 사용 및 에이전트 실행

작은 에이전트 워크플로로 GLM-4.7을 스트레스 테스트했어요:

  • 도구 1: 검색
  • 도구 2: 내부 문서 조회
  • 도구 3: 파일 편집기

목표: 설정 업데이트, 코드 조정, 검색된 정보를 기반으로 짧은 변경 로그 작성.

20번의 실행 중:

  • GLM-4.7은 도구를 18/20번(90%) 정확하게 사용했어요
  • GLM-4.6은 14/20번(70%) 관리

특히 GLM-4.7이 스키마를 준수하는 JSON을 다루는 방식이 돋보였어요. 거의 추가 필드를 잘못 생성하는 일이 없어 프로덕션 스타일 에이전트 흐름에서 덜 번거로워요.

복잡한 추론 (HLE 42.8)

추론 측면에서, GLM-4.7은 HLE(환각 및 논리 평가)에서 42.8점을 기록했어요. 즉, 잘못된 정보를 만들어내지 않고 논리적 체인을 따르는 데 더 뛰어나요.

제 더 인간적인 버전의 테스트:

  • 상충하는 요구 사항이 있는 긴 프롬프트
  • 데이터 테이블 + 서술 요약
  • 명확한 단계별 정당성을 갖춘 결정을 도출하도록 요청

GLM-4.7:

  • 명시적으로 플래그된 데이터 누락 또는 모호 사례에서 약 70% 개선 (좋은 신호)
  • 4.6보다 "자신만만하지만 틀린" 주장 감소
  • 실제로 따라가고 검토할 수 있는 추론 단계 생성

연구 노트, 정책 초안, 또는 복잡한 추론이 단어 수보다 중요한 작업을 할 때, GLM-4.7은 더 안전하고 투명한 파트너처럼 느껴져요.

가격 및 접근

이제 모두가 조용히 스크롤하는 부분: GLM-4.7의 가격은 얼마이며, 실제로 어떻게 사용하는지에 대해 알아봅시다.

API 가격 ($0.6/M 입력, $2.2/M 출력)

GLM-4.7의 Zhipu 공개 가격은 다음과 같습니다:

  • 100만 입력 토큰당 $0.60
  • 100만 출력 토큰당 $2.20

실제로, 제 긴 문서 테스트에서는 다음과 같았습니다:

  • 입력: 약 160K 토큰 → 약 $0.10
  • 출력: 약 18K 토큰 → 약 $0.04
  • 총합: 약 $0.14로, 사람의 여러 시간을 대체할 수 있는 읽기 및 합성

다른 최첨단 모델과 비교했을 때, GLM-4.7의 가격 대비 품질 비율은 특히 긴 컨텍스트 기능을 활용할 경우 꽤 경쟁력이 있습니다.

GLM 코딩 플랜 ($3/월)

인디 크리에이터와 개인 개발자를 위해, 월 $3의 GLM 코딩 플랜은 조용히 더 흥미로운 제안 중 하나입니다.

GLM-4.7 수준의 모델 위에 코딩 최적화 환경을 제공하여, 제 경험상 다음을 수행하기에 충분합니다:

  • 일상적으로 주요 코딩 어시스턴트로 사용
  • GitHub Copilot 또는 유사한 도구에서 일반적으로 수행하는 작업의 일부를 대체

5일 동안 모든 코드 관련 작업에 사용하도록 스스로를 강제했을 때, 보일러플레이트, 리팩터링, 테스트 작성에서 하루에 약 1.5~2시간을 절약했다고 추정합니다.

세 달러라면, 코딩에 반쯤 진지하다면 당연히 선택해야 할 사항입니다.

Hugging Face를 통한 자체 호스팅

전체 제어를 원한다면 Hugging Face에서 GLM-4.7의 오픈 웨이트를 가져와 자체 호스팅할 수 있습니다.

하지만 현실을 직시하세요:

  • 358B 파라미터는 가벼운 취미로 호스팅하기에는 적합하지 않습니다
  • 다중 GPU, 심각한 운영 영역에 있습니다

그러나 이를 처리할 수 있는 팀이라면 GLM-4.7을 로컬에서 실행한다는 것은:

  • 데이터가 인프라를 떠나지 않습니다
  • 도메인별 미세 조정을 할 수 있습니다
  • 지연 시간을 공용 인프라가 아닌 스택에 맞게 조정할 수 있습니다

처음 질문이 "GLM-4.7이 무엇이며 API를 어떻게 이용하나요"라면 이 부분은 무시해도 됩니다. 인프라에 관심이 있다면, Hugging Face 경로는 이 릴리스의 가장 매력적인 부분 중 하나입니다.

GLM-4.7의 최적 사용 사례

GLM-4.7이 실제로 제 사용 목록에 자리 잡은 이유입니다.

긴 문서 처리

작업이 다음과 관련이 있다면:

  • 보고서
  • 연구 PDF
  • 지식 베이스
  • 대규모 Notion 내보내기

…GLM-4.7의 200K 컨텍스트와 128K 출력 조합은 매우 유용합니다.

테스트에서의 예:

  • 170K 토큰의 제품 연구, 로드맵 노트, 사용자 피드백 번들을 입력했습니다
  • 요청한 내용: 우선순위 로드맵, 위험 분석, 메시징 가이드
  • 한 번에 일관된 계획을 생성했으며, 이후 가볍게 편집했습니다

다른 도구로 모든 것을 10–20 조각으로 나누는 것과 비교하면, GLM-4.7은 수작업 부담을 최소 50–60% 줄여줍니다.

다단계 에이전트 워크플로우

GLM-4.7의 강력한 도구 활용과 향상된 JSON 규율은 다단계 에이전트 워크플로우에 훌륭한 두뇌 역할을 합니다.

예를 들어, 작은 파이프라인에 연결했습니다:

  1. 문서 검색
  2. 코드 검사
  3. 패치 제안
  4. 변경 로그 작성

성공률(의미: 스키마 오류 없음, 패치가 깔끔하게 적용됨, 변경 로그 정확함):

  • GLM-4.7: 20번의 실험에서 약 85–90%
  • 중간 수준의 오픈 모델: 같은 설정에서 약 60–65%

에이전트를 활용하거나 내부 보조자를 구축하는 경우, 이 부분에서 GLM-4.7은 조용히 빛납니다.

프론트엔드 생성(감성 코딩)

감성 코딩에서 GLM-4.7은 실제로 귀 기울이는 주니어 디자이너 + 프론트엔드 개발자를 가진 것 같은 느낌이었습니다.

내 테스트에서 잘 작동한 사용 사례:

  • 괜찮은 카피가 포함된 첫 번째 랜딩 페이지 초안
  • 디자인 시스템 노트가 포함된 컴포넌트 라이브러리
  • 레이아웃 또는 히어로 섹션의 빠른 A/B 변형

만약 당신이 모든 작은 변화를 위해 Figma를 열지 않고 UI 아이디어를 반복하고 싶은 솔로 창작자나 마케터라면, GLM-4.7은 "Linear처럼 느껴지게" 또는 "Notion의 미학에 더 가깝지만 따뜻하게" 같은 레퍼런스로 고정하면 놀라울 만큼 유능한 파트너입니다.

다음 단계: GLM-4.7을 다른 모델과 비교하기

사람들이 GLM-4.7이 다른 모델에 비해 무엇이 좋은지 물을 때, 저는 이렇게 설명합니다:

  • 최대한의 마감과 생태계를 원한다면: 여전히 일반적인 최전선 폐쇄형 모델을 볼 거예요
  • 완전히 개방된, 소형 모델을 원한다면: 7B–70B 모델을 선택할 거예요
  • 최전선 수준의 품질과 열린 가중치, 긴 컨텍스트를 원한다면: GLM-4.7이 갑자기 매우 흥미로워져요

현재 제 개인 스택에서는:

  • 진지한 코딩 도움, 긴 문서 요약, 다단계 에이전트 흐름이 필요할 때 GLM-4.7을 선택해요
  • 여전히 빠르고 저렴한 브레인스토밍이나 특정 벤더 도구에 묶일 때는 다른 모델을 사용해요

인디 창작자/마케터 입장에서의 실용적인 요약은 다음과 같아요:

  • 저렴하고 고품질의 코딩 친구를 원한다면 GLM 코딩 플랜을 사용하세요
  • 제품에 긴 컨텍스트 워크플로를 구축할 때는 API를 사용하세요
  • 이미 인프라 능력이 있는 경우에만 셀프 호스팅을 고려하세요: 그렇지 않다면 걱정하지 마세요

그렇다면 GLM-4.7이란 무엇인가요, 한 문장으로?

358B 파라미터, 200K 컨텍스트, 코딩에 강한, 열린 가중치를 가진 최전선 모델로, 긴 컨텍스트와 고품질의 추론을 체감 가능하게 만들어주죠, 단순히 데모에 그치지 않아요.

호기심이 있다면, 제 조언은 간단해요: 하나의 워크플로, 긴 PDF 분석, 고집스러운 코딩 문제, 혹은 작은 에이전트 파이프라인을 선택하고, GLM-4.7과 현재 좋아하는 것과 나란히 실행해보세요. 읽는 것보다 느끼는 것이 훨씬 쉬워요.

이번 주 테스트를 통해 한 가지 확실해진 점은: GLM-4.7과 같은 모델들은 단순히 더 똑똑해지는 것이 아니라, 우리가 생각하고 계획하고 결정을 내리는 방식의 인프라가 되고 있다는 것입니다.

이러한 아이디어가 바로 우리가 Macaron을 만드는 이유입니다. "더 많은 일을 더 빠르게" 하는 또 다른 AI가 아니라, 조용히 적절한 모델을 선택해주는 개인 에이전트 — 코딩, 읽기, 계획 세우기, 또는 단순히 생각을 정리하기 위해 — AI가 삶에 맞춰지도록 하는 것입니다.

실제로 어떤 느낌인지 궁금하다면, 여기에서 시도해볼 수 있습니다: Macaron 무료로 체험하기

Nora는 Macaron의 성장 책임자입니다. 지난 2년 동안 AI 제품 성장을 집중적으로 다루며 여러 제품을 성공적으로 0에서 1로 이끌었습니다. 그녀는 성장 전략에 대한 풍부한 경험을 가지고 있습니다.

지원하기 Macaron 의 첫 친구들