
작성자: Boxu Li at Macaron
긴 문맥 처리는 오랫동안 언어 모델의 고충점이었습니다. 변환기에 100K 토큰의 문서를 입력하면 지연, 메모리 폭발, 또는 과도한 API 비용을 초래할 수 있습니다. 전통적인 밀집 대형 언어 모델(LLM)은 책 길이의 입력을 효율적으로 처리하도록 설계되지 않았습니다. DeepSeek-OCR 3B가 등장했습니다. 이 새로운 오픈 소스 전문 모델은 근본적으로 다른 접근 방식을 취합니다: 시각 인식을 텍스트의 압축 매체로 사용합니다[1][2]. 수천 개의 텍스트 토큰을 직접 입력하는 대신, DeepSeek은 페이지를 이미지로 변환하고 비전-언어 파이프라인이 텍스트를 재구성하도록 합니다. 이 기술은 문맥 광학 압축이라고 불리며, 모델이 훨씬 적은 토큰으로 훨씬 더 많은 정보를 압축할 수 있게 합니다[2][3]. DeepSeek-OCR은 최소한의 정확도 손실과 함께 최대 7–20× 토큰 감소를 약속합니다[4][5], 표준 하드웨어에서 확장 가능한 초장문서 구문 분석을 가능하게 합니다. 무엇보다도, 이 모델은 완전한 오픈 소스로 제공되며(허깅 페이스와 GitHub에 공개됨), 허용적인 라이선스 하에 고급 OCR 기능을 모두에게 접근 가능하게 합니다[6][7]. 이 게시물에서는 DeepSeek-OCR의 아키텍처와 훈련을 분석하고, 전통적인 밀집 LLM 및 클로즈드 소스 OCR 서비스와 비교하며, 이 릴리스가 개발자와 산업의 오픈 소스 경로에 어떤 의미를 갖는지 탐구할 것입니다.
2단계 비전-언어 설계. DeepSeek-OCR은 두 부분으로 구성된 시스템으로, 비전 인코더인 DeepEncoder와 텍스트 디코더인 DeepSeek-3B-MoE-A570M[8]로 구성되어 있습니다. DeepEncoder (≈380M params)는 문서 페이지의 이미지를 받아 "비전 토큰"의 압축된 시퀀스를 출력합니다. 이 토큰들은 DeepSeek-3B-MoE 디코더에 입력되어 텍스트 콘텐츠를 생성합니다. 이는 전통적인 밀집 LLM과는 다릅니다(전통적인 LLM은 텍스트 입력을 처음부터 끝까지 처리합니다) - 여기서는 페이지 레이아웃과 시각적 텍스트를 이해하는 대부분의 작업을 인코더가 수행하여 디코더가 훨씬 짧은 시퀀스에서 작동할 수 있도록 합니다[2][3].
비전 인코딩을 통한 압축. 인코더는 혁신의 많은 부분이 집약된 곳입니다. 고해상도 페이지를 효율적으로 처리하고 크게 압축하도록 설계되었습니다. 어떻게 가능할까요? DeepEncoder는 여러 구성 요소를 결합합니다: (1) 세밀한 인식을 위한 SAM-base(Segment Anything Model) 기반의 로컬 비전 모듈로 작은 영역을 검사하는 창 기반 주의 메커니즘을 사용합니다[9]; (2) 이미지 토큰 수를 대폭 줄이는 16× 컨볼루셔널 다운샘플러로 4096개의 패치 토큰을 256개로 줄입니다[10]; (3) 밀집 주의 메커니즘을 통해 전체적인 이미지 이해를 돕는 CLIP-large 기반의 글로벌 비전 모듈입니다[11]. 실제로, 전체 1024×1024 문서 이미지는 대부분의 텍스트 정보를 잃지 않고 256개의 잠재 토큰으로 인코딩될 수 있습니다[12]. 다양한 모드에서 비전 토큰 수를 낮게 유지함으로써(64–400 토큰), DeepSeek은 고해상도 이미지에서 단순한 비전 트랜스포머가 겪을 수 있는 비용 폭발을 피합니다[13]. 이는 픽셀 밀도가 높은 페이지에서도 활성화 메모리가 관리 가능한 수준으로 유지된다는 것을 의미합니다[14].
전문가 혼합 디코더 vs. 밀집 LLMs. 디코더 DeepSeek-3B-MoE는 30억 매개변수 전문가 혼합 트랜스포머입니다[8]. 전통적인 밀집 LLM은 모든 토큰에 대해 모든 가중치가 활성화되는 반면, MoE 모델은 많은 전문가 하위 네트워크를 가지고 각 입력에 대해 일부만 활성화합니다. DeepSeek의 경우, 64개의 전문가 하위 모델 중 토큰당 6명의 전문가가 활성화됩니다[15]. 이는 토큰당 약 **5억 7천만 매개변수가 '활성화'**되어 모델이 추론 시에는 570M 매개변수 모델처럼 작동하지만 총 용량은 3B입니다[16]. 각 토큰을 전문가의 하위 집합에 라우팅함으로써, 모델은 계산 비용의 비례 증가 없이 총 매개변수를 확장할 수 있습니다[17]. 전통적인 밀집 LLM에서는 용량을 늘리고 싶다면 매개변수 수를 늘리고 매번 모든 매개변수의 계산 비용을 지불해야 합니다. MoE는 이를 우회합니다: DeepSeek의 디코더는 특정 전문가를 활용할 수 있으며 (예를 들어, 일부 전문가는 수학 공식에 특화되고, 다른 전문가는 표 형식 데이터에 특화될 수 있음), 주어진 토큰에 대해서만 관련 전문가가 활성화됩니다. 그 결과, 디코더는 운영이 경량화되면서도 지식이 풍부합니다. 본질적으로 DeepSeek-3B-MoE는 더 큰 모델의 성능을 가지면서도 작은 모델의 속도를 유지합니다[15]. 이는 조건부 계산 이점이 없는 전통적인 밀집 OCR 모델 및 LLM과의 주요 차별점입니다. Google의 Switch Transformers와 GLaM이 MoE 효능을 처음 입증했지만, DeepSeek은 그 힘을 오픈 소스 비전-언어 시스템에 제공합니다.
그림: DeepSeek-OCR의 2단계 아키텍처는 DeepEncoder를 통해 입력 문서 이미지를 훨씬 적은 토큰으로 압축한 다음, 다양한 전문가의 혼합(Mixture-of-Experts) 디코더를 통해 풍부한 구조적 출력을 재구성합니다. 이 예시에서는 모델이 중국 기하학 문제 PDF를 Markdown으로 변환하도록 요청받았으며, 단순히 텍스트를 추출하는 것뿐만 아니라 도표를 구조화된 좌표와 LaTeX으로 변환하여 단순 OCR을 넘어선 이해력을 보여줍니다.[18][19]
다중 해상도 「건담」 모드. DeepSeek의 설계에서 독창적인 측면 중 하나는 Tiny, Small, Base, Large, 그리고 Gundam으로 유머러스하게 명명된 구성 가능한 해상도 모드입니다. 이 모드는 개발자가 필요에 맞춰 세부사항과 토큰 수를 조절할 수 있게 해줍니다[20]. 예를 들어, Tiny 모드는 512×512 이미지를 단 64개의 토큰으로 처리하여 빠르고 세부사항이 적은 스캔에 유용하며, Large 모드는 1280×1280 이미지를 400개의 토큰으로 처리하여 최대한의 세부사항을 제공합니다[21]. Gundam 모드는 더 나아가 페이지를 여러 개의 로컬 뷰와 하나의 전체 뷰로 타일링하여, 예를 들어 n개의 로컬 640×640 크롭(각각 100개의 토큰)을 전체 페이지 개요(256 또는 400개의 토큰)와 결합합니다[22]. 이러한 동적 타일링은 매우 복잡하거나 크기가 큰 페이지도 분할하여 처리할 수 있게 하면서도 모델에 전체적인 맥락을 제공합니다. 이는 InternVL 2.0 등에서 비롯된 기술을 반영하여 여기에서는 밀집 문서에서 높은 정확도를 유지하도록 적응한 것입니다[23]. DeepSeek-OCR은 명확한 토큰 예산과 이미지 크기를 노출시킴으로써 엔지니어에게 다이얼을 제공합니다: 인코더가 유지하는 시각적 세부사항의 양을 조정하여 속도 또는 정확성을 최적화할 수 있습니다[24][25]. 전통적인 OCR 파이프라인은 이러한 세분성을 제공하지 않으며, 이는 다양한 컴퓨팅 제약 조건하에서 모델을 실용적으로 만들기 위한 기발한 엔지니어링 조치입니다.
이미지를 텍스트처럼 정확히 읽는 모델을 구축하는 것은 신중하게 조율된 교육 과정을 필요로 했습니다. DeepSeek-OCR의 교육은 표준 LLM의 교육 체계와 크게 달랐는데, 이는 OCR 기능을 처음부터 끝까지 통합해야 했기 때문입니다.
2단계 훈련 체계. 연구자들은 2단계 훈련 파이프라인을 채택했습니다[26][27]. 1단계에서는 이미지-텍스트 데이터 쌍을 대상으로 다음 토큰 예측기로서 DeepEncoder를 단독으로 훈련했습니다. 본질적으로, 인코더는 이미지에 대해 언어 모델이 인식할 수 있는 토큰 시퀀스를 생성하는 방법을 학습했습니다. 이 단계에서는 대규모 OCR에 초점을 맞춘 데이터 세트(아래 세부 사항 참조)를 사용하여 비전 모듈이 텍스트의 이미지를 텍스트 토큰과 동일한 공간에 인코딩하도록 가르쳤습니다. 인코더가 충분한 능력을 갖춘 후에야 2단계가 시작되었습니다: 전체 인코더-디코더 시스템의 공동 훈련[27]. 2단계에서는 모델에 이미지-문서 입력(디코더가 올바른 텍스트를 출력하는 법을 학습함)을 섞어 넣고, 정규 텍스트 입력도 함께 제공하여 언어 능력을 유지했습니다. 이 2단계 접근 방식 – 먼저 비전, 그 다음 멀티모달 미세 조정 – 은 디코더가 인코딩된 언어를 생성하기 전에 인코더에 OCR 기술을 깊이 심어 주었습니다.
다양한 멀티모달 훈련 데이터. DeepSeek의 훈련 데이터의 폭넓음은 그 강력함의 주요 이유입니다. 모델 카드에 따르면, 팀은 실제 데이터, 합성 데이터, 심지어 순수한 텍스트 데이터를 혼합하여 큐레이션했습니다[28]:
이 데이터 혼합은 OCR 기능이 깊이 통합되도록 보장했습니다: DeepSeek은 단순히 이미지 전처리와 기성 LLM을 사용하는 것이 아니라, 종합적으로 훈련 되어 끝에서 끝까지 시각적 텍스트 이해를 수행합니다. 이미지를 통해 텍스트를 놀라운 정확도로 재구성하며, 표준 벤치마크에서 ~10배 압축된 상태에서 97%의 정확도를 자랑합니다[30][31]. 다양한 훈련 덕분에 단순한 타이핑된 텍스트뿐만 아니라 복잡한 레이아웃과 포함된 시각 자료에 대해서도 수행합니다. 결과적으로, 이 훈련은 DeepSeek-OCR을 OCR 시스템, 레이아웃 분석기, 언어 모델의 하이브리드로 만들었습니다.
확장성과 컴퓨팅. DeepSeek의 훈련은 현대의 LLM 훈련에 비견할 만한 진지한 컴퓨팅 작업이었습니다. 팀은 노드 20개에 각각 8×A100 (40GB) GPU를 사용하여 총 160개의 A100 GPU를 사용했습니다[29]. 효율적인 파이프라인 병렬화를 통해 텍스트 전용 데이터에서 하루 최대 90B 토큰, 다중 모드 데이터에서 70B 토큰의 놀라운 처리량을 달성했습니다[29]. 훈련 기간 동안 이는 수 조 개의 토큰을 처리한 것으로 추정됩니다. 이와 같은 규모는 모델이 효과적으로 ~570M 활성 매개변수에도 불구하고 뛰어난 성능을 발휘할 수 있는 이유 중 하나입니다; 이는 다양한 예제를 폭넓게 노출했습니다. 훈련 최적화(AdamW 옵티마이저, 배치 크기 640, 학습률 ~3e-5[32])는 이 대량 데이터 흐름을 처리하도록 조정되었습니다. 최종 결과는 3B MoE 모델을 위한 단일 ~6.7 GB safetensors 파일로 패키지화되어, 고급 GPU 하나로도 실행할 수 있을 만큼 작습니다[33]. 이는 클러스터가 필요하거나 자체 호스팅이 불가능할 수 있는 독점 OCR 모델이나 거대한 밀집 LLM과는 크게 다릅니다. DeepSeek의 효율적인 훈련 파이프라인은 올바른 아키텍처(MoE + 비전 압축)를 통해 거대한 모델 없이도 높은 정확도를 달성할 수 있음을 보여줍니다.
DeepSeek-OCR 3B의 가장 중요한 측면 중 하나는 완전한 오픈 소스 릴리스입니다. 모델 가중치와 코드는 모두 소프트웨어에서 가장 허용적인 라이선스 중 하나인 MIT 라이선스[34] 하에 제공됩니다. 개발자와 조직에게 이는 큰 의미를 가집니다:
요약하자면, DeepSeek-OCR의 오픈소스 MIT 릴리스는 최첨단 OCR을 위해 비용 장벽과 접근 장벽을 모두 제거합니다. GPU를 가진 개발자라면 누구나 자신의 환경에서 최첨단 비전-언어 모델을 무료로 배포할 수 있습니다. 이러한 민주화는 Tesseract(오픈소스 OCR)나 Stable Diffusion(오픈소스 이미지 생성)이 제공되었을 때와 유사하지만, DeepSeek의 기능은 훨씬 더 진보되어 있습니다. 그 결과, 작은 스타트업이나 연구자들도 세계적인 수준의 OCR 및 문서 이해를 프로젝트에 통합할 수 있어, 집단적인 기여를 통해 이 분야를 발전시킬 수 있습니다.
이 오픈 모델은 Google Cloud Vision OCR 및 Amazon Textract와 같은 기존 업체들과 어떻게 비교될까요? 이러한 클라우드 기반 OCR 서비스는 정확성과 확장성으로 잘 알려진 기업 문서 처리의 주요 솔루션이었습니다. 그러나 DeepSeek-OCR의 등장은 기능, 접근성, 유연성, 혁신 속도에서 명확한 차이점을 부각시킵니다:
정확성 및 기능: 순수 텍스트 추출 작업에서 Google과 Amazon의 OCR 엔진은 방대한 데이터로 정교화되어 매우 정확합니다. DeepSeek-OCR은 벤치마크에서 경쟁력 있는 (심지어 최첨단의) 결과를 제공합니다. 예를 들어, 표준 OCR 벤치마크에서 97-98%의 정확한 텍스트 매칭을 달성하며, 적절한 압축 수준에서 이를 달성합니다[30]. 심지어 최근 학계의 OCR 모델(GOT-OCR 2.0, Mineru 2.0)을 능가하면서도 훨씬 적은 수의 토큰을 사용합니다[19]. 실용적인 측면에서 DeepSeek는 인쇄된 텍스트를 추출하는 데 있어 대형 클라우드 API와 대등하게 경쟁할 수 있습니다. 하지만 DeepSeek의 기능은 단순한 OCR을 넘어서 확장됩니다. 다중 모달 훈련 덕분에 레이아웃을 이해하고 내장된 콘텐츠를 해석할 수 있습니다. 예를 들어, 과학 논문 PDF를 읽고 단순히 단락을 전사하는 것이 아니라 PDF 내의 그래프를 해석하여 그래프의 데이터를 출력하거나 내용을 요약할 수 있습니다. 테이블 이미지를 실제 HTML 또는 마크다운 테이블 구조로 변환할 수 있습니다. 심지어 문서 내의 비텍스트 요소(그림, 이미지 등)를 요청에 따라 설명할 수 있습니다. Google Vision이나 Textract 같은 폐쇄형 API는 일반적으로 특정 작업(text detection, form data extraction 등)에 특화되어 있습니다 – 텍스트를 추출하고 기본적인 레이아웃 구조를 식별할 수는 있지만 화학 다이어그램의 의미를 작성하거나 차트를 코드로 변환하지는 않습니다. DeepSeek는 인간 독자처럼 작동하며, 유연한 형식으로 출력을 생성하고 혼합 콘텐츠를 처리할 수 있습니다. 이것은 단순한 OCR 도구가 아니라 일반적인 문서 이해 모델로 만듭니다. 그렇다고 해서 폐쇄형 서비스가 고급 기능을 갖고 있지 않다는 것은 아닙니다 (예: Textract는 구조화된 양식 필드를 직접 제공할 수 있고, Google의 Document AI는 문서 유형을 분류할 수 있음). 하지만 이러한 기능들은 제한적입니다. DeepSeek는 LLM의 특성을 활용하여 개방형 기능을 제공하며, 출력은 사용자가 요구하는 대로 생성됩니다 (“이것을 마크다운으로 변환”, “모든 이름과 이메일 추출”, “이 보고서 요약” 등).
접근성 및 통합: 사용 방법에서 큰 차이가 있습니다. Google과 Amazon의 OCR은 클라우드 서비스입니다 – 이미지를 (또는 PDF를) API에 보내고 결과를 받습니다. 이점과 단점이 있습니다. 이점은 편리함입니다: ML 전문 지식이 필요 없고 자동으로 확장됩니다. 통합은 간단한 REST API 호출입니다[41]. 단점은 잠재적으로 민감한 문서를 외부 서버에 보내야 하며, 사용량에 따라 비용이 발생한다는 점입니다[42][43]. DeepSeek-OCR이 오픈소스라는 점은 이 모델을 뒤집어 놓습니다. 모델을 다운로드하여 자체 하드웨어에서 실행합니다. 통합에는 약간의 추가 작업이 필요할 수 있습니다 (GPU 환경 설정, 코드에서 모델 호출 등), 하지만 외부 의존성이 없습니다 – 개인 정보 보호 및 컴플라이언스에 중요한 요소입니다. 예를 들어, 의료나 법률 회사는 종종 기밀 파일을 타사 클라우드에 업로드하는 것에 대해 꺼릴 수 있습니다. DeepSeek를 사용하면 데이터를 완전히 내부에 보관할 수 있습니다. 비용 측면에서 문서의 양이 일정할 경우, 자체 모델을 운영하는 것이 장기적으로 훨씬 더 비용 효과적일 수 있습니다[44][43]. 클라우드 OCR API는 보통 1,000페이지 처리당 요금을 청구합니다. 이러한 비용은 빠르게 증가할 수 있지만, 오픈 모델을 사용하면 GPU 또는 클라우드 인스턴스에 대한 일회성 투자를 활용하여 수백만 페이지를 최저 비용으로 처리할 수 있습니다. 요약하자면, DeepSeek에 대한 접근은 제한이 없습니다 – 요금 제한, 사용료 없음, 환경에 대한 완전한 통제. 대가는 인프라를 관리해야 한다는 것이지만, 많은 사람들에게는 독립성을 위한 환영받는 대가입니다.
유연성 및 맞춤화: 폐쇄형 OCR 솔루션은 본질적으로 고정된 제안입니다. 오류가 발생하거나 도메인에 맞지 않는 경우 (예: 손글씨 읽기 또는 특수 용어) 후처리하거나 제공업체가 모델을 개선하기를 기다리는 수밖에 없습니다. DeepSeek 같은 오픈 모델은 완전한 유연성을 제공합니다. 도메인 데이터에 맞춰 모델을 미세 조정하여 (예: 손글씨 샘플 또는 특수 언어 문서에 맞춰 미세 조정) 특정 요구에 맞춰 성능을 향상시킬 수 있습니다. 또한 출력 형식을 프롬프트를 통해 맞춤화할 수 있습니다 – 예를 들어, DeepSeek에게 특정 필드가 추출된 JSON을 출력하도록 요구하거나, 마크다운 구문을 유지하여 형식을 설정하게 할 수 있습니다. 모델의 LLM DNA는 OCR 결과를 어떻게 제시할지에 대한 지시를 따를 수 있게 해줍니다. 이는 Google/Amazon API가 제공하지 않는 기능입니다 (그들은 사전 정의된 출력 스키마를 갖고 있음). 게다가 DeepSeek를 복합 워크플로에 통합할 수 있습니다: DeepSeek로 초안을 추출한 후 다른 모델로 검증하거나 인간이 개입하는 시스템에 넣을 수 있습니다. 폐쇄형 API를 사용할 경우, 그들의 파이프라인에 의해 제한됩니다. 기본적으로, DeepSeek가 오픈 웨이트로 제공되면 개발자는 독창성을 발휘할 자유를 얻으며, 폐쇄형 솔루션은 “보이는 것이 전부입니다.” 이 유연성은 애플리케이션 측에서 더 빠른 혁신을 위한 촉진제가 됩니다 – DeepSeek를 중심으로 구축된 (예: 상호작용 문서 챗봇, 시각적 문서 편집 도구 등) 새로운 사용 사례를 기대할 수 있으며, 이는 폐쇄형 API를 사용하여 불가능하거나 비용 비효율적일 수 있습니다.
혁신 속도: 오픈 소스 모델은 커뮤니티 기여 및 연구 통합을 통해 빠르게 진화하는 경향이 있는 반면, 폐쇄형 서비스는 비공개로 개선되며 자체 일정에 따라 개선됩니다. DeepSeek-OCR이 공개되면서 연구자들은 그 아키텍처를 검토하고 개선할 수 있습니다. 누군가가 이를 2배 더 빠르게 만들거나 더 정확하게 만들 방법을 발견할 경우, 그 개선 사항을 공개적으로 공유할 수 있습니다. 예를 들어, 모델을 엣지 배포를 위해 가지치기하거나 양자화하는 커뮤니티 노력이 몇 주 내에 이루어질 수 있습니다. 반면 폐쇄형 제공업체는 몇 달 또는 1년에 한 번씩 OCR 기술을 업데이트할 수 있으며, 사용자들은 무엇이 변경되었는지 알 수 없을 수도 있습니다. 오픈 모델의 혁신 속도는 LLM 영역에서 맹렬한 속도로 입증되었습니다 (오픈 LLM이 주요 연구소의 성능을 몇 달 만에 따라잡는 것을 보았습니다)[45][46]. 여기서도 유사한 효과를 기대할 수 있습니다: DeepSeek의 출시는 Google/AWS와의 경쟁적 벤치마킹을 촉진할 것이며, 어떤 분야에서 부족하다면 많은 사람들이 개선 방법에 주목할 것입니다. 또한, 실행 가능한 오픈 대안이 존재하게 되면 폐쇄형 OCR 제공업체의 가격 책정 및 기능에 압력을 가하게 될 가능성이 높습니다. 기업들이 비용을 절감하거나 공급업체 종속을 피하기 위해 오픈 모델로 전환하기 시작한다면, 클라우드 OCR 서비스는 가격을 인하하거나 새로운 부가 가치 기능을 제공함으로써 대응할 수 있습니다 (예: 다른 클라우드 도구와의 더 원활한 통합, 데이터 프라이버시 보장 등). 이는 최종 사용자에게 궁극적으로 이익이 되는 건강한 경쟁입니다. 일부 대형 기술 리더가 오픈 AI의 동력을 인정한 것도 주목할 만합니다 – 예를 들어, OpenAI의 CEO 샘 알트먼은 최근, “개인적으로 생각하기에 우리는 [폐쇄형 모델로] 잘못된 역사의 편에 서 있었으며, 다른 오픈 소스 전략을 찾아야 한다고 생각합니다.”[47]. 이 발언은 DeepSeek 같은 오픈 모델이 빠른 진보를 보여주며 나왔습니다. OCR 영역에서 DeepSeek-OCR은 유사하게 독점 제공의 가치가 커뮤니티 주도 프로젝트에 비해 얼마나 있는지 재고하도록 압박할 수 있습니다.

DeepSeek-OCR의 등장은 AI의 더 넓은 흐름의 일부입니다: **오픈 웨이트 비전-언어 모델(VLMs)**의 부상입니다. 과거에는 OCR, 이미지 캡션, VQA와 같은 최첨단 다중 모드 모델들이 거의 독점적이거나 학문적 개념 증명에 불과했습니다. 이제 우리는 패러다임의 전환을 보고 있습니다. 지난 1~2년 동안 많은 조직과 연구 집단들이, 특히 전통적인 빅 테크 영역 밖에서, 고급 VLMs를 오픈 소스화하며 인상적인 역량을 보여주고 있습니다. DeepSeek 자체도 이 움직임의 최전선에 있었습니다. 2024년 말에 출시된 DeepSeek-VL2 시리즈(3B, 16B, 27B MoE 모델)와 같은 이전 릴리스는 선구적인 오픈 비전-언어 시스템이었습니다[48][17]. 이 모델들은 복잡한 시각 데이터를 효율적으로 처리하기 위한 동적 이미지 타일링과 잠재적 주의와 같은 혁신을 도입했습니다[49][17]. 새로운 DeepSeek-OCR은 이 기반 위에 구축되어 문서 이해와 긴 문맥 압축에 초점을 맞추고 있습니다. 중요한 것은, 이 모든 모델들이 공개 웨이트와 다중 모드 AI의 민주화를 위한 미션을 공유하고 있다는 것입니다.
이러한 트렌드는 폐쇄형 소스 거대 기업들에 경쟁적 압박을 가하고 있습니다. 역사적으로 '볼 수' 있고 '읽을 수' 있는 모델이 필요하다면, Google Vision과 같은 서비스를 사용하거나 비싼 독점 소프트웨어를 구매해야 했습니다 (혹은 Tesseract와 같은 오래된 오픈 툴을 사용했는데, 이는 훨씬 덜 유능했습니다). 이제 DeepSeek-OCR과 같은 오픈 모델(또는 Alibaba의 Qwen-VL, Meta의 오픈 이미지-텍스트 모델 등) 덕분에 개발자들은 대형 공급업체의 생태계에 얽매이지 않는 선택을 할 수 있습니다. 이러한 개방성은 폐쇄형 모델이 이루지 못한 방식으로 혁신을 가속화할 수 있습니다. 예를 들어, 학술 연구실은 DeepSeek의 가중치를 활용하여 시각적으로 풍부한 질문 응답을 위한 모델을 미세 조정하고, Google이나 OpenAI의 개입 없이 새로운 최첨단 모델을 출시할 수 있습니다. 집단적 진전은 놀랍습니다: 한 분석에 따르면, 폐쇄형 모델이 초기에는 앞서 나갔지만, 오픈소스 릴리스가 성능 격차를 빠르게 좁히고 새로운 연구 방향을 제시하고 있습니다[45][46]. 비전-언어 도메인에서는 이미지-마크업 변환(예: 다이어그램을 코드로 변환)이나 이전에는 기술 회사의 내부 연구에 국한되었던 다중 모드 추론과 같은 작업을 다루는 오픈 모델을 보고 있습니다.
개방형 가중치 VLM의 존재는 더욱 투명한 연구 문화를 조성합니다. DeepSeek-OCR의 기술 보고서와 모델이 제공되어 연구자들은 주장을 검증하고 이를 기반으로 더 나아갈 수 있습니다. 예를 들어, 97% 압축 충실도 주장을 자신의 문서에서 테스트할 수 있습니다[50]. 이는 "소수의 회사만 할 수 있다"에서 "커뮤니티의 누구나 이를 복제하고 확장할 수 있다"로 패러다임을 전환합니다. 순수 텍스트 LLM 세계에서 이것이 어떻게 전개되었는지 보았습니다: Meta의 LLaMA(부분적으로 공개)는 2023년에 혁신의 물결을 일으켰고, 2025년 초 DeepSeek의 자체 모델 R1은 완전히 개방적이고 경쟁력이 있는 "중대한 리셋"으로 칭송받았습니다[51]. 그 모델은 사용 제한이 없는 첫 번째 명확한 프론티어 수준의 모델로 인용되었고, 실제로 폐쇄형 모델 지지자들에게 깊은 고민을 불러일으켰습니다[51][47]. 이제 DeepSeek-OCR은 그 동일한 정신을 비전-텍스트 AI에 가져오고 있습니다.
심지어 업계 리더들도 이러한 아이디어에 참여하고 있습니다. 저명한 AI 연구원 Andrej Karpathy는 DeepSeek-OCR의 접근 방식에 대해 언급하며, 이미지를 LLM 입력으로 사용하는 것이 경우에 따라 텍스트 토큰보다 더 효율적이고 표현력이 있을 수 있다고 지적했습니다[52][53]. 그는 하나의 이미지 패치가 여러 문자를 인코딩할 수 있는 높은 정보 밀도를 가지고 있으며, 이미지가 본질적으로 포함하는 서식(글꼴, 레이아웃)이 텍스트에서는 사라진다는 점을 강조했습니다[53][54]. 그의 관점에서, DeepSeek-OCR 논문은 이미지 입력이 모델에 긴 컨텍스트를 제공하는 일반적인 방법이 될 수 있는 미래를 암시하며, '언어' 모델이 더 일반적인 '정보 모델'로 재정의될 수 있음을 시사합니다[55][56]. 이러한 사상가들의 관점은 이러한 공개 연구가 새로운 방향을 불러일으킬 수 있음을 보여줍니다. 이미지-컨텍스트가 트렌드가 된다면, 우리는 이를 증명한 DeepSeek 같은 실험 덕분일지도 모릅니다. Karpathy는 이러한 결과를 보고 난 후 *“즉시 이미지 입력만 지원하는 챗봇을 개발하고 싶은 마음을 억제해야 했다”*고 농담조로 언급했으며, 이는 아이디어의 유망성을 나타냅니다[57] – 실질적인 도전 과제가 남아 있지만 말이죠 (왜냐하면 모델은 여전히 텍스트를 출력하니까요). 핵심은, 공개 모델이 공개적인 논의와 탐구를 촉진한다는 것입니다. 아이디어는 독점적인 비밀로 남지 않고, 빠르게 분야에 퍼집니다.
경쟁 관점에서 볼 때, 개방형 모델 트렌드는 한때 폐쇄형 비전-언어 시스템이 가졌던 우위를 잠식하고 있습니다. 특히 중국의 기술 연구소들은 많은 주목할만한 개방형 모델과 데이터셋을 출시하며 특정 영역에서는 서구의 노력을 따라잡거나 심지어 능가하고 있습니다[58]. DeepSeek 자체는 중국의 스타트업으로(항저우 기반) 혁신을 오픈소싱하며 전 세계적으로 주목을 받고 있습니다[1][59]. 이러한 동서양의 개방형 협력은 모두에게 진보를 가속화시킵니다. 대형 기술 회사들도 이 점을 주목하고 있으며, 일부는 하이브리드 접근 방식을 채택하기 시작했습니다 (예를 들어, Meta는 Segment Anything과 같은 비전 모델을 오픈소싱하거나 OpenAI는 일부 작은 모델을 제한적으로 오픈하고 있습니다)[47][60].
큰 그림에서 볼 때, MIT 라이선스 하에 DeepSeek-OCR 3B의 출시가 오픈 소스 AI 혁명의 또 다른 이정표가 되었습니다. 이는 커뮤니티 관점에서 E-E-A-T(경험, 전문성, 권위, 신뢰)를 잘 보여줍니다: 경험이 풍부한 AI 개발자들이 자신의 전문성과 모델 "경험"을 커뮤니티와 공개적으로 공유하여 신뢰와 집단 지식을 향상시키는 것입니다. 개발자와 기업에게 이는 최첨단 OCR이 더 이상 기술 대기업만의 소유가 아니라 누구나 자신의 애플리케이션에 구축할 수 있는 공유된 공공 자원이라는 의미가 있습니다. AI 분야에서는 개방성이 빠른 혁신을 이끌 수 있다는 것을 상기시킵니다. 이 모델의 맥락 압축 능력과 비전-텍스트 작업 처리 능력은 새로운 형태의 하이브리드 애플리케이션과 더 효율적인 MoE VLM 아키텍처 연구에 영감을 줄 수 있습니다. 폐쇄된 소스의 대기업들은 이제 명확한 메시지를 받았습니다: 개방 커뮤니티는 빠르게 움직이고 있으며, 관련성을 유지하고 (윤리적이고 널리 채택되기 위해) 개방성을 수용하는 것이 선택 사항이 아닐 수 있다는 것입니다. 한 보고서에 따르면, DeepSeek는 폐쇄된 "맨해튼 프로젝트"가 아닌 오픈 글로벌 과학 프로젝트로서 LLM에 큰 활력을 불어넣었으며, 이로 인해 이전에는 폐쇄적이었던 플레이어들조차 입장을 재고하고 있다고 합니다[51][47].
DeepSeek 3B MoE OCR은 최첨단 연구의 융합을 나타냅니다: 전문가 혼합 트랜스포머와 정교하게 설계된 비전 인코더를 결합하여 기존 LLM이 겪는 문맥 길이 제한을 깨뜨립니다. 구조적으로, 데이터 밀도가 높은 모델에서 벗어나 각 토큰에 대해 전문화된 전문가를 활성화하고, 이미지를 텍스트 작업의 주요 입력으로 취급합니다. 실제로, 10배 압축률로 거의 손실 없는 OCR 압축을 달성하고, 여러 언어와 형식으로 실제 문서의 복잡성을 처리합니다. 중요한 것은 이것이 상징하는 바입니다 – 기술 대기업의 독점 영역으로 여겨졌던 기능을 오픈소스, MIT 라이선스로 제공한다는 것입니다. DeepSeek-OCR을 개방적으로 출시함으로써, 그 창작자들은 전 세계 개발자들에게 강력한 도구를 제공하고, 폐쇄적인 제공자들에게 도전장을 내밀었습니다.
개발자들에게 메시지는 명확합니다: OCR 및 문서 AI가 훨씬 더 접근 가능해졌습니다. API 호출에 대한 비용을 지불하거나 서비스 제한을 걱정하지 않고 전문가 수준의 비전-언어 모델을 스택에 통합할 수 있습니다. 이를 미세 조정하거나 분석하거나, 그냥 그대로 사용하여 PDF, 이미지 등을 의미 있는 텍스트나 데이터로 변환할 수 있습니다. 초기 사용자들은 이미 전체 연구 논문을 Markdown으로 변환하고, 테이블과 수학을 정확하게 추출하며, 심지어 이 모델을 사용하여 시각적 질문에 답하는 작업까지 해결하고 있습니다. 이러한 유연성은 단일 OCR 시스템에서 전례가 없습니다.
업계에서는 DeepSeek-OCR이 어떻게 오픈 소스 노력이 품질과 혁신 면에서 닫힌 솔루션과의 격차를 계속 좁히고 때로는 앞서 나가는지를 보여줍니다. 이는 안정적인 이미지 분산(Stability Diffusion)에서부터 NLP의 LLaMA 파생 모델, 그리고 이제 시각-언어 OCR에서 DeepSeek에 이르기까지 오픈 모델이 새로운 표준을 설정할 수 있다는 증거를 더해줍니다. 우리는 DeepSeek-OCR을 기반으로 한 빠른 실험의 시기를 볼 가능성이 큽니다: 최적화된 버전, 더 큰 후속 모델(아마도 DeepSeek-OCR 16B MoE?) 및 오픈 소스 OCR 파이프라인 및 UI 도구로의 통합을 기대하세요. 최종 수혜자는 AI 기능의 빠른 개발과 우리가 사용하는 도구에 더 많은 선택권을 누리게 될 우리 모두입니다.
결론적으로, DeepSeek 3B MoE는 단순한 OCR 모델 그 이상입니다 – 오픈 웨이트 멀티모달 모델이 역사적으로 독점 시스템이 지배하던 영역에서 혁신을 이끄는 AI의 다음 단계의 전조입니다. OCR 및 장문 이해 연구와 응용 개발의 평평한 무대를 제공합니다. 이렇게 높은 역량을 가진 오픈 모델을 수용함으로써, 커뮤니티는 AI 발전의 미래가 소수의 대기업이 아닌 모두에게 속할 수 있다는 강력한 신호를 보냅니다. 그리고 DeepSeek-OCR이 보여주듯이, 때로는 텍스트의 산을 다루는 가장 좋은 방법은 그것을 바라보는 것입니다 – 그리고 이제는 누구나 적절한 모델만 있으면 가능합니다.
출처: 이 분석을 작성하기 위해 사용된 고권위 참조 및 문서에는 공식 DeepSeek-OCR 기술 보고서와 모델 카드[8][50], 사우스 차이나 모닝 포스트와 MarkTechPost의 뉴스 보도[1][24], Andrej Karpathy 같은 AI 전문가의 통찰[53][56], 그리고 Google/Amazon OCR 서비스에 대한 비교 정보[41][44]이 포함됩니다. 이러한 출처는 위에서 논의된 건축 세부사항, 성능 주장 및 산업적 맥락을 입증하며, DeepSeek-OCR의 중요성에 대한 정확하고 신뢰할 수 있는 설명을 보장합니다.
[1] [6] [59] DeepSeek, 시각적 인식을 사용하여 텍스트 입력을 압축하는 멀티모달 AI 모델 공개 | 사우스 차이나 모닝 포스트
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR이 출시되었습니다. DeepSeek OCR을 무료로 사용하는 방법은? | Mehul Gupta 저 | 당신의 주머니 속 데이터 과학 | 2025년 10월 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR: 다중 모드 AI로 텍스트 처리 토큰을 7-20배 줄입니다 - 뉴스 및 통계 - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: 컨텍스트 광학 압축
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek에서 3B OCR 모델을 방금 출시했습니다: 고성능 OCR 및 구조화된 문서 변환을 위한 3B VLM - MarkTechPost
[17] [48] [49] DeepSeek-AI는 DeepSeek-VL2 시리즈를 오픈 소스로 공개했습니다: 3B, 16B 및 27B 파라미터의 세 가지 모델, 전문가 혼합(MoE) 아키텍처를 통해 비전-언어 AI를 재정의합니다 : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS vs Google Vision (OCR 기능 비교) | IronOCR
[45] [46] [47] [51] [58] [60] 개방형 대 폐쇄형: 언어 모델의 미래를 위한 전쟁 | 미국 시민 자유 연맹
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy는 DeepSeek-OCR 논문에 대해 다음과 같이 언급합니다: 이미지 입력은 대형 언어 모델의 새로운 방향이 될 수 있습니다