
作者:Boxu Li 在 Macaron
長篇內容處理一直是語言模型的痛點——把 100K 字元的文件餵給變壓器,你就會遇到延遲、記憶體膨脹或高昂的 API 成本。傳統的密集大型語言模型 (LLM) 根本無法有效處理書本長度的輸入。這時候,DeepSeek-OCR 3B 出現了,一種新的開源專家混合 (MoE) 模型,採用了截然不同的方法:它使用視覺感知作為文本的壓縮介質[1][2]。DeepSeek 不直接攝取數千個文本字元,而是將頁面轉換成圖像,並讓視覺語言管道重建文本。這種技術被稱為上下文光學壓縮,讓模型能夠在更少的字元中壓縮更多的信息[2][3]。DeepSeek-OCR 承諾在準確率幾乎不損失的情況下,實現高達 7–20× 的字元減少[4][5],使超長文檔的解析在標準硬體上得以擴展。至關重要的是,該模型是完全開源的(在 Hugging Face 和 GitHub 上發布),並在寬鬆的許可下發布,使先進的 OCR 功能對所有人開放[6][7]。在這篇文章中,我們將解剖 DeepSeek-OCR 的架構和訓練,將其與傳統的密集型 LLM 和閉源 OCR 服務進行比較,並探討其發布對開發者和行業開源趨勢的意義。
雙階段視覺-語言設計。 DeepSeek-OCR 是由兩部分組成的系統:一個稱為 DeepEncoder 的視覺編碼器和一個稱為 DeepSeek-3B-MoE-A570M 的文字解碼器[8]。DeepEncoder(約380M參數)接收文件頁面的圖像,並輸出「視覺標記」的緊湊序列。這些標記然後進入 DeepSeek-3B-MoE 解碼器,生成文本內容。這種劃分不同於傳統的密集型 LLM(會端到端處理文本輸入)——在這裡,理解頁面佈局和視覺文本的重任由編碼器承擔,從而允許解碼器在更短的序列上運行[2][3]。
透過視覺編碼進行壓縮。 編碼器是創新所在。它被設計來高效處理高解析度的頁面,並將其壓縮至一個數量級或更多。怎麼做到的呢?DeepEncoder 結合了多個組件:(1) 基於 SAM-base(Segment Anything Model)的本地視覺模組,用於細粒度感知,使用窗口注意力掃描小區域[9];(2) 16× 卷積下采樣器,大幅度減少影像標記數量(例如從 4096 個區塊標記減少到 256)[10];(3) 基於 CLIP-large 的全局視覺模組,用於密集注意的整體影像理解[11]。實際上,一個完整的 1024×1024 文件影像可以被編碼成少至 256 個潛在標記,而不會丟失大部分的文本信息[12]。透過保持視覺標記數量較低(在各種模式下為 64–400 個標記),DeepSeek 避免了天真視覺變換器在高解析度影像上會遭遇的二次成本爆炸[13]。這意味著即使是像素密集的頁面,激活記憶仍能保持在可控範圍內[14]。
專家混合解碼器與密集型大型語言模型。 解碼器 DeepSeek-3B-MoE 是一個 30 億參數的專家混合變壓器[8]。不同於傳統的密集型大型語言模型,所有權重對每個標記都是活躍的,MoE 模型擁有許多專家子網絡,且僅激活少數用於每個輸入。在 DeepSeek 的情況下,有 64 個專家子模型,其中每個標記有 6 個專家在解碼時是活躍的[15]。這導致每個標記約有 5.7 億個參數是“活躍”的——實際上,模型在推理時像是一個 5.7 億參數的模型運作,儘管其總容量是 30 億[16]。通過 將每個標記路由到一部分專家,模型可以在不增加計算成本的情況下擴展總參數[17]。在傳統的密集型大型語言模型中,如果你想擴大容量,你需要增加參數數量,並每次都承擔所有參數的完整計算成本。MoE 避開了這一點:DeepSeek 的解碼器可以調用專業的專家(例如,一些專家可能專注於數學公式,另一些則專注於表格數據等),但只有相關的專家會在給定的標記上啟動。結果是一個運行輕便且知識豐富的解碼器。從本質上說,DeepSeek-3B-MoE 擁有較大模型的力量,同時保持較小模型的速度[15]。這是與傳統密集型 OCR 模型和大型語言模型的主要區別,因為它們缺乏這種條件計算的優勢。值得注意的是,Google 的 Switch Transformers 和 GLaM 最先證明了 MoE 的有效性,但 DeepSeek 將這種力量帶入了開源的視覺語言系統。
圖:DeepSeek-OCR 的兩階段架構透過 DeepEncoder 將輸入文件影像壓縮成更少的符號,然後透過專家混合解碼器重建豐富的結構化輸出。在此範例中,模型被要求將一個中國幾何問題的 PDF 轉換為 Markdown:它不僅提取文本,還將圖表轉換為結構化坐標和 LaTeX,展示了超越普通 OCR 的理解能力。[18][19]
多解析度「鋼彈」模式。 DeepSeek 設計的一個新穎面向是其可配置的解析度模式,幽默地命名為Tiny、Small、Base、Large和Gundam。這些模式讓開發者可以在細節與標記數量之間進行取捨,以滿足他們的需求[20]。例如,Tiny模式將512×512的影像處理成僅64個標記(適合快速、低細節掃描),而Large模式則處理1280×1280圖片,生成400個標記以達到最大細節[21]。Gundam模式更進一步——它將頁面切割成多個局部視圖加上一個全局視圖,例如,將頁面分成n個局部640×640的裁剪(每個100個標記)以及一個全頁概覽(256或400個標記)[22]。這種動態切割確保即使是非常複雜或超大的頁面也能透過分割來處理,同時仍為模型提供全局上下文。這是對 InternVL 2.0 和其他技術的回響,並在此處進行改編以保持在密集文檔上的高準確性[23]。藉由暴露明確的標記預算和影像大小,DeepSeek-OCR 基本上給予工程師一個調控桿:透過調整編碼器保留多少視覺細節來優化速度或準確性[24][25]。傳統的OCR管線不提供這種細微程度——這是一個巧妙的工程舉措,使模型在不同的計算限制下實用化。
建立一個真正像閱讀文字一樣閱讀圖像的模型需要精心安排的訓練過程。DeepSeek-OCR的訓練與標準的LLM訓練方式有顯著不同,因為它必須將OCR功能端到端整合。
雙階段訓練方案。 研究人員採用了兩階段訓練流程[26][27]。在第一階段,他們將 DeepEncoder 作為下一個 token 預測器進行單獨訓練,使用配對的圖像與文本數據。基本上,編碼器學會生成一個序列,讓語言模型能識別並描述圖像。此階段使用大量以 OCR 為重點的數據集(詳情如下),有效地讓視覺模組學會將圖像中的文字編碼到與文字 token 相同的空間。只有在編碼器足夠勝任後,才進行第二階段:整個編碼器-解碼器系統的聯合訓練[27]。在第二階段中,模型被輸入了一組圖像文件(解碼器學習輸出正確的文本)和常規文本輸入(保持其語言能力)。這種先視覺後多模態微調的兩步驟方法,確保了OCR 技能在編碼器中深植,然後才要求解碼器從其嵌入中生成語言。
多樣的多模態訓練數據。DeepSeek 的訓練數據廣度是其穩健性的主要原因。根據模型卡片,團隊策劃了一個結合真實、合成甚至純文本數據的混合體[28]:
這種數據的混合確保了OCR能力深度整合:DeepSeek不僅僅是進行圖像預處理加上現成的LLM,而是共同訓練以進行端到端的視覺文本理解。它以驚人的準確性從圖像中重構文本——在標準基準上,以約10倍壓縮達到97%的精確匹配準確率[30][31]。由於多樣的訓練,它不僅能處理簡單的打字文本,還能處理複雜的佈局和嵌入的視覺元素。事實上,這種訓練使DeepSeek-OCR成為OCR系統、佈局分析器和語言模型的混合體。
擴展與計算。 DeepSeek 的訓練是一項嚴肅的計算工作,與訓練現代 LLM 相當。團隊使用了 20 個節點,每個節點配備 8×A100 (40GB) GPU– 總計 160 個 A100 GPU[29]。得益於有效的流水線並行處理,他們在僅文本數據上實現了每日高達 90B tokens 的驚人吞吐量,而在多模態數據上則達到每日 70B tokens[29]。在整個訓練過程中,這可能累積為多兆 tokens 的處理量。這樣的規模是該模型即使只有 ~570M 活動參數,仍能表現良好的原因之一;他們讓模型接觸到了大量多樣的示例。訓練優化(AdamW 優化器,批次大小 640,學習率 ~3e-5[32])被調整以處理如此龐大的數據流。最終結果被打包成一個約 6.7 GB 的 safetensors 文件,適用於 3B MoE 模型– 小到可以在單個高端 GPU 上運行[33]。這與可能需要集群或無法自行託管的專有 OCR 模型或巨大密集型 LLM 相去甚遠。DeepSeek 的高效訓練流水線展示了 只要有合適的架構(MoE + 視覺壓縮),就能在不依賴龐大模型的情況下實現高準確性。
DeepSeek-OCR 3B 最顯著的特點之一是其完全開源發布。模型權重和代碼均已在MIT 許可證[34]下提供,這是軟體中最寬鬆的許可證之一。對於開發者和組織來說,這具有重大的影響:
總而言之,DeepSeek-OCR 的開源 MIT 發布消除了尖端 OCR 的成本障礙和訪問障礙。任何擁有 GPU 的開發者都可以在自己的環境中免費部署最先進的視覺語言模型。這種民主化類似於當 Tesseract(開源 OCR)或 Stable Diffusion(開源圖像生成)等圖像模型可用時所見的情況——只是 DeepSeek 的功能更加先進。這意味著即使是小型初創公司或研究人員也可以將世界級的 OCR 和文檔理解整合到他們的項目中,通過集體貢獻推動該領域的發展。
這種開放模型如何與 Google Cloud Vision OCR 和 Amazon Textract 等現有產品相比?這些基於雲的 OCR 服務一直是企業文檔處理的首選解決方案,以其準確性和可擴展性而聞名。然而,DeepSeek-OCR 的出現突顯了在能力、訪問、靈活性和創新速度方面的一些明顯差異:

DeepSeek-OCR 的首次亮相是 AI 更廣泛浪潮的一部分:開放權重視覺語言模型(VLMs)的崛起。過去,尖端的多模態模型(例如執行 OCR、圖像標註或 VQA 的模型)幾乎都是專有的或學術概念驗證。現在,我們看到了一個範式轉變。在過去一兩年中,許多機構和研究團體——許多位於傳統大科技領域之外——一直在開源高級 VLMs,並且擁有令人印象深刻的能力。DeepSeek 本身一直處於這一運動的前沿。他們早期的發布,如 DeepSeek-VL2 系列(2024 年末的 3B、16B、27B MoE 模型),是開創性的開放視覺語言系統[48][17]。這些模型引入了創新技術,如動態圖像拼接和潛在注意力,以有效處理複雜的視覺數據[49][17]。新的 DeepSeek-OCR 建立在這一基礎上,專注於文件理解和長上下文壓縮。最重要的是,所有這些模型有一個共同點:公開權重和民主化多模態 AI 的使命。
這一趨勢正在對封閉源代碼巨頭施加競爭壓力。考慮到歷史上,如果你需要一個可以「看」和「讀」的模型,你需要使用像 Google Vision 這樣的服務或支付昂貴的專有軟件(或者使用像 Tesseract 這樣的舊開放工具,能力要差得多)。現在,隨著像 DeepSeek-OCR 這樣的開放模型(以及其他,如阿里巴巴的 Qwen-VL 或 Meta 的開放圖像文本模型),開發者有了不必依賴於大型供應商生態系統的選擇。這種開放性可以以封閉模型未曾實現的方式加速創新。例如,一個學術實驗室可以採用 DeepSeek 的權重並對其進行微調,以進行視覺上豐富的問題解答,釋出不需要 Google 或 OpenAI 介入的新一代模型。集體進步是顯著的:如一項分析所指出的,即使封閉模型最初領先,開源釋放已迅速縮小性能差距並推動新的研究方向[45][46]。在視覺-語言領域,我們看到開放模型正在解決諸如圖像到標記(例如,將圖表轉換為代碼)或多模態推理等以前是科技公司內部研究的任務。
開放權重的 VLMs 的存在也促進了一種更加透明的研究文化。隨著 DeepSeek-OCR 的技術報告和模型的開放,研究者可以驗證那些聲明並在其基礎上進行拓展——例如,在自己的文件上測試 97% 壓縮保真度的聲明[50]。這改變了從“只有少數公司能做到”到“社群中的任何人都能複製和擴展”的範式。我們看到了這在純文本 LLM 世界中的發展:Meta 的 LLaMA(部分開放)在 2023 年引發了創新熱潮,DeepSeek 自家的 R1 模型在 2025 年初被稱讚為“重大重置”,因為它是完全開放且具有競爭力的[51]。該模型被視為首個無使用限制的 frontier-級別模型,確實引發了封閉模型倡導者的反思[51][47]。現在,DeepSeek-OCR 正將這種精神帶到視覺文本 AI 領域。
即使是行業領袖也在參與這些想法。著名的 AI 研究員 Andrej Karpathy 評論了 DeepSeek-OCR 的方法,指出在某些情況下,使用圖像作為 LLM 的輸入可能比文字標記更高效且更具表達力[52][53]。他強調了一個圖像片段可以編碼多個字符(信息密度更高),並且圖像本身包含了格式(字體、佈局),而文字則會丟失這些信息[53][54]。在他看來,DeepSeek-OCR 的論文暗示了一個未來,即圖像輸入成為將長上下文輸入模型的一種常見方式,可能會將“語言”模型重新定義為更通用的“信息模型”[55][56]。這些思想領袖的觀點顯示,像這樣的開放研究可以激發新的方向。如果圖像作為上下文成為趨勢,我們可能要歸功於像 DeepSeek 這樣的實驗來證明其可行性。Karpathy 打趣道,看到這些結果後,他必須*“控制自己不立即開發一個僅支持圖像輸入的聊天機器人”[57]——這是對這一想法有多麼有前景的幽默表達,儘管實際挑戰仍然存在(因為模型仍然輸出文字)。關鍵是,開放的模型推動開放的討論和探索*。想法不再是專有機密;它們迅速滲透到這個領域中。
從競爭的角度來看,開放權重模型的趨勢正在侵蝕封閉源代碼視覺語言系統曾經擁有的優勢。尤其是中國的科技實驗室,已經發布了許多引人注目的開放模型和數據集,在某些領域與西方的努力保持同步(甚至超越)[58]。DeepSeek 本身是一家中國初創公司(總部位於杭州),通過開源突破創造了全球影響力[1][59]。這種東西方的開放合作加速了每個人的進步。大型科技公司也注意到了這一點——一些公司已經開始通過混合化他們的方法來應對(例如,Meta 開放了某些視覺模型如 Segment Anything,或者 OpenAI 嘗試開放一些較小的模型)[47][60]。
從大局來看,在 MIT 授權下發佈的 DeepSeek-OCR 3B 是開源 AI 革命的另一個里程碑。它從社群的角度展示了 E-E-A-T(經驗、專業知識、權威性、可信賴性):有經驗的 AI 開發者公開分享他們的專業知識和模型「經驗」給社群,這增強了信任和集體知識。對於開發者和企業來說,這意味著尖端的 OCR 不再只屬於科技巨頭——它是一個共享的公共資源,任何人都可以將其構建到自己的應用程式中。對於 AI 領域來說,這提醒我們開放性可以促進快速創新。模型在壓縮上下文和處理視覺-文本任務方面的能力可能會激發新一類混合應用程式的誕生,以及對更高效的 MoE VLM 架構的研究。閉源巨頭現在收到了一個明確的信息:開源社群正在快速前進,要保持相關性(以及道德性和廣泛的採用),擁抱開放性可能不是可選的。正如一份報告所說,DeepSeek 為 LLMs 作為一個開放的全球科學項目帶來了巨大的推動力,而不是一個封閉的「曼哈頓計畫」——甚至連先前閉鎖的玩家也在重新考慮他們的立場[51][47]。
DeepSeek 3B MoE OCR 結合了尖端研究:它將專家混合變壓器與精心設計的視覺編碼器結合起來,突破了傳統大型語言模型的上下文長度限制。在架構上,它與密集模型不同,通過啟用每個標記的專家,並將圖像視為文本任務的一級輸入來運行。實際上,它在 10 倍壓縮下幾乎無損地實現了 OCR 壓縮,處理現實世界文件的複雜性,並支持多種語言和格式。同樣重要的是它所代表的意義——在技術巨頭普遍認為此類能力被嚴密保護的時代,它是一個開源、MIT 許可的模型。透過公開發佈 DeepSeek-OCR,其創建者為全球開發者提供了一個強大的工具,向封閉提供商發出挑戰。
對於開發者來說,信息很明確:OCR 和文件 AI 變得更加易於訪問。您可以將專家級的視覺語言模型整合到您的技術堆疊中,而無需支付每次 API 調用的費用或擔心服務限制。您可以微調它、剖析它,或直接使用它將 PDF、圖像等轉換為有意義的文本或數據。早期用戶已經展示了將整篇研究論文轉換為 Markdown,準確提取表格和數學內容,甚至使用該模型完成視覺問答等任務。這種靈活性在單一 OCR 系統中是前所未有的。
對於這個行業來說,DeepSeek-OCR 展現了開源努力如何在質量和創新上持續縮小與封閉解決方案的差距(有時甚至超越它們)。這進一步證明了開源模型能夠樹立新的標準——從影像中的 Stable Diffusion 到 NLP 中的 LLaMA 衍生產品,現在到視覺語言 OCR 中的 DeepSeek。我們可能會看到基於 DeepSeek-OCR 的快速實驗期:期待優化版本、更大的後續模型(或許是 DeepSeek-OCR 16B MoE?),以及與開源 OCR 管道和 UI 工具的整合。最終受益者將是我們所有人,我們將享受到 AI 功能的快速發展和使用工具的更多選擇。
總之,DeepSeek 3B MoE 不僅僅是一個 OCR 模型——它是 AI 下一階段的預兆,開源多模態模型在傳統上由專有系統主導的領域推動創新。它為 OCR 和長篇文檔理解的研究和應用開發提供了一個公平的競爭環境。通過擁抱這樣一個高能力的開源模型,社群發出了強烈的信號:AI 進步的未來可能屬於每個人,而不僅僅是少數大公司。正如 DeepSeek-OCR 所展示的,有時處理大量文本的最佳方式是看它——現在任何人都可以,只要手中有合適的模型。
來源: 本分析使用了高權威的參考資料和文件,包含官方的 DeepSeek-OCR 技術報告和模型卡[8][50],以及來自《南華早報》和 MarkTechPost 的新聞報導[1][24],AI 專家如 Andrej Karpathy 的見解[53][56],以及 Google/Amazon OCR 服務的比較信息[41][44]。這些來源支持了上述的架構細節、性能聲明和行業背景,確保了 DeepSeek-OCR 的重要性之準確和可信的描述。
[1] [6] [59] DeepSeek 推出多模態 AI 模型,利用視覺感知壓縮文本輸入 | 南華早報
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR 登場了。如何免費使用 DeepSeek OCR? | 作者:Mehul Gupta | Data Science in Your Pocket | 2025 年 10 月 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR:多模態AI將文本處理標記減少7-20倍 - 新聞與統計 - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR:上下文光學壓縮
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek 剛剛推出了一款 3B OCR 模型:專為高效能 OCR 和結構化文件轉換設計的 3B VLM - MarkTechPost
[17] [48] [49] DeepSeek-AI 開源 DeepSeek-VL2 系列:3B、16B 和 27B 參數的三種模型,採用專家混合 (MoE) 架構重新定義視覺語言 AI:r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS 與 Google Vision(OCR 功能比較) | IronOCR
[45] [46] [47] [51] [58] [60] 開放 vs. 封閉:語言模型未來的戰役 | 美國公民自由聯盟
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy 評論 DeepSeek-OCR 論文:影像輸入可能成為大語言模型的新方向