DeepSeek 3B MoE:重新定義長文件 AI 的開源 OCR 模型

作者:Boxu Li 在 Macaron

簡介:視覺作為 LLM 的壓縮層

長篇內容處理一直是語言模型的痛點——把 100K 字元的文件餵給變壓器,你就會遇到延遲、記憶體膨脹或高昂的 API 成本。傳統的密集大型語言模型 (LLM) 根本無法有效處理書本長度的輸入。這時候,DeepSeek-OCR 3B 出現了,一種新的開源專家混合 (MoE) 模型,採用了截然不同的方法:它使用視覺感知作為文本的壓縮介質[1][2]。DeepSeek 不直接攝取數千個文本字元,而是將頁面轉換成圖像,並讓視覺語言管道重建文本。這種技術被稱為上下文光學壓縮,讓模型能夠在更少的字元中壓縮更多的信息[2][3]。DeepSeek-OCR 承諾在準確率幾乎不損失的情況下,實現高達 7–20× 的字元減少[4][5],使超長文檔的解析在標準硬體上得以擴展。至關重要的是,該模型是完全開源的(在 Hugging Face 和 GitHub 上發布),並在寬鬆的許可下發布,使先進的 OCR 功能對所有人開放[6][7]。在這篇文章中,我們將解剖 DeepSeek-OCR 的架構和訓練,將其與傳統的密集型 LLM 和閉源 OCR 服務進行比較,並探討其發布對開發者和行業開源趨勢的意義。

架構解析:MoE 解碼器遇上視覺編碼器

雙階段視覺-語言設計。 DeepSeek-OCR 是由兩部分組成的系統:一個稱為 DeepEncoder視覺編碼器和一個稱為 DeepSeek-3B-MoE-A570M文字解碼器[8]。DeepEncoder(約380M參數)接收文件頁面的圖像,並輸出「視覺標記」的緊湊序列。這些標記然後進入 DeepSeek-3B-MoE 解碼器,生成文本內容。這種劃分不同於傳統的密集型 LLM(會端到端處理文本輸入)——在這裡,理解頁面佈局和視覺文本的重任由編碼器承擔,從而允許解碼器在更短的序列上運行[2][3]

透過視覺編碼進行壓縮。 編碼器是創新所在。它被設計來高效處理高解析度的頁面,並將其壓縮至一個數量級或更多。怎麼做到的呢?DeepEncoder 結合了多個組件:(1) 基於 SAM-base(Segment Anything Model)的本地視覺模組,用於細粒度感知,使用窗口注意力掃描小區域[9];(2) 16× 卷積下采樣器,大幅度減少影像標記數量(例如從 4096 個區塊標記減少到 256)[10];(3) 基於 CLIP-large 的全局視覺模組,用於密集注意的整體影像理解[11]。實際上,一個完整的 1024×1024 文件影像可以被編碼成少至 256 個潛在標記,而不會丟失大部分的文本信息[12]。透過保持視覺標記數量較低(在各種模式下為 64–400 個標記),DeepSeek 避免了天真視覺變換器在高解析度影像上會遭遇的二次成本爆炸[13]。這意味著即使是像素密集的頁面,激活記憶仍能保持在可控範圍內[14]

專家混合解碼器與密集型大型語言模型。 解碼器 DeepSeek-3B-MoE 是一個 30 億參數的專家混合變壓器[8]。不同於傳統的密集型大型語言模型,所有權重對每個標記都是活躍的,MoE 模型擁有許多專家子網絡,且僅激活少數用於每個輸入。在 DeepSeek 的情況下,有 64 個專家子模型,其中每個標記有 6 個專家在解碼時是活躍的[15]。這導致每個標記約有 5.7 億個參數是“活躍”的——實際上,模型在推理時像是一個 5.7 億參數的模型運作,儘管其總容量是 30 億[16]。通過 將每個標記路由到一部分專家,模型可以在不增加計算成本的情況下擴展總參數[17]。在傳統的密集型大型語言模型中,如果你想擴大容量,你需要增加參數數量,並每次都承擔所有參數的完整計算成本。MoE 避開了這一點:DeepSeek 的解碼器可以調用專業的專家(例如,一些專家可能專注於數學公式,另一些則專注於表格數據等),但只有相關的專家會在給定的標記上啟動。結果是一個運行輕便且知識豐富的解碼器。從本質上說,DeepSeek-3B-MoE 擁有較大模型的力量,同時保持較小模型的速度[15]。這是與傳統密集型 OCR 模型和大型語言模型的主要區別,因為它們缺乏這種條件計算的優勢。值得注意的是,Google 的 Switch Transformers 和 GLaM 最先證明了 MoE 的有效性,但 DeepSeek 將這種力量帶入了開源的視覺語言系統。

圖:DeepSeek-OCR 的兩階段架構透過 DeepEncoder 將輸入文件影像壓縮成更少的符號,然後透過專家混合解碼器重建豐富的結構化輸出。在此範例中,模型被要求將一個中國幾何問題的 PDF 轉換為 Markdown:它不僅提取文本,還將圖表轉換為結構化坐標和 LaTeX,展示了超越普通 OCR 的理解能力。[18][19]

多解析度「鋼彈」模式。 DeepSeek 設計的一個新穎面向是其可配置的解析度模式,幽默地命名為Tiny、Small、Base、LargeGundam。這些模式讓開發者可以在細節與標記數量之間進行取捨,以滿足他們的需求[20]。例如,Tiny模式將512×512的影像處理成僅64個標記(適合快速、低細節掃描),而Large模式則處理1280×1280圖片,生成400個標記以達到最大細節[21]Gundam模式更進一步——它將頁面切割成多個局部視圖加上一個全局視圖,例如,將頁面分成n個局部640×640的裁剪(每個100個標記)以及一個全頁概覽(256或400個標記)[22]。這種動態切割確保即使是非常複雜或超大的頁面也能透過分割來處理,同時仍為模型提供全局上下文。這是對 InternVL 2.0 和其他技術的回響,並在此處進行改編以保持在密集文檔上的高準確性[23]。藉由暴露明確的標記預算和影像大小,DeepSeek-OCR 基本上給予工程師一個調控桿:透過調整編碼器保留多少視覺細節來優化速度或準確性[24][25]。傳統的OCR管線不提供這種細微程度——這是一個巧妙的工程舉措,使模型在不同的計算限制下實用化。

訓練和OCR整合:視覺與文字的結合

建立一個真正像閱讀文字一樣閱讀圖像的模型需要精心安排的訓練過程。DeepSeek-OCR的訓練與標準的LLM訓練方式有顯著不同,因為它必須將OCR功能端到端整合。

雙階段訓練方案。 研究人員採用了兩階段訓練流程[26][27]。在第一階段,他們將 DeepEncoder 作為下一個 token 預測器進行單獨訓練,使用配對的圖像與文本數據。基本上,編碼器學會生成一個序列,讓語言模型能識別並描述圖像。此階段使用大量以 OCR 為重點的數據集(詳情如下),有效地讓視覺模組學會將圖像中的文字編碼到與文字 token 相同的空間。只有在編碼器足夠勝任後,才進行第二階段:整個編碼器-解碼器系統的聯合訓練[27]。在第二階段中,模型被輸入了一組圖像文件(解碼器學習輸出正確的文本)和常規文本輸入(保持其語言能力)。這種先視覺後多模態微調的兩步驟方法,確保了OCR 技能在編碼器中深植,然後才要求解碼器從其嵌入中生成語言。

多樣的多模態訓練數據。DeepSeek 的訓練數據廣度是其穩健性的主要原因。根據模型卡片,團隊策劃了一個結合真實、合成甚至純文本數據的混合體[28]:

  • OCR 1.0 數據集: 3000萬頁的真實文件(掃描件、PDF),涵蓋100多種語言[28]。這個龐大的多語言語料庫讓模型接觸到各種字體和版面設計,從英語發票到阿拉伯報紙再到中文書籍。這種多樣性至關重要——許多OCR引擎在超過幾種語言時會遇到困難,但DeepSeek 從一開始就訓練成為多語種的。
  • OCR 2.0 數據: 包含結構化文件的合成數據集,包括 圖表、公式、化學結構、表格和圖解[28]。這些可能是計算機生成的圖像,並與真實文本配對(例如,渲染的數學公式圖像與LaTeX作為文本)。通過包含這些數據,模型學會了處理傳統OCR經常忽略或失敗的內容——如讀取圖表並輸出基礎數據或方程。例如,DeepSeek 可以解釋化學圖解並輸出SMILES公式,或將條形圖圖像轉換為CSV/HTML表格,這遠超過“讀取印刷文本”的任務。這使得DeepSeek在 結構化文件理解 方面具有獨特優勢。
  • 一般視覺數據(20%): 包括來自LAION等數據集的標準圖像(1億樣本)[29]。目的是確保模型不會變得狹隘——它保留了一般的視覺-語言基礎,因此它可以,例如,給圖像加註或識別物體。因此,DeepSeek-OCR可以在提示下描述圖像或定位視覺元素(類似於基本視覺AI),而純OCR工具無法做到這一點。
  • 純文本數據(10%): 訓練中一小部分是僅限文本的數據[28]。這是為了保留解碼器流利的語言生成能力。因為最終,在“閱讀”圖像之後,模型必須輸出連貫的文本。包括一些文本語料庫有助於解碼器不僅限於精確復述OCR,且仍然是一個有能力的語言模型(例如,如果被要求,它可以重新格式化文本、總結或翻譯)。

這種數據的混合確保了OCR能力深度整合:DeepSeek不僅僅是進行圖像預處理加上現成的LLM,而是共同訓練以進行端到端的視覺文本理解。它以驚人的準確性從圖像中重構文本——在標準基準上,以約10倍壓縮達到97%的精確匹配準確率[30][31]。由於多樣的訓練,它不僅能處理簡單的打字文本,還能處理複雜的佈局和嵌入的視覺元素。事實上,這種訓練使DeepSeek-OCR成為OCR系統、佈局分析器和語言模型的混合體。

擴展與計算。 DeepSeek 的訓練是一項嚴肅的計算工作,與訓練現代 LLM 相當。團隊使用了 20 個節點,每個節點配備 8×A100 (40GB) GPU– 總計 160 個 A100 GPU[29]。得益於有效的流水線並行處理,他們在僅文本數據上實現了每日高達 90B tokens 的驚人吞吐量,而在多模態數據上則達到每日 70B tokens[29]。在整個訓練過程中,這可能累積為多兆 tokens 的處理量。這樣的規模是該模型即使只有 ~570M 活動參數,仍能表現良好的原因之一;他們讓模型接觸到了大量多樣的示例。訓練優化(AdamW 優化器,批次大小 640,學習率 ~3e-5[32])被調整以處理如此龐大的數據流。最終結果被打包成一個約 6.7 GB 的 safetensors 文件,適用於 3B MoE 模型– 小到可以在單個高端 GPU 上運行[33]。這與可能需要集群或無法自行託管的專有 OCR 模型或巨大密集型 LLM 相去甚遠。DeepSeek 的高效訓練流水線展示了 只要有合適的架構(MoE + 視覺壓縮),就能在不依賴龐大模型的情況下實現高準確性

開源許可證與開發者採用

DeepSeek-OCR 3B 最顯著的特點之一是其完全開源發布。模型權重和代碼均已在MIT 許可證[34]下提供,這是軟體中最寬鬆的許可證之一。對於開發者和組織來說,這具有重大的影響:

  • 廣泛的使用權限: MIT 授權條款意味著你可以在商業或私人用途中使用模型,限制非常少——基本上「一切皆有可能」,只要你包含授權聲明即可。這與許多帶有非商業條款或需特殊許可的「開放」模型有著顯著不同。換句話說,初創企業和大公司可以將 DeepSeek-OCR 整合到產品中(甚至是封閉源代碼的產品)而無需面對法律障礙。這是真正的開放創新。
  • 透明性與信任: 將權重放在 Hugging Face 和代碼放在 GitHub 上意味著沒有任何東西是黑箱。開發者可以檢查模型如何運作,驗證架構,甚至根據需求進行審計或微調。這種透明性建立了信任——例如,如果你正在處理敏感文件,你可能會偏好選擇一個可以完全在內部運行的開放模型,而不是將數據發送給第三方 API。
  • 輕鬆整合: 釋出時包含了詳細的模型卡和使用範例。只需幾行 Python 代碼(使用 Hugging Face Transformers,並設置 trust_remote_code=True 以允許自定義模型代碼),你就可以加載模型並運行推理[35][36]。DeepSeek 團隊甚至提供了經過測試的環境規格(Python 3.12、Torch 2.6、Transformers 4.46、FlashAttention 2.7 等),以便工程師可以可靠地重現設置[37]。這降低了採用的門檻——你不需要是 AI 研究人員就能嘗試。如果你有一個文件的圖像文件和一個不錯的 GPU,你可以在幾分鐘內獲得結果。
  • 社群與支持: 自推出以來,DeepSeek-OCR 迅速獲得了關注。GitHub 儲存庫在發布幾天內就獲得了數千個星標(5k+ 星標)[38],模型在 Hugging Face 上有數萬次下載[39],這表明社群的興趣非常活躍。Hugging Face 上出現了幾個演示應用(Spaces),你可以在瀏覽器中測試模型[40]。這種社群動力意味著開發者可能會找到其他人貢獻的幫助、教程或擴展。這也意味著模型將在不同的使用情境中經受考驗,找出錯誤並激發改進。
  • 自定義的自由: 或許最重要的是,開放權重意味著開發者可以微調或修改 DeepSeek-OCR。如果你的公司有一個特殊的 OCR 任務(例如,讀取某種特定的工程圖或非常風格化的字體),你可以進一步訓練或調整模型以適應該領域。對於封閉的 OCR API,你沒有這樣的選擇——你只能接受供應商提供的服務。DeepSeek 賦予研發團隊創新能力。我們可能很快就會看到專門的衍生產品——例如,有人可能會微調一個版本的 DeepSeek 用於歷史手寫文件,或將其整合到更大的管道中(像是能夠回答有關 PDF 內容問題的聊天機器人等)。

總而言之,DeepSeek-OCR 的開源 MIT 發布消除了尖端 OCR 的成本障礙訪問障礙。任何擁有 GPU 的開發者都可以在自己的環境中免費部署最先進的視覺語言模型。這種民主化類似於當 Tesseract(開源 OCR)或 Stable Diffusion(開源圖像生成)等圖像模型可用時所見的情況——只是 DeepSeek 的功能更加先進。這意味著即使是小型初創公司或研究人員也可以將世界級的 OCR 和文檔理解整合到他們的項目中,通過集體貢獻推動該領域的發展。

比較 DeepSeek-OCR 與 Google 和 Amazon 的封閉式 OCR API

這種開放模型如何與 Google Cloud Vision OCRAmazon Textract 等現有產品相比?這些基於雲的 OCR 服務一直是企業文檔處理的首選解決方案,以其準確性和可擴展性而聞名。然而,DeepSeek-OCR 的出現突顯了在能力、訪問、靈活性和創新速度方面的一些明顯差異:

  1. 準確性與能力: 在純文字擷取任務中,Google 和 Amazon 的 OCR 引擎在經過大量數據優化後具有高度的準確性。DeepSeek-OCR 以競爭性(甚至是最先進的)結果進入該領域,在標準 OCR 基準測試中達到 97-98% 的精確文字匹配率,並在合理的壓縮水平下達到同樣的水準[30]。它甚至在使用少一個數量級的字元數的情況下,超越了最近的學術 OCR 模型(GOT-OCR 2.0,Mineru 2.0)[19]。實際上,DeepSeek 可以與大型雲端 API 競爭以擷取印刷文本。但 DeepSeek 的 能力不僅限於純 OCR。得益於其多模態訓練,它能理解佈局並解釋嵌入內容。例如,它可以閱讀科學 PDF,不僅能轉錄段落,還能解釋 PDF 中的圖表——輸出圖表的數據或總結其內容。它可以將表格圖片轉換為實際的 HTML 或 markdown 表格結構。如果需要,它甚至可以描述文檔中的非文本元素(圖形、圖片)。像 Google Vision 或 Textract 這樣的封閉 API 通常專門用於特定任務(文本檢測、表單數據擷取等)——它們可能會擷取文本並識別基本的佈局結構,但 不會寫出化學圖的含義或將圖表轉換為代碼。DeepSeek 更像是一位人類讀者:它可以 以靈活的格式生成輸出,並處理混合內容。這使得它不僅僅是一個 OCR 工具,而是一個通用的文檔理解模型。儘管如此,封閉服務有其先進的功能(例如,Textract 可以直接提供結構化的表單字段,Google 的 Document AI 可以分類文檔類型)——但這些功能定義狹窄。DeepSeek 提供了一種更開放式的能力,輸出可以是您所要求的任何格式(例如“將其轉換為 Markdown”,“提取所有名稱和電子郵件”,“總結此報告”等),利用其 LLM 的特性。
  2. 存取與整合: 一個主要的差異是您如何使用它們。Google 和 Amazon 的 OCR 是雲端服務——您將影像(或 PDF)發送到其 API 並獲得結果。這有利有弊。優點是方便:不需要機器學習專業知識,並且可以自動擴展;整合只需簡單的 REST API 呼叫[41]。缺點是您必須將潛在的敏感文件發送到外部伺服器,並按使用次數付費[42][43]。DeepSeek-OCR 作為開源工具改變了這種模式。您下載模型並在自己的硬體上運行。整合可能需要更多的工作(設置 GPU 環境、在代碼中調用模型),但沒有外部依賴——對於隱私和合規性至關重要。例如,醫療或法律公司通常不願意將機密文件上傳到第三方雲端;使用 DeepSeek,他們可以將數據完全保留在內部。從成本上來看,如果您有穩定的文件量,運行自己的模型從長遠來看可以更具成本效益[44][43]。雲端 OCR API 通常按每處理 1,000 頁收費。這些成本會累加,而開放模型允許您利用一次性投資於 GPU 或雲端實例,然後以最低成本處理數百萬頁。總之,存取 DeepSeek 沒有限制——沒有速率限制,沒有費用,並且完全控制環境。權衡之下,您需要管理基礎設施,但對於許多人來說,這是為獨立性而歡迎的交換。
  3. 靈活性與自定義: 封閉源 OCR 解決方案本質上是固定的產品。如果它們犯錯或沒有針對您的領域量身定制(例如,讀取手寫或專業術語),您除了後處理或等待並希望提供商改善模型外,別無選擇。使用像 DeepSeek 這樣的開放模型,您擁有完全的靈活性。您可以微調模型在您的領域數據上(例如,微調手寫樣本或小眾語言文檔)以提高其特定需求的性能。您還可以透過提示自定義輸出格式——例如,要求 DeepSeek 輸出帶有某些字段提取的 JSON,或保留 markdown 語法進行格式化。模型的 LLM DNA 意味著它可以遵循如何呈現 OCR 結果的指示,這是 Google/Amazon API 不會做的(它們有預定義的輸出架構)。此外,您可以將 DeepSeek 整合到複合工作流程中:也許您運行 DeepSeek 以獲得草稿擷取,然後將其輸入到另一個模型中進行驗證或進入人類介入系統中。使用封閉 API,您通常受到其管道的限制。本質上,DeepSeek 作為開放權重賦予開發人員 創新自由,而封閉解決方案是“所見即所得”。這種靈活性是應用側更快創新的催化劑——我們可能會看到圍繞 DeepSeek 構建的創新用例(如互動文檔聊天機器人或視覺文檔編輯工具),這在使用封閉 API 時是不可能或不具成本效益的。
  4. 創新速度: 開源模型通常通過社群貢獻和研究整合快速演變,而封閉服務則在關閉門後按照自己的時間表改進。隨著 DeepSeek-OCR 的發布,研究人員可以檢查其架構並在其基礎上進行構建。如果有人發現如何使其加速 2 倍或提高準確性,他們可以公開分享這些改進。例如,想像一下社群努力修剪或量化模型以進行邊緣部署——這在開源中可能在幾週內發生。相比之下,封閉的提供商可能每幾個月或一年更新一次其 OCR 技術,用戶甚至可能不知道底層發生了什麼變化。開放模型的創新速度在 LLM 領域中已證明是迅速的(我們看到開放 LLM 在幾個月內追上主要實驗室的性能)[45][46]。我們可以預期這裡會有類似的效果:DeepSeek 的發布將促使與 Google/AWS 的競爭性基準測試,如果它在任何領域落後,許多人將關注如何改進它。此外,擁有可行的開放替代方案可能會對封閉源 OCR 提供商在定價和功能上施加壓力。如果公司開始轉向開放模型以節省成本或避免供應商鎖定,雲端 OCR 服務可能會通過降價或提供新價值增值功能(例如,與其他雲端工具的更無縫整合,或數據隱私的保證)來響應。這是一種健康的競爭,最終有利於終端用戶。值得注意的是,即使是一些大型科技領導者也承認開放 AI 的勢頭——例如,OpenAI 的 CEO Sam Altman 最近表示,「我個人認為我們在這裡(使用封閉模型)站在歷史的錯誤一邊,需要想出不同的開源策略。」[47]。這一聲明是在像 DeepSeek 這樣的開放模型展示快速進展時發表的。在 OCR 領域,DeepSeek-OCR 可能同樣會促使人們重新思考專有產品提供的價值與社群驅動項目提供的價值。

對行業的影響:開放權重的視覺語言模型與大型科技公司

DeepSeek-OCR 的首次亮相是 AI 更廣泛浪潮的一部分:開放權重視覺語言模型(VLMs)的崛起。過去,尖端的多模態模型(例如執行 OCR、圖像標註或 VQA 的模型)幾乎都是專有的或學術概念驗證。現在,我們看到了一個範式轉變。在過去一兩年中,許多機構和研究團體——許多位於傳統大科技領域之外——一直在開源高級 VLMs,並且擁有令人印象深刻的能力。DeepSeek 本身一直處於這一運動的前沿。他們早期的發布,如 DeepSeek-VL2 系列(2024 年末的 3B、16B、27B MoE 模型),是開創性的開放視覺語言系統[48][17]。這些模型引入了創新技術,如動態圖像拼接和潛在注意力,以有效處理複雜的視覺數據[49][17]。新的 DeepSeek-OCR 建立在這一基礎上,專注於文件理解和長上下文壓縮。最重要的是,所有這些模型有一個共同點:公開權重和民主化多模態 AI 的使命

這一趨勢正在對封閉源代碼巨頭施加競爭壓力。考慮到歷史上,如果你需要一個可以「看」和「讀」的模型,你需要使用像 Google Vision 這樣的服務或支付昂貴的專有軟件(或者使用像 Tesseract 這樣的舊開放工具,能力要差得多)。現在,隨著像 DeepSeek-OCR 這樣的開放模型(以及其他,如阿里巴巴的 Qwen-VL 或 Meta 的開放圖像文本模型),開發者有了不必依賴於大型供應商生態系統的選擇。這種開放性可以以封閉模型未曾實現的方式加速創新。例如,一個學術實驗室可以採用 DeepSeek 的權重並對其進行微調,以進行視覺上豐富的問題解答,釋出不需要 Google 或 OpenAI 介入的新一代模型。集體進步是顯著的:如一項分析所指出的,即使封閉模型最初領先,開源釋放已迅速縮小性能差距並推動新的研究方向[45][46]。在視覺-語言領域,我們看到開放模型正在解決諸如圖像到標記(例如,將圖表轉換為代碼)或多模態推理等以前是科技公司內部研究的任務。

開放權重的 VLMs 的存在也促進了一種更加透明的研究文化。隨著 DeepSeek-OCR 的技術報告和模型的開放,研究者可以驗證那些聲明並在其基礎上進行拓展——例如,在自己的文件上測試 97% 壓縮保真度的聲明[50]。這改變了從“只有少數公司能做到”到“社群中的任何人都能複製和擴展”的範式。我們看到了這在純文本 LLM 世界中的發展:Meta 的 LLaMA(部分開放)在 2023 年引發了創新熱潮,DeepSeek 自家的 R1 模型在 2025 年初被稱讚為“重大重置”,因為它是完全開放且具有競爭力的[51]。該模型被視為首個無使用限制的 frontier-級別模型,確實引發了封閉模型倡導者的反思[51][47]。現在,DeepSeek-OCR 正將這種精神帶到視覺文本 AI 領域。

即使是行業領袖也在參與這些想法。著名的 AI 研究員 Andrej Karpathy 評論了 DeepSeek-OCR 的方法,指出在某些情況下,使用圖像作為 LLM 的輸入可能比文字標記更高效且更具表達力[52][53]。他強調了一個圖像片段可以編碼多個字符(信息密度更高),並且圖像本身包含了格式(字體、佈局),而文字則會丟失這些信息[53][54]。在他看來,DeepSeek-OCR 的論文暗示了一個未來,即圖像輸入成為將長上下文輸入模型的一種常見方式,可能會將“語言”模型重新定義為更通用的“信息模型”[55][56]。這些思想領袖的觀點顯示,像這樣的開放研究可以激發新的方向。如果圖像作為上下文成為趨勢,我們可能要歸功於像 DeepSeek 這樣的實驗來證明其可行性。Karpathy 打趣道,看到這些結果後,他必須*“控制自己不立即開發一個僅支持圖像輸入的聊天機器人”[57]——這是對這一想法有多麼有前景的幽默表達,儘管實際挑戰仍然存在(因為模型仍然輸出文字)。關鍵是,開放的模型推動開放的討論和探索*。想法不再是專有機密;它們迅速滲透到這個領域中。

從競爭的角度來看,開放權重模型的趨勢正在侵蝕封閉源代碼視覺語言系統曾經擁有的優勢。尤其是中國的科技實驗室,已經發布了許多引人注目的開放模型和數據集,在某些領域與西方的努力保持同步(甚至超越)[58]。DeepSeek 本身是一家中國初創公司(總部位於杭州),通過開源突破創造了全球影響力[1][59]。這種東西方的開放合作加速了每個人的進步。大型科技公司也注意到了這一點——一些公司已經開始通過混合化他們的方法來應對(例如,Meta 開放了某些視覺模型如 Segment Anything,或者 OpenAI 嘗試開放一些較小的模型)[47][60]

從大局來看,在 MIT 授權下發佈的 DeepSeek-OCR 3B 是開源 AI 革命的另一個里程碑。它從社群的角度展示了 E-E-A-T(經驗、專業知識、權威性、可信賴性):有經驗的 AI 開發者公開分享他們的專業知識和模型「經驗」給社群,這增強了信任和集體知識。對於開發者和企業來說,這意味著尖端的 OCR 不再只屬於科技巨頭——它是一個共享的公共資源,任何人都可以將其構建到自己的應用程式中。對於 AI 領域來說,這提醒我們開放性可以促進快速創新。模型在壓縮上下文和處理視覺-文本任務方面的能力可能會激發新一類混合應用程式的誕生,以及對更高效的 MoE VLM 架構的研究。閉源巨頭現在收到了一個明確的信息:開源社群正在快速前進,要保持相關性(以及道德性和廣泛的採用),擁抱開放性可能不是可選的。正如一份報告所說,DeepSeek 為 LLMs 作為一個開放的全球科學項目帶來了巨大的推動力,而不是一個封閉的「曼哈頓計畫」——甚至連先前閉鎖的玩家也在重新考慮他們的立場[51][47]

結論

DeepSeek 3B MoE OCR 結合了尖端研究:它將專家混合變壓器與精心設計的視覺編碼器結合起來,突破了傳統大型語言模型的上下文長度限制。在架構上,它與密集模型不同,通過啟用每個標記的專家,並將圖像視為文本任務的一級輸入來運行。實際上,它在 10 倍壓縮下幾乎無損地實現了 OCR 壓縮,處理現實世界文件的複雜性,並支持多種語言和格式。同樣重要的是它所代表的意義——在技術巨頭普遍認為此類能力被嚴密保護的時代,它是一個開源、MIT 許可的模型。透過公開發佈 DeepSeek-OCR,其創建者為全球開發者提供了一個強大的工具,向封閉提供商發出挑戰。

對於開發者來說,信息很明確:OCR 和文件 AI 變得更加易於訪問。您可以將專家級的視覺語言模型整合到您的技術堆疊中,而無需支付每次 API 調用的費用或擔心服務限制。您可以微調它、剖析它,或直接使用它將 PDF、圖像等轉換為有意義的文本或數據。早期用戶已經展示了將整篇研究論文轉換為 Markdown,準確提取表格和數學內容,甚至使用該模型完成視覺問答等任務。這種靈活性在單一 OCR 系統中是前所未有的。

對於這個行業來說,DeepSeek-OCR 展現了開源努力如何在質量和創新上持續縮小與封閉解決方案的差距(有時甚至超越它們)。這進一步證明了開源模型能夠樹立新的標準——從影像中的 Stable Diffusion 到 NLP 中的 LLaMA 衍生產品,現在到視覺語言 OCR 中的 DeepSeek。我們可能會看到基於 DeepSeek-OCR 的快速實驗期:期待優化版本、更大的後續模型(或許是 DeepSeek-OCR 16B MoE?),以及與開源 OCR 管道和 UI 工具的整合。最終受益者將是我們所有人,我們將享受到 AI 功能的快速發展和使用工具的更多選擇。

總之,DeepSeek 3B MoE 不僅僅是一個 OCR 模型——它是 AI 下一階段的預兆,開源多模態模型在傳統上由專有系統主導的領域推動創新。它為 OCR 和長篇文檔理解的研究和應用開發提供了一個公平的競爭環境。通過擁抱這樣一個高能力的開源模型,社群發出了強烈的信號:AI 進步的未來可能屬於每個人,而不僅僅是少數大公司。正如 DeepSeek-OCR 所展示的,有時處理大量文本的最佳方式是它——現在任何人都可以,只要手中有合適的模型。

來源: 本分析使用了高權威的參考資料和文件,包含官方的 DeepSeek-OCR 技術報告和模型卡[8][50],以及來自《南華早報》和 MarkTechPost 的新聞報導[1][24],AI 專家如 Andrej Karpathy 的見解[53][56],以及 Google/Amazon OCR 服務的比較信息[41][44]。這些來源支持了上述的架構細節、性能聲明和行業背景,確保了 DeepSeek-OCR 的重要性之準確和可信的描述。


[1] [6] [59] DeepSeek 推出多模態 AI 模型,利用視覺感知壓縮文本輸入 | 南華早報

https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input

[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR 登場了。如何免費使用 DeepSeek OCR? | 作者:Mehul Gupta | Data Science in Your Pocket | 2025 年 10 月 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0

[4] [5] DeepSeek-OCR:多模態AI將文本處理標記減少7-20倍 - 新聞與統計 - IndexBox

https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/

[7] [38] GitHub - deepseek-ai/DeepSeek-OCR:上下文光學壓縮

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek 剛剛推出了一款 3B OCR 模型:專為高效能 OCR 和結構化文件轉換設計的 3B VLM - MarkTechPost

https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

[17] [48] [49] DeepSeek-AI 開源 DeepSeek-VL2 系列:3B、16B 和 27B 參數的三種模型,採用專家混合 (MoE) 架構重新定義視覺語言 AI:r/machinelearningnews

https://www.reddit.com/r/machinelearningnews/comments/1hfclw6/deepseekai_open_sourced_deepseekvl2_series_three/

[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-OCR

[41] [42] [43] [44] AWS 與 Google Vision(OCR 功能比較) | IronOCR

https://ironsoftware.com/csharp/ocr/blog/compare-to-other-components/aws-vs-google-vision-comparison/

[45] [46] [47] [51] [58] [60] 開放 vs. 封閉:語言模型未來的戰役 | 美國公民自由聯盟

https://www.aclu.org/news/privacy-technology/open-source-llms

[52] [53] [54] [55] [56] [57] Andrej Karpathy 評論 DeepSeek-OCR 論文:影像輸入可能成為大語言模型的新方向

https://www.aibase.com/news/22136

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友