
著者: Boxu Li at Macaron
長いコンテキストの処理は、言語モデルにとって長い間の課題でした。トランスフォーマーモデルに10万トークンの文書を与えると、レイテンシー、メモリの膨張、または高額なAPIコストに直面します。従来の密な大規模言語モデル(LLM)は、本の長さの入力を効率的に処理するようには設計されていませんでした。そこで登場するのが、新しいオープンソースのエキスパート混合モデルであるDeepSeek-OCR 3Bです。これまでとは全く異なるアプローチを採用し、視覚認識をテキストの圧縮媒体として利用します[1][2]。数千のテキストトークンを直接取り込むのではなく、DeepSeekはページを画像に変換し、視覚と言語のパイプラインを通じてテキストを再構築します。この手法はコンテキスト光学圧縮と呼ばれ、モデルがより多くの情報をより少ないトークンで詰め込むことを可能にします[2][3]。DeepSeek-OCRは、精度をほとんど落とすことなく、トークンを最大で7–20倍削減すると約束しています[4][5]、標準ハードウェアでのスケーラブルな超長文ドキュメント解析を可能にします。重要なのは、このモデルが完全にオープンソースであり(Hugging FaceとGitHubで公開)、寛容なライセンスの下で、すべての人に高度なOCR機能を提供することです[6][7]。この記事では、DeepSeek-OCRのアーキテクチャとトレーニングを分析し、従来の密なLLMやクローズドソースのOCRサービスと比較し、そのリリースが開発者や業界のオープンソースの方向性に何を意味するのかを探ります。
二段階のビジョン・言語設計。 DeepSeek-OCRは、ビジュアルエンコーダーであるDeepEncoderとテキストデコーダーであるDeepSeek-3B-MoE-A570M[8]の2つの部分から構成されています。DeepEncoder(約380Mパラメータ)は、ドキュメントページの画像を取り込み、コンパクトな「ビジョントークン」のシーケンスを出力します。これらのトークンはDeepSeek-3B-MoEデコーダーに入力され、テキストコンテンツを生成します。この分割は、従来の密集型LLM(テキスト入力をエンドツーエンドで処理するもの)とは異なり、ページレイアウトと視覚的テキストの理解の重荷をエンコーダーが担うことで、デコーダーがより短いシーケンスで動作できるようにしています[2][3]。
視覚エンコーディングによる圧縮。 エンコーダーは革新の多くが詰まっている場所です。高解像度ページを効率的に処理し、桁違いに圧縮するように設計されています。どうやって?DeepEncoderは複数のコンポーネントを組み合わせています。(1) 微細な知覚のためのSAM-base(Segment Anything Model)に基づくローカルビジョンモジュールで、小さな領域をスキャンするためにウィンドウ化された注意を使用します[9]; (2) 画像トークンの数を大幅に削減する16×畳み込みダウンサンプラーで、たとえば4096のパッチトークンを256に減らします[10]; そして (3) 密な注意による包括的な画像理解のためのCLIP-largeに基づくグローバルビジョンモジュールです[11]。実際には、フル1024×1024ドキュメント画像を最小256の潜在トークンにエンコード可能で、ほとんどのテキスト情報を失いません[12]。ビジョントークン数を低く保つことで(さまざまなモードで64〜400トークン)、DeepSeekは高解像度画像での単純なVision Transformerが直面する二次的コスト爆発を回避します[13]。これは、活性化メモリがピクセル密度の高いページでも抑制されることを意味します[14]。
Mixture-of-Experts デコーダー vs. Dense LLMs. デコーダーである DeepSeek-3B-MoE は30 億パラメーターの Mixture-of-Experts トランスフォーマーです[8]。従来のすべてのトークンに対してすべての重みがアクティブな密な LLM とは異なり、MoE モデルには多くの専門サブネットワークがあり、各入力に対していくつかのみがアクティブ化されます。DeepSeek の場合、64 の専門サブモデルがあり、そのうち6 つの専門家がトークンごとにアクティブになります[15]。これにより、トークンごとに約**5 億 7,000 万パラメーターが“アクティブ”**で、モデルは推論時に 570M パラメーターモデルのように振る舞いますが、合計容量は 30 億です[16]。各トークンを専門家のサブセットにルーティングすることで、計算コストを比例的に増やすことなく、合計パラメーターをスケールできます[17]。従来の密な LLM では、より多くの容量を求める場合、パラメーター数を増やし、毎回すべての計算コストを支払う必要があります。MoE ではそれを回避します: DeepSeek のデコーダーは、専門家を活用することができ(例えば、一部の専門家は数学の式に特化し、他は表形式データに特化するなど)、特定のトークンに対して関連するもののみがアクティブ化されます。その結果、実行が軽量で知識が豊富なデコーダーが得られます。つまり、DeepSeek-3B-MoE は、より大きなモデルの威力を備えながら、より小さなモデルのスピードを維持します[15]。これは、条件付き計算の利点がない従来の密な OCR モデルや LLM とは大きな違いです。Google の Switch Transformers や GLaM が MoE の有効性を初めて証明しましたが、DeepSeek はその力をオープンソースのビジョン・ランゲージシステムに取り入れています。
図: DeepSeek-OCRの2段階アーキテクチャは、DeepEncoderを通じて入力ドキュメント画像を大幅にトークン化し、その後、専門家の組み合わせデコーダーを使ってリッチな構造化出力を再構築します。この例では、中国の幾何学問題のPDFをMarkdownに変換するようモデルに求められており、テキストを抽出するだけでなく、図を構造化された座標やLaTeXに変換することで、単なるOCRを超えた理解を示しています。[18][19]
マルチ解像度「ガンダム」モード。 DeepSeekの設計の新しい側面の1つは、その設定可能な解像度モードであり、ユーモラスにTiny(小)、Small(小)、Base(基礎)、Large(大)、Gundam(ガンダム)と呼ばれています。これらのモードにより、開発者は詳細とトークン数をトレードオフしてニーズに合わせることができます[20]。たとえば、Tinyモードは512×512の画像をわずか64トークンで処理します(クイックで低詳細のスキャンに便利)、一方でLargeモードは1280×1280を400トークンで扱い最大限の詳細を提供します[21]。Gundamモードはさらに進んでおり、ページを複数のローカルビューと1つのグローバルビューにタイル化します。たとえば、n個のローカル640×640クロップ(各100トークン)とページ全体の概要(256または400トークン)を組み合わせます[22]。この動的タイル化により、非常に複雑またはオーバーサイズのページも分割処理することで対応可能になり、モデルにグローバルな文脈を提供します。これはInternVL 2.0などの技術からのエコーであり、ここでは高密度文書での高精度を維持するために適用されています[23]。明示的なトークン予算と画像サイズを公開することで、DeepSeek-OCRはエンジニアにダイヤルを提供します:エンコーダーがどれだけの視覚的詳細を保持するかを調整して速度または精度を最適化します[24][25]。従来のOCRパイプラインはこの粒度を提供していませんが、これは異なる計算制約下でモデルを実用的にするための巧妙なエンジニアリングの動きです。
画像をテキストのように本当に読むモデルを構築するには、慎重に計画されたトレーニングプロセスが必要でした。DeepSeek-OCRのトレーニングは、標準的なLLMのトレーニングとは大きく異なり、OCR機能をエンドツーエンドで統合する必要がありました。
二段階トレーニングレジメン。 研究者たちは二段階のトレーニングパイプライン[26][27]を採用しました。ステージ1では、DeepEncoderをペアになった画像テキストデータ上で次トークン予測器として単独でトレーニングしました。基本的に、エンコーダーは画像を記述する言語モデルが認識するトークン列を生成することを学びました。このステージでは大量のOCRに特化したデータセット(詳細は以下)を使用し、ビジョンモジュールにテキストの画像をテキストトークンと同じ空間にエンコードすることを効果的に教えました。エンコーダーが十分に熟練した後にステージ2が開始されました:エンコーダーデコーダーシステム全体の共同トレーニング[27]。ステージ2では、モデルは画像文書の入力(デコーダーが正しいテキストを出力することを学習する)と通常のテキスト入力の混合を与えられ、言語スキルを維持しました。この二段階のアプローチは、OCRスキルが深く定着するように、まずビジョン、次にマルチモーダルファインチューニングを行い、エンコーダーからの埋め込み情報をもとにデコーダーが言語を生成することを求めました。
※多様なマルチモーダル訓練データ※ DeepSeek の訓練データの幅広さは、その堅牢さの主要な理由です。モデルカードによると、チームは実データ、合成データ、純粋なテキストデータを組み合わせてキュレーションしました[28]:
このデータの組み合わせにより、OCR機能が深く統合されています。DeepSeekは単なる画像の前処理と市販のLLMを組み合わせたものではなく、エンドツーエンドのビジュアルテキスト理解を行うように共同で訓練されています。画像からテキストを驚くほどの忠実度で再構築し、標準的なベンチマークで~10×の圧縮で97%の正確な一致率を実現しています[30][31]。多様な訓練により、単純な活字テキストだけでなく、複雑なレイアウトや埋め込まれたビジュアルにも対応します。その結果、DeepSeek-OCRはOCRシステム、レイアウト解析、言語モデルのハイブリッドとなりました。
スケールとコンピュート。DeepSeekのトレーニングは、現代のLLMのトレーニングに匹敵する真剣なコンピュート作業でした。チームは20ノードで各ノードに8×A100(40GB)GPUを使用し、合計で160のA100 GPUを利用しました[29]。効率的なパイプライン並列化のおかげで、テキストのみのデータで1日あたり最大90Bトークン、マルチモーダルデータで70Bトークン/日の驚異的なスループットを達成しました[29]。トレーニングの過程で、これはおそらく数兆のトークンを処理したことになります。このようなスケールは、効果的に~570Mのアクティブなパラメータを持ちながらも、モデルが非常に良好に機能する理由の一つです。膨大な種類の例にモデルをさらしました。トレーニングの最適化(AdamWオプティマイザ、バッチサイズ640、LR~3e-5[32])は、この膨大なデータフローを処理するために調整されました。最終的な結果は、3B MoEモデル用に~6.7 GBのsafetensorsファイルにパッケージ化され、高性能な単一GPUで実行可能な小ささです[33]。これは、クラスターを必要としたり、まったくセルフホスティングできない可能性のある専有OCRモデルや巨大な密集LLMとは大きく異なります。DeepSeekの効率的なトレーニングパイプラインは、適切なアーキテクチャ(MoE+ビジョン圧縮)を用いれば、巨大なモデルなしで優れた精度を達成できることを示しています。
DeepSeek-OCR 3B の最も重要な側面の一つは、完全なオープンソースリリースです。モデルの重みとコードの両方が、ソフトウェアで最も許容されるライセンスの一つである MIT ライセンス[34] の下で公開されています。開発者や組織にとって、これは大きな意味を持ちます:
要約すると、DeepSeek-OCRのオープンソースMITリリースは、最先端のOCRにおけるコスト障壁とアクセス障壁を取り除きます。GPUを持つ開発者は誰でも、最先端のビジョン-言語モデルを自分の環境で無料で展開できます。この民主化は、Tesseract(オープンソースOCR)やStable Diffusion(オープンソース画像生成)などの画像モデルが利用可能になったときと同様です。ただし、DeepSeekの機能ははるかに高度です。このことから、小規模なスタートアップや研究者でも、プロジェクトに世界クラスのOCRとドキュメント理解を組み込むことができ、集合的な貢献を通じてこの分野を推進する可能性があることが示唆されます。
このオープンモデルは、Google Cloud Vision OCRやAmazon Textractのような現行のサービスとどのように比較されるのでしょうか?これらのクラウドベースのOCRサービスは、企業のドキュメント処理において高い精度とスケーラビリティで知られた定番の解決策です。しかし、DeepSeek-OCRの登場は、能力、アクセス、柔軟性、革新の速度において明確な違いを浮き彫りにしています。

DeepSeek-OCRのデビューは、AIにおけるより広範な波の一部であり、**オープンウェイトのビジョン-言語モデル(VLMs)**の台頭を示しています。過去には、OCRや画像キャプション、VQAを行う最先端のマルチモーダルモデルは、ほとんどが専有のものであるか、学術的な概念実証に過ぎませんでした。しかし、今ではパラダイムシフトが起きています。ここ1、2年の間に、従来のビッグテック領域外の多くの組織や研究グループが、高度なVLMsをオープンソース化しており、その能力は素晴らしいものです。DeepSeek自身もこの動きの最前線に立っています。彼らの以前のリリースであるDeepSeek-VL2シリーズ(2024年後半の3B、16B、27B MoEモデル)は、革新的なオープンビジョン-言語システムでした[48][17]。これらのモデルは、動的な画像タイル化や潜在的注意のような革新を導入し、複雑な視覚データを効率的に処理しました[49][17]。新しいDeepSeek-OCRはその基盤を活かし、ドキュメントの理解と長文圧縮に注力しています。重要なのは、これらすべてのモデルが共通して持つ点です:パブリックウェイトとマルチモーダルAIの民主化を目指す使命です。
このトレンドは、クローズドソースの大手企業に競争圧力をかけています。歴史的に「見る」や「読む」ことができるモデルが必要な場合、Google Visionのようなサービスを使用したり、高価な独自ソフトウェアを購入したりする必要がありました(あるいは、Tesseractのような能力の低い古いオープンツールを使用することも)。しかし今や、DeepSeek-OCRやAlibabaのQwen-VL、Metaのオープンイメージテキストモデルのようなオープンモデルがあることで、開発者は大手プロバイダーのエコシステムに縛られることなく選択肢を持つことができます。このオープンさは、クローズドモデルでは達成できなかった方法でイノベーションを加速させることができます。例えば、学術研究室がDeepSeekの重みを利用して、視覚的に豊かな質問応答のためにファインチューニングを行い、GoogleやOpenAIの関与なしに新しい最先端モデルをリリースすることが可能です。集団的な進歩は驚くべきもので、ある分析によれば、クローズドモデルが当初リードしていたにもかかわらず、オープンソースのリリースが性能のギャップを急速に埋め、新しい研究方向を推進しています[45][46]。ビジョンと言語の領域では、画像をマークアップに変換する(例えば、図をコードに変換する)や、マルチモーダル推論といったタスクにオープンモデルが取り組む様子が見られます。
オープンウェイトのVLMの存在は、より透明性の高い研究文化の促進にも寄与しています。DeepSeek-OCRの技術報告書とモデルが利用可能であることで、研究者は主張を検証し、それに基づいて発展させることができます。たとえば、自分の文書で97%の圧縮忠実度の主張をテストすることができます[50]。これは「これをできるのは一部の企業だけ」というパラダイムを「コミュニティの誰もがこれを再現し拡張できる」に変えるものです。我々は純粋なテキストLLMの世界で、この変化がどのように展開されたかを見てきました。MetaのLLaMA(部分的にオープン)は2023年にイノベーションの洪水を引き起こし、DeepSeekのR1のようなモデルは2025年初頭に完全にオープンで競争力があるとして「大きなリセット」として称賛されました[51]。そのモデルは使用制限のない初の明確なフロンティアレベルのモデルとして引用され、クローズドモデル支持者の間で反省を促しました[51][47]。今、DeepSeek-OCRはその同じ精神をビジョンテキストAIに持ち込んでいます。
業界のリーダーたちもこれらのアイデアに関心を持っています。著名なAI研究者アンドレイ・カーペシーは、DeepSeek-OCRのアプローチについてコメントし、ある場合には画像をLLM入力として使用することがテキストトークンよりも効率的で表現力豊かである可能性があると指摘しました[52][53]。彼は、1つの画像パッチが複数の文字をエンコードできること(情報密度の高さ)や、画像が本来持つフォーマット(フォント、レイアウト)がテキストでは失われることを強調しました[53][54]。彼の見解では、DeepSeek-OCRの論文は、画像入力がモデルに長いコンテキストを与える一般的な方法となり、言語モデルがより一般的な情報モデルとして再定義される未来を示唆しています[55][56]。このような考え方は、オープンな研究が新しい方向性を生み出すことを示しています。もし画像をコンテキストとして使用することがトレンドになるとすれば、それはDeepSeekのような実験がその実現を示したおかげかもしれません。カーペシーは、この結果を見て*「画像入力のみをサポートするチャットボットを今すぐ開発したいという衝動を抑えなければならなかった」と冗談めかしながら述べています[57]が、実用的な課題が残る中でもアイデアの可能性を示しています。重要なのは、オープンなモデルがオープンな議論と探求を促進する*ことです。アイデアは専有的な秘密として留まることなく、迅速に分野に浸透していきます。
競争の観点から見ると、オープンウェイトモデルのトレンドは、かつて閉鎖型のビジョン・ラングエージシステムが持っていたリードを侵食しています。特に中国のテックラボは、多くの注目すべきオープンモデルとデータセットをリリースしており、特定の分野では西洋の取り組みに匹敵するか、それを上回るペースで進んでいます[58]。DeepSeek自身も、中国発(杭州を拠点とする)のスタートアップであり、オープンソースのブレークスルーを世界に広めています[1][59]。この東西のオープンな協力は、皆の進歩を加速させています。大手テック企業も注目しており、一部はアプローチをハイブリッド化することで対応を始めています(例えば、MetaがSegment Anythingのようなビジョンモデルをオープンソース化したり、OpenAIが小規模なモデルを試験的にオープン化したりしています)[47][60]。
全体的に見て、MITライセンスの下でDeepSeek-OCR 3Bをリリースすることは、オープンソースAI革命におけるもう一つの画期的な出来事です。これは、コミュニティの観点からE-E-A-T(経験、専門知識、権威性、信頼性)を体現しています。経験豊富なAI開発者がその専門知識とモデルの「経験」をコミュニティとオープンに共有し、信頼と集団的な知識を高めます。開発者や企業にとって、最先端のOCRはもはや技術の巨人だけのものではなく、誰でも自分のアプリケーションに組み込める共有の公共資源です。そしてAIの分野にとって、オープンさが迅速な革新を促進できることを再確認させます。このモデルのコンテキストを圧縮する能力と視覚-テキストタスクを処理する能力は、新しい種類のハイブリッドアプリケーションや、より効率的なMoE VLMアーキテクチャへの研究を刺激するかもしれません。クローズドソースの巨人たちは明確なメッセージを受け取りました。オープンコミュニティは急速に動いており、関連性を保ち(そして倫理的で広く採用されるために)、オープンさを受け入れることが選択肢ではないかもしれません。ある報告によれば、DeepSeekは、閉鎖的な「マンハッタンプロジェクト」とは対照的に、オープンな世界的科学プロジェクトとしてLLMに大きな後押しを与えました。それほどまでに、以前は閉じられていたプレイヤーさえもその立場を再考しています[51][47]。
DeepSeek 3B MoE OCRは、最先端の研究の融合を表しています。専門家の混合トランスフォーマーと巧妙に設計されたビジョンエンコーダーを組み合わせることで、従来のLLMが抱えるコンテキスト長の制限を打破します。アーキテクチャ的には、トークンごとに専門家を活性化し、画像をテキストタスクの一級入力として扱うことで、密なモデルから脱却しています。実用的には、10倍の縮小でほぼ無損失のOCR圧縮を達成し、実世界のドキュメントの複雑さを多言語・多形式で処理します。同様に重要なのは、その意義です。技術大手の独占領域と考えられていた能力を、オープンソースでMITライセンスのモデルとして提供することです。DeepSeek-OCRをオープンにリリースすることで、その創造者たちは世界中の開発者に強力なツールを提供し、クローズドプロバイダーに挑戦状を叩きつけました。
開発者にとって、メッセージは明確です。OCRとドキュメントAIがずっとアクセスしやすくなりました。APIコールごとに支払ったり、サービスの制限を心配することなく、専門家レベルのビジョン-ラングージモデルをスタックに組み込むことができます。微調整したり、分解したり、そのまま使用してPDFや画像を意味のあるテキストやデータに変換することができます。初期ユーザーは既に、研究論文全体をMarkdownに変換したり、表や数学を正確に抽出したり、このモデルを使用して視覚的質問応答のようなタスクに取り組んだりしています。このような柔軟性は、単一のOCRシステムでは前例がありません。
業界において、DeepSeek-OCRは、オープンソースの取り組みが質とイノベーションの両面で閉じたソリューションに追いつき、時には追い越すことを示しています。画像処理のStable DiffusionやNLPにおけるLLaMAの派生モデル、そして今や視覚と言語のOCRであるDeepSeekに至るまで、オープンモデルが新しい基準を設ける証拠が増えています。DeepSeek-OCRを基にした急速な実験の時期が来るでしょう。最適化されたバージョンや、より大きな次のモデル(おそらくDeepSeek-OCR 16B MoE?)、そしてオープンソースのOCRパイプラインやUIツールへの統合が期待されます。最終的な恩恵を受けるのは、AI機能の迅速な開発や、使用するツールの選択肢が増える私たち全員です。
要するに、DeepSeek 3B MoEはただのOCRモデルではありません。それは、オープンウェイトのマルチモーダルモデルが、歴史的に独自システムが支配してきた分野でイノベーションを推進する次のAIの段階の先駆けです。OCRや長文理解の研究とアプリケーション開発のための競争の場を整えます。このように高い能力を持つオープンモデルを受け入れることで、コミュニティは強いメッセージを送ります。AIの進歩の未来は、大手だけでなく、皆に属するかもしれません。そして、DeepSeek-OCRが示すように、時には大量のテキストを扱う最良の方法は、それを見ることであり、適切なモデルがあれば誰でもできるようになります。
出典: この分析をまとめるために、高権威の参考文献とドキュメントが使用されました。公式のDeepSeek-OCR技術報告書およびモデルカード[8][50]、South China Morning PostとMarkTechPostのニュース報道[1][24]、Andrej KarpathyなどのAI専門家からの洞察[53][56]、およびGoogle/Amazon OCRサービスに関する比較情報[41][44]が含まれます。これらの情報源は、上記で議論されたアーキテクチャの詳細、性能の主張、および業界の文脈を裏付けており、DeepSeek-OCRの重要性について正確で信頼できる説明を保証しています。
[1] [6] [59] DeepSeekが視覚認識を用いてテキスト入力を圧縮するマルチモーダルAIモデルを発表 | サウスチャイナ・モーニング・ポスト
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCRが登場しました。DeepSeek OCRを無料で使う方法は? | Mehul Gupta著 | Data Science in Your Pocket | 2025年10月 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR: マルチモーダルAIがテキスト処理トークンを7~20倍削減 - ニュースと統計 - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: コンテキスト光学圧縮
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeekが3B OCRモデルをリリース:高性能OCRと構造化文書変換のために設計された3B VLM - MarkTechPost
[17] [48] [49] DeepSeek-AIはDeepSeek-VL2シリーズをオープンソース化:3B、16B、27Bパラメーターの3つのモデルを持つMixture-of-Experts(MoE)アーキテクチャがビジョンと言語AIを再定義 : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS 対 Google Vision (OCR 機能比較) | IronOCR
[45] [46] [47] [51] [58] [60] オープン vs. クローズド: 言語モデルの未来を巡る戦い | アメリカ自由人権協会
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej KarpathyがDeepSeek-OCR論文についてコメント: 画像入力が大規模言語モデルの新たな方向性になるかもしれません