DeepSeek 3B MoE: ロングドキュメントAIを再定義するオープンソースOCRモデル

著者: Boxu Li at Macaron

はじめに: LLMのための圧縮レイヤーとしてのビジョン

長いコンテキストの処理は、言語モデルにとって長い間の課題でした。トランスフォーマーモデルに10万トークンの文書を与えると、レイテンシー、メモリの膨張、または高額なAPIコストに直面します。従来の密な大規模言語モデル(LLM)は、本の長さの入力を効率的に処理するようには設計されていませんでした。そこで登場するのが、新しいオープンソースのエキスパート混合モデルであるDeepSeek-OCR 3Bです。これまでとは全く異なるアプローチを採用し、視覚認識をテキストの圧縮媒体として利用します[1][2]。数千のテキストトークンを直接取り込むのではなく、DeepSeekはページを画像に変換し、視覚と言語のパイプラインを通じてテキストを再構築します。この手法はコンテキスト光学圧縮と呼ばれ、モデルがより多くの情報をより少ないトークンで詰め込むことを可能にします[2][3]。DeepSeek-OCRは、精度をほとんど落とすことなく、トークンを最大で7–20倍削減すると約束しています[4][5]、標準ハードウェアでのスケーラブルな超長文ドキュメント解析を可能にします。重要なのは、このモデルが完全にオープンソースであり(Hugging FaceとGitHubで公開)、寛容なライセンスの下で、すべての人に高度なOCR機能を提供することです[6][7]。この記事では、DeepSeek-OCRのアーキテクチャとトレーニングを分析し、従来の密なLLMやクローズドソースのOCRサービスと比較し、そのリリースが開発者や業界のオープンソースの方向性に何を意味するのかを探ります。

アーキテクチャの内訳: MoEデコーダーとビジョンエンコーダーの組み合わせ

二段階のビジョン・言語設計。 DeepSeek-OCRは、ビジュアルエンコーダーであるDeepEncoderテキストデコーダーであるDeepSeek-3B-MoE-A570M[8]の2つの部分から構成されています。DeepEncoder(約380Mパラメータ)は、ドキュメントページの画像を取り込み、コンパクトな「ビジョントークン」のシーケンスを出力します。これらのトークンはDeepSeek-3B-MoEデコーダーに入力され、テキストコンテンツを生成します。この分割は、従来の密集型LLM(テキスト入力をエンドツーエンドで処理するもの)とは異なり、ページレイアウトと視覚的テキストの理解の重荷をエンコーダーが担うことで、デコーダーがより短いシーケンスで動作できるようにしています[2][3]

視覚エンコーディングによる圧縮。 エンコーダーは革新の多くが詰まっている場所です。高解像度ページを効率的に処理し、桁違いに圧縮するように設計されています。どうやって?DeepEncoderは複数のコンポーネントを組み合わせています。(1) 微細な知覚のためのSAM-base(Segment Anything Model)に基づくローカルビジョンモジュールで、小さな領域をスキャンするためにウィンドウ化された注意を使用します[9]; (2) 画像トークンの数を大幅に削減する16×畳み込みダウンサンプラーで、たとえば4096のパッチトークンを256に減らします[10]; そして (3) 密な注意による包括的な画像理解のためのCLIP-largeに基づくグローバルビジョンモジュールです[11]。実際には、フル1024×1024ドキュメント画像を最小256の潜在トークンにエンコード可能で、ほとんどのテキスト情報を失いません[12]。ビジョントークン数を低く保つことで(さまざまなモードで64〜400トークン)、DeepSeekは高解像度画像での単純なVision Transformerが直面する二次的コスト爆発を回避します[13]。これは、活性化メモリがピクセル密度の高いページでも抑制されることを意味します[14]

Mixture-of-Experts デコーダー vs. Dense LLMs. デコーダーである DeepSeek-3B-MoE は30 億パラメーターの Mixture-of-Experts トランスフォーマーです[8]。従来のすべてのトークンに対してすべての重みがアクティブな密な LLM とは異なり、MoE モデルには多くの専門サブネットワークがあり、各入力に対していくつかのみがアクティブ化されます。DeepSeek の場合、64 の専門サブモデルがあり、そのうち6 つの専門家がトークンごとにアクティブになります[15]。これにより、トークンごとに約**5 億 7,000 万パラメーターが“アクティブ”**で、モデルは推論時に 570M パラメーターモデルのように振る舞いますが、合計容量は 30 億です[16]各トークンを専門家のサブセットにルーティングすることで、計算コストを比例的に増やすことなく、合計パラメーターをスケールできます[17]。従来の密な LLM では、より多くの容量を求める場合、パラメーター数を増やし、毎回すべての計算コストを支払う必要があります。MoE ではそれを回避します: DeepSeek のデコーダーは、専門家を活用することができ(例えば、一部の専門家は数学の式に特化し、他は表形式データに特化するなど)、特定のトークンに対して関連するもののみがアクティブ化されます。その結果、実行が軽量で知識が豊富なデコーダーが得られます。つまり、DeepSeek-3B-MoE は、より大きなモデルの威力を備えながら、より小さなモデルのスピードを維持します[15]。これは、条件付き計算の利点がない従来の密な OCR モデルや LLM とは大きな違いです。Google の Switch Transformers や GLaM が MoE の有効性を初めて証明しましたが、DeepSeek はその力をオープンソースのビジョン・ランゲージシステムに取り入れています。

図: DeepSeek-OCRの2段階アーキテクチャは、DeepEncoderを通じて入力ドキュメント画像を大幅にトークン化し、その後、専門家の組み合わせデコーダーを使ってリッチな構造化出力を再構築します。この例では、中国の幾何学問題のPDFをMarkdownに変換するようモデルに求められており、テキストを抽出するだけでなく、図を構造化された座標やLaTeXに変換することで、単なるOCRを超えた理解を示しています。[18][19]

マルチ解像度「ガンダム」モード。 DeepSeekの設計の新しい側面の1つは、その設定可能な解像度モードであり、ユーモラスにTiny(小)、Small(小)、Base(基礎)、Large(大)、Gundam(ガンダム)と呼ばれています。これらのモードにより、開発者は詳細とトークン数をトレードオフしてニーズに合わせることができます[20]。たとえば、Tinyモードは512×512の画像をわずか64トークンで処理します(クイックで低詳細のスキャンに便利)、一方でLargeモードは1280×1280を400トークンで扱い最大限の詳細を提供します[21]Gundamモードはさらに進んでおり、ページを複数のローカルビューと1つのグローバルビューにタイル化します。たとえば、n個のローカル640×640クロップ(各100トークン)とページ全体の概要(256または400トークン)を組み合わせます[22]。この動的タイル化により、非常に複雑またはオーバーサイズのページも分割処理することで対応可能になり、モデルにグローバルな文脈を提供します。これはInternVL 2.0などの技術からのエコーであり、ここでは高密度文書での高精度を維持するために適用されています[23]。明示的なトークン予算と画像サイズを公開することで、DeepSeek-OCRはエンジニアにダイヤルを提供します:エンコーダーがどれだけの視覚的詳細を保持するかを調整して速度または精度を最適化します[24][25]。従来のOCRパイプラインはこの粒度を提供していませんが、これは異なる計算制約下でモデルを実用的にするための巧妙なエンジニアリングの動きです。

トレーニングとOCRの統合: ビジョンとテキストが一体化する方法

画像をテキストのように本当に読むモデルを構築するには、慎重に計画されたトレーニングプロセスが必要でした。DeepSeek-OCRのトレーニングは、標準的なLLMのトレーニングとは大きく異なり、OCR機能をエンドツーエンドで統合する必要がありました。

二段階トレーニングレジメン。 研究者たちは二段階のトレーニングパイプライン[26][27]を採用しました。ステージ1では、DeepEncoderをペアになった画像テキストデータ上で次トークン予測器として単独でトレーニングしました。基本的に、エンコーダーは画像を記述する言語モデルが認識するトークン列を生成することを学びました。このステージでは大量のOCRに特化したデータセット(詳細は以下)を使用し、ビジョンモジュールにテキストの画像をテキストトークンと同じ空間にエンコードすることを効果的に教えました。エンコーダーが十分に熟練した後にステージ2が開始されました:エンコーダーデコーダーシステム全体の共同トレーニング[27]。ステージ2では、モデルは画像文書の入力(デコーダーが正しいテキストを出力することを学習する)と通常のテキスト入力の混合を与えられ、言語スキルを維持しました。この二段階のアプローチは、OCRスキルが深く定着するように、まずビジョン、次にマルチモーダルファインチューニングを行い、エンコーダーからの埋め込み情報をもとにデコーダーが言語を生成することを求めました。

※多様なマルチモーダル訓練データ※ DeepSeek の訓練データの幅広さは、その堅牢さの主要な理由です。モデルカードによると、チームは実データ、合成データ、純粋なテキストデータを組み合わせてキュレーションしました[28]:

  • OCR 1.0 データセット: 100以上の言語をカバーする3,000万ページの実際の文書(スキャン、PDF)[28]。この巨大な多言語コーパスにより、モデルは英語の請求書からアラビア語の新聞、中国の書籍まで、多様なスクリプトとレイアウトに触れることができました。この多様性は非常に重要です。多くのOCRエンジンは少数の言語にしか対応できませんが、DeepSeekは初めから多言語対応として訓練されています。
  • OCR 2.0 データ: チャート、数式、化学構造、テーブル、図を含む構造化文書の合成データセット[28]。これらはおそらくコンピューター生成画像で、真実のテキストとペアになっています(例えば、LaTeXをテキストとして持つ数式画像)。これを含めることで、従来のOCRが無視したり失敗しがちなコンテンツを扱えるようになりました。例えば、DeepSeekは化学図を解釈してSMILES式を出力したり、棒グラフ画像をCSV/HTMLテーブルに変換することができます。「印刷されたテキストを読む」以上のタスクに対応できる点で、DeepSeekは構造化文書理解において独自の優位性を持っています。
  • 一般視覚データ(20%): LAION(1億サンプル)などのデータセットからの標準画像が含まれています[29]。モデルが狭くならないようにするのが目的で、一般的な視覚と言語の基盤を保持し、画像にキャプションを付けたり、オブジェクトを認識したりできます。結果として、DeepSeek-OCRは画像を説明したり、視覚要素を見つけたりすることができ、純粋なOCRツールにはできないことです。
  • 純粋なテキストデータ(10%): 訓練の一部はテキストのみのデータでした[28]。これはデコーダーの流暢な言語生成能力を維持するためです。最終的に「画像を読む」後、モデルは一貫したテキストを出力する必要があります。いくつかのテキストコーパスを含めることで、デコーダーが単にOCRをそのまま反復することに過度に適応せず、テキストの再フォーマット、要約、翻訳なども可能な言語モデルとしての能力を維持します。

このデータの組み合わせにより、OCR機能が深く統合されています。DeepSeekは単なる画像の前処理と市販のLLMを組み合わせたものではなく、エンドツーエンドのビジュアルテキスト理解を行うように共同で訓練されています。画像からテキストを驚くほどの忠実度で再構築し、標準的なベンチマークで~10×の圧縮で97%の正確な一致率を実現しています[30][31]。多様な訓練により、単純な活字テキストだけでなく、複雑なレイアウトや埋め込まれたビジュアルにも対応します。その結果、DeepSeek-OCRはOCRシステム、レイアウト解析、言語モデルのハイブリッドとなりました。

スケールとコンピュート。DeepSeekのトレーニングは、現代のLLMのトレーニングに匹敵する真剣なコンピュート作業でした。チームは20ノードで各ノードに8×A100(40GB)GPUを使用し、合計で160のA100 GPUを利用しました[29]。効率的なパイプライン並列化のおかげで、テキストのみのデータで1日あたり最大90Bトークン、マルチモーダルデータで70Bトークン/日の驚異的なスループットを達成しました[29]。トレーニングの過程で、これはおそらく数兆のトークンを処理したことになります。このようなスケールは、効果的に~570Mのアクティブなパラメータを持ちながらも、モデルが非常に良好に機能する理由の一つです。膨大な種類の例にモデルをさらしました。トレーニングの最適化(AdamWオプティマイザ、バッチサイズ640、LR~3e-5[32])は、この膨大なデータフローを処理するために調整されました。最終的な結果は、3B MoEモデル用に~6.7 GBのsafetensorsファイルにパッケージ化され、高性能な単一GPUで実行可能な小ささです[33]。これは、クラスターを必要としたり、まったくセルフホスティングできない可能性のある専有OCRモデルや巨大な密集LLMとは大きく異なります。DeepSeekの効率的なトレーニングパイプラインは、適切なアーキテクチャ(MoE+ビジョン圧縮)を用いれば、巨大なモデルなしで優れた精度を達成できることを示しています。

オープンソースライセンスと開発者の採用

DeepSeek-OCR 3B の最も重要な側面の一つは、完全なオープンソースリリースです。モデルの重みとコードの両方が、ソフトウェアで最も許容されるライセンスの一つである MIT ライセンス[34] の下で公開されています。開発者や組織にとって、これは大きな意味を持ちます:

  • 幅広い使用権: MITライセンスにより、モデルを商業的または個人的にほとんど制限なく使用できます。ライセンス通知を含める限り、基本的には「何でもOK」です。これは、多くの「オープン」モデルが非商用条項を持っていたり、特別な許可を必要としたりするのとは大きく異なります。つまり、スタートアップや企業は法的なハードルなしに、DeepSeek-OCRを製品(クローズドソース製品であっても)に統合することができます。これは本当にオープンなイノベーションです。
  • 透明性と信頼: Hugging Faceに重みがあり、GitHubにコードがあることで、何もブラックボックスではありません。開発者はモデルがどのように動作するかを確認し、アーキテクチャを検証し、必要に応じて監査や微調整を行うことができます。この透明性が信頼を築きます。たとえば、機密文書を処理する場合、データをサードパーティのAPIに送るのではなく、完全にオンプレミスで実行できるオープンモデルを好むかもしれません。
  • 統合の容易さ: リリースには詳細なモデルカードと使用例が含まれています。Pythonの数行(Hugging Face Transformersを使用し、trust_remote_code=Trueでカスタムモデルコードを許可)で、モデルをロードして推論を実行できます[35][36]。DeepSeekチームは信頼性のあるセットアップを再現できるように、テスト済みの環境仕様(Python 3.12、Torch 2.6、Transformers 4.46、FlashAttention 2.7など)も提供しました[37]。これにより、採用のハードルが下がります。AI研究者でなくても試すことができます。ドキュメントの画像ファイルとそこそこのGPUがあれば、数分で結果が得られます。
  • コミュニティとサポート: リリース以来、DeepSeek-OCRは急速に注目を集めています。GitHubリポジトリは数日で何千ものスター(5k+スター)を獲得し[38]、Hugging Faceでは数万回のダウンロードがありました[39]。これは活発なコミュニティの関心を示しています。Hugging Face上で、ブラウザでモデルをテストできるいくつかのデモアプリケーション(Spaces)が登場しました[40]。このコミュニティの勢いにより、開発者は他の人が提供したヘルプやチュートリアル、拡張機能を見つけやすくなります。また、モデルは多様なユースケースで実戦テストされ、バグが洗い出され、改善が促進されることになります。
  • カスタマイズの自由: おそらく最も重要なのは、オープンな重みにより、開発者はDeepSeek-OCRを微調整したり、変更したりできることです。たとえば、特定の種類のエンジニアリング図面や非常にスタイライズされたフォントを読むニッチなOCRタスクがある場合、そのドメインに合わせてモデルをさらに訓練または適応させることができます。クローズドなOCR APIでは、プロバイダーが提供するものをそのまま使用するしかありません。DeepSeekはR&Dチームにその上でのイノベーションを可能にします。近いうちに、歴史的な手書き文書のためにDeepSeekを微調整したバージョンや、PDFコンテンツについて質問に答えられるチャットボットなど、大規模なパイプラインに統合されたものが登場するかもしれません。

要約すると、DeepSeek-OCRのオープンソースMITリリースは、最先端のOCRにおけるコスト障壁アクセス障壁を取り除きます。GPUを持つ開発者は誰でも、最先端のビジョン-言語モデルを自分の環境で無料で展開できます。この民主化は、Tesseract(オープンソースOCR)やStable Diffusion(オープンソース画像生成)などの画像モデルが利用可能になったときと同様です。ただし、DeepSeekの機能ははるかに高度です。このことから、小規模なスタートアップや研究者でも、プロジェクトに世界クラスのOCRとドキュメント理解を組み込むことができ、集合的な貢献を通じてこの分野を推進する可能性があることが示唆されます。

DeepSeek-OCRとGoogle & AmazonのクローズドOCR APIの比較

このオープンモデルは、Google Cloud Vision OCRAmazon Textractのような現行のサービスとどのように比較されるのでしょうか?これらのクラウドベースのOCRサービスは、企業のドキュメント処理において高い精度とスケーラビリティで知られた定番の解決策です。しかし、DeepSeek-OCRの登場は、能力、アクセス、柔軟性、革新の速度において明確な違いを浮き彫りにしています。

  1. 精度と能力: 純粋なテキスト抽出タスクにおいて、GoogleやAmazonのOCRエンジンは、膨大なデータで洗練されてきたため非常に高精度です。DeepSeek-OCRはその分野に競争力のある(場合によっては最先端の)結果をもたらし、標準のOCRベンチマークで97〜98%の正確なテキストマッチを達成しています[30]。また、より少ないトークンを使用しながら、最近の学術OCRモデル(GOT-OCR 2.0、Mineru 2.0)を上回っています[19]。実際には、DeepSeekは印刷されたテキストを抽出するために大手クラウドAPIと肩を並べることができます。しかし、DeepSeekの能力は単なるOCRを超えています。そのマルチモーダルトレーニングのおかげで、レイアウトを理解し、埋め込まれたコンテンツを解釈することができます。例えば、科学論文のPDFを読み、段落を転記するだけでなく、PDF内のグラフを解釈してそのデータを出力したり、内容を要約したりすることができます。テーブル画像をHTMLやマークダウンのテーブル構造に変換することも可能です。非テキスト要素(図や画像)をドキュメント内で記述することもできます。Google VisionやTextractのようなクローズドAPIは、通常特定のタスクに特化しています(テキスト検出、フォームデータ抽出など)。それらはテキストを抽出し、基本的なレイアウト構造を識別するかもしれませんが、化学図の意味を記述したり、チャートをコードに変換したりすることはありません。DeepSeekは人間の読者のように動作し、柔軟なフォーマットで出力を生成し、混合コンテンツを処理することができます。これにより、単なるOCRツールではなく、一般的な文書理解モデルとなります。とはいえ、クローズドサービスには独自の高度な機能があります(例:Textractは直接構造化されたフォームフィールドを提供し、GoogleのDocument AIはドキュメントタイプを分類できます)が、それらは狭く定義されています。DeepSeekはよりオープンエンドな能力を提供し、出力はあなたが要求するものになります(「これをマークダウンに変換」、「すべての名前とメールを抽出」、「このレポートを要約」など)、そのLLMの性質を活用しています。
  2. アクセスと統合: 大きな違いは利用方法です。GoogleとAmazonのOCRはクラウドサービスであり、画像(またはPDF)をAPIに送信して結果を受け取ります。これは利点と欠点があります。利点は便利さです。MLの専門知識が不要で、自動的にスケールします。統合はシンプルなREST APIコールです[41]。欠点は、潜在的に機密性のあるドキュメントを外部サーバーに送信しなければならず、使用ごとに料金がかかることです[42][43]。DeepSeek-OCRはオープンソースでこのモデルを逆転させます。モデルをダウンロードして自分のハードウェアで実行します。統合には少し手間がかかるかもしれません(GPU環境の設定、コードでモデルを呼び出す)が、外部依存はありません。プライバシーやコンプライアンスにとって重要です。例えば、医療や法律の企業は、機密ファイルをサードパーティのクラウドにアップロードすることを嫌がりますが、DeepSeekを使用すればデータを完全に社内に保持できます。コストの面でも、一定のボリュームのドキュメントがある場合、自分のモデルを運用するほうが長期的にははるかに費用対効果が高いです[44][43]。クラウドOCR APIは通常、1,000ページごとに課金します。これらのコストは累積しますが、オープンモデルなら、GPUやクラウドインスタンスへの一時的な投資を活用し、その後は数百万ページをわずかなコストで処理できます。要するに、DeepSeekへのアクセスは無制限で、料金もなく、環境を完全にコントロールできます。トレードオフはインフラの管理ですが、多くの人にとっては独立性を得るための歓迎すべきトレードです。
  3. 柔軟性とカスタマイズ: クローズドソースのOCRソリューションは基本的に固定されたオファリングです。誤りがあったり、あなたのドメイン(例えば、手書きや専門用語の読み取り)に特化していない場合、事後処理を行うか、プロバイダがモデルを改善するのを待つしかありません。DeepSeekのようなオープンモデルでは、完全な柔軟性があります。ドメインデータでモデルを微調整して(例:手書きのサンプルや特定の言語ドキュメントで微調整)、特定のニーズに対するパフォーマンスを向上させることができます。プロンプトを通じて出力フォーマットをカスタマイズすることもできます。例えば、DeepSeekに特定のフィールドを抽出したJSONを出力させたり、フォーマットのためにマークダウンの構文を保持させたりすることができます。モデルのLLM DNAにより、OCR結果をどのように提示するかの指示に従うことができます。これはGoogle/AmazonのAPIではできません(それらは事前定義された出力スキーマを持っています)。さらに、DeepSeekを複合ワークフローに統合することもできます。例えば、DeepSeekを使用してドラフト抽出を取得し、それを他のモデルで検証したり、ヒューマンインループシステムにフィードしたりします。クローズドAPIでは、しばしばパイプラインに制約があります。基本的に、DeepSeekのオープンウェイトは開発者に革新の自由を与え、クローズドソリューションは「見たままがすべて」です。この柔軟性はアプリケーションサイドでの迅速な革新の触媒です。DeepSeekを中心にインタラクティブなドキュメントチャットボットやビジュアルドキュメント編集ツールなどの新しいユースケースが生まれる可能性があります。これらはクローズドAPIでは不可能または費用対効果が低いかもしれません。
  4. 革新のペース: オープンソースモデルは、コミュニティの貢献や研究の統合を通じて急速に進化する傾向があります。一方、クローズドサービスは閉ざされた扉の内側で独自のタイムラインで改善されます。DeepSeek-OCRが公開されることで、研究者はそのアーキテクチャを検討し、それを基に構築することができます。誰かがそれを2倍速くまたはより正確にする方法を見つけた場合、その改善をオープンに共有することができます。例えば、エッジデプロイメントのためにモデルをプルーニングしたり量子化したりするためのコミュニティの取り組みが数週間以内に行われる可能性があります。対照的に、クローズドプロバイダは数か月または年に1回OCR技術を更新するかもしれず、ユーザーは内部の何が変更されたのかを知ることができないかもしれません。オープンモデルの革新のペースはLLMの分野で素晴らしいものでした(オープンLLMが主要なラボのパフォーマンスに数か月で追いつくのを見ました)[45][46]。ここでも同様の効果が期待できます。DeepSeekのリリースはGoogle/AWSとの競争的なベンチマークを促し、どの分野で劣っている場合でも、多くの目がその改善方法に注目するでしょう。また、オープンな代替手段があることで、クローズドソースのOCRプロバイダに価格や機能に関する圧力がかかるでしょう。企業がコストを節約するため、またはベンダーロックインを避けるためにオープンモデルに移行し始めた場合、クラウドOCRサービスは価格を下げるか、新しい付加価値機能(例:他のクラウドツールとのよりシームレスな統合、またはデータプライバシーの保証)を提供するかもしれません。それは最終的にエンドユーザーに利益をもたらす健全な競争です。いくつかの大手技術リーダーもオープンAIの勢いを認めています。例えば、OpenAIのCEOであるSam Altmanは最近、「個人的には、ここで[クローズドモデル]で歴史の誤った側に立っていると思うし、異なるオープンソース戦略を見つける必要がある」と述べました[47]。この発言は、DeepSeekのようなオープンモデルが急速に進歩を遂げたことを受けてのものです。OCRの分野でも、DeepSeek-OCRはプロプライエタリ提供の価値に対する再考を促すかもしれません。

業界への影響: オープンウェイト視覚言語モデルとビッグテック

DeepSeek-OCRのデビューは、AIにおけるより広範な波の一部であり、**オープンウェイトのビジョン-言語モデル(VLMs)**の台頭を示しています。過去には、OCRや画像キャプション、VQAを行う最先端のマルチモーダルモデルは、ほとんどが専有のものであるか、学術的な概念実証に過ぎませんでした。しかし、今ではパラダイムシフトが起きています。ここ1、2年の間に、従来のビッグテック領域外の多くの組織や研究グループが、高度なVLMsをオープンソース化しており、その能力は素晴らしいものです。DeepSeek自身もこの動きの最前線に立っています。彼らの以前のリリースであるDeepSeek-VL2シリーズ(2024年後半の3B、16B、27B MoEモデル)は、革新的なオープンビジョン-言語システムでした[48][17]。これらのモデルは、動的な画像タイル化や潜在的注意のような革新を導入し、複雑な視覚データを効率的に処理しました[49][17]。新しいDeepSeek-OCRはその基盤を活かし、ドキュメントの理解と長文圧縮に注力しています。重要なのは、これらすべてのモデルが共通して持つ点です:パブリックウェイトとマルチモーダルAIの民主化を目指す使命です。

このトレンドは、クローズドソースの大手企業に競争圧力をかけています。歴史的に「見る」や「読む」ことができるモデルが必要な場合、Google Visionのようなサービスを使用したり、高価な独自ソフトウェアを購入したりする必要がありました(あるいは、Tesseractのような能力の低い古いオープンツールを使用することも)。しかし今や、DeepSeek-OCRやAlibabaのQwen-VL、Metaのオープンイメージテキストモデルのようなオープンモデルがあることで、開発者は大手プロバイダーのエコシステムに縛られることなく選択肢を持つことができます。このオープンさは、クローズドモデルでは達成できなかった方法でイノベーションを加速させることができます。例えば、学術研究室がDeepSeekの重みを利用して、視覚的に豊かな質問応答のためにファインチューニングを行い、GoogleやOpenAIの関与なしに新しい最先端モデルをリリースすることが可能です。集団的な進歩は驚くべきもので、ある分析によれば、クローズドモデルが当初リードしていたにもかかわらず、オープンソースのリリースが性能のギャップを急速に埋め、新しい研究方向を推進しています[45][46]。ビジョンと言語の領域では、画像をマークアップに変換する(例えば、図をコードに変換する)や、マルチモーダル推論といったタスクにオープンモデルが取り組む様子が見られます。

オープンウェイトのVLMの存在は、より透明性の高い研究文化の促進にも寄与しています。DeepSeek-OCRの技術報告書とモデルが利用可能であることで、研究者は主張を検証し、それに基づいて発展させることができます。たとえば、自分の文書で97%の圧縮忠実度の主張をテストすることができます[50]。これは「これをできるのは一部の企業だけ」というパラダイムを「コミュニティの誰もがこれを再現し拡張できる」に変えるものです。我々は純粋なテキストLLMの世界で、この変化がどのように展開されたかを見てきました。MetaのLLaMA(部分的にオープン)は2023年にイノベーションの洪水を引き起こし、DeepSeekのR1のようなモデルは2025年初頭に完全にオープンで競争力があるとして「大きなリセット」として称賛されました[51]。そのモデルは使用制限のない初の明確なフロンティアレベルのモデルとして引用され、クローズドモデル支持者の間で反省を促しました[51][47]。今、DeepSeek-OCRはその同じ精神をビジョンテキストAIに持ち込んでいます。

業界のリーダーたちもこれらのアイデアに関心を持っています。著名なAI研究者アンドレイ・カーペシーは、DeepSeek-OCRのアプローチについてコメントし、ある場合には画像をLLM入力として使用することがテキストトークンよりも効率的で表現力豊かである可能性があると指摘しました[52][53]。彼は、1つの画像パッチが複数の文字をエンコードできること(情報密度の高さ)や、画像が本来持つフォーマット(フォント、レイアウト)がテキストでは失われることを強調しました[53][54]。彼の見解では、DeepSeek-OCRの論文は、画像入力がモデルに長いコンテキストを与える一般的な方法となり、言語モデルがより一般的な情報モデルとして再定義される未来を示唆しています[55][56]。このような考え方は、オープンな研究が新しい方向性を生み出すことを示しています。もし画像をコンテキストとして使用することがトレンドになるとすれば、それはDeepSeekのような実験がその実現を示したおかげかもしれません。カーペシーは、この結果を見て*「画像入力のみをサポートするチャットボットを今すぐ開発したいという衝動を抑えなければならなかった」と冗談めかしながら述べています[57]が、実用的な課題が残る中でもアイデアの可能性を示しています。重要なのは、オープンなモデルがオープンな議論と探求を促進する*ことです。アイデアは専有的な秘密として留まることなく、迅速に分野に浸透していきます。

競争の観点から見ると、オープンウェイトモデルのトレンドは、かつて閉鎖型のビジョン・ラングエージシステムが持っていたリードを侵食しています。特に中国のテックラボは、多くの注目すべきオープンモデルとデータセットをリリースしており、特定の分野では西洋の取り組みに匹敵するか、それを上回るペースで進んでいます[58]。DeepSeek自身も、中国発(杭州を拠点とする)のスタートアップであり、オープンソースのブレークスルーを世界に広めています[1][59]。この東西のオープンな協力は、皆の進歩を加速させています。大手テック企業も注目しており、一部はアプローチをハイブリッド化することで対応を始めています(例えば、MetaがSegment Anythingのようなビジョンモデルをオープンソース化したり、OpenAIが小規模なモデルを試験的にオープン化したりしています)[47][60]

全体的に見て、MITライセンスの下でDeepSeek-OCR 3Bをリリースすることは、オープンソースAI革命におけるもう一つの画期的な出来事です。これは、コミュニティの観点からE-E-A-T(経験、専門知識、権威性、信頼性)を体現しています。経験豊富なAI開発者がその専門知識とモデルの「経験」をコミュニティとオープンに共有し、信頼と集団的な知識を高めます。開発者や企業にとって、最先端のOCRはもはや技術の巨人だけのものではなく、誰でも自分のアプリケーションに組み込める共有の公共資源です。そしてAIの分野にとって、オープンさが迅速な革新を促進できることを再確認させます。このモデルのコンテキストを圧縮する能力と視覚-テキストタスクを処理する能力は、新しい種類のハイブリッドアプリケーションや、より効率的なMoE VLMアーキテクチャへの研究を刺激するかもしれません。クローズドソースの巨人たちは明確なメッセージを受け取りました。オープンコミュニティは急速に動いており、関連性を保ち(そして倫理的で広く採用されるために)、オープンさを受け入れることが選択肢ではないかもしれません。ある報告によれば、DeepSeekは、閉鎖的な「マンハッタンプロジェクト」とは対照的に、オープンな世界的科学プロジェクトとしてLLMに大きな後押しを与えました。それほどまでに、以前は閉じられていたプレイヤーさえもその立場を再考しています[51][47]

結論

DeepSeek 3B MoE OCRは、最先端の研究の融合を表しています。専門家の混合トランスフォーマーと巧妙に設計されたビジョンエンコーダーを組み合わせることで、従来のLLMが抱えるコンテキスト長の制限を打破します。アーキテクチャ的には、トークンごとに専門家を活性化し、画像をテキストタスクの一級入力として扱うことで、密なモデルから脱却しています。実用的には、10倍の縮小でほぼ無損失のOCR圧縮を達成し、実世界のドキュメントの複雑さを多言語・多形式で処理します。同様に重要なのは、その意義です。技術大手の独占領域と考えられていた能力を、オープンソースでMITライセンスのモデルとして提供することです。DeepSeek-OCRをオープンにリリースすることで、その創造者たちは世界中の開発者に強力なツールを提供し、クローズドプロバイダーに挑戦状を叩きつけました。

開発者にとって、メッセージは明確です。OCRとドキュメントAIがずっとアクセスしやすくなりました。APIコールごとに支払ったり、サービスの制限を心配することなく、専門家レベルのビジョン-ラングージモデルをスタックに組み込むことができます。微調整したり、分解したり、そのまま使用してPDFや画像を意味のあるテキストやデータに変換することができます。初期ユーザーは既に、研究論文全体をMarkdownに変換したり、表や数学を正確に抽出したり、このモデルを使用して視覚的質問応答のようなタスクに取り組んだりしています。このような柔軟性は、単一のOCRシステムでは前例がありません。

業界において、DeepSeek-OCRは、オープンソースの取り組みが質とイノベーションの両面で閉じたソリューションに追いつき、時には追い越すことを示しています。画像処理のStable DiffusionやNLPにおけるLLaMAの派生モデル、そして今や視覚と言語のOCRであるDeepSeekに至るまで、オープンモデルが新しい基準を設ける証拠が増えています。DeepSeek-OCRを基にした急速な実験の時期が来るでしょう。最適化されたバージョンや、より大きな次のモデル(おそらくDeepSeek-OCR 16B MoE?)、そしてオープンソースのOCRパイプラインやUIツールへの統合が期待されます。最終的な恩恵を受けるのは、AI機能の迅速な開発や、使用するツールの選択肢が増える私たち全員です。

要するに、DeepSeek 3B MoEはただのOCRモデルではありません。それは、オープンウェイトのマルチモーダルモデルが、歴史的に独自システムが支配してきた分野でイノベーションを推進する次のAIの段階の先駆けです。OCRや長文理解の研究とアプリケーション開発のための競争の場を整えます。このように高い能力を持つオープンモデルを受け入れることで、コミュニティは強いメッセージを送ります。AIの進歩の未来は、大手だけでなく、皆に属するかもしれません。そして、DeepSeek-OCRが示すように、時には大量のテキストを扱う最良の方法は、それを見ることであり、適切なモデルがあれば誰でもできるようになります。

出典: この分析をまとめるために、高権威の参考文献とドキュメントが使用されました。公式のDeepSeek-OCR技術報告書およびモデルカード[8][50]South China Morning PostMarkTechPostのニュース報道[1][24]、Andrej KarpathyなどのAI専門家からの洞察[53][56]、およびGoogle/Amazon OCRサービスに関する比較情報[41][44]が含まれます。これらの情報源は、上記で議論されたアーキテクチャの詳細、性能の主張、および業界の文脈を裏付けており、DeepSeek-OCRの重要性について正確で信頼できる説明を保証しています。


[1] [6] [59] DeepSeekが視覚認識を用いてテキスト入力を圧縮するマルチモーダルAIモデルを発表 | サウスチャイナ・モーニング・ポスト

https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input

[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCRが登場しました。DeepSeek OCRを無料で使う方法は? | Mehul Gupta著 | Data Science in Your Pocket | 2025年10月 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0

[4] [5] DeepSeek-OCR: マルチモーダルAIがテキスト処理トークンを7~20倍削減 - ニュースと統計 - IndexBox

https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/

[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: コンテキスト光学圧縮

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeekが3B OCRモデルをリリース:高性能OCRと構造化文書変換のために設計された3B VLM - MarkTechPost

https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

[17] [48] [49] DeepSeek-AIはDeepSeek-VL2シリーズをオープンソース化:3B、16B、27Bパラメーターの3つのモデルを持つMixture-of-Experts(MoE)アーキテクチャがビジョンと言語AIを再定義 : r/machinelearningnews

https://www.reddit.com/r/machinelearningnews/comments/1hfclw6/deepseekai_open_sourced_deepseekvl2_series_three/

[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-OCR

[41] [42] [43] [44] AWS 対 Google Vision (OCR 機能比較) | IronOCR

https://ironsoftware.com/csharp/ocr/blog/compare-to-other-components/aws-vs-google-vision-comparison/

[45] [46] [47] [51] [58] [60] オープン vs. クローズド: 言語モデルの未来を巡る戦い | アメリカ自由人権協会

https://www.aclu.org/news/privacy-technology/open-source-llms

[52] [53] [54] [55] [56] [57] Andrej KarpathyがDeepSeek-OCR論文についてコメント: 画像入力が大規模言語モデルの新たな方向性になるかもしれません

https://www.aibase.com/news/22136

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達