
作者:Boxu Li 于 Macaron
长上下文处理一直是语言模型的痛点——向一个transformer输入一个10万token的文档,你会遇到延迟、内存膨胀或过高的API成本。传统的密集大型语言模型(LLMs)根本无法高效处理书籍长度的输入。这时,DeepSeek-OCR 3B登场,这是一种全新的开源专家混合(MoE)模型,采用了截然不同的方法:它使用视觉感知作为文本的压缩媒介[1][2]。DeepSeek不直接摄取成千上万的文本token,而是将页面转换为图像,然后通过视觉语言管道重建文本。该技术被称为Context Optical Compression,使模型能够在更少的token中压缩更多的信息[2][3]。DeepSeek-OCR承诺在准确性损失最小的情况下实现高达7–20倍的token减少[4][5],使得在标准硬件上实现可扩展的超长文档解析。关键是,该模型是完全开源的(在Hugging Face和GitHub上发布),并采用宽松的许可证,使高级OCR功能对所有人开放[6][7]。在这篇文章中,我们将剖析DeepSeek-OCR的架构和训练,与传统的密集LLMs和闭源OCR服务进行比较,并探讨其发布对开发者和行业开源轨迹的意义。
双阶段视觉-语言设计。 DeepSeek-OCR 被构建为一个两部分系统:一个称为 DeepEncoder 的视觉编码器和一个称为 DeepSeek-3B-MoE-A570M[8] 的文本解码器。DeepEncoder (≈380M 参数) 读取文档页面的图像并输出紧凑的“视觉标记”序列。这些标记随后输入到 DeepSeek-3B-MoE 解码器中,生成文本内容。这种划分不同于传统的密集 LLM(其会端到端处理文本输入)——在这里,理解页面布局和视觉文本的重任由编码器承担,使解码器能够在更短的序列上操作[2][3]。
通过视觉编码进行压缩。 编码器是创新的核心所在。它被设计为能够高效处理高分辨率页面,并将其压缩一个数量级或更多。怎么做到的呢?DeepEncoder结合了多个组件:(1) 一个基于 SAM-base(Segment Anything Model)的本地视觉模块,用于细粒度感知,使用窗口注意力扫描小区域[9];(2) 一个 16倍卷积降采样器,大幅减少图像标记数量(例如,从4096个补丁标记减少到256个)[10];(3) 一个基于 CLIP-large 的全局视觉模块,用于密集注意力下的整体图像理解[11]。实际上,一个完整的1024×1024文件图像可以编码为仅256个潜在标记,而不会丢失大部分文本信息[12]。通过保持视觉标记数量低(在各种模式下为64–400个标记),DeepSeek避免了高分辨率图像中原始视觉转换器会遭遇的二次成本激增[13]。这意味着即使是像素密集的页面,激活内存也能保持在合理范围内[14]。
专家混合解码器与密集LLMs对比。 解码器DeepSeek-3B-MoE是一种30亿参数的专家混合变换器[8]。与传统的密集LLM中每个token激活全部权重不同,MoE模型拥有众多专家子网络,仅对每个输入激活少数几个。在DeepSeek的情况下,共有64个专家子模型,其中每个token解码时激活6个专家[15]。这使得每个token约有5.7亿参数“激活”——实际上模型在推理时表现得像一个5.7亿参数的模型,尽管其总容量为30亿[16]。通过将每个token路由到一部分专家,模型可以在不成比例增加计算成本的情况下扩展总参数[17]。在传统密集LLM中,如果需要更多容量,参数数量会增加,并且每次都需要支付全部计算成本。MoE避免了这一点:DeepSeek的解码器可以调用专门的专家(例如,一些专家擅长数学公式,另一些擅长表格数据等),但只有相关的专家会对给定的token起作用。结果是一个运行轻巧且知识丰富的解码器。实质上,DeepSeek-3B-MoE 具有大模型的威力,同时保留了小模型的速度[15]。这是与传统密集OCR模型和LLM的关键区别,它们缺乏这种条件计算优势。值得注意的是,Google的Switch Transformers和GLaM首先证明了MoE的效用,但DeepSeek将这种力量带入了一个开源的视觉语言系统。
图:DeepSeek-OCR 的两阶段架构通过 DeepEncoder 压缩输入文档图像为更少的标记,然后通过专家混合解码器重建丰富的结构化输出。在此示例中,模型被要求将一个中文几何问题的 PDF 转换为 Markdown:它不仅提取文本,还将图表转换为结构化坐标和 LaTeX,展示了超越简单 OCR 的理解能力。[18][19]
多分辨率「高达」模式。 DeepSeek设计的新颖之处在于其可配置的分辨率模式,这些模式被幽默地命名为Tiny、Small、Base、Large和Gundam。这些模式让开发人员可以在细节和token数量之间进行权衡以满足需求[20]。例如,Tiny模式将512×512图像处理成仅64个token(适用于快速、低细节扫描),而Large模式处理1280×1280图像,使用400个token以获取最大细节[21]。Gundam模式更进一步——它将页面分成多个局部视图加上一个全局视图,比如结合n个局部640×640裁剪(每个100个token)和一个全页概览(256或400个token)[22]。这种动态分片确保即使是非常复杂或超大的页面也能通过拆分处理,同时仍然给予模型全局上下文。这是对InternVL 2.0等技术的回声,在此处进行了调整以保持在密集文档上的高精度[23]。通过公开token预算和图像尺寸,DeepSeek-OCR实际上为工程师提供了一个调节旋钮:通过调整编码器保留的视觉细节量来优化速度或精度[24][25]。传统的OCR流程不提供这种细粒度——这是一个巧妙的工程设计,使模型在不同的计算限制下实用。
构建一个真正能像阅读文本一样读取图像的模型需要精心策划的训练过程。DeepSeek-OCR的训练与标准LLM的训练模式有显著不同,因为它必须将OCR功能进行端到端的整合。
双阶段训练方案。 研究人员采用了两阶段训练流程[26][27]。在阶段1,他们独立训练DeepEncoder作为下一个令牌预测器,基于配对的图像-文本数据。基本上,编码器学会了生成一系列令牌,使语言模型能够识别并描述图像。此阶段使用了大量以OCR为重点的数据集(详情如下),有效地教会了视觉模块将文本图像编码到与文本令牌相同的空间。只有当编码器足够熟练后,阶段2才开始:对整个编码器-解码器系统进行联合训练[27]。在阶段2,模型被输入图像-文档(解码器学习输出正确的文本)和常规文本输入(以保持其语言技能的敏锐)。这种两步法——先视觉,后多模态微调——确保了OCR技能深植于编码器,然后才要求解码器从其嵌入中生成语言。
多样化的多模态训练数据。 DeepSeek 训练数据的广泛性是其稳健性的主要原因之一。根据模型卡,团队精心挑选了一种混合的 真实的、合成的,甚至是纯文本的数据[28]:
这种数据混合确保了OCR能力的深度整合:DeepSeek不仅仅是在进行图像预处理加上现成的LLM,而是联合训练以实现端到端的视觉文本理解。它以惊人的保真度从图像中重建文本——在标准基准测试中以~10×压缩达到了97%的精确匹配准确率[30][31]。由于多样化的训练,它不仅适用于简单的打字文本,还适用于复杂的布局和嵌入的视觉内容。实际上,训练使DeepSeek-OCR成为OCR系统、布局分析器和语言模型的混合体。
扩展与计算。 DeepSeek 的训练是一项严峻的计算任务,堪比训练现代 LLM。团队使用了 20 个节点,每个节点配备 8×A100 (40GB) GPU——总共 160 个 A100 GPU[29]。借助高效的流水线并行处理,他们实现了高达 每天 900 亿个文本数据标记和每天 700 亿个多模态数据标记的惊人吞吐量[29]。在整个训练过程中,这可能累计处理了数万亿个标记。这种规模是该模型尽管只有大约 ~570M 活跃参数,但表现出色的原因之一;他们让模型接触到了大量不同的示例。训练优化(AdamW 优化器,批量大小 640,学习率 ~3e-5[32])经过调试以应对这种庞大的数据流。最终结果被打包成一个大约 ~6.7 GB 的 safetensors 文件,适用于 3B MoE 模型——足够小,可以在单个高端 GPU 上运行[33]。这与需要集群或无法自托管的专有 OCR 模型或大型密集 LLM 相去甚远。DeepSeek 的高效训练流水线证明了只要有合适的架构(MoE + 视觉压缩),就可以在不使用庞大模型的情况下获得极高的准确性。
DeepSeek-OCR 3B 的一个显著特点是其完全开源发布。模型权重和代码都在MIT 许可证[34]下提供,这是软件中最宽松的许可证之一。这对开发者和组织来说,具有重要意义:
总之,开源 MIT 版本的 DeepSeek-OCR 消除了最前沿 OCR 的成本障碍和访问障碍。任何拥有 GPU 的开发者都可以在自己的环境中部署最先进的视觉-语言模型,而且是免费使用的。这种民主化类似于我们在 Tesseract(开源 OCR)或 Stable Diffusion(开源图像生成)等图像模型可用时所看到的情况——但 DeepSeek 的功能要先进得多。这意味着即使是小型初创企业或研究人员也可以将世界一流的 OCR 和文档理解功能整合到他们的项目中,通过集体贡献推动该领域的发展。
这个开放模型如何与 Google Cloud Vision OCR 和 Amazon Textract 等行业巨头相媲美?这些基于云的 OCR 服务一直是企业文档处理的首选解决方案,以其准确性和可扩展性闻名。然而,DeepSeek-OCR 的出现强调了能力、访问、灵活性和创新速度方面的一些明显差异:
准确性与能力: 在纯文本提取任务中,谷歌和亚马逊的OCR引擎经过大量数据的优化,具有很高的准确性。DeepSeek-OCR在这一领域也取得了竞争性的(甚至是最先进的)基准测试结果——例如,在标准OCR基准测试中,达到了97–98%的精确文本匹配度,同时保持合理的压缩水平。[30]。它甚至在使用数量级更少的标记的情况下,超越了最近的学术OCR模型(GOT-OCR 2.0,Mineru 2.0)[19]。在实际应用中,DeepSeek可以与大型云API在提取印刷文本方面进行较量。但DeepSeek的能力不仅限于纯OCR。得益于其多模态训练,它能够理解布局并解释嵌入的内容。例如,它可以读取科学PDF文件,不仅转录段落,还能解释PDF中的图表——输出图表的数据或总结其内容。它可以将表格图像转换为实际的HTML或Markdown表格结构。甚至可以在需要时描述文档中的非文本元素(图形、图片)。像Google Vision或Textract这样的封闭API通常专注于某些特定任务(文本检测、表单数据提取等)——它们可能会提取文本并识别基本的布局结构,但它们不会解释化学图的含义或将图表转换为代码。DeepSeek更像是一个人类阅读者:它可以以灵活的格式生成输出并处理混合内容。这使它不仅仅是一个OCR工具,而是一个通用的文档理解模型。话虽如此,封闭服务也有其自身的高级功能(例如,Textract可以直接提供结构化表单字段,Google的Document AI可以分类文档类型)——但这些功能定义得较为狭窄。DeepSeek提供了更具开放性的能力,输出可以是您所要求的任何形式(“将此转换为Markdown”,“提取所有姓名和电子邮件”,“总结这份报告”等),利用其LLM特性。
访问与集成: 一个主要的区别在于使用方式。谷歌和亚马逊的OCR是云服务——您将图像(或PDF)发送到他们的API,然后获取结果。这有利有弊。优点是方便:无需机器学习专业知识,自动扩展;集成只是一个简单的REST API调用[41]。缺点是您必须将可能敏感的文档发送到外部服务器,并按使用次数付费[42][43]。DeepSeek-OCR作为开源模型,颠覆了这一模式。您可以下载模型并在自己的硬件上运行。集成可能需要更多工作(设置GPU环境、在代码中调用模型),但没有外部依赖——对于隐私和合规性至关重要。例如,医疗或法律公司通常对将机密文件上传到第三方云感到担忧;使用DeepSeek,他们可以将数据完全保存在内部。成本方面,如果您有稳定的文件量,运行自己的模型从长远来看可能更具成本效益[44][43]。云OCR API通常按每处理1,000页收费。这些费用会累积,而开源模型允许您投资一次GPU或云实例,然后以边际成本处理数百万页。总之,访问DeepSeek不受限制——没有速率限制、没有费用,并且完全控制环境。权衡之下,您需要管理基础设施,但对于许多人来说,这是为独立性而做出的欢迎选择。
灵活性与定制化: 封闭源OCR解决方案本质上是固定的产品。如果它们出错或未针对您的领域进行定制(例如,读取手写或专业术语),您几乎无计可施,只能进行后处理或等待并希望提供商改进模型。使用像DeepSeek这样的开源模型,您拥有完全的灵活性。您可以在您的领域数据上微调模型(例如,在手写样本或小众语言文档上微调),以提升其特定于您需求的性能。您还可以通过提示自定义输出格式——例如,要求DeepSeek输出带有某些提取字段的JSON,或保留Markdown语法以进行格式化。模型的LLM特性意味着它可以遵循如何呈现OCR结果的指令,而谷歌/亚马逊的API不会这样做(它们有预定义的输出模式)。此外,您可以将DeepSeek集成到复合工作流程中:也许您运行DeepSeek以获得草稿提取,然后将其输入另一模型进行验证或进入人机交互系统。使用封闭API,您通常会受到其流程的限制。本质上,DeepSeek作为开放权重给予开发者创新的自由,而封闭解决方案则是“所见即所得”。这种灵活性是加速应用端创新的催化剂——我们可能会看到围绕DeepSeek构建的新颖用例(如交互式文档聊天机器人或视觉文档编辑工具),这些在使用封闭API时是不可能或成本过高的。
创新速度: 开源模型通常通过社区贡献和研究集成迅速发展,而封闭服务则在幕后根据自己的时间表进行改进。随着DeepSeek-OCR的问世,研究人员可以研究其架构并在其基础上进行构建。如果有人发现了一种将其速度提高2倍或更准确的方法,他们可以公开分享这些改进。例如,想象一下社区努力修剪或量化模型以便边缘部署——这可能在几个星期内在开源中实现。相比之下,封闭提供商可能每隔几个月或一年更新一次他们的OCR技术,用户甚至可能不知道幕后发生了什么变化。开源模型的创新速度在LLM领域已经得到证明(我们已经看到开源LLM在几个月内赶上了主要实验室的表现)[45][46]。我们可以在这里期待类似的效果:DeepSeek的发布将刺激与谷歌/AWS的竞争性基准测试,如果在任何领域表现不佳,许多人都将关注如何改进。此外,拥有一个可行的开放替代方案可能在定价和功能上给封闭源OCR提供商施加压力。如果公司开始转向开源模型以节省成本或避免供应商锁定,云OCR服务可能会通过降低价格或提供新的增值功能(例如,与其他云工具更无缝的集成或数据隐私保证)做出回应。这是一种健康的竞争,最终使最终用户受益。有趣的是,甚至一些大型科技领导者也承认了开放AI的动力——例如,OpenAI的首席执行官Sam Altman最近表示,“我个人认为我们在这里[与封闭模型]站错了历史的一边,需要找到一种不同的开源策略。”[47]。这一声明是在像DeepSeek这样的开放模型展示快速进展时发表的。在OCR领域,DeepSeek-OCR可能同样促使对专有产品提供的价值与社区驱动项目进行重新思考。

DeepSeek-OCR 的首次亮相是 AI 更广泛浪潮的一部分:开放权重视觉语言模型(VLMs)的兴起。过去,先进的多模态模型(如执行 OCR、图像描述或 VQA 的模型)几乎都是专有的或学术概念验证的产物。现在我们看到了一种范式转变。在过去的一两年里,许多组织和研究团体——其中很多不属于传统的大型科技公司——已经在开源高级 VLMs,并展现了令人印象深刻的能力。DeepSeek 本身一直处于这一运动的前沿。其早期发布的产品,如 DeepSeek-VL2 系列(2024 年末推出的 3B、16B、27B MoE 模型),是开创性的开放视觉语言系统[48][17]。这些模型引入了动态图像平铺和潜在注意力等创新,以高效处理复杂的视觉数据[49][17]。新的 DeepSeek-OCR 建立在这一基础上,专注于文档理解和长上下文压缩。关键是,所有这些模型都有一个共同点:公开权重并致力于使多模态 AI 民主化。
这种趋势给闭源巨头带来了竞争压力。历史上,如果你需要一个能够“看”并“读”的模型,你必须使用像 Google Vision 这样的服务或支付昂贵的专有软件费用(或者使用像 Tesseract 这样的旧开源工具,但能力远不及)。现在,随着像 DeepSeek-OCR(以及其他,例如阿里巴巴的 Qwen-VL 或 Meta 的开放图文模型)这样的开放模型的出现,开发者有了不被绑定到大型供应商生态系统的选择。这种开放性可以以封闭模型无法实现的方式加速创新。例如,一个学术实验室可以拿 DeepSeek 的权重进行微调,用于视觉丰富的问题解答,推出新的最先进模型,而无需依赖 Google 或 OpenAI 的参与。集体进步是显著的:正如一项分析指出,即使封闭模型最初领先,开源发布已经迅速缩小了性能差距,并推动了新的研究方向。在视觉语言领域,我们看到开放模型在处理如图像到标记(例如将图表转换为代码)或多模态推理等任务,这些曾是科技公司内部研究的领域。
开源权重的VLMs的存在也促进了更透明的研究文化。在DeepSeek-OCR的技术报告和模型可用的情况下,研究人员可以验证声称的内容并在其基础上进行扩展——例如,在自己的文档上测试97%的压缩保真度的声称[50]。这将范式从“只有少数公司能做到”转变为“社区中的任何人都可以复制和扩展这一点”。我们已经看到这种情况在纯文本LLM世界中的发展:Meta的LLaMA(部分开放)在2023年引发了创新的浪潮,而像DeepSeek自己的R1模型在2025年初被誉为“重大重置”,因为它们完全开放且具有竞争力[51]。该模型被认为是第一个明确的前沿级别的模型,没有使用限制,确实让封闭模型的倡导者进行了自我反思[51][47]。现在,DeepSeek-OCR正在将同样的精神带入视觉-文本AI。
即使是行业领袖也在参与这些理念的讨论。知名AI研究员Andrej Karpathy对DeepSeek-OCR的方法发表评论,指出在某些情况下,使用图像作为LLM输入可能比文本标记更高效且更具表达力[52][53]。他强调,一个图像块可以编码多个字符(信息密度更高),且图像本身包含文本丢失的格式(字体、布局)[53][54]。在他看来,DeepSeek-OCR论文暗示着一个未来,即图像输入将成为为模型提供长上下文的常见方式,可能将“语言”模型重新定义为更通用的“信息模型”[55][56]。来自思想领袖的这种观点显示了开放研究如何能激发新的方向。如果图像作为上下文成为趋势,我们可能要感谢像DeepSeek这样的实验验证了这一点。Karpathy打趣地表示,在看到这些结果后,他必须*“克制自己不立即开发一个只支持图像输入的聊天机器人”[57]——这是一种幽默的方式来表达这个想法的前景,尽管实际挑战仍然存在(因为模型仍然输出文本)。关键在于,开放的模型促进开放的讨论和探索*。理念不会成为专有秘密;它们迅速渗透到整个领域中。
从竞争的角度来看,开放权重模型趋势正在侵蚀封闭源视觉语言系统曾经的领先地位。特别是中国的科技实验室,已经发布了许多显著的开放模型和数据集,在某些领域与西方的努力保持同步(甚至超越)[58]。DeepSeek本身是一家中国初创公司(总部位于杭州),通过开源突破而在全球掀起波澜[1][59]。这种东西方的开放合作加速了所有人的进步。大科技公司也注意到了这一点——一些公司开始通过混合化其方法来应对(例如,Meta开源了一些视觉模型,如Segment Anything,或者OpenAI尝试性地开放一些较小的模型)[47][60]。
从大局来看,在 MIT 许可下发布 DeepSeek-OCR 3B 是开源 AI 革命的又一个里程碑。从社区的角度来看,它体现了 E-E-A-T(经验、专业知识、权威性、可信赖性):经验丰富的 AI 开发者公开分享他们的专业知识和模型「经验」,这增强了信任和集体知识。对于开发者和企业来说,这意味着尖端的 OCR 不再仅仅属于科技巨头——它是一个任何人都可以在其应用中构建的公共资源。对于 AI 领域来说,这是一个提醒:开放性可以推动快速创新。该模型在压缩上下文和处理视觉文本任务方面的能力可能会激发一类新的混合应用和对更高效的 MoE VLM 架构的研究。封闭源代码的巨头们现在收到一个明确的信息:开放社区正在快速前进,要保持相关性(同时具备伦理性和广泛采用性),拥抱开放性可能不是一个选择。正如一份报告所说,DeepSeek 作为一个开放的全球科学项目给 LLMs 带来了巨大的推动力,与封闭的「曼哈顿计划」形成对比——以至于即使是以前封闭的参与者也在重新思考他们的立场。
DeepSeek 3B MoE OCR 代表着尖端研究的融合:它结合了一种专家混合体的转换器和巧妙设计的视觉编码器,以突破传统大型语言模型所面临的上下文长度限制。在架构上,它通过为每个标记激活专业的专家,并将图像视为文本任务的一流输入,从而区别于密集模型。在实践中,它实现了接近无损的 OCR 压缩,减少了 10 倍,能够处理真实世界文档的复杂性,并支持多种语言和格式。同样重要的是,它代表了一个开源、MIT 许可的模型,在这样的能力被认为是科技巨头专有领域的时代。通过公开发布 DeepSeek-OCR,其创造者为全球开发者提供了一个强大的工具,并向封闭提供商发出了挑战。
对于开发者来说,信息很明确:OCR 和文档 AI 变得更加易于访问。您可以将专家级的视觉语言模型整合到您的技术堆栈中,而无需支付每次 API 调用费用或担心服务限制。您可以对其进行微调、剖析,或者直接使用它将 PDF、图像等解析为有意义的文本或数据。早期用户已经展示了将整个研究论文转换为 Markdown 格式、准确提取表格和数学内容,甚至使用该模型解决视觉问答等任务。这种灵活性在单一的 OCR 系统中是前所未有的。
对于行业来说,DeepSeek-OCR 体现了开源努力如何在质量和创新上持续缩小与(有时甚至超越)封闭解决方案的差距。这增加了越来越多的证据,证明开源模型可以设定新的标准——从图像领域的 Stable Diffusion 到 NLP 中的 LLaMA 衍生模型,现在到视觉-语言 OCR 中的 DeepSeek。我们可能会看到基于 DeepSeek-OCR 的快速实验期:预计会有优化版本、更大的后续模型(也许是 DeepSeek-OCR 16B MoE?),以及在开源 OCR 管道和 UI 工具中的集成。最终受益者将是我们所有人,可以享受更快的 AI 功能开发和更多的工具选择。
总之,DeepSeek 3B MoE 不仅仅是一个 OCR 模型——它是 AI 下一个阶段的前兆,开放权重的多模态模型在历史上由专有系统主导的领域推动创新。它为 OCR 和长文档理解的研究和应用开发创造了公平的竞争环境。通过拥抱如此高能力的开放模型,社区发出了一个强烈的信号:AI 进步的未来可能属于每个人,而不仅仅是少数大公司。正如 DeepSeek-OCR 所展示的,有时处理大量文本的最佳方法是观察它——现在,任何人都可以,只要手中有合适的模型。
来源: 本分析引用了高权威的参考资料和文档,包括官方的 DeepSeek-OCR 技术报告和模型卡[8][50],《南华早报》和 MarkTechPost 的新闻报道[1][24],AI 专家如 Andrej Karpathy 的见解[53][56],以及 Google/Amazon OCR 服务的对比信息[41][44]。这些来源支持了上述讨论的架构细节、性能声明和行业背景,确保了 DeepSeek-OCR 重要性的准确和可信描述。
[1] [6] [59] DeepSeek 推出多模态 AI 模型,利用视觉感知压缩文本输入 | 南华早报
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR 来了。如何免费使用 DeepSeek OCR?| 由 Mehul Gupta 撰写 | Data Science in Your Pocket | 2025年10月 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR:多模态 AI 将文本处理令牌减少 7-20 倍 - 新闻和统计数据 - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR:情境光学压缩
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek 刚刚发布了一个 3B OCR 模型:一个专为高性能 OCR 和结构化文档转换设计的 3B VLM - MarkTechPost
[17] [48] [49] DeepSeek-AI 开源了 DeepSeek-VL2 系列:三种参数规模为 3B、16B 和 27B 的模型,采用专家混合(MoE)架构,重新定义视觉语言 AI : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS vs Google Vision (OCR Features Comparison) | IronOCR
[45] [46] [47] [51] [58] [60] 开放与封闭:语言模型未来的战斗 | 美国公民自由联盟
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy 评论 DeepSeek-OCR 论文:图像输入可能成为大型语言模型的新方向