DeepSeek 3B MoE: El modelo OCR de código abierto que redefine la IA de documentos largos

Autor: Boxu Li en Macaron

Introducción: La visión como capa de compresión para LLMs

El procesamiento de contextos largos ha sido durante mucho tiempo un punto de dolor para los modelos de lenguaje: alimenta un documento de 100,000 tokens a un transformador y te enfrentarás a latencia, explosiones de memoria o costos prohibitivos de API. Los modelos de lenguaje grandes densos tradicionales (LLMs) simplemente no fueron diseñados para manejar eficientemente entradas de longitud de libro. Entra DeepSeek-OCR 3B, un nuevo modelo de código abierto de Mezcla de Expertos (MoE) que adopta un enfoque radicalmente diferente: utiliza la percepción visual como un medio de compresión para el texto[1][2]. En lugar de ingerir directamente miles de tokens de texto, DeepSeek convierte las páginas en imágenes y permite que una canalización de visión-lenguaje reconstruya el texto. Esta técnica, llamada Compresión Óptica de Contexto, permite al modelo abarcar mucha más información en muchos menos tokens[2][3]. DeepSeek-OCR promete hasta una reducción de tokens de 7–20× con mínima pérdida de precisión[4][5], permitiendo un análisis escalable de documentos ultra largos en hardware estándar. Crucialmente, el modelo es totalmente de código abierto (lanzado en Hugging Face y GitHub) bajo una licencia permisiva, haciendo accesibles capacidades avanzadas de OCR para todos[6][7]. En este post, desglosaremos la arquitectura y el entrenamiento de DeepSeek-OCR, lo compararemos con los LLMs densos tradicionales y los servicios de OCR de código cerrado, y exploraremos lo que su lanzamiento significa para los desarrolladores y la trayectoria de código abierto de la industria.

Desglose de Arquitectura: MoE Decoder se Encuentra con Vision Encoder

Diseño de Visión-Lenguaje en Dos Etapas. DeepSeek-OCR se construye como un sistema de dos partes: un codificador visual llamado DeepEncoder y un decodificador de texto llamado DeepSeek-3B-MoE-A570M[8]. El DeepEncoder (≈380M params) ingiere una imagen de una página de documento y produce una secuencia compacta de “tokens de visión”. Estos tokens luego se introducen en el decodificador DeepSeek-3B-MoE, que genera el contenido de texto. Esta división es distinta a un LLM denso tradicional (que procesaría el texto de entrada de extremo a extremo) – aquí el trabajo pesado de entender el diseño de la página y el texto visual lo realiza el codificador, permitiendo que el decodificador opere en una secuencia mucho más corta[2][3].

Compresión mediante codificación de visión. El codificador es donde reside gran parte de la innovación. Está diseñado para manejar páginas de alta resolución de manera eficiente y comprimirlas por un orden de magnitud o más. ¿Cómo? El DeepEncoder combina múltiples componentes: (1) un módulo de visión local basado en SAM-base (Segment Anything Model) para una percepción detallada, utilizando atención en ventanas para escanear pequeñas regiones[9]; (2) un downsampler convolucional de 16× que reduce masivamente el número de tokens de imagen (por ejemplo, 4096 tokens de parche reducidos a 256)[10]; y (3) un módulo de visión global basado en CLIP-large para una comprensión holística de la imagen con atención densa[11]. En la práctica, una imagen completa de documento de 1024×1024 puede codificarse en tan solo 256 tokens latentes sin perder la mayor parte de la información textual[12]. Al mantener el conteo de tokens de visión bajo (64–400 tokens en varios modos), DeepSeek evita la explosión de costos cuadráticos que un transformador de visión ingenuo sufriría en imágenes de alta resolución[13]. Esto significa que la memoria de activación se mantiene bajo control incluso en páginas densas en píxeles[14].

Decodificador Mixture-of-Experts vs. LLMs Densos. El decodificador, DeepSeek-3B-MoE, es un transformador Mixture-of-Experts con 3 mil millones de parámetros[8]. A diferencia de un LLM denso tradicional donde todos los pesos están activos para cada token, un modelo MoE tiene muchas subredes expertas y activa solo algunas para cada entrada. En el caso de DeepSeek, hay 64 submodelos expertos, de los cuales 6 expertos están activos por token al decodificar[15]. Esto da como resultado unos 570 millones de parámetros “activos” por token – efectivamente, el modelo se comporta como un modelo de 570M de parámetros en tiempo de inferencia, aunque su capacidad total es de 3B[16]. Al dirigir cada token a un subconjunto de expertos, el modelo puede escalar el total de parámetros sin un aumento proporcional en el costo de cómputo[17]. En los LLMs densos tradicionales, si quisieras más capacidad, aumentarías el número de parámetros y pagarías el costo completo de cómputo por todos ellos cada vez. MoE evita esto: el decodificador de DeepSeek puede aprovechar expertos especializados (por ejemplo, algunos expertos pueden especializarse en fórmulas matemáticas, otros en datos tabulares, etc.) pero solo los relevantes se activan para un token dado. El resultado es un decodificador que es ligero de ejecutar y rico en conocimiento. En esencia, DeepSeek-3B-MoE tiene la potencia de un modelo más grande mientras conserva la velocidad de uno más pequeño[15]. Esta es una diferencia clave respecto a los modelos de OCR densos convencionales y LLMs, que carecen de esta ventaja de cómputo condicional. Cabe destacar que los Switch Transformers de Google y GLaM fueron los primeros en demostrar la eficacia de MoE, pero DeepSeek lleva ese poder a un sistema de visión-lenguaje de código abierto.

Figura: La arquitectura de dos etapas de DeepSeek-OCR comprime una imagen de documento de entrada en muchos menos tokens a través del DeepEncoder, y luego reconstruye salidas estructuradas ricas mediante un decodificador de Mezcla de Expertos. En este ejemplo, se le pide al modelo que convierta un PDF de un problema de geometría en chino a Markdown: no solo extrae el texto, sino que también convierte un diagrama en coordenadas estructuradas y LaTeX, demostrando una comprensión más allá del OCR simple.[18][19]

Multi-Resolution “Gundam” Modes. One novel aspect of DeepSeek’s design is its configurable resolution modes, humorously nicknamed Tiny, Small, Base, Large, and Gundam. These modes let developers trade off detail vs. token count to fit their needs[20]. For instance, Tiny mode processes a 512×512 image into just 64 tokens (useful for quick, low-detail scans), whereas Large handles 1280×1280 with 400 tokens for maximal detail[21]. The Gundam modes go further – they tile the page into multiple local views plus one global view, combining, say, n local 640×640 crops (each 100 tokens) with a full-page overview (256 or 400 tokens)[22]. This dynamic tiling ensures even very complex or oversized pages can be processed by splitting them, while still giving the model a global context. It’s an echo of techniques from InternVL 2.0 and others, adapted here to maintain high accuracy on dense documents[23]. By exposing explicit token budgets and image sizes, DeepSeek-OCR essentially gives engineers a dial: optimize for speed or accuracy by adjusting how much visual detail the encoder retains[24][25]. Traditional OCR pipelines don’t offer this granularity – it’s a clever engineering move to make the model practical under varying compute constraints.

Integración de Entrenamiento y OCR: Cómo se Unen Visión y Texto

Construir un modelo que realmente lea imágenes como texto requirió un proceso de entrenamiento cuidadosamente orquestado. El entrenamiento de DeepSeek-OCR difería significativamente del régimen de entrenamiento de un LLM estándar, porque debía integrar la capacidad de OCR de extremo a extremo.

Régimen de Entrenamiento en Dos Fases. Los investigadores adoptaron un proceso de entrenamiento en dos etapas[26][27]. En la Etapa 1, entrenaron el DeepEncoder de forma aislada como un predictor del siguiente token en datos emparejados de imagen-texto. Esencialmente, el codificador aprendió a producir una secuencia de tokens que un modelo de lenguaje reconocería como una descripción de la imagen. Esta etapa utilizó conjuntos de datos masivos centrados en OCR (detalles a continuación), enseñando efectivamente al módulo de visión a codificar imágenes de texto en el mismo espacio que los tokens de texto. Solo después de que el codificador fuera competente, comenzó la Etapa 2: el entrenamiento conjunto de todo el sistema codificador-decodificador[27]. Durante la Etapa 2, al modelo se le proporcionó una mezcla de entradas de documentos en imagen (con el decodificador aprendiendo a generar el texto correcto) y entradas de texto regular (para mantener sus habilidades lingüísticas afinadas). Este enfoque en dos pasos – primero la visión, luego el ajuste fino multimodal – aseguró que las habilidades de OCR estuvieran profundamente arraigadas en el codificador antes de pedirle al decodificador que generara lenguaje a partir de sus incrustaciones.

Datos de Entrenamiento Multimodal Diversos. La amplitud de los datos de entrenamiento de DeepSeek es una razón principal de su robustez. Según la tarjeta del modelo, el equipo seleccionó una mezcla de datos reales, sintéticos e incluso puramente textuales [28]:

  • Conjunto de datos de OCR 1.0: 30 millones de páginas de documentos reales (escaneos, PDFs) que cubren más de 100 idiomas[28]. Este enorme corpus multilingüe permitió al modelo exponerse a una variedad de escrituras y formatos, desde facturas en inglés hasta periódicos en árabe y libros en chino. Tal diversidad es crucial: muchos motores de OCR tienen dificultades más allá de unos pocos idiomas, pero DeepSeek fue entrenado desde el principio para ser políglota.
  • Datos de OCR 2.0: Un conjunto de datos sintético que contiene documentos estructurados con gráficos, fórmulas, estructuras químicas, tablas y diagramas[28]. Probablemente se trataba de imágenes generadas por computadora emparejadas con texto de referencia (por ejemplo, una imagen de ecuación matemática renderizada con el LaTeX como texto). Al incluir esto, el modelo aprendió a manejar contenido que el OCR tradicional a menudo ignora o falla, como leer gráficos y proporcionar los datos o ecuaciones subyacentes. Por ejemplo, DeepSeek puede interpretar un diagrama químico y proporcionar una fórmula SMILES o convertir una imagen de gráfico de barras en una tabla CSV/HTML, tareas que van más allá de “leer texto impreso”. Esto le da a DeepSeek una ventaja única en la comprensión de documentos estructurados.
  • Datos de visión general (20%): Se incluyeron imágenes estándar de conjuntos de datos como LAION (100M muestras)[29]. El objetivo era asegurar que el modelo no se volviera estrecho: mantiene una base general de visión-lenguaje, de modo que puede, por ejemplo, subtitular una imagen o reconocer objetos. Como resultado, DeepSeek-OCR puede describir imágenes o localizar elementos visuales si se le solicita (similar a una IA de visión básica), algo que las herramientas de OCR puras no pueden hacer.
  • Datos de texto puro (10%): Una pequeña parte del entrenamiento fue con datos solo de texto[28]. Esto fue para preservar la capacidad del decodificador de generar lenguaje de manera fluida. Porque en última instancia, después de “leer” la imagen, el modelo debe proporcionar texto coherente. Incluir algunos corpus de texto ayuda a que el decodificador no se sobreajuste a simplemente repetir el OCR exacto y, en cambio, continúe siendo un modelo de lenguaje capaz (por ejemplo, puede reformatear texto, resumir o traducir si se le solicita).

Esta mezcla de datos aseguró que la capacidad de OCR esté profundamente integrada: DeepSeek no solo realiza un preprocesamiento de imágenes más un LLM estándar, sino que fue entrenado conjuntamente para realizar una comprensión visual de texto de extremo a extremo. Reconstruye texto de imágenes con una fidelidad notable: 97% de precisión de coincidencia exacta a una compresión de ~10× en un estándar de referencia[30][31]. Y debido al variado entrenamiento, lo hace no solo para texto simple mecanografiado, sino también para diseños complejos y visuales incrustados. En efecto, el entrenamiento convirtió a DeepSeek-OCR en un híbrido de un sistema OCR, un analizador de diseño y un modelo de lenguaje todo a la vez.

Escala y Computación. El entrenamiento de DeepSeek fue un serio esfuerzo de computación, comparable al entrenamiento de un LLM moderno. El equipo utilizó 20 nodos con 8×A100 (40GB) GPUs cada uno, es decir, 160 GPUs A100 en total[29]. Gracias a un eficiente paralelismo en la canalización, lograron un impresionante rendimiento de hasta 90 mil millones de tokens por día en datos solo de texto y 70 mil millones de tokens/día en datos multimodales[29]. Durante el transcurso del entrenamiento, esto probablemente suma a múltiples billones de tokens procesados. Tal escala es una razón por la cual el modelo funciona tan bien a pesar de tener efectivamente ~570M parámetros activos; lo expusieron a una enorme variedad de ejemplos. La optimización del entrenamiento (optimizador AdamW, tamaño de lote 640, LR ~3e-5[32]) fue ajustada para manejar este masivo flujo de datos. El resultado final se empaquetó en un único archivo de safetensors de ~6.7 GB para el modelo 3B MoE, lo suficientemente pequeño para ejecutarse en una sola GPU de alta gama[33]. Esto está lejos de los modelos OCR propietarios o grandes LLM densos, que podrían requerir clústeres o no pueden ser autoalojados en absoluto. La eficiente canalización de entrenamiento de DeepSeek demuestra que con la arquitectura adecuada (MoE + compresión de visión), se puede lograr gran precisión sin un modelo gigantesco.

Licencia de Código Abierto y Adopción por Desarrolladores

Uno de los aspectos más significativos de DeepSeek-OCR 3B es su lanzamiento totalmente de código abierto. Tanto los pesos del modelo como el código se han puesto a disposición bajo una licencia MIT[34], una de las licencias más permisivas en software. Para los desarrolladores y organizaciones, esto tiene enormes implicaciones:

  • Amplios derechos de uso: La licencia MIT significa que puedes usar el modelo comercial o privadamente con mínimas restricciones – esencialmente “todo vale” siempre que incluyas el aviso de licencia. Esto es un cambio radical respecto a muchos modelos “abiertos” que tienen cláusulas no comerciales o requieren permisos especiales. En otras palabras, las startups y empresas pueden integrar DeepSeek-OCR en productos (incluso productos de código cerrado) sin trabas legales. Es verdadera innovación abierta.
  • Transparencia y confianza: Tener los pesos en Hugging Face y el código en GitHub significa que nada es una caja negra. Los desarrolladores pueden inspeccionar cómo funciona el modelo, verificar la arquitectura, e incluso auditarlo o ajustarlo conforme a sus necesidades. Esta transparencia genera confianza – por ejemplo, si estás procesando documentos sensibles, podrías preferir un modelo abierto que puedas ejecutar completamente en tus instalaciones a enviar datos a una API de terceros.
  • Facilidad de integración: El lanzamiento incluye una tarjeta de modelo detallada y ejemplos de uso. Con unas pocas líneas de Python (usando Hugging Face Transformers con trust_remote_code=True para permitir el código del modelo personalizado), puedes cargar el modelo y ejecutar inferencias[35][36]. El equipo de DeepSeek incluso proporcionó especificaciones de entorno probadas (Python 3.12, Torch 2.6, Transformers 4.46, FlashAttention 2.7, etc.) para que los ingenieros puedan replicar la configuración de manera confiable[37]. Esto reduce la barrera de adopción – no necesitas ser un investigador en IA para probarlo. Si tienes un archivo de imagen de un documento y una GPU decente, puedes obtener resultados en minutos.
  • Comunidad y soporte: Desde su lanzamiento, DeepSeek-OCR ha ganado rápidamente atención. El repositorio de GitHub obtuvo miles de estrellas (más de 5k estrellas) en pocos días desde su lanzamiento[38], y el modelo tuvo decenas de miles de descargas en Hugging Face[39], indicando un interés vibrante de la comunidad. Varias aplicaciones de demostración (Spaces) surgieron en Hugging Face donde puedes probar el modelo en tu navegador[40]. Este impulso comunitario significa que los desarrolladores probablemente encontrarán ayuda, tutoriales o extensiones contribuidas por otros. También significa que el modelo será probado en diversas situaciones, eliminando errores e inspirando mejoras.
  • Libertad para personalizar: Quizás lo más importante, los pesos abiertos significan que los desarrolladores pueden ajustar finamente DeepSeek-OCR o modificarlo. Si tu empresa tiene una tarea OCR específica (por ejemplo, leer un tipo específico de esquema de ingeniería o fuentes muy estilizadas), puedes entrenar o adaptar el modelo a ese dominio. Con las API OCR cerradas, no tienes esa opción – obtienes lo que el proveedor ofrece. DeepSeek empodera a los equipos de I&D para innovar sobre él. Pronto podríamos ver derivados especializados – por ejemplo, alguien podría ajustar una versión de DeepSeek para documentos manuscritos históricos, o integrarlo en una canalización más grande (chatbots que puedan responder preguntas sobre contenido de PDF, etc.).

En resumen, la versión de código abierto MIT de DeepSeek-OCR elimina tanto la barrera de costo como la barrera de acceso para la vanguardia del OCR. Cualquier desarrollador con una GPU puede desplegar un modelo de visión-lenguaje de última generación en su propio entorno, sin costo alguno. Esta democratización es similar a lo que vimos cuando modelos de imagen como Tesseract (OCR de código abierto) o Stable Diffusion (generación de imágenes de código abierto) se hicieron disponibles, excepto que las capacidades de DeepSeek son mucho más avanzadas. Las implicaciones son que incluso pequeñas startups o investigadores pueden incorporar OCR de clase mundial y comprensión de documentos en sus proyectos, impulsando el campo a través de contribuciones colectivas.

Comparando DeepSeek-OCR con las APIs cerradas de OCR de Google y Amazon

¿Cómo se compara este modelo abierto con los incumbentes como Google Cloud Vision OCR y Amazon Textract? Estos servicios de OCR basados en la nube han sido soluciones preferidas para el procesamiento de documentos empresariales, conocidos por su precisión y escalabilidad. Sin embargo, la llegada de DeepSeek-OCR resalta algunas diferencias claras en capacidad, acceso, flexibilidad y ritmo de innovación:

  1. Precisión y Capacidad: En tareas de extracción de texto puro, los motores OCR de Google y Amazon son altamente precisos, habiendo sido refinados con vastos datos. DeepSeek-OCR entra en esa arena con resultados competitivos (incluso de vanguardia) en pruebas de referencia, por ejemplo, un 97-98% de coincidencia exacta de texto en puntos de referencia estándar de OCR a niveles de compresión razonables[30]. Incluso supera a modelos OCR académicos recientes (GOT-OCR 2.0, Mineru 2.0) mientras utiliza un orden de magnitud menos tokens[19]. En términos prácticos, DeepSeek puede competir con las grandes APIs de la nube para extraer texto impreso. Pero las capacidades de DeepSeek se extienden más allá del OCR simple. Gracias a su entrenamiento multimodal, comprende los diseños y puede interpretar contenido incrustado. Por ejemplo, puede leer un PDF científico y no solo transcribir los párrafos, sino también interpretar un gráfico en el PDF, generando los datos del gráfico o resumiendo su contenido. Puede convertir una imagen de tabla en una estructura de tabla HTML o markdown real. Incluso puede describir elementos no textuales en un documento (figuras, imágenes) si se le solicita. Las APIs cerradas como Google Vision o Textract generalmente están especializadas para ciertas tareas (detección de texto, extracción de datos de formularios, etc.) – pueden extraer texto y quizás identificar la estructura básica del diseño, pero no escribirán lo que significa un diagrama químico ni convertirán un gráfico a código. DeepSeek opera más como un lector humano: puede generar resultados en formatos flexibles y manejar contenido mixto. Esto lo convierte no solo en una herramienta de OCR, sino en un modelo general de comprensión de documentos. Dicho esto, los servicios cerrados tienen sus propias características avanzadas (por ejemplo, Textract puede proporcionarte campos de formularios estructurados directamente, y Document AI de Google puede clasificar tipos de documentos) – pero estos están definidos de manera muy específica. DeepSeek ofrece una capacidad más abierta donde el resultado es lo que pidas (“convierte esto a Markdown”, “extrae todos los nombres y correos electrónicos”, “resume este informe”, etc.), aprovechando su naturaleza LLM.
  2. Acceso e Integración: Una diferencia importante es cómo los usas. Google y Amazon OCR son servicios en la nube – envías imágenes (o PDFs) a su API y obtienes resultados. Esto tiene pros y contras. El pro es la conveniencia: no se necesita experiencia en ML, y se escala automáticamente; la integración es una simple llamada REST API[41]. El contra es que debes enviar tus documentos potencialmente sensibles a un servidor externo, y pagas por uso[42][43]. DeepSeek-OCR siendo de código abierto invierte este modelo. Descargas el modelo y lo ejecutas en tu propio hardware. La integración puede requerir un poco más de trabajo (configurar un entorno GPU, llamar al modelo en código), pero no hay dependencia externa – crítico para privacidad y cumplimiento. Firmas de salud o legales, por ejemplo, a menudo se resisten a cargar archivos confidenciales a nubes de terceros; con DeepSeek, pueden mantener los datos completamente en casa. En términos de costos, si tienes un volumen constante de documentos, ejecutar tu propio modelo puede ser mucho más rentable a largo plazo[44][43]. Las APIs de OCR en la nube generalmente cobran por cada 1,000 páginas procesadas. Esos costos se acumulan, mientras que un modelo abierto te permite aprovechar una inversión única en una GPU o instancia en la nube y luego procesar millones de páginas a costo marginal. En resumen, el acceso a DeepSeek no tiene restricciones – sin límites de tasa, sin tarifas, y control total sobre el entorno. El intercambio es que gestionas la infraestructura, pero para muchos, eso es un intercambio bienvenido por la independencia.
  3. Flexibilidad y Personalización: Las soluciones OCR de código cerrado son esencialmente ofertas fijas. Si cometen un error o no están adaptadas a tu dominio (por ejemplo, leer escritura a mano o jerga especializada), tienes pocas opciones excepto postprocesar o esperar y esperar que el proveedor mejore el modelo. Con un modelo abierto como DeepSeek, tienes total flexibilidad. Podrías afinar el modelo en tus datos de dominio (por ejemplo, ajustar en muestras escritas a mano o documentos de idioma especializado) para mejorar su rendimiento específicamente para tus necesidades. También puedes personalizar el formato de salida mediante indicaciones – por ejemplo, pedirle a DeepSeek que genere JSON con ciertos campos extraídos, o que preserve la sintaxis markdown para el formato. El ADN LLM del modelo significa que puede seguir instrucciones sobre cómo presentar los resultados de OCR, algo que las APIs de Google/Amazon no harán (tienen esquemas de salida predefinidos). Además, puedes integrar DeepSeek en flujos de trabajo compuestos: tal vez ejecutes DeepSeek para obtener una extracción preliminar, luego lo alimentes a otro modelo para verificación o a un sistema humano en el bucle. Con APIs cerradas, a menudo estás limitado por su flujo de trabajo. Esencialmente, que DeepSeek sea de peso abierto da a los desarrolladores libertad para innovar sobre él, mientras que las soluciones cerradas son “lo que ves es lo que obtienes”. Esta flexibilidad es un catalizador para una innovación más rápida en el lado de la aplicación – podríamos ver casos de uso novedosos (como chatbots de documentos interactivos, o herramientas de edición de documentos visuales) construidos alrededor de DeepSeek que no serían posibles o rentables usando APIs cerradas.
  4. Ritmo de Innovación: Los modelos de código abierto tienden a evolucionar rápidamente gracias a las contribuciones de la comunidad y las integraciones de investigación, mientras que los servicios cerrados mejoran a puertas cerradas y en su propio cronograma. Con DeepSeek-OCR en el mercado, los investigadores pueden examinar su arquitectura y construir sobre ella. Si alguien descubre una manera de hacerlo 2× más rápido o más preciso, pueden compartir esas mejoras abiertamente. Por ejemplo, imagina un esfuerzo comunitario para podar o cuantificar el modelo para su implementación en el borde – eso podría suceder en semanas en código abierto. Los proveedores cerrados, en contraste, podrían actualizar su tecnología OCR cada pocos meses o año, y los usuarios podrían ni siquiera saber qué cambió internamente. El ritmo de innovación en modelos abiertos ha demostrado ser vertiginoso en el espacio LLM (hemos visto cómo los LLMs abiertos alcanzan el rendimiento de los principales laboratorios en cuestión de meses)[45][46]. Podemos esperar un efecto similar aquí: el lanzamiento de DeepSeek impulsará pruebas de referencia competitivas contra Google/AWS, y si se queda corto en alguna área, muchos ojos estarán atentos a cómo mejorarlo. Además, tener una alternativa abierta viable probablemente presionará a los proveedores de OCR de código cerrado en cuanto a precios y características. Si las empresas comienzan a cambiarse a modelos abiertos para ahorrar costos o evitar el bloqueo de proveedores, los servicios de OCR en la nube pueden responder bajando precios u ofreciendo nuevas características de valor añadido (por ejemplo, integración más fluida con otras herramientas en la nube, o garantías de privacidad de datos). Es una competencia saludable que en última instancia beneficia a los usuarios finales. Es revelador que incluso algunos líderes de grandes tecnologías hayan reconocido el impulso del AI abierto – por ejemplo, el CEO de OpenAI Sam Altman comentó recientemente, “Personalmente creo que hemos estado en el lado equivocado de la historia aquí [con modelos cerrados] y necesitamos encontrar una estrategia diferente de código abierto.”[47]. Esta declaración se produjo cuando modelos abiertos, como los de DeepSeek, demostraron un rápido progreso. En el ámbito del OCR, DeepSeek-OCR podría similarmente obligar a replantearse cuánto valor proporcionan las ofertas propietarias frente a los proyectos impulsados por la comunidad.

Impacto en la Industria: Modelos de Visión-Lenguaje de Peso Abierto y Grandes Tecnológicas

El debut de DeepSeek-OCR es parte de una ola más amplia en la IA: el auge de los modelos de visión-lenguaje de peso abierto (VLMs). En el pasado, los modelos multimodales de vanguardia (como aquellos que realizan OCR, generación de subtítulos para imágenes o VQA) eran casi exclusivamente pruebas de concepto propietarias o académicas. Ahora estamos viendo un cambio de paradigma. En el último año o dos, organizaciones y colectivos de investigación, muchos fuera del ámbito tradicional de las grandes tecnológicas, han estado liberando VLMs avanzados con capacidades impresionantes. DeepSeek ha estado a la vanguardia de este movimiento. Sus lanzamientos anteriores, como la serie DeepSeek-VL2 (modelos 3B, 16B, 27B MoE a finales de 2024), fueron sistemas de visión-lenguaje abiertos pioneros[48][17]. Estos modelos introdujeron innovaciones como el mosaico dinámico de imágenes y la atención latente para manejar datos visuales complejos de manera eficiente[49][17]. El nuevo DeepSeek-OCR se basa en esa base, enfocándose en la comprensión de documentos y la compresión de contexto largo. Crucialmente, todos estos modelos tienen algo en común: pesos públicos y una misión para democratizar la IA multimodal.

Esta tendencia está ejerciendo presión competitiva sobre los gigantes de código cerrado. Considera que históricamente, si necesitabas un modelo que pudiera “ver” y “leer,” tenías que usar servicios como Google Vision o pagar por software propietario costoso (o usar herramientas abiertas más antiguas como Tesseract, que son mucho menos capaces). Ahora, con modelos abiertos como DeepSeek-OCR (y otros, por ejemplo, Qwen-VL de Alibaba o los modelos de texto e imagen abiertos de Meta), los desarrolladores tienen opciones que no los atan al ecosistema de un gran proveedor. Esta apertura puede acelerar la innovación de una manera que los modelos cerrados no han logrado. Por ejemplo, un laboratorio académico puede tomar los pesos de DeepSeek y ajustarlos para responder preguntas visualmente ricas, lanzando un nuevo modelo de última generación sin necesitar la participación de Google o OpenAI. El progreso colectivo es notable: como señaló un análisis, aunque los modelos cerrados inicialmente tomaron la delantera, las versiones de código abierto han estado cerrando rápidamente la brecha en el rendimiento y promoviendo nuevas direcciones de investigación. En el dominio de visión-lenguaje, estamos viendo modelos abiertos abordando tareas como imagen-a-marcado (por ejemplo, convertir diagramas en código) o razonamiento multimodal que anteriormente eran el terreno de la investigación interna en empresas tecnológicas.

La presencia de VLMs de peso abierto también fomenta una cultura de investigación más transparente. Con el informe técnico y el modelo de DeepSeek-OCR disponibles, los investigadores pueden verificar afirmaciones y construir sobre ellas, por ejemplo, probando la afirmación de fidelidad de compresión del 97 % en sus propios documentos[50]. Esto cambia el paradigma de “solo unas pocas empresas pueden hacer esto” a “cualquiera en la comunidad puede replicar y extender esto”. Hemos visto cómo esto se desarrolló en el mundo de los LLM de texto puro: LLaMA de Meta (parcialmente abierto) provocó una avalancha de innovación en 2023, y modelos como el propio R1 de DeepSeek a principios de 2025 fueron aclamados como un “gran reinicio” por ser completamente abiertos y competitivos[51]. Ese modelo fue citado como el primer modelo de nivel frontera sin restricciones de uso, y de hecho provocó una introspección entre los defensores de modelos cerrados[51][47]. Ahora DeepSeek-OCR está llevando esa misma filosofía a la IA de visión-texto.

Incluso los líderes de la industria están involucrándose con estas ideas. El renombrado investigador de IA Andrej Karpathy comentó sobre el enfoque de DeepSeek-OCR, señalando que usar imágenes como entrada para modelos de lenguaje puede ser más eficiente y expresivo que los tokens de texto en algunos casos[52][53]. Destacó cómo un fragmento de imagen puede codificar múltiples caracteres (una mayor densidad de información) y cómo las imágenes incluyen inherentemente el formato (tipografías, diseños) que el texto pierde[53][54]. En su opinión, el artículo de DeepSeek-OCR sugiere un futuro donde la entrada de imágenes se convierta en una forma común de alimentar contextos largos en modelos, redefiniendo potencialmente los modelos de “lenguaje” como modelos de “información” más generales[55][56]. Perspectivas como estas de líderes de pensamiento muestran cómo la investigación abierta puede impulsar nuevas direcciones. Si las imágenes como contexto se convierten en una tendencia, puede que se lo debamos a experimentos como DeepSeek que lo demuestran. Karpathy bromeó diciendo que tuvo que “controlarme para no desarrollar inmediatamente un chatbot que solo acepte entrada de imágenes” después de ver estos resultados[57] – un guiño humorístico a lo prometedora que es la idea, aunque sigan existiendo desafíos prácticos (ya que los modelos aún generan texto). Lo fundamental es que los modelos abiertos fomentan la discusión y exploración abiertas. Las ideas no permanecen como secretos propietarios; se propagan rápidamente en el campo.

Desde un punto de vista competitivo, la tendencia del modelo de peso abierto está erosionando la ventaja que los sistemas de visión-lenguaje de código cerrado tenían anteriormente. Los laboratorios tecnológicos chinos, en particular, han estado lanzando muchos modelos y conjuntos de datos abiertos notables, manteniéndose al ritmo (o incluso superando) los esfuerzos occidentales en ciertas áreas[58]. DeepSeek en sí es una startup china (con sede en Hangzhou) que está causando un gran impacto a nivel mundial al publicar innovaciones de manera abierta[1][59]. Esta colaboración abierta este-oeste acelera el progreso para todos. Las grandes empresas tecnológicas lo están notando: algunas han comenzado a responder hibridando su enfoque (por ejemplo, Meta publicando algunos modelos de visión como Segment Anything, u OpenAI abriendo tentativamente algunos modelos más pequeños)[47][60].

En el panorama general, el lanzamiento de DeepSeek-OCR 3B bajo la licencia MIT es otro hito en la revolución de la IA de código abierto. Ejemplifica E-E-A-T (Experiencia, Pericia, Autoridad, Confiabilidad) desde una perspectiva comunitaria: desarrolladores de IA con experiencia compartiendo abiertamente su pericia y “experiencia” del modelo con la comunidad, lo cual mejora la confianza y el conocimiento colectivo. Para los desarrolladores y empresas, esto significa que la tecnología OCR de vanguardia ya no pertenece solo a los gigantes tecnológicos; es un recurso público compartido que cualquiera puede integrar en sus aplicaciones. Y para el campo de la IA, es un recordatorio de que la apertura puede impulsar una innovación rápida. La capacidad del modelo para comprimir contextos y manejar tareas de visión-texto puede inspirar una nueva clase de aplicaciones híbridas e investigaciones en arquitecturas MoE VLM aún más eficientes. Los gigantes de código cerrado ahora tienen un mensaje claro: la comunidad abierta se está moviendo rápido, y para seguir siendo relevantes (y éticos, y ampliamente adoptados), abrazar la apertura podría no ser opcional. Como dijo un informe, DeepSeek dio un gran impulso a los LLMs como un proyecto científico global abierto, en contraste con un “Proyecto Manhattan” cerrado; tanto es así que incluso actores previamente cerrados están reconsiderando su postura[51][47].

Conclusión

DeepSeek 3B MoE OCR representa una fusión de investigación de vanguardia: combina un transformador de mezcla de expertos con un codificador de visión diseñado ingeniosamente para superar los límites de longitud de contexto que afectan a los LLM tradicionales. Arquitectónicamente, se aparta de los modelos densos activando expertos especializados por token y tratando las imágenes como entrada de primera clase para tareas de texto. Prácticamente, logra una compresión OCR casi sin pérdidas con una reducción de 10×, maneja las complejidades de los documentos del mundo real, y lo hace en múltiples idiomas y formatos. Igualmente importante es lo que representa: un modelo de código abierto bajo licencia MIT, en un momento en que tales capacidades se pensaban como dominio reservado de los gigantes tecnológicos. Al liberar DeepSeek-OCR abiertamente, sus creadores han equipado a desarrolladores de todo el mundo con una herramienta poderosa y han lanzado un desafío a los proveedores cerrados.

Para los desarrolladores, el mensaje es claro: la IA de OCR y documentos se ha vuelto mucho más accesible. Puedes incorporar un modelo de visión-lenguaje a nivel experto en tu pila sin pagar por cada llamada a la API o preocuparte por los límites del servicio. Puedes ajustarlo, analizarlo o simplemente usarlo tal cual para convertir PDFs, imágenes y más en texto o datos significativos. Los primeros usuarios ya han demostrado convertir artículos de investigación completos en Markdown, extraer tablas y matemáticas con precisión, e incluso abordar tareas como responder preguntas visuales usando este modelo. Tal flexibilidad es sin precedentes en un solo sistema OCR.

Para la industria, DeepSeek-OCR ejemplifica cómo los esfuerzos de código abierto continúan reduciendo la brecha con (y a veces superando) las soluciones cerradas tanto en calidad como en innovación. Se suma a las crecientes pruebas de que los modelos abiertos pueden establecer nuevos estándares, desde Stable Diffusion en imagen hasta derivados de LLaMA en PNL, y ahora DeepSeek en OCR de visión-lenguaje. Es probable que veamos un período de rápida experimentación basado en DeepSeek-OCR: esperen versiones optimizadas, modelos de seguimiento más grandes (quizás DeepSeek-OCR 16B MoE?), e integración en tuberías de OCR y herramientas de interfaz de usuario de código abierto. Los beneficiarios finales seremos todos nosotros, que disfrutaremos de un desarrollo más rápido de características de IA y más opciones en las herramientas que utilizamos.

En resumen, DeepSeek 3B MoE es más que solo un modelo OCR — es un presagio de la próxima fase de IA donde los modelos multimodales de pesos abiertos impulsan la innovación en áreas históricamente dominadas por sistemas propietarios. Iguala el campo de juego para la investigación y el desarrollo de aplicaciones en OCR y comprensión de documentos extensos. Al adoptar un modelo abierto con capacidades tan altas, la comunidad envía una señal fuerte: el futuro del progreso de la IA puede pertenecer a todos, no solo a unos pocos grandes. Y como muestra DeepSeek-OCR, a veces la mejor manera de manejar una montaña de texto es mirarla — y ahora cualquiera puede hacerlo, con el modelo adecuado en mano.

Fuentes: Se utilizaron referencias y documentación de alta autoridad para compilar este análisis, incluyendo el informe técnico oficial y la tarjeta de modelo de DeepSeek-OCR[8][50], cobertura de noticias de South China Morning Post y MarkTechPost[1][24], opiniones de expertos en IA como Andrej Karpathy[53][56], e información comparativa sobre los servicios OCR de Google/Amazon[41][44]. Estas fuentes respaldan los detalles arquitectónicos, las afirmaciones de rendimiento y el contexto de la industria discutidos anteriormente, asegurando un relato preciso y confiable de la importancia de DeepSeek-OCR.


[1] [6] [59] DeepSeek presenta un modelo de IA multimodal que utiliza la percepción visual para comprimir entradas de texto | South China Morning Post

https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input

[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR está aquí. ¿Cómo usar DeepSeek OCR gratis? | por Mehul Gupta | Data Science in Your Pocket | oct, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0

[4] [5] DeepSeek-OCR: IA multimodal reduce los tokens de procesamiento de texto en 7-20x - Noticias y Estadísticas - IndexBox

https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/

[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: Compresión Óptica de Contextos

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek acaba de lanzar un modelo OCR de 3B: Un VLM de 3B diseñado para un OCR de alto rendimiento y conversión de documentos estructurados - MarkTechPost

https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

[17] [48] [49] DeepSeek-AI lanzó como código abierto la serie DeepSeek-VL2: Tres modelos de 3B, 16B y 27B parámetros con arquitectura de mezcla de expertos (MoE) que redefinen la IA de visión-lenguaje : r/machinelearningnews

https://www.reddit.com/r/machinelearningnews/comments/1hfclw6/deepseekai_open_sourced_deepseekvl2_series_three/

[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-OCR

[41] [42] [43] [44] AWS vs Google Vision (Comparación de características OCR) | IronOCR

https://ironsoftware.com/csharp/ocr/blog/compare-to-other-components/aws-vs-google-vision-comparison/

[45] [46] [47] [51] [58] [60] Abierto vs. Cerrado: La Batalla por el Futuro de los Modelos de Lenguaje | Unión Americana de Libertades Civiles

https://www.aclu.org/news/privacy-technology/open-source-llms

[52] [53] [54] [55] [56] [57] Andrej Karpathy comenta sobre el artículo DeepSeek-OCR: La entrada de imagen podría convertirse en una nueva dirección para los modelos de lenguaje grande

https://www.aibase.com/news/22136

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron