ChatGPT’s 3rd Anniversary Gift – DeepSeek V3.2 Series Challenges GPT-5 and Gemini

Author: Boxu Li

Three years after ChatGPT’s debut, a new open-source contender has arrived as a birthday present for the AI community. DeepSeek-V3.2 and DeepSeek-V3.2-Speciale – two newly released large language models – are pushing the boundaries of open AI systems. Developed by Chinese AI lab DeepSeek, these models aim to deliver GPT-5-level reasoning performance, rivaling cutting-edge closed models like Google’s Gemini-3.0-Pro[1][2]. Both models and an in-depth technical report have been open-sourced, giving researchers and developers a closer look at how far open models have come.

DeepSeek-V3.2: Daily Driver at GPT-5 Level Performance

DeepSeek-V3.2 está diseñado como un modelo equilibrado “de uso diario”, adecuado para respuestas generales a preguntas, asistencia en programación y tareas de agentes de IA en aplicaciones reales. Según los benchmarks de DeepSeek, las capacidades de razonamiento de V3.2 igualan el nivel de GPT-5 en pruebas públicas de razonamiento y están solo ligeramente por detrás de Gemini-3.0-Pro[1]. En términos prácticos, eso significa que V3.2 puede manejar preguntas lógicas y analíticas complejas casi tan bien como los mejores modelos cerrados de hoy. Notablemente, V3.2 produce salidas mucho más concisas que algunos modelos abiertos anteriores (como Kimi-K2-Thinking), reduciendo el uso de tokens y el tiempo de espera del usuario sin perder profundidad de razonamiento[3].

Bajo el capó, DeepSeek-V3.2 tiene 685 mil millones de parámetros activados por token (de una arquitectura MoE de 670 mil millones), pero está optimizado para eficiencia y uso de largo contexto. Soporta una ventana de contexto extendida de 128K tokens, permitiendo el análisis de cientos de páginas de texto de una sola vez. A pesar de su tamaño, V3.2 ha sido ajustado finamente para integrar el razonamiento con el uso de herramientas externas. De hecho, es el primer modelo de DeepSeek que puede “pensar” en el proceso de llamar herramientas. Soporta tanto un modo de cadena de pensamiento como un modo estándar al usar herramientas, permitiéndole razonar a través de tareas aumentadas con herramientas de múltiples pasos (como usar calculadoras, intérpretes de código o motores de búsqueda) de manera estructurada. Esto hace que V3.2 sea especialmente potente para aplicaciones de agentes, desde asistentes de codificación que ejecutan código hasta agentes conversacionales que navegan por la web.

V3.2-Speciale: Razonamiento Extremo, a la Par con Gemini Pro

Para los usuarios que necesitan aún más potencia de razonamiento, DeepSeek lanzó V3.2-Speciale junto con el modelo estándar. La variante Speciale lleva el razonamiento de código abierto al extremo, incorporando un mecanismo de “pensamiento” extendido e incluso integrando un módulo dedicado a la demostración de teoremas matemáticos (del modelo DeepSeek-Math-V2). El resultado es un modelo ajustado para resolver problemas altamente complejos, “explorando los límites de la capacidad del modelo,” como dicen los desarrolladores[4]. En pruebas rigurosas de lógica y matemáticas, el rendimiento de DeepSeek-V3.2-Speciale es comparable a Gemini-3.0-Pro[4], esencialmente igualando el estado del arte en esos dominios.

Esta afirmación está respaldada por los logros de Speciale en competiciones prestigiosas: se informa que alcanzó resultados de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO 2025), la Olimpiada China de Matemáticas (CMO 2025), las Finales Mundiales del ICPC 2025 (programación) y la IOI 2025 (informática)[5]. De hecho, en el concurso de programación ICPC, el rendimiento de V3.2-Speciale igualó al de un medallista de plata humano (2.º lugar) y en la IOI estuvo a la par con un competidor humano del top-10[5]. Estos son logros notables para un modelo de IA, demostrando habilidades de razonamiento y resolución de problemas a niveles humanos de élite.

Vale la pena señalar que Speciale es un modelo centrado en expertos. Sobresale en razonamiento de larga duración (por ejemplo, pruebas detalladas, lógica de varios pasos, desafíos de programación complejos), pero no está optimizado para charlas casuales o escritura creativa. También es más costoso de ejecutar: Speciale tiende a consumir significativamente más tokens para llegar a sus respuestas[6]. Por ahora, DeepSeek solo ofrece V3.2-Speciale a través de una API de investigación limitada (sin herramientas habilitadas) y advierte que está destinado a tareas académicas o de razonamiento de alto riesgo en lugar de conversaciones cotidianas.

Razonamiento Eficiente a través de Atención Dispersa (DSA)

Una de las innovaciones clave que permite el rendimiento de DeepSeek-V3.2 es un nuevo mecanismo de atención llamado DeepSeek Sparse Attention (DSA). Los modelos Transformer tradicionales incurren en un costo cuadrático a medida que la longitud del contexto crece, porque cada token atiende a todos los demás tokens. DSA rompe este cuello de botella utilizando un patrón de atención dispersa de gran precisión [7]. Introduce un componente de “indexador relámpago” que estima rápidamente las puntuaciones de relevancia entre el token actual y los tokens anteriores, luego selecciona solo los $k$ tokens más relevantes para prestar atención [7]. En esencia, el modelo aprende a ignorar el contexto irrelevante y se enfoca solo en las partes importantes de una secuencia larga.

Este diseño de atención dispersa reduce el cálculo necesario para secuencias largas de O(L²) a O(L·k), con k mucho más pequeño que L. En la implementación de DeepSeek, se usó k=2048 (cada token atiende a 2048 tokens pasados seleccionados) durante la segunda etapa de entrenamiento. El equipo empleó una estrategia de entrenamiento de dos fases para DSA: primero un calentamiento denso donde el indexador rápido fue entrenado junto con la atención completa durante unos pocos miles de millones de tokens, para asegurar que aprendiera a imitar el comportamiento de la atención completa. Luego, el modelo se cambió a modo disperso y se entrenó con cientos de miles de millones más de tokens con la restricción de los mejores $k$ en su lugar. El resultado es una enorme ganancia de eficiencia sin pérdida de precisión. De hecho, V3.2-Exp (el precursor experimental del modelo final) se desempeñó a la par con V3.1-Terminus en una batería de pruebas de referencia, a pesar de usar la nueva atención dispersa[8].

Prácticamente, DSA significa que los documentos largos ya no son una carga. Las pruebas internas mostraron un procesamiento hasta 2–3 veces más rápido en entradas de longitud 128K y un uso de memoria aproximadamente 30–40% menor[9]. Los costos también disminuyen drásticamente. DeepSeek informó que para contextos de 128K en su clúster H800, el costo de prompt (precarga) por millón de tokens cayó de ~$0.70 a ~$0.20, y el costo de generación de ~$2.40 a ~$0.80 – una reducción de 3× en el costo de inferencia de contexto largo. En la API pública, estos ahorros se han traducido en más de un 50% de reducción de precios para los usuarios[10]. En resumen, DSA permite que V3.2 maneje entradas extremadamente largas a una fracción del tiempo y costo de modelos anteriores, sin comprometer la calidad del resultado.

Aprendizaje por Refuerzo a Escala: GRPO y Destilación de Expertos

Otro factor importante en el fuerte rendimiento de DeepSeek-V3.2 es el ajuste fino masivo mediante aprendizaje por refuerzo (RL) que se le aplicó. El equipo de DeepSeek invirtió una cantidad sin precedentes de recursos computacionales en el RL posterior al entrenamiento, excediendo el 10% de los recursos utilizados en el pre-entrenamiento (lo cual ya es enorme para un modelo de escala 670B). Esto es muy inusual en la IA de código abierto, donde los presupuestos para el ajuste fino mediante RL suelen ser mucho más pequeños. La razón es que, mientras el pre-entrenamiento enseña conocimientos amplios, el RL intensivo puede desbloquear capacidades avanzadas al alinear el modelo con objetivos complejos (como resolver problemas de múltiples pasos, usar herramientas o seguir instrucciones bajo restricciones) [2].

Para escalar el RL de manera segura, DeepSeek se basó en su algoritmo personalizado Optimización de Políticas Relativas de Grupo (GRPO). Introdujeron varias mejoras de estabilidad y eficiencia en esta línea de RL:

· Estimación KL sin sesgo: El equipo solucionó problemas en el estimador K3 original utilizado para las penalizaciones de divergencia KL, eliminando el sesgo sistemático que podría llevar a actualizaciones de gradientes ilimitadas. Esto previno inestabilidades en el entrenamiento que pueden ocurrir cuando la política se desvía demasiado de la política de referencia.

· Enmascaramiento de Secuencias Offline: Debido a que el entrenamiento de RL a menudo genera grandes lotes de datos “rollout” que luego se reutilizan en muchas actualizaciones de gradiente (un escenario fuera de política), DeepSeek calculó la divergencia KL entre la política de rollout y la política actual para cada muestra. Si la política de una secuencia generada se había desviado demasiado del modelo actual, esa secuencia se descartaba (excluida) de las actualizaciones de entrenamiento[11][12]. Este ingenioso truco aseguraba que el modelo aprendiera principalmente de datos en política o cerca de ella, mejorando la estabilidad y evitando que trayectorias incorrectas sesgaran el aprendizaje.

· Mantener el Enrutamiento para MoE: Los modelos de DeepSeek utilizan una arquitectura de Mixture-of-Experts, lo que significa que diferentes “expertos” (subredes) manejan diferentes tokens. Un desafío aquí es que pequeñas diferencias entre las implementaciones de inferencia y entrenamiento podrían causar que se elijan diferentes expertos para la misma entrada, lo que llevaría a inconsistencias. DeepSeek abordó esto capturando las decisiones de enrutamiento de expertos durante la inferencia y forzando las mismas rutas de expertos durante las actualizaciones de RL. Este método de “Mantener el Enrutamiento” aseguró que los parámetros ajustados durante RL correspondieran a los mismos expertos que se usarían en la inferencia, evitando cualquier sorpresa desagradable por el cambio de expertos.

Además de estos ajustes algorítmicos, el régimen de datos para RL fue muy ambicioso. DeepSeek entrenó una serie de modelos especialistas, cada uno enfocado en un dominio o habilidad particular, y luego destiló el conocimiento de todos ellos en el V3.2. Por ejemplo, perfeccionaron expertos específicos de dominio para matemáticas (demostraciones), programación, razonamiento lógico, tareas generales aumentadas con herramientas, agentes basados en código y agentes basados en búsqueda. Cada uno de estos modelos especialistas fue entrenado tanto en modo de “pensamiento” (cadena de pensamientos) como en modo de “no-pensamiento” según fuera necesario. Usando estos expertos, DeepSeek generó un enorme conjunto de datos sintéticos de demostraciones de alta calidad en cada dominio, que luego fue utilizado para supervisar el modelo final V3.2. Esta tubería de destilación de expertos proporcionó al V3.2 señales de entrenamiento ricas a través de más de 85,000 instrucciones complejas, cubriendo todo, desde demostraciones matemáticas paso a paso hasta sesiones de depuración de software.

Capacidades Mejoradas del Agente e Integración de Uso de Herramientas

Una de las características principales de DeepSeek-V3.2 es su capacidad de agente mejorada: esencialmente, la capacidad del modelo para planificar, razonar y usar herramientas en un ciclo de múltiples pasos para resolver problemas. Las versiones anteriores del modelo de razonamiento de DeepSeek tenían una limitación importante: si el modelo estaba en “modo de pensamiento” (es decir, produciendo una cadena de pensamiento), no podía llamar a herramientas externas, y viceversa. La versión V3.2 elimina esa barrera. Es el primer modelo de DeepSeek que integra completamente el pensamiento con el uso de herramientas, lo que significa que puede mantener una cadena de razonamiento interna mientras emite llamadas a herramientas (por ejemplo, ejecutar código, buscar en la web) en medio de un diálogo[13]. Esto genera un comportamiento de agente mucho más poderoso y flexible.

Para apoyar esto, el equipo de DeepSeek reimaginó cómo funciona la gestión de contexto del modelo para tareas de múltiples turnos. En la versión V3.2, las trazas de razonamiento del modelo (los “pensamientos”) se conservan a lo largo de una secuencia de llamadas a herramientas, en lugar de ser borradas en cada paso. Solo cuando llega una nueva consulta del usuario el sistema restablece el contexto de razonamiento (mientras aún conserva el historial de interacción con herramientas relevante en la conversación)[14][15]. Este enfoque ahorra muchos tokens y permite al modelo construir una cadena de pensamiento persistente para un problema mientras invoca herramientas de manera iterativa. Por ejemplo, si el usuario hace una pregunta de codificación complicada, el modelo puede pensar en los pasos, llamar a un intérprete de Python para probar algún código, seguir pensando según el resultado, quizás llamar a una herramienta de búsqueda de documentación, y así sucesivamente, finalizando su respuesta solo cuando ha verificado una solución correcta. Todo el razonamiento intermedio permanece disponible para el modelo hasta que se complete la tarea.

DeepSeek también proporcionó al modelo un 「inicio en frío」 que fomenta explícitamente este comportamiento. Las instrucciones del sistema empujan al modelo a primero presentar un proceso de razonamiento detallado (marcado con tokens especiales) antes de revelar la respuesta final, especialmente para tareas complejas como desafíos de programación. Esta ingeniería de prompts asegura que V3.2 sepa que debe utilizar su cadena de pensamiento y habilidades con herramientas para consultas difíciles, en lugar de saltar directamente a una respuesta (a menudo errónea).

Quizás el aspecto más impresionante del conjunto de habilidades del agente V3.2 proviene de cómo fue entrenado. El equipo construyó una tubería de síntesis de entornos automática para crear escenarios realistas y desafiantes de los cuales el modelo pudiera aprender. Generaron 1,827 entornos de tareas interactivas emparejados con 85,000+ instrucciones complejas para que el modelo las resolviera[16]. Fundamentalmente, estas tareas fueron diseñadas para ser “difíciles de resolver, fáciles de verificar.” En otras palabras, al modelo se le presentan problemas que tienen un gran espacio de búsqueda (difícil encontrar una solución por casualidad) pero un criterio claro para verificar una solución. Esta propiedad los hace ideales para el aprendizaje por refuerzo: el modelo puede experimentar (o usar una herramienta) para proponer una solución y luego verificar rápidamente si cumple con todas las restricciones dadas.

Por ejemplo, una tarea sintetizada fue un itinerario de viaje de tres días con múltiples restricciones (no repetir ciudades, ajustar presupuestos dinámicamente según los costos de hoteles, etc.). Es extremadamente difícil para un modelo simplemente adivinar un itinerario válido porque las restricciones crean un problema combinatorio, pero si el modelo propone un itinerario candidato, es sencillo verificar si se cumplen todas las restricciones. Al entrenarse con muchas de estas tareas (abarcan dominios como la planificación de viajes, la programación, rompecabezas lógicos y más), V3.2 aprendió a manejar mejor problemas que requieren búsqueda, optimización o razonamiento en varios pasos. Este régimen de entrenamiento ha mejorado significativamente la generalización del modelo a nuevas tareas de agentes no vistas.

En el ámbito de los agentes de codificación, DeepSeek aprovechó GitHub, extrayendo millones de hilos de problemas reales y solicitudes de extracción. Construyeron automáticamente decenas de miles de entornos de desafíos de codificación ejecutables a partir de estos datos. El modelo podía practicar la lectura de un informe de errores o una solicitud de función, y luego navegar por una base de código (con asistencia de herramientas) para implementar una corrección o característica. Estos entornos cubrían múltiples lenguajes de programación (Python, Java, JavaScript, etc.), exponiendo al modelo a una amplia variedad de problemas de software. Un canal separado manejaba agentes de QA basados en búsqueda: utilizando una simulación de agentes múltiples, DeepSeek generó conjuntos de datos donde un agente planteaba preguntas difíciles sobre entidades de nicho y otro agente (con acceso a una herramienta de búsqueda) debía encontrar y verificar las respuestas. Esta generación de múltiples pasos (construcción de preguntas → búsqueda web → validación de respuestas) produjo ejemplos de entrenamiento de alta calidad para enseñar a V3.2 cómo ser un “asistente de investigación” efectivo.

Gracias a estos esfuerzos, DeepSeek-V3.2 ha logrado un avance en tareas de agentes que usan herramientas. En evaluaciones internas, V3.2 alcanzó las puntuaciones más altas de cualquier modelo abierto en una serie de pruebas de referencia para agentes, cerrando significativamente la brecha con los modelos cerrados[17]. Los desarrolladores destacan que V3.2 no fue ajustado específicamente a las herramientas en esas pruebas, lo que sugiere que sus habilidades de agente se trasladan a escenarios del mundo real, no solo a pruebas específicas[18]. En otras palabras, el modelo aprendió cómo razonar y usar herramientas en general, en lugar de sobreajustarse a tareas particulares.

Referencias de Rendimiento y Comparación

¿Cómo se comparan los nuevos modelos de DeepSeek con los mejores sistemas de IA del mercado? El informe técnico y los análisis preliminares proporcionan algunas respuestas. En términos generales, DeepSeek-V3.2 ofrece un rendimiento de primera categoría en tareas de razonamiento matemático y de codificación, y V3.2-Speciale incluso rivaliza con los mejores en razonamiento complejo, aunque todavía hay áreas (como el uso abierto de herramientas) donde los modelos cerrados siguen teniendo una ventaja. A continuación se presenta una instantánea de resultados de referencia seleccionados que ilustran el panorama competitivo:

Tabla 1: Rendimiento en Benchmarks de Razonamiento de Muestra (Precisión%)

Benchmark (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

AIME (Olimpiada de Matemáticas)

~94.6% (est.)

~95.0% (est.)

93.1%

96.0%[4]

HMMT (Torneo de Matemáticas)

88.3%

97.5%

92.5%

99.2%[4]

GPQA (QA Científico, difícil)

85.7%

91.9%

82.4%

85.7%

<small>Fuentes: Informe técnico de DeepSeek[4]. Los resultados de GPT-5.1 y Gemini son valores aproximados de los gráficos del informe. Speciale a menudo iguala o supera a Gemini en tareas matemáticas, mientras que la versión estándar V3.2 está al nivel de GPT-5, ligeramente por debajo de Gemini.</small>

Como podemos ver, DeepSeek-V3.2 cumple su promesa en los desafíos de razonamiento académico. En concursos de matemáticas como AIME y HMMT, la precisión de V3.2 está en el mismo nivel que un modelo avanzado de GPT-5, y solo a unos pocos puntos de los puntajes de vanguardia de Gemini. El modelo Speciale incluso supera a Gemini en esos puntos de referencia matemáticos[4], demostrando el beneficio de su mejorado enfoque de “pensamiento prolongado”. Estos resultados son impresionantes: las matemáticas y el razonamiento formal se consideraban durante mucho tiempo una debilidad de los modelos abiertos, pero V3.2 muestra que los sistemas de código abierto pueden lograr un rendimiento a nivel de frontera en este dominio[19].

En el lado de la programación, DeepSeek-V3.2 también destaca, aunque la competencia es feroz. En la prueba SWE-Bench Verified (que verifica si un modelo puede producir diferencias de código que corrijan errores y pasen pruebas unitarias), V3.2 obtuvo un ~73%, superando significativamente a su predecesor (V3.1 obtuvo ~66%[20]) y estando aproximadamente a la par con otros modelos abiertos destacados como Kimi K2 de Moonshot y Qwen-3 de Alibaba. De hecho, todos estos modelos abiertos superan ligeramente al antiguo modelo base 120B de OpenAI en este benchmark de programación[21][22]. Esto subraya cuánto han progresado los modelos abiertos en la habilidad práctica de programación. DeepSeek V3.2 puede corregir errores reales y generar código funcional de manera confiable, haciéndolo extremadamente útil para la asistencia a desarrolladores.

Sin embargo, contra los mejores modelos cerrados absolutos, la imagen es mixta. En ciertas tareas de codificación, GPT-5.1 todavía mantiene una ventaja. Por ejemplo, en el más complejo Terminal-Bench 2.0 (que evalúa el uso de herramientas CLI en varios pasos y la codificación en un bucle de agente), los primeros informes indican que GPT-5 e incluso Claude de Anthropic superan a DeepSeek, especialmente en la fiabilidad sostenida durante sesiones prolongadas de uso de herramientas [23]. La precisión de DeepSeek-V3.2 disminuye en esas tareas intrincadas de agentes de múltiples pasos, reflejando que, aunque es muy capaz, aún no es el mejor en agentes de codificación totalmente autónomos o en la resolución de problemas a largo plazo. De manera similar, en los puntos de referencia de uso de herramientas completos como MCP-Universe y Tool-Decathlon, V3.2 se queda muy atrás de GPT-5 y Gemini [24]. Los sistemas de OpenAI y Google todavía ejecutan planes complejos y de múltiples herramientas de manera más consistente. La brecha se ha reducido – V3.2 alcanzó nuevos máximos para modelos abiertos en estas pruebas [17] – pero queda un margen considerable antes de que los modelos abiertos puedan realmente igualar a los cerrados en competencia general de uso de herramientas.

En resumen, DeepSeek-V3.2 ofrece un rendimiento cercano al límite en muchas áreas. Es competitivo con GPT-5 en tareas de codificación del mundo real e incluso rivaliza con Gemini en razonamiento matemático avanzado[19]. Al mismo tiempo, no es un reemplazo completo de GPT-5 o Gemini en todos los aspectos, especialmente en escenarios ultracomplejos de “agente” que involucran una orquestación elaborada de herramientas, donde esos modelos cerrados aún tienen ventaja[25][24]. Esta visión equilibrada es importante para establecer expectativas: V3.2 sobresale en lo que fue optimizado (razonamiento y codificación con eficiencia), mientras que la variante Speciale muestra lo que es posible al llevar el razonamiento al límite.

Limitaciones y Perspectivas

A pesar de los logros impresionantes, el equipo de DeepSeek es franco sobre ciertas limitaciones de la serie V3.2. Primero, debido a que los FLOPs totales de entrenamiento (operaciones de punto flotante) siguen siendo menores que algunos modelos cerrados ultra-grandes, la amplitud del conocimiento mundial y la memorización de hechos raros en la V3.2 pueden quedar detrás de líderes como GPT-5. En otras palabras, podría no conocer algunos datos triviales oscuros o información específica de dominios que los modelos propietarios más grandes han absorbido. Este es un compromiso común en modelos abiertos, que a menudo deben entrenarse en corpora ligeramente más pequeños o menos diversos.

Otro desafío es la eficiencia de tokens. DeepSeek señala que tanto V3.2 como Speciale a veces necesitan generar cadenas de razonamiento más largas para alcanzar la misma calidad de respuesta que un modelo como Gemini-3.0-Pro puede lograr con una respuesta más concisa[6]. En la práctica, esto significa que usar V3.2 en su “modo de pensamiento” puede incurrir en un mayor costo de tokens (y latencia) para resolver problemas extremadamente difíciles: el modelo será prolijo mientras trabaja en los pasos. Speciale, en particular, aunque extraordinariamente capaz, es voraz con los tokens: podría producir una prueba o explicación muy detallada donde un experto humano o un modelo cerrado refinado podría dar una respuesta más ajustada. Esto no siempre es una desventaja (el razonamiento exhaustivo puede ser valioso), pero hace que ciertos usos sean más costosos.

DeepSeek-V3.2 también carece actualmente de ajuste fino para la habilidad conversacional abierta o la escritura creativa. El enfoque de su entrenamiento fue claramente en resolución de problemas estructurados y agentes. Los usuarios han observado que su estilo es lógico e informativo, pero quizás menos naturalmente conversacional o imaginativo comparado con modelos como GPT-4 o Claude en diálogos casuales. Esto fue una elección consciente: DeepSeek priorizó tareas de investigación, codificación y habilidades matemáticas para esta versión, incluso si significaba una disminución en la charla general.

De cara al futuro, el equipo de DeepSeek ha insinuado un progreso continuo. El informe técnico de V3.2 discute abiertamente estas deficiencias como objetivos para futuras mejoras. Ya hay anticipación en la comunidad por un potencial modelo DeepSeek-R2 – que, si el nombre se mantiene, podría ser el próximo modelo centrado en el razonamiento, construyendo sobre las bases de R1 y V3.2. (Los seguidores de DeepSeek medio en broma suplicaron “¿Cuándo llegará R2?!” en respuesta al lanzamiento de V3.2). Si y cuando llegue R2, se espera que pueda cerrar aún más las brechas, tal vez incorporando entrenamientos más grandes, más infusión de conocimiento y técnicas mejoradas de eficiencia de tokens.

Por ahora, DeepSeek-V3.2 representa un hito en el mundo de la IA de código abierto. Demuestra que con una ingeniería inteligente – desde la atención dispersa hasta el ajuste fino masivo de RL y la generación de tareas sintéticas – un modelo abierto puede alcanzar rendimiento de vanguardia en razonamiento y codificación, áreas que antes se pensaban como dominio exclusivo de modelos cerrados de un billón de parámetros. Como dijo un analista, V3.2 es “un modelo fuerte y económico de pensamiento y codificación que ofrece resultados de nivel de vanguardia donde la mayoría de los desarrolladores realmente trabajan: código y matemáticas”[26]. Puede que no destrone a GPT-5 o Gemini como la solución universal de IA, pero en su papel especializado, DeepSeek-V3.2 tiene un éxito espectacular[27] – y lo hace de manera crucial como un modelo disponible de forma gratuita. En el ecosistema más amplio de la IA, eso es un regalo invaluable en este aniversario de ChatGPT.

Fuentes: La información y las citas de este artículo provienen de las notas de lanzamiento oficiales y el informe técnico de DeepSeek [1][4][13][17], la cobertura y análisis en publicaciones de IA [2], así como evaluaciones independientes de DeepSeek-V3.2 por parte de usuarios tempranos [19][24] y expertos de la comunidad [7][8]. Todos los puntos de referencia y comparaciones reflejan el estado actual (diciembre de 2025) del rendimiento del modelo en las respectivas tareas.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 versión oficial: mejora la capacidad del agente, integra razonamiento | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek lanza nuevos modelos de razonamiento para igualar a GPT-5, rivalizar con Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] Reseña de DeepSeek V3.2-Exp. El último modelo experimental de DeepSeek… | por Barnacle Goose | oct, 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | por Mehul Gupta | Ciencia de Datos en tu Bolsillo | Dic, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1