ChatGPT’s 3rd Anniversary Gift – DeepSeek V3.2 Series Challenges GPT-5 and Gemini

Author: Boxu Li

Three years after ChatGPT’s debut, a new open-source contender has arrived as a birthday present for the AI community. DeepSeek-V3.2 and DeepSeek-V3.2-Speciale – two newly released large language models – are pushing the boundaries of open AI systems. Developed by Chinese AI lab DeepSeek, these models aim to deliver GPT-5-level reasoning performance, rivaling cutting-edge closed models like Google’s Gemini-3.0-Pro[1][2]. Both models and an in-depth technical report have been open-sourced, giving researchers and developers a closer look at how far open models have come.

DeepSeek-V3.2: Daily Driver at GPT-5 Level Performance

DeepSeek-V3.2 est conçu comme un modèle « quotidien » équilibré – adapté aux questions-réponses générales, à l'assistance au codage et aux tâches d'agent AI dans des applications réelles. Selon les benchmarks de DeepSeek, les capacités de raisonnement de la V3.2 atteignent le niveau de GPT-5 lors des tests de raisonnement public et sont seulement légèrement derrière Gemini-3.0-Pro[1]. Concrètement, cela signifie que la V3.2 peut gérer des questions logiques et analytiques complexes presque aussi bien que les meilleurs modèles fermés actuels. Notamment, la V3.2 produit des sorties bien plus concises que certains anciens modèles ouverts (comme Kimi-K2-Thinking), réduisant l'utilisation de jetons et le temps d'attente des utilisateurs sans perdre en profondeur de raisonnement[3].

Sous le capot, DeepSeek-V3.2 active 685 milliards de paramètres par token (sur une architecture MoE de 670 milliards) – mais il est optimisé pour l'efficacité et l'utilisation à long terme. Il prend en charge une fenêtre de contexte de 128 000 tokens, permettant l'analyse de centaines de pages de texte en une seule fois. Malgré sa taille, la version V3.2 a été affinée pour intégrer le raisonnement avec l'utilisation d'outils externes. En fait, c'est le premier modèle de DeepSeek qui peut « réfléchir » en utilisant des outils. Il prend en charge à la fois un mode de chaîne de pensée et un mode standard lors de l'utilisation d'outils, lui permettant de raisonner à travers des tâches augmentées par des outils en plusieurs étapes (comme utiliser des calculatrices, des interprètes de code ou des moteurs de recherche) de manière structurée. Cela rend V3.2 particulièrement puissant pour les applications d'agents – des assistants de codage qui exécutent du code aux agents conversationnels qui naviguent sur le web.

V3.2-Spéciale : Raisonnement Extrême, Comparable à Gemini Pro

Pour les utilisateurs qui ont besoin d'une puissance de raisonnement encore plus grande, DeepSeek a sorti V3.2-Spéciale en plus du modèle standard. La variante Spéciale pousse le raisonnement open-source à l'extrême, en incorporant un mécanisme de "pensée" étendu et en intégrant même un module de démonstration de théorèmes mathématiques dédié (provenant du modèle DeepSeek-Math-V2). Le résultat est un modèle réglé pour la résolution de problèmes hautement complexes – "explorant les limites des capacités du modèle," comme le disent les développeurs[4]. Sur les benchmarks rigoureux de logique et de mathématiques, la performance du DeepSeek-V3.2-Spéciale est comparable à Gemini-3.0-Pro[4], égalant essentiellement l'état de l'art dans ces domaines.

Cette affirmation est soutenue par les réalisations de Speciale dans des compétitions prestigieuses : il aurait obtenu des résultats de niveau médaille d'or aux Olympiades Internationales de Mathématiques (IMO 2025), aux Olympiades Chinoises de Mathématiques (CMO 2025), aux Finales Mondiales ICPC 2025 (programmation) et aux IOI 2025 (informatique)[5]. En fait, lors du concours de codage ICPC, les performances de V3.2-Speciale étaient équivalentes à celles d'un médaillé d'argent humain (2ème place), et aux IOI, elles étaient comparables à celles d'un concurrent humain dans le top 10[5]. Ce sont des exploits remarquables pour un modèle d'IA, démontrant des capacités de raisonnement et de résolution de problèmes à des niveaux humains élites.

Il est important de noter que Speciale est un modèle axé sur les experts. Il excelle dans le raisonnement long (par exemple, des démonstrations détaillées, une logique en plusieurs étapes, des défis de programmation complexes), mais il n'est pas optimisé pour les discussions informelles ou l'écriture créative. Il est également plus coûteux à utiliser – Speciale a tendance à consommer beaucoup plus de jetons pour obtenir ses réponses[6]. Pour l'instant, DeepSeek ne propose la version V3.2-Speciale que via une API de recherche limitée (sans utilisation d'outils activée) et avertit qu'elle est destinée aux tâches de raisonnement académiques ou à enjeux élevés plutôt qu'à la conversation quotidienne.

Raisonnement efficace via l'attention clairsemée (DSA)

L'une des innovations clés permettant la performance de DeepSeek-V3.2 est un nouveau mécanisme d'attention appelé DeepSeek Sparse Attention (DSA). Les modèles Transformer traditionnels supportent un coût quadratique à mesure que la longueur du contexte augmente, car chaque token prête attention à tous les autres tokens. DSA casse ce goulot d'étranglement en utilisant un schéma d'attention clairsemée et fine [7]. Il introduit un composant « indexeur éclair » qui estime rapidement les scores de pertinence entre le token actuel et les tokens passés, puis sélectionne uniquement les $k$ tokens les plus pertinents à prendre en compte [7]. En essence, le modèle apprend à ignorer le contexte non pertinent et à se concentrer uniquement sur les parties importantes d'une longue séquence.

Ce design d'attention éparse réduit les calculs nécessaires pour les longues séquences de O(L²) à O(L·k), avec k bien plus petit que L. Dans l'implémentation de DeepSeek, k=2048 a été utilisé (chaque token utilise 2048 tokens passés sélectionnés) pendant la deuxième phase de l'entraînement. L'équipe a employé une stratégie d'entraînement en deux phases pour DSA : d'abord un échauffement dense où l'indexeur rapide a été entraîné avec une attention complète pour quelques milliards de tokens, pour s'assurer qu'il apprenne à imiter le comportement de l'attention complète. Ensuite, le modèle a été basculé en mode épars et entraîné sur des centaines de milliards de tokens supplémentaires avec la contrainte du top-$k$ en place. Le résultat est un énorme gain d'efficacité sans perte de précision. En fait, V3.2-Exp (le précurseur expérimental du modèle final) a performé au même niveau que V3.1-Terminus sur une batterie de benchmarks, malgré l'utilisation de la nouvelle attention éparse[8].

En pratique, DSA signifie que les longs documents ne sont plus une corvée. Les tests internes ont montré un traitement jusqu'à 2 à 3 fois plus rapide pour des entrées de longueur 128K et environ 30 à 40 % de réduction de la mémoire utilisée[9]. Les coûts baissent également de manière spectaculaire. DeepSeek a rapporté que pour des contextes de 128K sur leur cluster H800, le coût de l'invite (pré-remplissage) par million de jetons est passé de ~0,70 $ à ~0,20 $, et le coût de génération de ~2,40 $ à ~0,80 $ – soit une réduction de 3× du coût d'inférence en contexte long. Dans l'API publique, ces économies se sont traduites par une réduction de plus de 50 % des tarifs pour les utilisateurs[10]. En résumé, DSA permet à la version V3.2 de gérer des entrées extrêmement longues en une fraction du temps et du coût des modèles précédents, sans compromettre la qualité des résultats.

Apprentissage par renforcement à grande échelle : GRPO et distillation experte

Un autre facteur majeur de la solide performance de DeepSeek-V3.2 est le réglage fin massif par apprentissage par renforcement (RL) qui a été effectué. L'équipe de DeepSeek a investi une quantité sans précédent de calcul dans le RL post-formation – dépassant 10 % du calcul utilisé en pré-formation (ce qui est déjà énorme pour un modèle de l'échelle de 670 milliards). Cela est très inhabituel dans l'IA open-source, où les budgets de réglage fin par RL sont généralement bien plus petits. La raison est que, bien que la pré-formation enseigne des connaissances générales, un RL intensif peut débloquer des capacités avancées en alignant le modèle sur des objectifs complexes (comme résoudre des problèmes multi-étapes, utiliser des outils ou respecter des instructions sous contrainte)[2].

Pour étendre le RL en toute sécurité, DeepSeek s'est appuyé sur leur algorithme personnalisé Group Relative Policy Optimization (GRPO). Ils ont introduit plusieurs améliorations de stabilité et d'efficacité dans ce pipeline de RL :

· Estimation KL sans biais : L'équipe a corrigé les problèmes dans l'estimateur K3 original utilisé pour les pénalités de divergence KL, éliminant le biais systématique qui pouvait conduire à des mises à jour de gradient non bornées. Cela a empêché les instabilités d'entraînement qui peuvent survenir lorsque la politique s'écarte trop de la politique de référence.

· Masquage de Séquence Hors Ligne : Étant donné que l'entraînement RL génère souvent de grandes quantités de données de « rollout » qui sont ensuite réutilisées pour de nombreuses mises à jour de gradient (un scénario hors politique), DeepSeek a calculé la divergence KL entre la politique de rollout et la politique actuelle pour chaque échantillon. Si la politique d'une séquence générée s'écartait trop du modèle actuel, cette séquence était masquée (exclue) des mises à jour d'entraînement[11][12]. Cette astuce ingénieuse a permis au modèle d'apprendre principalement à partir de données en politique ou proches de la politique, améliorant ainsi la stabilité et empêchant les mauvaises trajectoires de fausser l'apprentissage.

· Maintenir le routage pour MoE : Les modèles de DeepSeek utilisent une architecture de Mixture-of-Experts, ce qui signifie que différents « experts » (sous-réseaux) traitent différents jetons. Un défi ici est que de légères différences entre les implémentations d'inférence et d'entraînement pourraient entraîner la sélection de différents experts pour la même entrée, conduisant à une incohérence. DeepSeek a résolu ce problème en capturant les décisions de routage des experts lors de l'inférence et en forçant les mêmes routes d'experts lors des mises à jour RL. Cette méthode de « Maintien du routage » a garanti que les paramètres ajustés pendant le RL correspondent aux mêmes experts qui seraient utilisés lors de l'inférence, évitant ainsi toute mauvaise surprise due au mélange des experts.

En plus de ces ajustements algorithmiques, le régime de données pour l'apprentissage par renforcement était très ambitieux. DeepSeek a formé une série de modèles spécialisés – chacun axé sur un domaine ou une compétence particulière – et a ensuite distillé les connaissances de tous ces modèles dans V3.2. Par exemple, ils ont affiné des experts spécifiques à des domaines pour les mathématiques (preuves), la programmation, le raisonnement logique, les tâches générales augmentées par des outils, les agents basés sur le code et les agents basés sur la recherche. Chacun de ces modèles spécialisés a été entraîné à la fois en mode « réflexion » (chaîne de pensée) et en mode « non-réflexion » selon les besoins. En utilisant ces experts, DeepSeek a généré un énorme ensemble de données synthétiques de démonstrations de haute qualité dans chaque domaine, qui a ensuite été utilisé pour superviser le modèle final V3.2. Ce pipeline de distillation d'experts a fourni à V3.2 des signaux d'entraînement riches à travers plus de 85 000 instructions complexes, couvrant tout, des preuves mathématiques étape par étape aux sessions de débogage de logiciels.

Capacités Améliorées de l'Agent et Intégration de l'Utilisation d'Outils

L'une des caractéristiques phares de DeepSeek-V3.2 est sa capacité d'agent considérablement améliorée – essentiellement, la capacité du modèle à planifier, raisonner et utiliser des outils dans une boucle multi-étapes pour résoudre des problèmes. Les versions précédentes du modèle de raisonnement de DeepSeek avaient une limitation majeure : si le modèle était en « mode réflexion » (c'est-à-dire produisant une chaîne de pensée), il ne pouvait pas appeler d'outils externes, et inversement. La version V3.2 supprime cette barrière. Il s'agit du premier modèle DeepSeek qui intègre pleinement la réflexion avec l'utilisation d'outils, ce qui signifie qu'il peut maintenir une chaîne de raisonnement interne tout en émettant des appels d'outils (par exemple, exécuter du code, rechercher sur le web) en cours de dialogue. Cela se traduit par un comportement d'agent bien plus puissant et flexible.

Pour soutenir cela, l'équipe DeepSeek a repensé la façon dont la gestion du contexte du modèle fonctionne pour les tâches à plusieurs tours. Dans la version 3.2, les traces de raisonnement du modèle (les « pensées ») sont conservées au cours d'une séquence d'appels d'outils, au lieu d'être effacées à chaque étape. Ce n'est que lorsqu'une nouvelle requête utilisateur arrive que le système réinitialise le contexte de raisonnement (tout en conservant l'historique pertinent des interactions avec les outils dans la conversation)[14][15]. Cette approche économise beaucoup de jetons et permet au modèle de construire une chaîne de pensée persistante pour un problème tout en invoquant des outils de manière itérative. Par exemple, si l'utilisateur pose une question de codage complexe, le modèle peut réfléchir aux étapes, appeler un interpréteur Python pour tester du code, continuer à réfléchir en fonction du résultat, peut-être appeler un outil de recherche de documentation, et ainsi de suite – ne finalisant sa réponse que lorsqu'il a vérifié une solution correcte. Tout le raisonnement intermédiaire reste disponible pour le modèle jusqu'à ce que la tâche soit terminée.

DeepSeek a également donné au modèle une invitation de « démarrage à froid » qui encourage explicitement ce comportement. Les instructions du système incitent le modèle à d'abord produire un processus de raisonnement détaillé (marqué avec des tokens spéciaux) avant de révéler la réponse finale, surtout pour les tâches complexes comme les défis de programmation. Cette ingénierie de l'invite garantit que V3.2 sait qu'il doit utiliser ses capacités de raisonnement en chaîne et d'outils pour les requêtes difficiles, plutôt que de sauter directement à une réponse (souvent imparfaite).

Peut-être que l'aspect le plus impressionnant du jeu de compétences de l'agent V3.2 réside dans la façon dont il a été entraîné. L'équipe a construit un pipeline de synthèse d'environnement automatique pour créer des scénarios réalistes et stimulants à partir desquels le modèle peut apprendre. Ils ont généré 1 827 environnements de tâches interactives accompagnés de 85 000+ instructions complexes que le modèle doit résoudre[16]. L'important, c'est que ces tâches ont été conçues pour être « difficiles à résoudre, faciles à vérifier. » En d'autres termes, le modèle est confronté à des problèmes avec un grand espace de recherche (difficile de trouver une solution par hasard) mais avec des critères clairs pour vérifier une solution. Cette propriété les rend idéaux pour l'apprentissage par renforcement : le modèle peut expérimenter (ou utiliser un outil) pour proposer une solution et ensuite vérifier rapidement si elle respecte toutes les contraintes données.

Par exemple, l'une des tâches synthétisées était un problème de planification d'itinéraire de voyage de trois jours avec de multiples contraintes (ne pas répéter les villes, ajuster les budgets dynamiquement en fonction des coûts des hôtels, etc.). Il est extrêmement difficile pour un modèle de simplement deviner un itinéraire valide car les contraintes créent un problème combinatoire – mais si le modèle propose un itinéraire candidat, il est facile de vérifier si toutes les contraintes sont respectées. En s'entraînant sur de nombreuses tâches de ce type (couvrant des domaines comme la planification de voyages, la planification, les énigmes logiques, et plus encore), V3.2 a appris à mieux gérer les problèmes nécessitant de la recherche, de l'optimisation ou un raisonnement à plusieurs étapes. Ce programme d'entraînement a considérablement amélioré la généralisation du modèle à de nouvelles tâches d'agent inédites.

Dans le domaine des agents de codage, DeepSeek a exploité GitHub – explorant des millions de fils de discussion réels et de pull requests. Ils ont automatiquement construit des dizaines de milliers d'environnements de défis de codage exécutables à partir de ces données. Le modèle pouvait s'exercer à lire un rapport de bug ou une demande de fonctionnalité, puis naviguer dans une base de code (avec l'aide d'outils) pour implémenter une correction ou une fonctionnalité. Ces environnements couvraient plusieurs langages de programmation (Python, Java, JavaScript, etc.), exposant le modèle à une grande variété de problèmes logiciels. Un pipeline séparé s'occupait des agents QA basés sur la recherche : en utilisant une simulation multi-agents, DeepSeek a généré des ensembles de données où un agent posait des questions difficiles sur des entités de niche et un autre agent (ayant accès à un outil de recherche) devait trouver et vérifier les réponses. Cette génération en plusieurs étapes (construction de questions → recherche sur le web → validation des réponses) a produit des exemples d'entraînement de haute qualité pour enseigner à V3.2 comment être un « assistant de recherche » efficace.

Grâce à ces efforts, DeepSeek-V3.2 a fait une percée dans les tâches des agents utilisateurs d'outils. Lors des évaluations internes, V3.2 a obtenu les meilleurs scores de tous les modèles ouverts sur une série de benchmarks d'agents, réduisant considérablement l'écart avec les modèles fermés[17]. Les développeurs soulignent que V3.2 n'a pas été spécifiquement ajusté aux outils spécifiques dans ces tests – ce qui suggère que ses compétences d'agent se transfèrent à des scénarios réels, et pas seulement à des benchmarks étroits[18]. En d'autres termes, le modèle a appris comment raisonner et utiliser des outils en général, plutôt que de se suradapter à des tâches particulières.

Benchmarks de performance et comparaison

Comment les nouveaux modèles de DeepSeek se comparent-ils aux meilleurs systèmes d'IA du marché ? Le rapport technique et les premières analyses fournissent quelques réponses. Globalement, DeepSeek-V3.2 offre des performances de haut niveau dans les tâches de raisonnement mathématique et de codage, et V3.2-Speciale rivalise même avec les meilleurs dans le raisonnement complexe – mais il reste des domaines (comme l'utilisation d'outils ouverts) où les modèles fermés conservent un avantage. Ci-dessous, un aperçu de résultats de benchmarks sélectionnés qui illustrent le paysage concurrentiel :

Tableau 1 : Performances sur les benchmarks de raisonnement d'échantillon (Précision%)

Benchmark (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Spéciale

AIME (Olympiade de mathématiques)

~94.6% (est.)

~95.0% (est.)

93.1%

96.0%[4]

HMMT (Tournoi de mathématiques)

88.3%

97.5%

92.5%

99.2%[4]

GPQA (QA Science, difficile)

85.7%

91.9%

82.4%

85.7%

<small>Sources : rapport technique de DeepSeek[4]. Les résultats de GPT-5.1 et Gemini sont des valeurs approximatives issues des graphiques du rapport. Spéciale correspond souvent ou dépasse Gemini sur les tâches mathématiques, tandis que la version standard V3.2 est au niveau de GPT-5, légèrement en dessous de Gemini.</small>

Comme nous pouvons le constater, DeepSeek-V3.2 tient sa promesse concernant les défis de raisonnement académique. Lors de concours de mathématiques comme l'AIME et le HMMT, la précision de la V3.2 est comparable à celle d'un modèle GPT-5 avancé, et seulement quelques points en dessous des scores de pointe de Gemini. Le modèle Speciale surpasse même Gemini sur ces benchmarks mathématiques[4], démontrant les bénéfices de son approche améliorée de « pensée longue ». Ces résultats sont saisissants – les mathématiques et le raisonnement formel ont longtemps été considérés comme une faiblesse des modèles ouverts, mais la V3.2 montre que les systèmes open source peuvent atteindre des performances de pointe dans ce domaine[19].

Du côté du codage, DeepSeek-V3.2 se distingue également, bien que la concurrence soit féroce. Lors du test SWE-Bench Verified (qui vérifie si un modèle peut produire des différences de code corrigées de bogues qui réussissent les tests unitaires), la version V3.2 a obtenu un score d'environ 73 %, surpassant nettement son prédécesseur (la version V3.1 a obtenu environ 66 %[20]) et se situant à peu près au même niveau que d'autres modèles ouverts de premier plan comme le Kimi K2 de Moonshot et le Qwen-3 d'Alibaba. En fait, tous ces modèles ouverts dépassent légèrement l'ancien modèle de base de 120 milliards d'OpenAI sur ce benchmark de codage[21][22]. Cela souligne à quel point les modèles ouverts ont progressé en matière de capacité de codage pratique. DeepSeek V3.2 peut corriger de vrais bugs et générer du code fonctionnel de manière fiable, le rendant extrêmement utile pour l'assistance aux développeurs.

Cependant, face aux meilleurs modèles fermés absolus, le tableau est mitigé. Sur certaines tâches de codage, GPT-5.1 garde encore un avantage. Par exemple, dans le plus complexe Terminal-Bench 2.0 (qui évalue l'utilisation d'outils CLI en plusieurs étapes et le codage dans une boucle d'agent), les premiers rapports indiquent que GPT-5 et même Claude d'Anthropic surpassent DeepSeek, surtout en termes de fiabilité soutenue sur de longues sessions d'utilisation d'outils[23]. La précision de DeepSeek-V3.2 diminue sur ces tâches d'agent complexes à plusieurs étapes, reflétant que bien qu'il soit très capable, il n'est pas encore le meilleur lorsque il s'agit d'agents de codage entièrement autonomes ou de résolution de problèmes à long terme. De même, sur les benchmarks d'utilisation d'outils comme MCP-Universe et Tool-Decathlon, la V3.2 est bien en retrait par rapport à GPT-5 et Gemini[24]. Les systèmes d'OpenAI et de Google exécutent encore des plans complexes et multi-outils de manière plus cohérente. L'écart s'est réduit – la V3.2 a atteint de nouveaux sommets pour les modèles ouverts lors de ces tests[17] – mais une marge considérable subsiste avant que les modèles ouverts puissent véritablement égaler les modèles fermés en termes de compétence générale d'utilisation d'outils.

En résumé, DeepSeek-V3.2 offre des performances presque de pointe dans de nombreux domaines. Il est compétitif avec GPT-5 pour les tâches de codage en conditions réelles et rivalise même avec Gemini en matière de raisonnement mathématique avancé[19]. En même temps, ce n'est pas un remplacement total de GPT-5 ou Gemini dans tous les domaines - surtout dans les scénarios "agents" ultra-complexes impliquant une orchestration d'outils élaborée, où ces modèles fermés ont encore un avantage[25][24]. Cette vue équilibrée est importante pour fixer les attentes : la version V3.2 excelle dans ce pour quoi elle a été optimisée (raisonnement et codage avec efficacité), tandis que la variante Speciale montre ce qui est possible lorsque l'on pousse le raisonnement à l'extrême.

Limitations et perspectives

Malgré les réalisations impressionnantes, l'équipe de DeepSeek est franche sur certaines limitations de la série V3.2. Tout d'abord, parce que le total des FLOPs (opérations en virgule flottante) d'entraînement est encore inférieur à celui de certains modèles fermés ultra-grands, la largeur des connaissances mondiales et la mémorisation de faits rares dans V3.2 peuvent être en retard par rapport à des leaders comme GPT-5. En d'autres termes, il pourrait ne pas connaître certaines anecdotes obscures ou informations spécifiques à un domaine que des modèles propriétaires plus grands ont absorbées. C'est un compromis courant dans les modèles ouverts, qui doivent souvent s'entraîner sur des corpus légèrement plus petits ou moins diversifiés.

Un autre défi est l'efficacité des jetons. DeepSeek note que V3.2 et Speciale doivent parfois générer des chaînes de raisonnement plus longues pour atteindre la même qualité de réponse qu'un modèle comme Gemini-3.0-Pro peut obtenir avec une réponse plus concise[6]. En pratique, cela signifie qu'utiliser V3.2 en mode "réflexion" peut entraîner un coût de jeton plus élevé (et une latence) pour résoudre des problèmes extrêmement difficiles – le modèle sera verbeux en travaillant à travers les étapes. Speciale en particulier, bien que extraordinairement capable, est gourmand en jetons: il pourrait produire une preuve ou une explication très détaillée là où un expert humain ou un modèle fermé affiné pourrait donner une réponse plus concise. Ce n'est pas toujours un inconvénient (le raisonnement approfondi peut être précieux), mais cela rend certains usages plus coûteux.

DeepSeek-V3.2 manque actuellement de réglage fin pour la finesse conversationnelle ouverte ou l'écriture créative. La formation s'est clairement concentrée sur la résolution de problèmes structurés et les agents. Les utilisateurs ont observé que son style est logique et informatif, mais peut-être moins naturellement bavard ou imaginatif par rapport à des modèles comme GPT-4 ou Claude dans un dialogue informel. C'était un choix conscient : DeepSeek a privilégié les tâches de recherche, le codage et les capacités mathématiques pour cette version, même si cela signifiait une baisse de la convivialité générale.

À l'avenir, l'équipe de DeepSeek a laissé entendre qu'il y aurait des progrès continus. Le rapport technique V3.2 discute ouvertement de ces lacunes comme cibles pour de futures améliorations. Il y a déjà une attente communautaire pour un potentiel modèle DeepSeek-R2 – qui, si le nom est maintenu, pourrait être le prochain modèle centré sur le raisonnement, s'appuyant sur les fondations de R1 et V3.2. (Les adeptes de DeepSeek ont plaisanté à moitié en demandant « Quand R2 arrivera-t-il ?! » en réponse au lancement de la V3.2.) Si et quand R2 arrive, on s'attend à ce qu'il puisse combler encore plus les lacunes, peut-être en incorporant des entraînements plus larges, une infusion de connaissances accrue et des techniques améliorées d'efficacité des tokens.

Pour l'instant, DeepSeek-V3.2 représente une étape importante dans le monde de l'IA open-source. Il démontre qu'avec une ingénierie astucieuse – de l'attention clairsemée à l'affinage massif par renforcement et à la génération de tâches synthétiques – un modèle open-source peut atteindre une performance de pointe en raisonnement et en codage, des domaines autrefois considérés comme le territoire réservé des modèles fermés à mille milliards de paramètres. Comme l'a dit un analyste, V3.2 est « un modèle puissant et économique pour la réflexion et le codage qui offre des résultats de niveau avancé là où la plupart des développeurs travaillent réellement : le code et les mathématiques » [26]. Il ne détrônera peut-être pas GPT-5 ou Gemini en tant que solution d'IA universelle, mais dans son rôle spécialisé, DeepSeek-V3.2 réussit de manière spectaculaire [27] – et surtout, il le fait en tant que modèle disponible gratuitement. Dans l'écosystème plus large de l'IA, c'est un cadeau inestimable en effet en cet anniversaire de ChatGPT.

Sources : Les informations et citations de cet article proviennent des notes de publication officielles et du rapport technique de DeepSeek[1][4][13][17], des couvertures médiatiques et analyses dans des publications sur l'IA[2], ainsi que des évaluations indépendantes de DeepSeek-V3.2 par des utilisateurs précoces[19][24] et des experts de la communauté[7][8]. Tous les benchmarks et comparaisons reflètent l'état actuel (décembre 2025) des performances des modèles sur les tâches respectives.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 version officielle : Renforcement de la capacité de l'Agent, intégration du raisonnement | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek publie de nouveaux modèles de raisonnement pour rivaliser avec GPT-5 et Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] Examen de DeepSeek V3.2-Exp. Le dernier modèle expérimental de DeepSeek… | par Barnacle Goose | oct. 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | par Mehul Gupta | Data Science in Your Pocket | Déc, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1