
Auteur : Boxu Li chez Macaron
Le traitement de contextes longs a longtemps été un point sensible pour les modèles de langage – donnez à un transformeur un document de 100 000 tokens et vous rencontrerez des problèmes de latence, des explosions de mémoire ou des coûts d'API prohibitifs. Les modèles de langage denses traditionnels (LLM) n'étaient tout simplement pas conçus pour gérer efficacement des entrées de la longueur d'un livre. Voici DeepSeek-OCR 3B, un nouveau modèle à code source ouvert de type Mixture-of-Experts (MoE) qui adopte une approche radicalement différente : il utilise la perception visuelle comme moyen de compression pour le texte[1][2]. Au lieu d'ingérer directement des milliers de tokens de texte, DeepSeek convertit les pages en images et laisse un pipeline vision-langage reconstruire le texte. Cette technique, baptisée Compression Optique de Contexte, permet au modèle de compresser beaucoup plus d'informations en beaucoup moins de tokens[2][3]. DeepSeek-OCR promet une réduction de tokens allant jusqu'à 7–20× avec une perte minimale de précision[4][5], permettant un traitement évolutif de documents ultra-longs sur du matériel standard. Essentiellement, le modèle est entièrement open-source (publié sur Hugging Face et GitHub) sous une licence permissive, rendant les capacités OCR avancées accessibles à tous[6][7]. Dans cet article, nous allons disséquer l'architecture et l'entraînement de DeepSeek-OCR, le comparer aux LLM denses traditionnels et aux services OCR propriétaires, et explorer ce que sa sortie signifie pour les développeurs et la trajectoire open-source de l'industrie.
Conception Vision-Langage en deux étapes. DeepSeek-OCR est construit comme un système en deux parties : un encodeur visuel appelé DeepEncoder et un décodeur de texte nommé DeepSeek-3B-MoE-A570M[8]. Le DeepEncoder (≈380M paramètres) ingère une image d'une page de document et produit une séquence compacte de « tokens visuels ». Ces tokens sont ensuite envoyés dans le décodeur DeepSeek-3B-MoE, qui génère le contenu textuel. Cette division est différente d'un LLM dense traditionnel (qui traiterait l'entrée textuelle de bout en bout) – ici, la compréhension de la mise en page et du texte visuel est effectuée par l'encodeur, permettant au décodeur de fonctionner sur une séquence beaucoup plus courte[2][3].
Compression via Vision Encoding. L'encodeur est au cœur de l'innovation. Il est conçu pour gérer efficacement les pages haute résolution et les compresser d'un ordre de grandeur ou plus. Comment ? Le DeepEncoder combine plusieurs composants : (1) un module de vision locale basé sur SAM-base (Segment Anything Model) pour une perception fine, utilisant une attention fenêtrée pour analyser de petites régions[9]; (2) un downsampler convolutionnel 16× qui réduit massivement le nombre de tokens d'image (par exemple, de 4096 tokens de patch à 256)[10]; et (3) un module de vision global basé sur CLIP-large pour une compréhension holistique de l'image avec une attention dense[11]. En pratique, une image de document complète de 1024×1024 peut être encodée en seulement 256 tokens latents sans perdre la plupart des informations textuelles[12]. En maintenant le nombre de tokens de vision bas (64–400 tokens dans divers modes), DeepSeek évite l'explosion des coûts quadratiques qu'un Transformateur de Vision naïf subirait sur des images haute résolution[13]. Cela signifie que la mémoire d'activation reste maîtrisée même pour les pages denses en pixels[14].
Décodeur Mixture-of-Experts vs. LLMs denses. Le décodeur, DeepSeek-3B-MoE, est un transformeur Mixture-of-Experts de 3 milliards de paramètres[8]. Contrairement à un LLM dense traditionnel où tous les poids sont actifs pour chaque token, un modèle MoE possède de nombreux sous-réseaux experts et n'en active que quelques-uns pour chaque entrée. Dans le cas de DeepSeek, il y a 64 sous-modèles experts, dont 6 experts sont actifs par token lors du décodage[15]. Cela donne environ 570 millions de paramètres “actifs” par token – le modèle se comporte effectivement comme un modèle de 570M paramètres lors de l'inférence, même si sa capacité totale est de 3B[16]. En dirigeant chaque token vers un sous-ensemble d'experts, le modèle peut augmenter le nombre total de paramètres sans une augmentation proportionnelle du coût de calcul[17]. Dans les LLMs denses traditionnels, si vous vouliez plus de capacité, vous augmenteriez le nombre de paramètres et paieriez le coût de calcul total pour chacun d'eux à chaque fois. MoE contourne cela : le décodeur de DeepSeek peut accéder à des experts spécialisés (par exemple, certains experts peuvent se spécialiser dans les formules mathématiques, d'autres dans les données tabulaires, etc.) mais seuls les experts pertinents s'activent pour un token donné. Le résultat est un décodeur à la fois léger à exécuter et riche en connaissances. En essence, DeepSeek-3B-MoE combine la puissance d'un modèle plus grand tout en conservant la vitesse d'un modèle plus petit[15]. C'est un différenciateur clé par rapport aux modèles OCR denses conventionnels et aux LLMs, qui manquent de cet avantage de calcul conditionnel. Il convient de noter que les Switch Transformers et GLaM de Google ont d'abord prouvé l'efficacité des MoE, mais DeepSeek apporte cette puissance à un système vision-langage open-source.
Figure : L'architecture en deux étapes de DeepSeek-OCR compresse une image de document d'entrée en bien moins de jetons grâce au DeepEncoder, puis reconstruit des sorties structurées riches via un décodeur Mixture-of-Experts. Dans cet exemple, le modèle doit convertir un PDF de problème de géométrie chinois en Markdown : il extrait non seulement le texte mais convertit également un diagramme en coordonnées structurées et LaTeX, démontrant une compréhension au-delà de l'OCR classique.[18][19]
Modes Multi-Résolution 「Gundam」. Un aspect novateur du design de DeepSeek est ses modes de résolution configurables, humoristiquement surnommés Tiny, Small, Base, Large, et Gundam. Ces modes permettent aux développeurs d’échanger le détail contre le nombre de tokens selon leurs besoins[20]. Par exemple, le mode Tiny traite une image de 512×512 en seulement 64 tokens (utile pour des analyses rapides et peu détaillées), alors que le mode Large gère du 1280×1280 avec 400 tokens pour un maximum de détails[21]. Les modes Gundam vont plus loin – ils divisent la page en plusieurs vues locales plus une vue globale, combinant, par exemple, n découpes locales de 640×640 (chacune 100 tokens) avec une vue d’ensemble de la page (256 ou 400 tokens)[22]. Ce découpage dynamique assure même le traitement des pages très complexes ou surdimensionnées en les divisant, tout en donnant au modèle un contexte global. C’est un écho des techniques de InternVL 2.0 et d’autres, adaptées ici pour maintenir une haute précision sur les documents denses[23]. En exposant des budgets de tokens explicites et des tailles d’image, DeepSeek-OCR donne essentiellement aux ingénieurs un levier : optimiser pour la vitesse ou la précision en ajustant la quantité de détails visuels que l’encodeur conserve[24][25]. Les pipelines OCR traditionnels n’offrent pas cette granularité – c’est une astuce d’ingénierie astucieuse pour rendre le modèle pratique sous différentes contraintes de calcul.
Construire un modèle qui lit véritablement les images comme du texte a nécessité un processus de formation soigneusement orchestré. La formation de DeepSeek-OCR a différé considérablement du régime d'entraînement standard d'un LLM, car elle devait intégrer la capacité OCR de bout en bout.
Régime d'entraînement en deux phases. Les chercheurs ont adopté un pipeline de formation en deux étapes[26][27]. Dans l'Étape 1, ils ont entraîné le DeepEncoder isolément en tant que prédicteur de prochain jeton sur des données associées image-texte. Essentiellement, l'encodeur a appris à produire une séquence de jetons qu'un modèle de langage reconnaîtrait comme décrivant l'image. Cette étape a utilisé d'énormes ensembles de données axés sur l'OCR (détails ci-dessous), enseignant efficacement au module de vision à encoder des images de texte dans le même espace que les jetons textuels. Ce n'est qu'une fois l'encodeur compétent que l'Étape 2 a commencé : l'entraînement conjoint de l'ensemble du système encodeur-décodeur[27]. Au cours de l'Étape 2, le modèle a reçu un mélange d'entrées image-document (avec le décodeur apprenant à produire le texte correct) et d'entrées de texte régulier (pour maintenir ses compétences linguistiques aiguisées). Cette approche en deux étapes – d'abord la vision, puis le réglage fin multimodal – a assuré que les compétences OCR étaient profondément ancrées dans l'encodeur avant de demander au décodeur de générer du langage à partir de ses embeddings.
Données d'entraînement multimodales diversifiées. L'ampleur des données d'entraînement de DeepSeek est une des principales raisons de sa robustesse. Selon la fiche modèle, l'équipe a créé un mélange de données réelles, synthétiques et même purement textuelles[28]:
Ce mélange de données a assuré que la capacité OCR est profondément intégrée : DeepSeek ne fait pas simplement de la prétraitement d'image avec un LLM standard, mais a été entraîné conjointement pour réaliser une compréhension visuelle du texte de bout en bout. Il reconstruit le texte à partir d'images avec une fidélité remarquable – 97 % de précision d'appariement exact à une compression de ~10× sur un banc d'essai standard[30][31]. Et grâce à la diversité de la formation, il le fait non seulement pour du texte tapé simple, mais aussi pour des mises en page complexes et des visuels intégrés. En effet, l'entraînement a fait de DeepSeek-OCR un hybride d'un système OCR, d'un analyseur de mise en page et d'un modèle de langage tout à la fois.
Échelle et Calcul. La formation de DeepSeek a été un véritable défi de calcul, comparable à l'entraînement d'un LLM moderne. L'équipe a utilisé 20 nœuds avec chacun 8 GPU A100 (40 Go) – soit un total de 160 GPU A100[29]. Grâce à un parallélisme de pipeline efficace, ils ont atteint un débit impressionnant allant jusqu'à 90 milliards de tokens par jour sur des données textuelles uniquement et 70 milliards de tokens/jour sur des données multimodales[29]. Au cours de la formation, cela représente probablement plusieurs trillions de tokens traités. Une telle échelle est une des raisons pour lesquelles le modèle fonctionne si bien malgré ses ~570M de paramètres actifs ; il a été exposé à une énorme variété d'exemples. L'optimisation de la formation (optimiseur AdamW, taille de lot 640, LR ~3e-5[32]) a été ajustée pour gérer ce flux massif de données. Le résultat final a été emballé dans un fichier safetensors de ~6.7 Go pour le modèle 3B MoE – suffisamment petit pour fonctionner sur un seul GPU haut de gamme[33]. C'est loin des modèles OCR propriétaires ou des grands LLM denses, qui pourraient nécessiter des clusters ou ne pas être hébergés de manière autonome du tout. Le pipeline de formation efficace de DeepSeek démontre que avec la bonne architecture (MoE + compression visuelle), vous pouvez atteindre une grande précision sans un modèle gigantesque.
L'un des aspects les plus significatifs de DeepSeek-OCR 3B est sa version entièrement open source. Les poids du modèle et le code ont été rendus disponibles sous une licence MIT[34], l'une des licences les plus permissives dans le domaine des logiciels. Pour les développeurs et les organisations, cela a d'énormes implications :
En résumé, la version open-source MIT de DeepSeek-OCR élimine à la fois la barrière des coûts et la barrière d'accès pour l'OCR de pointe. Tout développeur possédant un GPU peut déployer un modèle vision-langue à la pointe de la technologie dans son propre environnement, gratuitement. Cette démocratisation est analogue à ce que nous avons observé lorsque des modèles d'image comme Tesseract (OCR open-source) ou Stable Diffusion (génération d'images open-source) sont devenus disponibles – sauf que les capacités de DeepSeek sont bien plus avancées. Les implications sont que même les petites startups ou les chercheurs peuvent intégrer un OCR de classe mondiale et la compréhension de documents dans leurs projets, faisant progresser le domaine grâce à des contributions collectives.
Comment ce modèle ouvert se compare-t-il aux acteurs en place comme Google Cloud Vision OCR et Amazon Textract ? Ces services OCR basés sur le cloud ont été des solutions de choix pour le traitement de documents d'entreprise, connus pour leur précision et leur évolutivité. Cependant, l'arrivée de DeepSeek-OCR met en évidence des différences claires en termes de capacités, d'accès, de flexibilité et de rythme d'innovation :

Le lancement de DeepSeek-OCR fait partie d'une vague plus large dans l'IA : l'essor des modèles vision-langage à poids ouverts (VLMs). Par le passé, les modèles multimodaux de pointe (comme ceux réalisant l'OCR, la légende d'image ou la VQA) étaient presque exclusivement propriétaires ou des preuves de concept académiques. Nous assistons maintenant à un changement de paradigme. Au cours des un ou deux dernières années, des organisations et des collectifs de recherche - beaucoup en dehors de la sphère Big Tech traditionnelle - ont commencé à ouvrir des VLMs avancés avec des capacités impressionnantes. DeepSeek lui-même a été à l'avant-garde de ce mouvement. Leurs précédentes versions, telles que la série DeepSeek-VL2 (modèles 3B, 16B, 27B MoE à la fin de 2024), étaient des systèmes vision-langage ouverts pionniers[48][17]. Ces modèles ont introduit des innovations comme le carrelage d'image dynamique et l'attention latente pour gérer efficacement les données visuelles complexes[49][17]. Le nouveau DeepSeek-OCR s'appuie sur cette base, se concentrant sur la compréhension des documents et la compression de contexte long. Crucialement, tous ces modèles ont un point commun : des poids publics et une mission de démocratisation de l'IA multimodale.
Cette tendance exerce une pression concurrentielle sur les géants du logiciel propriétaire. Historiquement, si vous aviez besoin d'un modèle capable de « voir » et de « lire », vous deviez utiliser des services comme Google Vision ou payer pour des logiciels propriétaires coûteux (ou utiliser des outils open source plus anciens comme Tesseract, beaucoup moins performants). Désormais, avec des modèles ouverts comme DeepSeek-OCR (et d'autres, par exemple Qwen-VL d'Alibaba ou les modèles image-texte ouverts de Meta), les développeurs ont des choix qui ne les lient pas à l'écosystème d'un grand fournisseur. Cette ouverture peut accélérer l'innovation d'une manière que les modèles fermés n'ont pas permis. Par exemple, un laboratoire universitaire peut prendre les poids de DeepSeek et les affiner pour répondre à des questions visuellement riches, en publiant un nouveau modèle à la pointe de la technologie sans nécessiter l'implication de Google ou OpenAI. Le progrès collectif est remarquable : comme l'a noté une analyse, même si les modèles fermés ont initialement pris de l'avance, les versions open source ont rapidement comblé l'écart en termes de performance et stimulé de nouvelles directions de recherche[45][46]. Dans le domaine de la vision et du langage, nous voyons des modèles ouverts s'attaquer à des tâches comme la conversion d'images en balisage (par exemple, convertir des diagrammes en code) ou le raisonnement multimodal qui étaient auparavant le terrain de recherche interne des entreprises technologiques.
La présence de VLMs à poids ouvert favorise également une culture de recherche plus transparente. Avec le rapport technique et le modèle de DeepSeek-OCR disponibles, les chercheurs peuvent vérifier les affirmations et les développer - par exemple, tester l'affirmation de fidélité de compression de 97% sur leurs propres documents[50]. Cela change le paradigme de «seules quelques entreprises peuvent le faire» à «tout le monde dans la communauté peut reproduire et étendre cela». Nous avons vu comment cela s'est déroulé dans le monde des LLMs en texte pur : le LLaMA de Meta (partiellement ouvert) a déclenché une vague d'innovation en 2023, et des modèles comme le R1 de DeepSeek début 2025 ont été salués comme une «réinitialisation majeure» pour être entièrement ouverts et compétitifs[51]. Ce modèle a été cité comme le premier modèle de niveau frontière sans restrictions d'utilisation, et il a en effet incité des réflexions profondes parmi les défenseurs des modèles fermés[51][47]. Maintenant, DeepSeek-OCR apporte ce même esprit à l'IA vision-texte.
Même les leaders du secteur s'engagent avec ces idées. Le chercheur en IA renommé Andrej Karpathy a commenté l'approche de DeepSeek-OCR, notant que l'utilisation d'images comme entrée pour les LLM pourrait être plus efficace et expressive que les tokens textuels dans certains cas[52][53]. Il a souligné comment un patch d'image peut encoder plusieurs caractères (une densité d'information plus élevée) et comment les images incluent intrinsèquement le formatage (polices, mises en page) que le texte perd[53][54]. Selon lui, le document DeepSeek-OCR laisse entrevoir un avenir où l'entrée d'image devient une manière courante d'alimenter des contextes longs dans les modèles, redéfinissant potentiellement les modèles de « langage » en modèles d'« informations » plus généraux[55][56]. De telles perspectives de leaders d'opinion montrent comment des recherches ouvertes comme celle-ci peuvent susciter de nouvelles directions. Si les images en tant que contexte deviennent une tendance, nous pourrions le devoir à des expériences comme celles de DeepSeek qui le prouvent. Karpathy a plaisanté qu'il devait « me retenir de développer immédiatement un chatbot qui ne supporte que les entrées d'images » après avoir vu ces résultats[57] – un clin d'œil humoristique à la promesse de l'idée, même si des défis pratiques demeurent (puisque les modèles génèrent encore du texte). Le point clé est que les modèles ouverts alimentent la discussion et l'exploration ouvertes. Les idées ne restent pas des secrets propriétaires; elles imprègnent rapidement le domaine.
D'un point de vue concurrentiel, la tendance des modèles en open-weight érode l'avance que les systèmes de vision-langage à source fermée avaient autrefois. Les laboratoires technologiques chinois, en particulier, ont publié de nombreux modèles et ensembles de données ouverts remarquables, suivant le rythme (ou même dépassant) les efforts occidentaux dans certains domaines[58]. DeepSeek elle-même est une startup chinoise (basée à Hangzhou) qui fait sensation à l'échelle mondiale en ouvrant ses percées en open-source[1][59]. Cette collaboration ouverte est-ouest accélère le progrès pour tout le monde. Les grandes entreprises technologiques le remarquent - certaines ont commencé à réagir en hybridant leur approche (par exemple, Meta ouvre certains modèles de vision comme Segment Anything en open-source, ou OpenAI ouvre timidement certains modèles plus petits)[47][60].
Dans l'ensemble, la sortie de DeepSeek-OCR 3B sous licence MIT est une autre étape importante dans la révolution de l'IA open-source. Elle illustre E-E-A-T (Expérience, Expertise, Autorité, Fiabilité) d'un point de vue communautaire : des développeurs d'IA expérimentés partageant ouvertement leur expertise et leur « expérience » de modèle avec la communauté, ce qui renforce la confiance et le savoir collectif. Pour les développeurs et les entreprises, cela signifie que la technologie OCR de pointe n'appartient plus uniquement aux géants de la tech – c'est une ressource publique partagée que chacun peut intégrer dans ses applications. Et pour le domaine de l'IA, c'est un rappel que l'ouverture peut stimuler l'innovation rapide. La capacité du modèle à compresser les contextes et à gérer les tâches vision-texte pourrait inspirer une nouvelle classe d'applications hybrides et de recherches sur des architectures MoE VLM encore plus efficaces. Les géants du closed-source reçoivent maintenant un message clair : la communauté open-source avance rapidement, et pour rester pertinents (et éthiques, et largement adoptés), embrasser l'ouverture pourrait ne pas être optionnel. Comme l'a dit un rapport, DeepSeek a donné un grand coup de pouce aux LLMs en tant que projet scientifique mondial ouvert, par opposition à un projet fermé de type « Manhattan Project » – à tel point que même les acteurs précédemment fermés repensent leur position.
DeepSeek 3B MoE OCR représente une fusion de recherches à la pointe de la technologie : il allie un transformateur à mélange d'experts à un encodeur de vision ingénieusement conçu pour briser les limites de longueur de contexte qui affligent les LLM traditionnels. Sur le plan architectural, il se distingue des modèles denses en activant des experts spécialisés par token et en traitant les images comme des entrées de premier ordre pour les tâches textuelles. Sur le plan pratique, il atteint une compression OCR quasi sans perte avec une réduction de 10×, gère les complexités des documents du monde réel, et cela dans plusieurs langues et formats. Tout aussi important est ce qu'il représente – un modèle open-source sous licence MIT à une époque où de telles capacités étaient considérées comme le domaine réservé des géants de la tech. En publiant DeepSeek-OCR ouvertement, ses créateurs ont équipé les développeurs du monde entier d'un outil puissant et ont lancé un défi aux fournisseurs fermés.
Pour les développeurs, le message est clair : l'OCR et l'IA documentaire sont devenus beaucoup plus accessibles. Vous pouvez intégrer un modèle vision-langage de niveau expert dans votre pile sans payer par appel API ni vous soucier des limites de service. Vous pouvez le peaufiner, le disséquer, ou simplement l'utiliser tel quel pour transformer des PDF, des images, et bien plus encore en texte ou données significatifs. Les premiers utilisateurs ont déjà montré qu'il est possible de convertir des articles de recherche entiers en Markdown, d'extraire des tableaux et des mathématiques avec précision, et même de s'attaquer à des tâches comme la réponse à des questions visuelles grâce à ce modèle. Une telle flexibilité est sans précédent dans un seul système OCR.
Pour l'industrie, DeepSeek-OCR illustre comment les efforts open-source continuent de réduire l'écart avec (et parfois surpasser) les solutions fermées en matière de qualité et d'innovation. Cela s'ajoute aux preuves croissantes que les modèles ouverts peuvent établir de nouvelles normes – de Stable Diffusion dans l'imagerie aux dérivés de LLaMA en NLP, et maintenant à DeepSeek en vision-langage OCR. Nous sommes susceptibles de voir une période d'expérimentation rapide basée sur DeepSeek-OCR : attendez-vous à des versions optimisées, à des modèles de suivi plus grands (peut-être DeepSeek-OCR 16B MoE ?), et à une intégration dans les pipelines OCR open-source et les outils d'interface utilisateur. Les bénéficiaires finaux seront nous tous, qui profiterons d'un développement plus rapide des fonctionnalités d'IA et d'un plus grand choix dans les outils que nous utilisons.
En somme, DeepSeek 3B MoE est plus qu'un simple modèle OCR – c'est un précurseur de la prochaine phase de l'IA où les modèles multimodaux à poids ouverts stimulent l'innovation dans des domaines historiquement dominés par des systèmes propriétaires. Il égalise les chances pour la recherche et le développement d'applications en OCR et en compréhension de documents longs. En adoptant un modèle ouvert avec de telles capacités, la communauté envoie un signal fort : l'avenir du progrès de l'IA pourrait appartenir à tout le monde, pas seulement aux quelques grands. Et comme le montre DeepSeek-OCR, parfois la meilleure façon de gérer une montagne de texte est de la regarder – et maintenant tout le monde le peut, avec le bon modèle en main.
Sources : Des références de haute autorité et de la documentation ont été utilisées pour compiler cette analyse, y compris le rapport technique officiel et la fiche de modèle de DeepSeek-OCR[8][50], des couvertures médiatiques du South China Morning Post et de MarkTechPost[1][24], des perspectives d'experts en IA comme Andrej Karpathy[53][56], et des informations comparatives sur les services OCR de Google/Amazon[41][44]. Ces sources étayent les détails architecturaux, les affirmations sur les performances et le contexte industriel discutés ci-dessus, garantissant un compte rendu précis et fiable de l'importance de DeepSeek-OCR.
[1] [6] [59] DeepSeek dévoile un modèle d'IA multimodale utilisant la perception visuelle pour compresser les entrées textuelles | South China Morning Post
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR est là. Comment utiliser DeepSeek OCR gratuitement ? | par Mehul Gupta | Data Science in Your Pocket | Oct, 2025 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR : l'IA multimodale réduit les jetons de traitement de texte de 7 à 20 fois - Actualités et statistiques - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR : Compression optique contextuelle
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek vient de lancer un modèle OCR 3B : Un VLM 3B conçu pour une OCR haute performance et une conversion de documents structurés - MarkTechPost
[17] [48] [49] DeepSeek-AI a ouvert le code source de la série DeepSeek-VL2 : Trois modèles de 3B, 16B et 27B paramètres avec une architecture Mixture-of-Experts (MoE) redéfinissant l'IA vision-langage : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS vs Google Vision (Comparaison des fonctionnalités OCR) | IronOCR
[45] [46] [47] [51] [58] [60] Ouvert vs Fermé : La bataille pour l'avenir des modèles linguistiques | American Civil Liberties Union
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy commente le papier DeepSeek-OCR : L'entrée d'image pourrait devenir une nouvelle direction pour les grands modèles de langage