
Autore: Boxu Li su Macaron
L'elaborazione di contesti lunghi è stata a lungo un punto critico per i modelli linguistici: alimentate un trasformatore con un documento da 100.000 token, e incontrerete latenza, esplosioni di memoria o costi proibitivi per le API. I modelli linguistici densi tradizionali (LLM) semplicemente non erano progettati per gestire in modo efficiente input della lunghezza di un libro. Entra in scena DeepSeek-OCR 3B, un nuovo modello open-source Mixture-of-Experts (MoE) che adotta un approccio radicalmente diverso: utilizza la percezione visiva come mezzo di compressione per il testo[1][2]. Invece di ingerire direttamente migliaia di token di testo, DeepSeek converte le pagine in immagini e consente a una pipeline visione-linguaggio di ricostruire il testo. Questa tecnica, chiamata Context Optical Compression, consente al modello di comprimere molte più informazioni in molti meno token[2][3]. DeepSeek-OCR promette una riduzione dei token fino a 7–20× con una perdita minima di precisione[4][5], consentendo l'analisi scalabile di documenti ultra-lunghi su hardware standard. Crucialmente, il modello è completamente open-source (rilasciato su Hugging Face e GitHub) sotto una licenza permissiva, rendendo le capacità avanzate di OCR accessibili a tutti[6][7]. In questo post, analizzeremo l'architettura e l'addestramento di DeepSeek-OCR, lo compareremo ai LLM densi tradizionali e ai servizi OCR a codice chiuso, ed esploreremo cosa significa il suo rilascio per gli sviluppatori e la traiettoria open-source del settore.
Design Visione-Linguaggio a Due Fasi. DeepSeek-OCR è costruito come un sistema a due parti: un encoder visivo chiamato DeepEncoder e un decodificatore di testo chiamato DeepSeek-3B-MoE-A570M[8]. Il DeepEncoder (≈380M parametri) acquisisce un'immagine di una pagina di documento e produce una sequenza compatta di “token visivi.” Questi token vengono poi inviati al decodificatore DeepSeek-3B-MoE, che genera il contenuto testuale. Questa divisione è diversa da un tradizionale LLM denso (che processerebbe l'input testuale dall'inizio alla fine) – qui il compito gravoso di comprendere il layout della pagina e il testo visivo è svolto dall'encoder, permettendo al decodificatore di operare su una sequenza molto più corta[2][3].
Compressione tramite Vision Encoding. L'encoder è il fulcro dell'innovazione. È progettato per gestire pagine ad alta risoluzione in modo efficiente e comprimerle di un ordine di grandezza o più. Come? Il DeepEncoder combina diversi componenti: (1) un modulo di visione locale basato su SAM-base (Segment Anything Model) per la percezione dettagliata, utilizzando l'attenzione a finestre per scansionare piccole regioni[9]; (2) un downsampier convoluzionale 16× che riduce drasticamente il numero di token immagine (es. da 4096 token patch a 256)[10]; e (3) un modulo di visione globale basato su CLIP-large per una comprensione olistica dell'immagine con attenzione densa[11]. In pratica, un'immagine documentale completa 1024×1024 può essere codificata in appena 256 token latenti senza perdere la maggior parte delle informazioni testuali[12]. Mantenendo basso il conteggio dei token visivi (64–400 token in varie modalità), DeepSeek evita l'esplosione dei costi quadratici che un Transformer di Vision naïve subirebbe su immagini ad alta risoluzione[13]. Questo significa che la memoria di attivazione rimane sotto controllo anche per pagine dense di pixel[14].
Decoder Mixture-of-Experts vs. LLM densi. Il decoder, DeepSeek-3B-MoE, è un trasformatore Mixture-of-Experts da 3 miliardi di parametri[8]. A differenza di un tradizionale LLM denso in cui tutti i pesi sono attivi per ogni token, un modello MoE ha molti sottoreti di esperti e ne attiva solo alcune per ogni input. Nel caso di DeepSeek, ci sono 64 sotto-modelli di esperti, di cui 6 esperti sono attivi per token durante la decodifica[15]. Questo porta a circa 570 milioni di parametri “attivi” per token – il modello si comporta effettivamente come un modello da 570M parametri durante l'inferenza, anche se la sua capacità totale è di 3 miliardi[16]. Instradando ogni token a un sottoinsieme di esperti, il modello può aumentare i parametri totali senza un aumento proporzionale del costo computazionale[17]. Nei LLM densi tradizionali, se si voleva più capacità, si aumentava il numero di parametri e si pagava il costo computazionale completo per tutti ogni volta. MoE evita questo problema: il decoder di DeepSeek può attingere a esperti specializzati (ad esempio, alcuni esperti potrebbero specializzarsi in formule matematiche, altri in dati tabulari, ecc.) ma solo quelli rilevanti si attivano per un dato token. Il risultato è un decoder che è sia leggero da eseguire che ricco di conoscenze. In sostanza, DeepSeek-3B-MoE possiede la potenza di un modello più grande mantenendo la velocità di uno più piccolo[15]. Questa è una differenza chiave rispetto ai modelli OCR densi convenzionali e agli LLM, che mancano di questo vantaggio di computazione condizionale. Vale la pena notare che i Switch Transformers di Google e GLaM hanno dimostrato per primi l'efficacia di MoE, ma DeepSeek porta questa potenza a un sistema open-source di visione-linguaggio.
Figura: L'architettura a due stadi di DeepSeek-OCR comprime un'immagine di documento di input in molti meno token tramite il DeepEncoder, quindi ricostruisce output strutturati ricchi tramite un decodificatore Mixture-of-Experts. In questo esempio, al modello viene chiesto di convertire un PDF di un problema di geometria cinese in Markdown: non solo estrae il testo, ma converte anche un diagramma in coordinate strutturate e LaTeX, dimostrando una comprensione che va oltre la semplice OCR.[18][19]
Modalità multi-risoluzione “Gundam”. Un aspetto innovativo del design di DeepSeek è rappresentato dalle sue modalità di risoluzione configurabili, simpaticamente soprannominate Tiny, Small, Base, Large e Gundam. Queste modalità consentono agli sviluppatori di bilanciare dettagli e numero di token in base alle loro esigenze[20]. Ad esempio, la modalità Tiny elabora un'immagine 512×512 in soli 64 token (utile per scansioni rapide e a basso dettaglio), mentre la modalità Large gestisce immagini 1280×1280 con 400 token per il massimo dettaglio[21]. Le modalità Gundam vanno oltre: suddividono la pagina in più viste locali più una vista globale, combinando, ad esempio, n ritagli locali 640×640 (ognuno da 100 token) con una panoramica a pagina intera (256 o 400 token)[22]. Questa suddivisione dinamica assicura che anche pagine molto complesse o di grandi dimensioni possano essere elaborate suddividendole, pur mantenendo un contesto globale per il modello. È un'eco delle tecniche di InternVL 2.0 e altri, adattate qui per mantenere alta l'accuratezza su documenti densi[23]. Esponendo budget di token espliciti e dimensioni delle immagini, DeepSeek-OCR offre essenzialmente agli ingegneri un controllo: ottimizzare per velocità o accuratezza regolando quanto dettaglio visivo l'encoder mantiene[24][25]. Le pipeline OCR tradizionali non offrono questa granularità: è una mossa ingegneristica intelligente per rendere il modello pratico sotto diversi vincoli computazionali.
Costruire un modello che legge veramente le immagini come testo ha richiesto un processo di training attentamente orchestrato. L'addestramento di DeepSeek-OCR si differenziava significativamente da quello di un regime di addestramento LLM standard, poiché doveva integrare la capacità OCR in modo end-to-end.
Schema di allenamento in due fasi. I ricercatori hanno adottato una pipeline di addestramento a due fasi[26][27]. Nella Fase 1, hanno addestrato il DeepEncoder in isolamento come predittore del prossimo token su dati immagine-testo accoppiati. Essenzialmente, l'encoder ha imparato a produrre una sequenza di token che un modello linguistico riconoscerebbe come descrittivi dell'immagine. Questa fase ha utilizzato dataset massicci focalizzati sull'OCR (dettagli sotto), insegnando efficacemente al modulo di visione a codificare immagini di testo nello stesso spazio dei token di testo. Solo dopo che l'encoder è diventato competente è iniziata la Fase 2: l'addestramento congiunto dell'intero sistema encoder-decoder[27]. Durante la Fase 2, il modello è stato alimentato con un mix di input immagine-documento (con il decoder che imparava a fornire il testo corretto) e input di testo regolari (per mantenere affinate le sue abilità linguistiche). Questo approccio in due fasi – prima visione, poi fine-tuning multimodale – ha garantito che le abilità OCR fossero profondamente radicate nell'encoder prima di chiedere al decoder di generare il linguaggio dai suoi embedding.
Dati di addestramento multimodale diversificati. L'ampiezza dei dati di addestramento di DeepSeek è una delle principali ragioni della sua robustezza. Secondo la scheda del modello, il team ha curato una miscela di dati reali, sintetici e anche puramente testuali[28]:
Questa miscela di dati ha garantito che la capacità OCR sia profondamente integrata: DeepSeek non si limita a fare il preprocessing delle immagini più un LLM preconfezionato, ma è stato addestrato congiuntamente per eseguire la comprensione del testo visivo end-to-end. Ricostruisce il testo dalle immagini con una fedeltà notevole – 97% di precisione nella corrispondenza esatta a ~10× compressione su un benchmark standard[30][31]. E grazie al variegato addestramento, lo fa non solo per il semplice testo digitato, ma anche per layout complessi e elementi visivi incorporati. In effetti, l'addestramento ha reso DeepSeek-OCR un ibrido di un sistema OCR, un analizzatore di layout e un modello di linguaggio tutto in uno.
Scala e Calcolo. L'addestramento di DeepSeek è stato un'impresa di calcolo seria, paragonabile all'addestramento di un moderno LLM. Il team ha utilizzato 20 nodi con 8 GPU A100 (40GB) ciascuno – in totale 160 GPU A100[29]. Grazie al parallelismo efficiente della pipeline, hanno raggiunto una velocità incredibile fino a 90 miliardi di token al giorno su dati testuali e 70 miliardi di token/giorno su dati multimodali[29]. Nel corso dell'addestramento, questo probabilmente si somma a diversi trilioni di token elaborati. Tale scala è uno dei motivi per cui il modello funziona così bene nonostante conti effettivamente ~570 milioni di parametri attivi; è stato esposto a un'enorme varietà di esempi. L'ottimizzazione dell'addestramento (ottimizzatore AdamW, batch size 640, LR ~3e-5[32]) è stata messa a punto per gestire questo enorme flusso di dati. Il risultato finale è stato confezionato in un singolo file safetensors di ~6,7 GB per il modello 3B MoE – abbastanza piccolo da funzionare su una singola GPU di fascia alta[33]. Questo è lontano dai modelli OCR proprietari o dai giganteschi LLM densi, che potrebbero richiedere cluster o non essere affatto autogestiti. La pipeline di addestramento efficiente di DeepSeek dimostra che con la giusta architettura (MoE + compressione visiva), puoi ottenere grande precisione senza un modello gigantesco.
Uno degli aspetti più significativi di DeepSeek-OCR 3B è il suo rilascio completamente open-source. Sia i pesi del modello che il codice sono stati resi disponibili sotto una licenza MIT[34], una delle licenze più permissive nel software. Per sviluppatori e organizzazioni, questo ha enormi implicazioni:
In sintesi, il rilascio open-source MIT di DeepSeek-OCR elimina sia la barriera dei costi che quella dell'accesso per l'OCR avanzato. Qualsiasi sviluppatore con una GPU può implementare un modello visivo-linguistico all'avanguardia nel proprio ambiente, gratuitamente. Questa democratizzazione è analoga a quanto abbiamo visto con modelli di immagini come Tesseract (OCR open-source) o Stable Diffusion (generazione di immagini open-source) – tranne che le capacità di DeepSeek sono molto più avanzate. Le implicazioni sono che anche piccole startup o ricercatori possono integrare OCR e comprensione dei documenti di livello mondiale nei loro progetti, avanzando nel campo attraverso contributi collettivi.
Come si confronta questo modello aperto con i leader come Google Cloud Vision OCR e Amazon Textract? Questi servizi OCR basati su cloud sono stati soluzioni di riferimento per l'elaborazione documentale aziendale, noti per la loro accuratezza e scalabilità. Tuttavia, l'arrivo di DeepSeek-OCR mette in evidenza alcune chiare differenze in termini di capacità, accesso, flessibilità e ritmo dell'innovazione:

Il debutto di DeepSeek-OCR fa parte di un'ondata più ampia nell'AI: l'ascesa dei modelli visione-linguaggio open-weight (VLM). In passato, i modelli multimodali all'avanguardia (come quelli che eseguono OCR, didascalie delle immagini o VQA) erano quasi esclusivamente di proprietà o prove di concetto accademiche. Ora stiamo assistendo a un cambiamento di paradigma. Negli ultimi uno o due anni, organizzazioni e collettivi di ricerca – molti al di fuori della tradizionale sfera Big Tech – hanno open-sourcizzato avanzati VLM con capacità impressionanti. DeepSeek stessa è stata in prima linea in questo movimento. Le loro precedenti release, come la serie DeepSeek-VL2 (modelli MoE 3B, 16B, 27B alla fine del 2024), erano sistemi pionieristici visione-linguaggio open[48][17]. Questi modelli hanno introdotto innovazioni come il tiling dinamico delle immagini e l'attenzione latente per gestire efficacemente dati visivi complessi[49][17]. Il nuovo DeepSeek-OCR si basa su queste fondamenta, concentrandosi sulla comprensione dei documenti e sulla compressione di contesti lunghi. Crucialmente, tutti questi modelli hanno qualcosa in comune: pesi pubblici e una missione di democratizzare l'AI multimodale.
Questa tendenza sta esercitando una pressione competitiva sui giganti del software chiuso. Considera che storicamente, se avevi bisogno di un modello che potesse “vedere” e “leggere”, dovevi utilizzare servizi come Google Vision o pagare per costosi software proprietari (oppure usare strumenti open-source più datati come Tesseract, che sono molto meno capaci). Ora, con modelli aperti come DeepSeek-OCR (e altri, ad esempio Qwen-VL di Alibaba o i modelli aperti di immagine-testo di Meta), gli sviluppatori hanno scelte che non li legano all'ecosistema di un grande fornitore. Questa apertura può accelerare l'innovazione in un modo che i modelli chiusi non hanno fatto. Ad esempio, un laboratorio accademico può prendere i pesi di DeepSeek e affinarli per rispondere a domande visivamente complesse, rilasciando un nuovo modello all'avanguardia senza bisogno del coinvolgimento di Google o OpenAI. Il progresso collettivo è notevole: come ha osservato un'analisi, anche se inizialmente i modelli chiusi hanno preso il comando, le versioni open-source hanno rapidamente colmato il divario in termini di prestazioni e stanno guidando nuove direzioni di ricerca[45][46]. Nel dominio visione-linguaggio, stiamo vedendo modelli aperti affrontare compiti come l'immagine-a-markup (ad esempio, convertire diagrammi in codice) o il ragionamento multimodale che erano precedentemente il terreno di ricerca interna delle aziende tecnologiche.
La presenza di VLM a peso aperto favorisce anche una cultura di ricerca più trasparente. Con il rapporto tecnico e il modello di DeepSeek-OCR disponibili, i ricercatori possono verificare le affermazioni e costruirci sopra – ad esempio, testando la fedeltà di compressione del 97% sui propri documenti[50]. Questo sposta il paradigma da “solo poche aziende possono farlo” a “chiunque nella comunità può replicarlo ed estenderlo”. Abbiamo visto come questo si è sviluppato nel mondo degli LLM di puro testo: il LLaMA di Meta (parzialmente aperto) ha scatenato un'ondata di innovazione nel 2023, e modelli come il R1 di DeepSeek all'inizio del 2025 sono stati acclamati come un “grande reset” per essere completamente aperti e competitivi[51]. Quel modello è stato citato come il primo modello a livello frontiera senza restrizioni d'uso, e ha davvero stimolato una riflessione profonda tra i sostenitori dei modelli chiusi[51][47]. Ora DeepSeek-OCR sta portando lo stesso ethos all'AI visione-testo.
Anche i leader del settore stanno interagendo con queste idee. Il rinomato ricercatore di AI Andrej Karpathy ha commentato l'approccio di DeepSeek-OCR, osservando che utilizzare immagini come input per i LLM potrebbe essere più efficiente ed espressivo rispetto ai token di testo in alcuni casi[52][53]. Ha evidenziato come un'immagine possa codificare più caratteri (una maggiore densità di informazioni) e come le immagini includano intrinsecamente formattazioni (font, layout) che il testo perde[53][54]. Secondo lui, il documento di DeepSeek-OCR suggerisce un futuro in cui l'input di immagini diventa un modo comune per fornire lunghi contesti ai modelli, ridefinendo potenzialmente i modelli di “linguaggio” come modelli di “informazione” più generali[55][56]. Tali prospettive da parte dei leader del pensiero mostrano come la ricerca aperta come questa possa ispirare nuove direzioni. Se l'uso delle immagini come contesto diventa una tendenza, potremmo doverlo agli esperimenti come DeepSeek che lo dimostrano. Karpathy ha scherzato dicendo di aver dovuto “trattenermi dal sviluppare immediatamente un chatbot che supporti solo l'input di immagini” dopo aver visto questi risultati[57] – un cenno ironico a quanto l'idea sia promettente, anche se restano sfide pratiche (poiché i modelli producono ancora testo). Il punto chiave è che i modelli aperti alimentano discussioni ed esplorazioni aperte. Le idee non restano segreti proprietari; si diffondono rapidamente nel campo.
Dal punto di vista competitivo, la tendenza dei modelli open-weight sta erodendo il vantaggio che i sistemi di visione-linguaggio a codice chiuso avevano una volta. I laboratori tecnologici cinesi, in particolare, hanno rilasciato molti modelli e dataset open notevoli, mantenendosi al passo (o addirittura superando) gli sforzi occidentali in alcune aree[58]. DeepSeek stessa è una startup cinese (con sede a Hangzhou) che sta facendo sensazione a livello globale grazie all'open-source delle sue innovazioni[1][59]. Questa collaborazione aperta est-ovest accelera il progresso per tutti. Le grandi aziende tecnologiche se ne stanno accorgendo: alcune hanno iniziato a rispondere ibridando il loro approccio (ad esempio, Meta open-sourcing alcuni modelli di visione come Segment Anything, o OpenAI che apre timidamente alcuni modelli più piccoli)[47][60].
Nel quadro generale, il rilascio di DeepSeek-OCR 3B sotto licenza MIT è un altro traguardo nella rivoluzione dell'AI open-source. Esso esemplifica E-E-A-T (Esperienza, Competenza, Autorevolezza, Affidabilità) dal punto di vista della comunità: sviluppatori AI esperti che condividono apertamente la loro competenza e l'“esperienza” del modello con la comunità, migliorando la fiducia e la conoscenza collettiva. Per gli sviluppatori e le aziende, significa che l'OCR all'avanguardia non appartiene più solo ai giganti della tecnologia – è una risorsa pubblica condivisa che chiunque può integrare nelle proprie applicazioni. E per il campo dell'AI, è un promemoria che l'apertura può guidare un'innovazione rapida. La capacità del modello di comprimere contesti e gestire compiti di visione-testo potrebbe ispirare una nuova classe di applicazioni ibride e ricerche su architetture MoE VLM ancora più efficienti. I giganti a codice chiuso ora hanno un messaggio chiaro: la comunità aperta si sta muovendo rapidamente, e per rimanere rilevanti (ed etici, e ampiamente adottati), abbracciare l'apertura potrebbe non essere opzionale. Come ha affermato un rapporto, DeepSeek ha dato un grande impulso agli LLM come progetto scientifico globale aperto, in contrasto con un “Progetto Manhattan” chiuso – tanto che anche i giocatori precedentemente chiusi stanno ripensando la loro posizione.
DeepSeek 3B MoE OCR rappresenta una fusione di ricerche all'avanguardia: unisce un trasformatore a miscela di esperti con un encoder visivo progettato con intelligenza per superare i limiti di lunghezza del contesto che affliggono i LLM tradizionali. Architettonicamente, si distacca dai modelli densi attivando esperti specializzati per token e trattando le immagini come input di prima classe per compiti di testo. Praticamente, ottiene una compressione OCR quasi senza perdite con una riduzione di 10×, gestisce le complessità dei documenti del mondo reale e lo fa in più lingue e formati. È altrettanto importante ciò che rappresenta: un modello open-source con licenza MIT in un momento in cui tali capacità erano ritenute dominio protetto dei giganti tecnologici. Rilasciando DeepSeek-OCR in modo aperto, i suoi creatori hanno fornito ai sviluppatori di tutto il mondo uno strumento potente e lanciato una sfida ai fornitori chiusi.
Per gli sviluppatori, il messaggio è chiaro: OCR e AI per documenti sono diventati molto più accessibili. Puoi incorporare un modello visione-linguaggio a livello esperto nel tuo stack senza pagare per chiamata API o preoccuparti dei limiti del servizio. Puoi perfezionarlo, analizzarlo o semplicemente usarlo così com'è per convertire PDF, immagini e altro in testo o dati significativi. Gli utenti precoci hanno già dimostrato di poter convertire interi articoli di ricerca in Markdown, estrarre tabelle e matematica con precisione, e persino affrontare compiti come la risposta a domande visive usando questo modello. Tale flessibilità è senza precedenti in un singolo sistema OCR.
Per l'industria, DeepSeek-OCR esemplifica come gli sforzi open-source continuano a ridurre il divario con (e talvolta superare) le soluzioni chiuse sia in termini di qualità che di innovazione. Contribuisce alla crescente evidenza che i modelli aperti possono stabilire nuovi standard – da Stable Diffusion nell'imaging ai derivati di LLaMA nel NLP, e ora a DeepSeek nel OCR visione-linguaggio. È probabile che assisteremo a un periodo di rapida sperimentazione basato su DeepSeek-OCR: aspettatevi versioni ottimizzate, modelli di follow-up più grandi (forse DeepSeek-OCR 16B MoE?) e integrazione in pipeline OCR open-source e strumenti UI. I beneficiari finali saremo tutti noi, che godremo di uno sviluppo più rapido delle funzionalità AI e di una maggiore scelta negli strumenti che utilizziamo.
In sintesi, DeepSeek 3B MoE è più di un semplice modello OCR – è un precursore della prossima fase dell'AI in cui modelli multimodali a peso aperto guidano l'innovazione in aree storicamente dominate da sistemi proprietari. Livella il campo di gioco per la ricerca e lo sviluppo applicativo nell'OCR e nella comprensione di documenti lunghi. Abbracciando un modello aperto con capacità così elevate, la comunità invia un forte segnale: il futuro del progresso dell'AI potrebbe appartenere a tutti, non solo ai pochi grandi. E come mostra DeepSeek-OCR, a volte il modo migliore per gestire una montagna di testo è guardarlo – e ora chiunque può farlo, con il modello giusto a disposizione.
Fonti: Per compilare questa analisi sono state utilizzate fonti autorevoli e documentazione, tra cui il rapporto tecnico ufficiale e la scheda modello di DeepSeek-OCR[8][50], copertura mediatica da South China Morning Post e MarkTechPost[1][24], intuizioni da esperti di IA come Andrej Karpathy[53][56], e informazioni comparative sui servizi OCR di Google/Amazon[41][44]. Queste fonti convalidano i dettagli architetturali, le affermazioni sulle prestazioni e il contesto dell'industria discusso sopra, garantendo un resoconto accurato e affidabile dell'importanza di DeepSeek-OCR.
[1] [6] [59] DeepSeek svela il modello AI multimodale che utilizza la percezione visiva per comprimere l'input testuale | South China Morning Post
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR è qui. Come utilizzare gratuitamente DeepSeek OCR? | di Mehul Gupta | Data Science in Your Pocket | Ott, 2025 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR: AI multimodale riduce i token di elaborazione del testo da 7 a 20 volte - Notizie e Statistiche - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: Compressione Ottica dei Contesti
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek ha appena rilasciato un modello OCR da 3B: Un VLM da 3B progettato per OCR ad alte prestazioni e conversione di documenti strutturati - MarkTechPost
[17] [48] [49] DeepSeek-AI ha reso open source la serie DeepSeek-VL2: Tre modelli di 3B, 16B e 27B parametri con architettura Mixture-of-Experts (MoE) che ridefiniscono l'AI Vision-Language : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS vs Google Vision (Confronto delle funzioni OCR) | IronOCR
[45] [46] [47] [51] [58] [60] Aperto vs. Chiuso: La Battaglia per il Futuro dei Modelli di Linguaggio | American Civil Liberties Union
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy commenta il documento DeepSeek-OCR: l'input delle immagini potrebbe diventare una nuova direzione per i grandi modelli linguistici