
Autor: Boxu Li na Macaron
O processamento de contexto longo tem sido há muito tempo um ponto problemático para modelos de linguagem – alimente um transformador com um documento de 100 mil tokens e você enfrentará latência, explosões de memória ou custos proibitivos de API. Modelos tradicionais de linguagem densa (LLMs) simplesmente não foram projetados para lidar com entradas de tamanho de livro de forma eficiente. Apresentamos DeepSeek-OCR 3B, um novo modelo de código aberto Mixture-of-Experts (MoE) que adota uma abordagem radicalmente diferente: usa percepção visual como meio de compressão para texto[1][2]. Em vez de ingerir diretamente milhares de tokens de texto, o DeepSeek converte páginas em imagens e permite que um pipeline de visão-linguagem reconstrua o texto. Essa técnica, chamada de Compressão Óptica de Contexto, permite que o modelo encaixe muito mais informações em muito menos tokens[2][3]. O DeepSeek-OCR promete uma redução de 7–20× em tokens com perda mínima de precisão[4][5], permitindo a análise escalável de documentos ultra-longos em hardware padrão. Crucialmente, o modelo é totalmente de código aberto (lançado no Hugging Face e GitHub) sob uma licença permissiva, tornando capacidades avançadas de OCR acessíveis a todos[6][7]. Neste post, vamos dissecar a arquitetura e o treinamento do DeepSeek-OCR, compará-lo com LLMs densos tradicionais e serviços de OCR de código fechado, e explorar o que seu lançamento significa para desenvolvedores e a trajetória de código aberto da indústria.
Design de Visão-Linguagem em Duas Etapas. O DeepSeek-OCR é construído como um sistema de duas partes: um codificador visual chamado DeepEncoder e um decodificador de texto chamado DeepSeek-3B-MoE-A570M[8]. O DeepEncoder (≈380M params) ingere uma imagem de uma página de documento e produz uma sequência compacta de “tokens de visão”. Esses tokens são então alimentados no decodificador DeepSeek-3B-MoE, que gera o conteúdo do texto. Essa divisão é diferente de um LLM denso tradicional (que processaria entrada de texto de ponta a ponta) – aqui o trabalho pesado de entender o layout da página e o texto visual é feito pelo codificador, permitindo que o decodificador opere em uma sequência muito mais curta[2][3].
Compressão via Codificação de Visão. O codificador é onde reside grande parte da inovação. Ele foi projetado para lidar com páginas de alta resolução de forma eficiente e comprimí-las em uma ordem de magnitude ou mais. Como? O DeepEncoder combina vários componentes: (1) um módulo de visão local baseado no SAM-base (Segment Anything Model) para percepção detalhada, usando atenção em janelas para escanear pequenas regiões[9]; (2) um downsamppler convolucional 16× que reduz massivamente o número de tokens de imagem (por exemplo, 4096 tokens de patch para 256)[10]; e (3) um módulo de visão global baseado no CLIP-large para compreensão holística da imagem com atenção densa[11]. Na prática, uma imagem completa de documento 1024×1024 pode ser codificada em apenas 256 tokens latentes sem perder a maioria das informações textuais[12]. Mantendo a contagem de tokens de visão baixa (64–400 tokens em vários modos), o DeepSeek evita a explosão de custo quadrático que um Transformer de Visão ingênuo sofreria em imagens de alta resolução[13]. Isso significa que a memória de ativação permanece sob controle mesmo para páginas densas em pixels[14].
Decodificador Mixture-of-Experts vs. LLMs Densos. O decodificador, DeepSeek-3B-MoE, é um transformador Mixture-of-Experts de 3 bilhões de parâmetros[8]. Ao contrário de um LLM denso tradicional onde todos os pesos estão ativos para cada token, um modelo MoE possui muitas sub-redes especialistas e ativa apenas algumas para cada entrada. No caso do DeepSeek, há 64 submodelos especialistas, dos quais 6 especialistas estão ativos por token na decodificação[15]. Isso resulta em cerca de 570 milhões de parâmetros “ativos” por token – efetivamente, o modelo se comporta como um modelo de 570M de parâmetros no tempo de inferência, mesmo que sua capacidade total seja de 3B[16]. Ao encaminhar cada token para um subconjunto de especialistas, o modelo pode escalar o total de parâmetros sem um aumento proporcional no custo computacional[17]. Nos LLMs densos tradicionais, se você quisesse mais capacidade, aumentaria o número de parâmetros e pagaria o custo computacional total por todos eles a cada vez. MoE evita isso: o decodificador do DeepSeek pode acessar especialistas especializados (por exemplo, alguns especialistas podem se especializar em fórmulas matemáticas, outros em dados tabulares, etc.), mas apenas os relevantes são ativados para um determinado token. O resultado é um decodificador que é ao mesmo tempo leve para rodar e rico em conhecimento. Em essência, o DeepSeek-3B-MoE possui a força de um modelo maior enquanto mantém a velocidade de um menor[15]. Esta é uma diferença chave em comparação com os modelos OCR densos convencionais e LLMs, que não têm essa vantagem de computação condicional. Vale destacar que os Switch Transformers e GLaM do Google foram os primeiros a provar a eficácia do MoE, mas o DeepSeek traz esse poder para um sistema de visão-linguagem de código aberto.
Figura: A arquitetura de duas etapas do DeepSeek-OCR comprime uma imagem de documento de entrada em muito menos tokens por meio do DeepEncoder, e então reconstrói saídas estruturadas ricas por meio de um decodificador Mixture-of-Experts. Neste exemplo, o modelo é solicitado a converter um PDF de problema de geometria em chinês para Markdown: ele não apenas extrai o texto, mas também converte um diagrama em coordenadas estruturadas e LaTeX, demonstrando compreensão além de OCR simples.[18][19]
Modos “Gundam” de Multi-Resolução. Um aspecto inovador do design do DeepSeek são seus modos de resolução configuráveis, humoristicamente apelidados de Tiny, Small, Base, Large e Gundam. Esses modos permitem que os desenvolvedores façam trade-offs entre detalhes e contagem de tokens para atender às suas necessidades[20]. Por exemplo, o modo Tiny processa uma imagem de 512×512 em apenas 64 tokens (útil para escaneamentos rápidos e com poucos detalhes), enquanto o modo Large lida com 1280×1280 com 400 tokens para detalhes máximos[21]. Os modos Gundam vão além – eles dividem a página em várias visões locais mais uma visão global, combinando, por exemplo, n cortes locais de 640×640 (cada um com 100 tokens) com uma visão geral de página inteira (256 ou 400 tokens)[22]. Essa divisão dinâmica garante que até mesmo páginas muito complexas ou superdimensionadas possam ser processadas dividindo-as, enquanto ainda dá ao modelo um contexto global. É um eco de técnicas do InternVL 2.0 e outros, adaptadas aqui para manter alta precisão em documentos densos[23]. Ao expor orçamentos de tokens explícitos e tamanhos de imagem, o DeepSeek-OCR essencialmente oferece aos engenheiros um dial: otimizar para velocidade ou precisão ajustando quanto detalhe visual o codificador retém[24][25]. As pipelines de OCR tradicionais não oferecem essa granularidade – é um movimento engenhoso de engenharia para tornar o modelo prático sob diferentes restrições de computação.
Construir um modelo que realmente lê imagens como texto exigiu um processo de treinamento cuidadosamente orquestrado. O treinamento do DeepSeek-OCR diferiu significativamente do regime de treinamento de um LLM padrão, pois precisou integrar a capacidade de OCR de ponta a ponta.
Regime de Treinamento em Duas Fases. Os pesquisadores adotaram um pipeline de treinamento em duas etapas[26][27]. Na Etapa 1, eles treinaram o DeepEncoder isoladamente como um preditor de próximo token em dados de imagem-texto pareados. Essencialmente, o codificador aprendeu a produzir uma sequência de tokens que um modelo de linguagem reconheceria como descrevendo a imagem. Esta etapa utilizou conjuntos de dados massivos focados em OCR (detalhes abaixo), ensinando efetivamente o módulo de visão a codificar imagens de texto no mesmo espaço que os tokens de texto. Somente depois que o codificador estava competente, a Etapa 2 começou: treinamento conjunto de todo o sistema codificador-decodificador[27]. Durante a Etapa 2, o modelo recebeu uma mistura de entradas de documentos de imagem (com o decodificador aprendendo a produzir o texto correto) e entradas de texto regular (para manter suas habilidades linguísticas afiadas). Esta abordagem em duas etapas – primeiro a visão, depois o ajuste fino multimodal – garantiu que as habilidades de OCR fossem profundamente incorporadas no codificador antes de pedir ao decodificador para gerar linguagem a partir de suas incorporações.
Dados de Treinamento Multimodais Diversificados. A amplitude dos dados de treinamento do DeepSeek é uma das principais razões para sua robustez. De acordo com o cartão do modelo, a equipe organizou uma mistura de dados reais, sintéticos e até puramente textuais[28]:
Esta mistura de dados garantiu que a capacidade de OCR esteja profundamente integrada: DeepSeek não está apenas fazendo pré-processamento de imagens junto com um LLM comum, mas foi treinado em conjunto para realizar a compreensão de texto visual de ponta a ponta. Ele reconstrói texto a partir de imagens com notável fidelidade – 97% de precisão de correspondência exata em compressão de ~10× em um benchmark padrão[30][31]. E devido ao treinamento variado, ele faz isso não apenas para texto digitado simples, mas também para layouts complexos e visuais embutidos. Na prática, o treinamento transformou o DeepSeek-OCR em um híbrido de sistema OCR, analisador de layout e modelo de linguagem ao mesmo tempo.
Escala e Computação. O treinamento do DeepSeek foi um esforço computacional sério, comparável ao treinamento de um LLM moderno. A equipe usou 20 nós com 8×A100 (40GB) GPUs cada – totalizando 160 GPUs A100[29]. Graças ao paralelismo eficiente do pipeline, eles alcançaram uma incrível taxa de processamento de até 90B tokens por dia em dados apenas de texto e 70B tokens/dia em dados multimodais[29]. Ao longo do treinamento, isso provavelmente soma trilhões de tokens processados. Tal escala é uma das razões pelas quais o modelo tem um desempenho tão bom, apesar de ter efetivamente ~570M parâmetros ativos; eles o expuseram a uma enorme variedade de exemplos. A otimização do treinamento (otimizador AdamW, tamanho de lote 640, LR ~3e-5[32]) foi ajustada para lidar com esse fluxo massivo de dados. O resultado final foi embalado em um único arquivo safetensors de ~6.7 GB para o modelo 3B MoE – pequeno o suficiente para rodar em uma única GPU de alto desempenho[33]. Isso está longe de modelos OCR proprietários ou grandes LLMs densos, que podem exigir clusters ou não podem ser auto-hospedados de forma alguma. O pipeline de treinamento eficiente do DeepSeek demonstra que com a arquitetura certa (MoE + compressão de visão), é possível alcançar grande precisão sem um modelo gigantesco.
Um dos aspectos mais significativos do DeepSeek-OCR 3B é seu lançamento totalmente open-source. Tanto os pesos do modelo quanto o código foram disponibilizados sob uma licença MIT[34], uma das licenças mais permissivas em software. Para desenvolvedores e organizações, isso tem grandes implicações:
Em resumo, a versão de código aberto MIT do DeepSeek-OCR elimina tanto a barreira de custo quanto a barreira de acesso para OCR de ponta. Qualquer desenvolvedor com uma GPU pode implantar um modelo de visão-linguagem de última geração em seu próprio ambiente, gratuitamente. Essa democratização é semelhante ao que vimos quando modelos de imagem como o Tesseract (OCR de código aberto) ou o Stable Diffusion (geração de imagem de código aberto) se tornaram disponíveis – exceto que as capacidades do DeepSeek são muito mais avançadas. As implicações são que até pequenas startups ou pesquisadores podem incorporar OCR de classe mundial e compreensão de documentos em seus projetos, impulsionando o campo por meio de contribuições coletivas.
Como este modelo aberto se compara aos incumbentes como Google Cloud Vision OCR e Amazon Textract? Esses serviços de OCR baseados em nuvem têm sido soluções preferidas para processamento de documentos empresariais, conhecidos por sua precisão e escalabilidade. No entanto, a chegada do DeepSeek-OCR destaca algumas diferenças claras em capacidade, acesso, flexibilidade e ritmo de inovação:

A estreia do DeepSeek-OCR faz parte de uma onda mais ampla na IA: a ascensão dos modelos de visão-linguagem de peso aberto (VLMs). No passado, modelos multimodais de ponta (como os que fazem OCR, legendas de imagem ou VQA) eram quase exclusivamente proprietários ou provas de conceito acadêmicas. Agora estamos vendo uma mudança de paradigma. Nos últimos um ou dois anos, organizações e coletivos de pesquisa – muitos fora da esfera tradicional das Big Tech – têm tornado open-source VLMs avançados com capacidades impressionantes. O próprio DeepSeek tem estado na vanguarda desse movimento. Seus lançamentos anteriores, como a série DeepSeek-VL2 (modelos MoE de 3B, 16B, 27B no final de 2024), foram sistemas pioneiros de visão-linguagem abertos[48][17]. Esses modelos introduziram inovações como mosaico dinâmico de imagens e atenção latente para lidar com dados visuais complexos de forma eficiente[49][17]. O novo DeepSeek-OCR se baseia nessa fundação, concentrando-se na compreensão de documentos e compressão de contexto longo. Crucialmente, todos esses modelos têm algo em comum: pesos públicos e uma missão de democratizar a IA multimodal.
Essa tendência está colocando pressão competitiva sobre os gigantes de código fechado. Considere que, historicamente, se você precisava de um modelo que pudesse “ver” e “ler”, tinha que usar serviços como o Google Vision ou pagar por softwares proprietários caros (ou usar ferramentas abertas antigas como o Tesseract, que são muito menos capazes). Agora, com modelos abertos como o DeepSeek-OCR (e outros, como o Qwen-VL da Alibaba ou os modelos de imagem-texto abertos da Meta), os desenvolvedores têm opções que não os prendem ao ecossistema de um grande provedor. Essa abertura pode acelerar a inovação de uma forma que os modelos fechados não conseguiram. Por exemplo, um laboratório acadêmico pode pegar os pesos do DeepSeek e ajustá-los para responder perguntas visualmente ricas, lançando um novo modelo de ponta sem precisar do envolvimento do Google ou da OpenAI. O progresso coletivo é notável: como uma análise destacou, mesmo que os modelos fechados inicialmente tenham assumido a liderança, os lançamentos de código aberto têm rapidamente fechado a lacuna em desempenho e impulsionado novas direções de pesquisa[45][46]. No domínio visão-linguagem, estamos vendo modelos abertos enfrentando tarefas como imagem-para-markup (por exemplo, converter diagramas em código) ou raciocínio multimodal que anteriormente eram o território de pesquisa interna em empresas de tecnologia.
A presença de VLMs de peso aberto também promove uma cultura de pesquisa mais transparente. Com o relatório técnico e o modelo do DeepSeek-OCR disponíveis, os pesquisadores podem verificar as afirmações e desenvolver a partir delas – por exemplo, testando a afirmação de fidelidade de compressão de 97% em seus próprios documentos[50]. Isso muda o paradigma de “apenas algumas empresas podem fazer isso” para “qualquer pessoa na comunidade pode replicar e expandir isso.” Vimos como isso aconteceu no mundo dos LLMs de texto puro: o LLaMA da Meta (parcialmente aberto) desencadeou uma enxurrada de inovações em 2023, e modelos como o próprio R1 da DeepSeek no início de 2025 foram aclamados como um “grande reinício” por serem totalmente abertos e competitivos[51]. Esse modelo foi citado como o primeiro modelo de nível fronteira claro sem restrições de uso, e de fato provocou uma reflexão profunda entre os defensores de modelos fechados[51][47]. Agora, o DeepSeek-OCR está trazendo essa mesma ética para a IA de visão-texto.
Até os líderes da indústria estão se engajando com essas ideias. O renomado pesquisador de IA Andrej Karpathy comentou sobre a abordagem do DeepSeek-OCR, observando que usar imagens como entrada de LLM pode ser mais eficiente e expressivo do que tokens de texto em alguns casos[52][53]. Ele destacou como um pedaço de imagem pode codificar vários caracteres (uma densidade de informação maior) e como as imagens incluem inerentemente formatação (fontes, layouts) que o texto perde[53][54]. Em sua visão, o artigo do DeepSeek-OCR sugere um futuro onde a entrada de imagens se torne uma maneira comum de fornecer contextos longos aos modelos, potencialmente redefinindo os modelos de “linguagem” como modelos de “informação” mais gerais[55][56]. Perspectivas de líderes de pensamento mostram como pesquisas abertas como essa podem inspirar novas direções. Se imagens como contexto se tornarem uma tendência, isso pode ser devido a experimentos como o DeepSeek provando essa ideia. Karpathy brincou que teve que “me controlar para não desenvolver imediatamente um chatbot que só suporte entrada de imagem” ao ver esses resultados[57] – uma referência bem-humorada de como a ideia é promissora, mesmo que desafios práticos ainda existam (já que os modelos ainda produzem texto). O ponto chave é que modelos abertos alimentam discussões e explorações abertas. As ideias não permanecem segredos proprietários; elas permeiam o campo rapidamente.
Do ponto de vista competitivo, a tendência dos modelos de peso aberto está erodindo a liderança que os sistemas de visão-linguagem de código fechado tinham. Os laboratórios de tecnologia chineses, em particular, têm lançado muitos modelos e conjuntos de dados abertos notáveis, acompanhando (ou até superando) os esforços ocidentais em certas áreas[58]. A própria DeepSeek é uma startup chinesa (com sede em Hangzhou) que está ganhando destaque global ao liberar inovações[1][59]. Esta colaboração aberta entre o leste e o oeste acelera o progresso para todos. As grandes empresas de tecnologia estão percebendo isso – algumas começaram a responder hibridizando sua abordagem (por exemplo, a Meta liberando alguns modelos de visão como o Segment Anything, ou a OpenAI abrindo tentativamente alguns modelos menores)[47][60].
Na visão geral, o lançamento do DeepSeek-OCR 3B sob a licença MIT é mais um marco na revolução da IA de código aberto. Ele exemplifica E-E-A-T (Experiência, Expertise, Autoridade, Confiabilidade) do ponto de vista da comunidade: desenvolvedores de IA experientes compartilhando abertamente sua expertise e "experiência" do modelo com a comunidade, o que aumenta a confiança e o conhecimento coletivo. Para desenvolvedores e empresas, isso significa que a tecnologia de ponta em OCR não pertence mais apenas aos gigantes da tecnologia – é um recurso público compartilhado que qualquer um pode incorporar em suas aplicações. E para o campo da IA, é um lembrete de que a abertura pode impulsionar uma rápida inovação. A capacidade do modelo de comprimir contextos e lidar com tarefas de visão-texto pode inspirar uma nova classe de aplicações híbridas e pesquisas em arquiteturas MoE VLM ainda mais eficientes. Os gigantes de código fechado agora têm uma mensagem clara: a comunidade aberta está se movendo rapidamente e, para permanecer relevante (e ética, e amplamente adotada), abraçar a abertura pode não ser opcional. Como um relatório afirmou, DeepSeek deu um grande impulso aos LLMs como um projeto científico global aberto, em oposição a um "Projeto Manhattan" fechado – tanto que até jogadores previamente fechados estão repensando sua postura[51][47].
O DeepSeek 3B MoE OCR representa uma fusão de pesquisas de ponta: combina um transformer de mistura de especialistas com um codificador de visão inteligentemente projetado para quebrar os limites de comprimento de contexto que atormentam os LLMs tradicionais. Arquitetonicamente, ele se distancia dos modelos densos ativando especialistas especializados por token e tratando imagens como entrada de primeira classe para tarefas de texto. Na prática, atinge compressão OCR quase sem perdas com uma redução de 10×, lida com as complexidades de documentos do mundo real e faz isso em vários idiomas e formatos. Igualmente importante é o que ele representa – um modelo de código aberto, licenciado pelo MIT, em um momento em que tais capacidades eram consideradas domínio protegido dos gigantes da tecnologia. Ao liberar o DeepSeek-OCR abertamente, seus criadores equiparam desenvolvedores em todo o mundo com uma ferramenta poderosa e lançaram um desafio aos provedores fechados.
Para os desenvolvedores, a mensagem é clara: OCR e IA de documentos ficaram muito mais acessíveis. Você pode incorporar um modelo de visão-linguagem de nível especializado em sua pilha sem pagar por chamada de API ou se preocupar com limites de serviço. Você pode ajustá-lo, dissecá-lo ou simplesmente usá-lo pronto para converter PDFs, imagens e mais em texto ou dados significativos. Usuários iniciais já demonstraram converter artigos de pesquisa inteiros em Markdown, extrair tabelas e equações matemáticas com precisão e até mesmo enfrentar tarefas como resposta a perguntas visuais usando este modelo. Tal flexibilidade é sem precedentes em um único sistema de OCR.
Para a indústria, o DeepSeek-OCR exemplifica como os esforços de código aberto continuam a diminuir a distância com (e às vezes superam) as soluções fechadas tanto em qualidade quanto em inovação. Isso se soma às evidências crescentes de que modelos abertos podem estabelecer novos padrões – desde o Stable Diffusion em imagem até os derivados do LLaMA em PNL, e agora ao DeepSeek em OCR de visão-linguagem. Provavelmente veremos um período de rápida experimentação construído sobre o DeepSeek-OCR: espere versões otimizadas, modelos de acompanhamento maiores (talvez DeepSeek-OCR 16B MoE?) e integração em pipelines de OCR de código aberto e ferramentas de UI. Os beneficiários finais seremos todos nós, que desfrutaremos de um desenvolvimento mais rápido de recursos de IA e mais opções nas ferramentas que usamos.
Em suma, o DeepSeek 3B MoE é mais do que apenas um modelo de OCR – é um prenúncio da próxima fase da IA onde modelos multimodais de pesos abertos impulsionam a inovação em áreas historicamente dominadas por sistemas proprietários. Ele nivela o campo para pesquisa e desenvolvimento de aplicativos em OCR e entendimento de documentos longos. Ao adotar um modelo aberto com capacidades tão altas, a comunidade envia um sinal forte: o futuro do progresso da IA pode pertencer a todos, não apenas aos poucos grandes. E como o DeepSeek-OCR demonstra, às vezes a melhor maneira de lidar com uma montanha de texto é olhar para ela – e agora qualquer um pode, com o modelo certo em mãos.
Fontes: Referências de alta autoridade e documentação foram utilizadas para compilar esta análise, incluindo o relatório técnico oficial do DeepSeek-OCR e o cartão do modelo[8][50], cobertura de notícias do South China Morning Post e MarkTechPost[1][24], insights de especialistas em IA como Andrej Karpathy[53][56], e informações comparativas sobre os serviços de OCR do Google/Amazon[41][44]. Essas fontes fundamentam os detalhes arquitetônicos, as alegações de desempenho e o contexto da indústria discutidos acima, garantindo um relato preciso e confiável da importância do DeepSeek-OCR.
[1] [6] [59] DeepSeek revela modelo de IA multimodal que usa percepção visual para comprimir entrada de texto | South China Morning Post
[2] [3] [9] [10] [11] [12] [15] [18] [23] [27] [28] [32] DeepSeek OCR chegou. Como usar DeepSeek OCR gratuitamente? | por Mehul Gupta | Data Science in Your Pocket | out, 2025 | Medium
https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
[4] [5] DeepSeek-OCR: IA Multimodal Reduz Tokens de Processamento de Texto em 7-20x - Notícias e Estatísticas - IndexBox
https://www.indexbox.io/blog/deepseek-releases-multimodal-model-for-text-compression/
[7] [38] GitHub - deepseek-ai/DeepSeek-OCR: Compressão Óptica de Contextos
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
[8] [13] [14] [16] [19] [20] [21] [22] [24] [25] [26] [29] [30] [31] [33] [37] [50] DeepSeek acabou de lançar um modelo OCR de 3B: Um VLM de 3B projetado para OCR de alto desempenho e conversão de documentos estruturados - MarkTechPost
[17] [48] [49] DeepSeek-AI lançou o código aberto da Série DeepSeek-VL2: Três Modelos de 3B, 16B e 27B de Parâmetros com Arquitetura de Mistura de Especialistas (MoE), Redefinindo a IA de Visão-Linguagem : r/machinelearningnews
[34] [35] [36] [39] [40] deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR
[41] [42] [43] [44] AWS vs Google Vision (Comparação de Recursos OCR) | IronOCR
[45] [46] [47] [51] [58] [60] Aberto vs. Fechado: A Batalha pelo Futuro dos Modelos de Linguagem | American Civil Liberties Union
https://www.aclu.org/news/privacy-technology/open-source-llms
[52] [53] [54] [55] [56] [57] Andrej Karpathy comenta sobre o artigo DeepSeek-OCR: A entrada de imagem pode se tornar uma nova direção para grandes modelos de linguagem