Presente de 3º Aniversário do ChatGPT – Série DeepSeek V3.2 Desafia GPT-5 e Gemini

Autor: Boxu Li

Três anos após a estreia do ChatGPT, um novo concorrente de código aberto chegou como um presente de aniversário para a comunidade de IA. DeepSeek-V3.2 e DeepSeek-V3.2-Especiale — dois modelos de linguagem de grande porte recém-lançados — estão expandindo os limites dos sistemas de IA abertos. Desenvolvidos pelo laboratório de IA chinês DeepSeek, esses modelos visam oferecer desempenho de raciocínio ao nível do GPT-5, rivalizando com modelos fechados de ponta como o Gemini-3.0-Pro do Google[1][2]. Ambos os modelos e um relatório técnico detalhado foram disponibilizados em código aberto, permitindo que pesquisadores e desenvolvedores tenham uma visão mais próxima de até onde os modelos abertos chegaram.

DeepSeek-V3.2: Uso Diário com Desempenho ao Nível do GPT-5

DeepSeek-V3.2 é projetado como um modelo "daily driver" equilibrado – adequado para perguntas e respostas gerais, assistência em codificação e tarefas de agente de IA em aplicações reais. De acordo com os benchmarks do DeepSeek, as capacidades de raciocínio do V3.2 correspondem ao nível do GPT-5 em testes de raciocínio públicos e estão apenas ligeiramente atrás do Gemini-3.0-Pro[1]. Em termos práticos, isso significa que o V3.2 pode lidar com questões lógicas e analíticas complexas quase tão bem quanto os melhores modelos fechados de hoje. Notavelmente, o V3.2 produz saídas mais concisas do que alguns modelos abertos anteriores (como o Kimi-K2-Thinking), reduzindo o uso de tokens e o tempo de espera do usuário sem perder profundidade de raciocínio[3].

Sob o capô, o DeepSeek-V3.2 conta com 685 bilhões de parâmetros ativados por token (de uma arquitetura 670B MoE) – mas está otimizado para eficiência e uso em longos contextos. Ele suporta uma janela de contexto estendida de 128K tokens, permitindo a análise de centenas de páginas de texto de uma só vez. Apesar do seu tamanho, o V3.2 foi ajustado para integrar raciocínio com o uso de ferramentas externas. Na verdade, é o primeiro modelo do DeepSeek que pode “pensar” no processo de chamar ferramentas. Ele suporta tanto um modo de cadeia de pensamentos quanto um modo padrão ao usar ferramentas, permitindo raciocinar através de tarefas multi-etapas aumentadas por ferramentas (como usar calculadoras, intérpretes de código ou motores de busca) de uma forma estruturada. Isso torna o V3.2 especialmente poderoso para aplicações de agentes – desde assistentes de codificação que executam código até agentes conversacionais que navegam na web.

V3.2-Speciale: Raciocínio Extremo, Equiparado ao Gemini Pro

Para os usuários que precisam de ainda mais poder de raciocínio, a DeepSeek lançou o V3.2-Speciale junto com o modelo padrão. A variante Speciale leva o raciocínio de código aberto ao extremo, incorporando um mecanismo de "pensamento" ampliado e até integrando um módulo dedicado à prova de teoremas matemáticos (do modelo DeepSeek-Math-V2). O resultado é um modelo ajustado para a resolução de problemas altamente complexos – “explorando os limites da capacidade do modelo,” como dizem os desenvolvedores[4]. Em benchmarks rigorosos de lógica e matemática, o desempenho do DeepSeek-V3.2-Speciale é comparável ao Gemini-3.0-Pro[4], essencialmente equiparando-se ao estado da arte nesses domínios.

Essa afirmação é respaldada pelas conquistas de Speciale em competições de prestígio: supostamente alcançou resultados de nível de medalha de ouro na Olimpíada Internacional de Matemática (IMO 2025), na Olimpíada Chinesa de Matemática (CMO 2025), nas Finais Mundiais ICPC 2025 (programação) e na IOI 2025 (informática)[5]. Na verdade, no concurso de programação ICPC, o desempenho do V3.2-Speciale foi equivalente ao de um medalhista humano de prata (2º lugar), e na IOI foi comparável a um competidor humano entre os 10 melhores[5]. Esses são feitos notáveis para um modelo de IA, demonstrando capacidades de raciocínio e resolução de problemas em níveis humanos de elite.

Vale ressaltar que o Speciale é um modelo focado em especialistas. Ele se destaca em raciocínios longos (por exemplo, provas detalhadas, lógica em várias etapas, desafios complexos de programação), mas não é otimizado para conversas casuais ou escrita criativa. Além disso, é mais caro de executar – o Speciale tende a consumir significativamente mais tokens para chegar às suas respostas[6]. No momento, a DeepSeek está fornecendo apenas a versão V3.2-Speciale via uma API de pesquisa limitada (sem uso de ferramentas habilitado) e alertando que é destinada a tarefas acadêmicas ou de raciocínio de alta importância, em vez de conversas do dia a dia.

Raciocínio Eficiente via Atenção Esparsa (DSA)

Uma das principais inovações que possibilita o desempenho do DeepSeek-V3.2 é um novo mecanismo de atenção chamado DeepSeek Sparse Attention (DSA). Modelos Transformer tradicionais têm um custo quadrático à medida que o comprimento do contexto cresce, pois cada token se atenta a todos os outros tokens. O DSA quebra esse gargalo usando um padrão de atenção esparsa de alta precisão [7]. Ele introduz um componente “indexador relâmpago” que rapidamente estima pontuações de relevância entre o token atual e os tokens anteriores, selecionando apenas os $k$ tokens mais relevantes para prestar atenção[7]. Em essência, o modelo aprende a ignorar o contexto irrelevante e focar apenas nas partes importantes de uma sequência longa.

Este design de atenção esparsa reduz a computação necessária para sequências longas de O(L²) para O(L·k), com k muito menor que L. Na implementação do DeepSeek, foi utilizado k=2048 (cada token atende a 2048 tokens passados selecionados) durante a segunda fase do treinamento. A equipe empregou uma estratégia de treinamento em duas fases para DSA: primeiro um aquecimento denso onde o indexador relâmpago foi treinado junto com atenção completa por alguns bilhões de tokens, para garantir que ele aprendesse a imitar o comportamento da atenção completa. Em seguida, o modelo foi mudado para o modo esparso e treinado em centenas de bilhões de tokens a mais com a restrição top-$k$ em vigor. O resultado é um enorme ganho de eficiência sem perda de precisão. De fato, o V3.2-Exp (o precursor experimental do modelo final) teve um desempenho equivalente ao V3.1-Terminus em uma bateria de benchmarks, apesar de usar a nova atenção esparsa[8].

Na prática, DSA significa que documentos longos não são mais um fardo. Testes internos mostraram um processamento até 2 a 3 vezes mais rápido em entradas de 128K e cerca de 30 a 40% menos uso de memória[9]. Os custos também caem drasticamente. A DeepSeek relatou que, para contextos de 128K em seu cluster H800, o custo do prompt (preenchimento) por milhão de tokens caiu de ~$0,70 para ~$0,20, e o custo de geração de ~$2,40 para ~$0,80 – uma redução de 3 vezes no custo de inferência de longos contextos. Na API pública, essas economias se traduziram em mais de 50% de redução nos preços para os usuários[10]. Em resumo, o DSA permite que o V3.2 lide com entradas extremamente longas em uma fração do tempo e custo de modelos anteriores, sem comprometer a qualidade do resultado.

Aprendizado por Reforço em Escala: GRPO e Destilação de Especialistas

Outro fator importante para o forte desempenho do DeepSeek-V3.2 é o massivo ajuste fino de aprendizado por reforço (RL) que foi incorporado. A equipe DeepSeek investiu uma quantidade sem precedentes de computação no RL pós-treinamento – excedendo 10% da computação usada no pré-treinamento (que já é enorme para um modelo de escala 670B). Isso é altamente incomum em IA de código aberto, onde os orçamentos de ajuste fino de RL são tipicamente muito menores. A justificativa é que, enquanto o pré-treinamento ensina conhecimentos amplos, o RL intensivo pode desbloquear capacidades avançadas ao alinhar o modelo com objetivos complexos (como resolver problemas em várias etapas, usar ferramentas ou seguir instruções sob restrições)[2].

Para aumentar o RL com segurança, a DeepSeek baseou-se em seu algoritmo personalizado Group Relative Policy Optimization (GRPO). Eles introduziram várias melhorias de estabilidade e eficiência neste pipeline de RL:

· Estimativa de KL Não Tendenciosa: A equipe corrigiu problemas no estimador K3 original usado para penalidades de divergência KL, eliminando o viés sistemático que poderia levar a atualizações de gradiente ilimitadas. Isso evitou instabilidades de treinamento que podem ocorrer quando a política se afasta muito da política de referência.

· Mascaramento de Sequência Offline: Como o treinamento de RL frequentemente gera grandes lotes de dados de “rollout” que são reutilizados em várias atualizações de gradiente (um cenário off-policy), o DeepSeek calculou a divergência KL entre a política de rollout e a política atual para cada amostra. Se a política de uma sequência gerada tivesse se desviado muito do modelo atual, essa sequência era mascarada (excluída) das atualizações de treinamento[11][12]. Esse truque inteligente garantiu que o modelo aprendesse principalmente a partir de dados on-policy ou próximos a on-policy, melhorando a estabilidade e prevenindo que trajetórias ruins distorcessem o aprendizado.

· Manter o Roteamento para MoE: Os modelos da DeepSeek utilizam uma arquitetura de Mistura de Especialistas, o que significa que diferentes “especialistas” (sub-redes) lidam com diferentes tokens. Um desafio aqui é que pequenas diferenças entre as implementações de inferência e treinamento podem fazer com que diferentes especialistas sejam escolhidos para o mesmo input, levando à inconsistência. A DeepSeek resolveu isso capturando as decisões de roteamento dos especialistas durante a inferência e forçando as mesmas rotas de especialistas durante as atualizações de RL. Este método de “Manter o Roteamento” garantiu que os parâmetros ajustados durante o RL correspondam aos mesmos especialistas que seriam usados na inferência, evitando surpresas desagradáveis com a troca de especialistas.

Além dessas alterações algorítmicas, o regime de dados para RL foi muito ambicioso. O DeepSeek treinou uma série de modelos especialistas – cada um focado em um domínio ou habilidade específica – e depois destilou o conhecimento de todos eles no V3.2. Por exemplo, eles ajustaram especialistas em domínios específicos para matemática (provas), programação, raciocínio lógico, tarefas gerais aumentadas por ferramentas, agentes baseados em código e agentes baseados em busca. Cada um desses modelos especialistas foi treinado tanto em modo “pensante” (cadeia de pensamento) quanto em modo “não-pensante” conforme necessário. Usando esses especialistas, o DeepSeek gerou um enorme conjunto de dados sintéticos de demonstrações de alta qualidade em cada domínio, que foi então usado para supervisionar o modelo final V3.2. Esse pipeline de destilação de especialistas forneceu ao V3.2 sinais de treinamento ricos em mais de 85.000 instruções complexas, cobrindo tudo, desde provas matemáticas passo a passo até sessões de depuração de software.

Capacidades Aprimoradas do Agente e Integração de Uso de Ferramentas

Uma das principais características do DeepSeek-V3.2 é sua capacidade de agente muito melhorada - essencialmente, a capacidade do modelo de planejar, raciocinar e usar ferramentas em um loop de múltiplas etapas para resolver problemas. As versões anteriores do modelo de raciocínio do DeepSeek tinham uma grande limitação: se o modelo estava em "modo de pensamento" (ou seja, produzindo uma cadeia de raciocínio), ele não podia chamar ferramentas externas, e vice-versa. A versão V3.2 remove essa barreira. É o primeiro modelo DeepSeek que integra completamente pensamento com uso de ferramentas, o que significa que ele pode manter uma cadeia de raciocínio interna enquanto emite chamadas de ferramentas (por exemplo, executando código, pesquisando na web) durante o diálogo[13]. Isso resulta em um comportamento de agente muito mais poderoso e flexível.

Para apoiar isso, a equipe do DeepSeek reimaginou como o gerenciamento de contexto do modelo funciona para tarefas de múltiplas etapas. Na versão V3.2, os rastros de raciocínio do modelo (os “pensamentos”) são preservados ao longo de uma sequência de chamadas de ferramentas, em vez de serem apagados a cada passo. Somente quando uma nova consulta do usuário chega, o sistema redefine o contexto do raciocínio (enquanto ainda retém o histórico relevante de interações com ferramentas na conversa)[14][15]. Essa abordagem economiza muitos tokens e permite que o modelo construa uma cadeia de raciocínio persistente para um problema enquanto invoca ferramentas iterativamente. Por exemplo, se o usuário fizer uma pergunta complexa sobre codificação, o modelo pode pensar nas etapas, chamar um interpretador Python para testar algum código, continuar pensando com base no resultado, talvez chamar uma ferramenta de busca de documentação, e assim por diante – só finalizando sua resposta quando tiver verificado uma solução correta. Todo o raciocínio intermediário permanece disponível para o modelo até que a tarefa seja concluída.

DeepSeek também deu ao modelo um “prompt de início frio” que explicitamente incentiva esse comportamento. As instruções do sistema orientam o modelo a primeiro apresentar um processo de raciocínio detalhado (marcado com tokens especiais) antes de revelar a resposta final, especialmente para tarefas complexas como desafios de programação. Essa engenharia de prompts garante que o V3.2 saiba que deve utilizar suas habilidades de cadeia de pensamento e ferramentas para consultas difíceis, em vez de pular direto para uma resposta (frequentemente falha).

Talvez o aspecto mais impressionante do conjunto de habilidades do agente da versão 3.2 venha de como foi treinado. A equipe construiu um pipeline de síntese de ambiente automático para criar cenários realistas e desafiadores para o modelo aprender. Eles geraram 1.827 ambientes de tarefas interativas combinados com 85.000+ instruções complexas para o modelo resolver[16]. Crucialmente, essas tarefas foram projetadas para serem “difíceis de resolver, fáceis de verificar.” Em outras palavras, o modelo é apresentado com problemas que têm um grande espaço de busca (difícil encontrar uma solução por acaso) mas um critério claro para verificar uma solução. Essa propriedade os torna ideais para aprendizado por reforço: o modelo pode experimentar (ou usar uma ferramenta) para propor uma solução e, em seguida, verificar rapidamente se atende a todas as restrições dadas.

Por exemplo, uma tarefa sintetizada foi o problema de planejamento de itinerário de viagem de três dias com múltiplas restrições (não repetir cidades, ajustar orçamentos dinamicamente com base nos custos dos hotéis, etc.). É extremamente difícil para um modelo apenas adivinhar um itinerário válido porque as restrições criam um problema combinatório – mas se o modelo propuser um itinerário candidato, é simples verificar se todas as restrições são satisfeitas. Ao treinar em muitas dessas tarefas (abrangendo domínios como planejamento de viagens, agendamento, quebra-cabeças lógicos e mais), a versão V3.2 aprendeu a lidar melhor com problemas que exigem busca, otimização ou raciocínio em várias etapas. Este regime de treinamento melhorou significativamente a generalização do modelo para novas tarefas de agentes ainda não vistas.

No reino dos agentes de codificação, a DeepSeek explorou o GitHub – minerando milhões de threads de problemas reais e pull requests. Eles criaram automaticamente dezenas de milhares de ambientes de desafio de codificação executáveis a partir desses dados. O modelo podia praticar a leitura de um relatório de bug ou solicitação de recurso, navegando em uma base de código (com assistência de ferramentas) para implementar uma correção ou recurso. Esses ambientes abrangiam várias linguagens de programação (Python, Java, JavaScript, etc.), expondo o modelo a uma ampla variedade de problemas de software. Um pipeline separado lidava com agentes de QA baseados em busca: usando uma simulação de múltiplos agentes, a DeepSeek gerou conjuntos de dados onde um agente fazia perguntas difíceis sobre entidades de cauda longa e outro agente (com acesso a uma ferramenta de busca) tinha que encontrar e verificar as respostas. Essa geração em múltiplas etapas (construção de perguntas → busca na web → validação de respostas) resultou em exemplos de treinamento de alta qualidade para ensinar a V3.2 como ser uma “assistente de pesquisa” eficaz.

Graças a esses esforços, o DeepSeek-V3.2 fez um avanço nas tarefas de agentes que usam ferramentas. Nas avaliações internas, o V3.2 alcançou as maiores pontuações de qualquer modelo aberto em um conjunto de benchmarks de agentes, reduzindo significativamente a diferença com modelos fechados[17]. Os desenvolvedores destacam que o V3.2 não foi ajustado explicitamente para as ferramentas específicas nesses testes – sugerindo que suas habilidades de agente se transferem para cenários do mundo real, não apenas para benchmarks restritos[18]. Em outras palavras, o modelo aprendeu como raciocinar e usar ferramentas em geral, em vez de se especializar em tarefas específicas.

Benchmarks de Desempenho e Comparação

Como os novos modelos do DeepSeek se comparam aos melhores sistemas de IA do mercado? O relatório técnico e as primeiras análises fornecem algumas respostas. Em linhas gerais, o DeepSeek-V3.2 oferece desempenho de primeira linha em tarefas de raciocínio matemático e codificação, e o V3.2-Speciale até rivaliza com os melhores em raciocínio complexo – mas ainda existem áreas (como o uso de ferramentas abertas) onde os modelos fechados ainda têm vantagem. Abaixo está um instantâneo dos resultados de benchmarks selecionados que ilustram o cenário competitivo:

Tabela 1: Desempenho em Benchmarks de Raciocínio de Amostra (Precisão%)

Benchmark (2025)
OpenAI GPT-5.1 Pro
Google Gemini-3.0-Pro
DeepSeek-V3.2
DeepSeek-V3.2-Speciale
AIME (Olimpíada de Matemática)
~94.6% (est.)
~95.0% (est.)
93.1%
96.0%[4]
HMMT (Torneio de Matemática)
88.3%
97.5%
92.5%
99.2%[4]
GPQA (QA de Ciências, difícil)
85.7%
91.9%
82.4%
85.7%

<small>Fontes: relatório técnico da DeepSeek[4]. Resultados do GPT-5.1 e do Gemini são valores aproximados dos gráficos do relatório. Speciale frequentemente iguala ou supera o Gemini em tarefas matemáticas, enquanto o padrão V3.2 está no nível do GPT-5, ligeiramente abaixo do Gemini.</small>

Como podemos ver, o DeepSeek-V3.2 cumpre sua promessa em desafios de raciocínio acadêmico. Em concursos de matemática como AIME e HMMT, a precisão do V3.2 está no mesmo nível de um modelo avançado do GPT-5, e apenas alguns pontos abaixo das pontuações de última geração do Gemini. O modelo Speciale até supera o Gemini nesses benchmarks de matemática[4], demonstrando o retorno de sua abordagem aprimorada de “pensamento longo”. Esses resultados são impressionantes – matemática e raciocínio formal foram considerados por muito tempo uma fraqueza dos modelos abertos, mas o V3.2 mostra que sistemas de código aberto podem atingir níveis de desempenho de ponta nesse domínio[19].

No lado da codificação, o DeepSeek-V3.2 também se destaca, embora a concorrência seja acirrada. No teste SWE-Bench Verified (que verifica se um modelo pode produzir diffs de código que corrigem bugs e passam nos testes unitários), o V3.2 obteve uma pontuação de ~73%, superando significativamente seu antecessor (V3.1 marcou ~66%[20]) e aproximadamente no mesmo nível de outros modelos abertos de ponta, como o Kimi K2 da Moonshot e o Qwen-3 da Alibaba. De fato, todos esses modelos abertos superam ligeiramente o antigo baseline de 120B da OpenAI nesse benchmark de codificação[21][22]. Isso destaca o quanto os modelos abertos avançaram na capacidade de codificação prática. O DeepSeek V3.2 pode corrigir bugs reais de forma confiável e gerar código funcional, tornando-o extremamente útil para assistência a desenvolvedores.

No entanto, em comparação com os melhores modelos fechados, o cenário é misto. Em certas tarefas de codificação, o GPT-5.1 ainda tem uma vantagem. Por exemplo, no mais complexo Terminal-Bench 2.0 (que avalia o uso de ferramentas CLI em várias etapas e codificação em um loop de agente), relatórios iniciais indicam que o GPT-5 e até mesmo o Claude da Anthropic superam o DeepSeek, especialmente em confiabilidade sustentada durante longas sessões de uso de ferramentas[23]. A precisão do DeepSeek-V3.2 cai nessas tarefas intrincadas de agente em várias etapas, refletindo que, embora seja muito capaz, ainda não é o melhor desempenho quando se trata de agentes de codificação totalmente autônomos ou resolução de problemas de longo prazo. Da mesma forma, em benchmarks abrangentes de uso de ferramentas como o MCP-Universe e o Tool-Decathlon, o V3.2 fica bem atrás do GPT-5 e Gemini[24]. Os sistemas da OpenAI e do Google ainda executam planos complexos e com múltiplas ferramentas de forma mais consistente. A lacuna diminuiu – o V3.2 alcançou novos patamares para modelos abertos nesses testes[17] – mas ainda resta uma margem considerável antes que os modelos abertos possam realmente igualar os fechados em proficiência geral de uso de ferramentas.

Em resumo, o DeepSeek-V3.2 oferece desempenho quase de fronteira em muitas áreas. É competitivo com o GPT-5 em tarefas de codificação do mundo real e até rivaliza com o Gemini em raciocínio matemático avançado[19]. Ao mesmo tempo, não é uma substituição completa para o GPT-5 ou Gemini em todos os aspectos – especialmente em cenários "agente" ultra-complexos que envolvem orquestração elaborada de ferramentas, onde esses modelos fechados ainda têm uma vantagem[25][24]. Esta visão equilibrada é importante para definir expectativas: o V3.2 se destaca no que foi otimizado (raciocínio e codificação com eficiência), enquanto a variante Speciale mostra o que é possível ao levar o raciocínio ao limite.

Limitações e Perspectivas

Apesar das conquistas impressionantes, a equipe DeepSeek é franca sobre certas limitações da série V3.2. Primeiro, porque o total de FLOPs (operações de ponto flutuante) de treinamento ainda é menor do que alguns modelos fechados ultra-grandes, a amplitude do conhecimento mundial e a memorização de fatos raros no V3.2 podem ficar atrás de líderes como o GPT-5. Em outras palavras, pode não conhecer algumas curiosidades obscuras ou informações específicas de domínio que modelos proprietários maiores tenham absorvido. Este é um compromisso comum em modelos abertos, que muitas vezes precisam treinar em corpora ligeiramente menores ou menos diversos.

Outro desafio é a eficiência de tokens. A DeepSeek observa que tanto o V3.2 quanto o Speciale às vezes precisam gerar cadeias de raciocínio mais longas para alcançar a mesma qualidade de resposta que um modelo como o Gemini-3.0-Pro pode conseguir com uma resposta mais concisa[6]. Na prática, isso significa que usar o V3.2 no modo "pensamento" pode implicar em um custo de tokens mais alto (e latência) para resolver problemas extremamente difíceis – o modelo será verboso ao trabalhar nos passos. O Speciale, em particular, embora extraordinariamente capaz, é faminto por tokens: ele pode produzir uma prova ou explicação muito detalhada onde um especialista humano ou um modelo fechado refinado poderia dar uma resposta mais concisa. Isso nem sempre é uma desvantagem (o raciocínio detalhado pode ser valioso), mas torna certos usos mais caros.

DeepSeek-V3.2 também atualmente carece de ajuste fino para conversa aberta ou escrita criativa. O foco de seu treinamento foi claramente em resolução de problemas estruturados e agentes. Os usuários observaram que seu estilo é lógico e informativo, mas talvez menos naturalmente conversador ou imaginativo em comparação com modelos como GPT-4 ou Claude em diálogos casuais. Esta foi uma escolha consciente: o DeepSeek priorizou tarefas de pesquisa, habilidades de codificação e matemática para este lançamento, mesmo que isso significasse uma queda na conversação geral.

Olhando para o futuro, a equipe do DeepSeek deu pistas sobre progresso contínuo. O relatório técnico V3.2 discute abertamente essas deficiências como alvos para melhorias futuras. Já há expectativa na comunidade por um potencial modelo DeepSeek-R2 – que, se o nome se mantiver, poderia ser o próximo modelo centrado em raciocínio, construindo sobre as bases do R1 e do V3.2. (Os seguidores do DeepSeek meio que brincaram, “Quando o R2 vai chegar?!” em resposta ao lançamento do V3.2.) Se e quando o R2 vier, a expectativa é que ele possa fechar ainda mais as lacunas, talvez incorporando rodadas de treinamento ainda maiores, mais infusão de conhecimento e técnicas aprimoradas de eficiência de tokens.

Por agora, o DeepSeek-V3.2 representa um marco no mundo da IA de código aberto. Ele demonstra que com engenharia inteligente – desde a atenção esparsa até o extenso ajuste fino de RL e a geração de tarefas sintéticas – um modelo aberto pode alcançar desempenho de ponta em raciocínio e codificação, áreas outrora consideradas domínio protegido de modelos fechados com trilhões de parâmetros. Como disse um analista, o V3.2 é “um modelo forte e de baixo custo para pensamento e codificação que entrega resultados de nível de ponta onde a maioria dos desenvolvedores realmente trabalha: código e matemática”[26]. Ele pode não destronar o GPT-5 ou Gemini como a solução universal de IA, mas em seu papel especializado, o DeepSeek-V3.2 tem um sucesso espetacular[27] – e crucialmente, faz isso como um modelo disponível gratuitamente. No ecossistema mais amplo de IA, isso é um presente inestimável nesta comemoração do aniversário do ChatGPT.

Fontes: As informações e citações neste artigo são extraídas das notas de lançamento oficiais e do relatório técnico da DeepSeek[1][4][13][17], cobertura de notícias e análises em publicações de IA[2], bem como avaliações independentes do DeepSeek-V3.2 por usuários iniciais[19][24] e especialistas da comunidade[7][8]. Todos os benchmarks e comparações refletem o estado atual (Dez 2025) do desempenho do modelo nas respectivas tarefas.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 versão oficial: Aprimoramento das capacidades do Agent, Integração de pensamento e raciocínio | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek lança novos modelos de raciocínio para competir com GPT-5, rivalizar com Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] Revisão do DeepSeek V3.2-Exp. O mais recente modelo experimental do DeepSeek… | por Barnacle Goose | Out, 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | por Mehul Gupta | Data Science in Your Pocket | Dez, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron