
Autor: Boxu Li
DeepSeek-V4 tomou a comunidade de IA de assalto como o maior modelo de linguagem de Mistura de Especialistas (MoE) open-source até hoje. Um pré-print no arXiv detalhando este modelo de 1 trilhão de parâmetros explodiu online, destacando uma mudança de paradigma em como escalamos a IA. Diferente dos modelos densos que ativam todos os pesos para cada token, modelos MoE como o DeepSeek ativam apenas uma pequena fração de seus parâmetros de cada vez – tipicamente <10% por token[1]. Esta ativação esparsa é a característica que torna modelos com trilhões de parâmetros viáveis[1]. No caso do DeepSeek-V4, aproximadamente 32 bilhões de parâmetros (≈3% do total) são usados para qualquer token de entrada, aproveitando uma capacidade massiva com custos de computação muito menores do que um modelo denso igualmente grande.
Por que tanto alvoroço? Para começar, o DeepSeek-V4 é o maior modelo MoE de acesso aberto até agora, superando seus predecessores como o DeepSeek-V3 (671B params) e até rivalizando com modelos fechados em muitas tarefas[2]. Seu lançamento sob uma licença de código aberto permissiva significa que qualquer pessoa pode experimentar ou implantar um modelo na escala do GPT-5 – um desenvolvimento dramático em uma era onde os principais modelos são frequentemente proprietários. Além disso, os primeiros benchmarks sugerem que o DeepSeek-V4 oferece desempenho de ponta em domínios especializados como matemática e programação (onde a especialização de especialistas do MoE compensa), a uma fração do custo de modelos grandes anteriores[3][4]. Todos esses fatores combinados fizeram do DeepSeek-V4 uma sensação viral entre pesquisadores e engenheiros.
Para apreciar o DeepSeek-V4, é útil conhecer os principais detalhes técnicos e como ele se compara a outros modelos de ponta:
Tabela: MoE de 1T-param do DeepSeek-V4 em contexto com modelos de próxima geração similares. “Ativo” refere-se aos parâmetros usados por token (os modelos MoE direcionam cada token por meio de um subconjunto de especialistas). Contexto = comprimento máximo da sequência que o modelo pode lidar.
Como mostrado acima, o DeepSeek-V4 junta-se a um clube seleto de modelos de trilhões de parâmetros ao lado de outros modelos chineses recentemente anunciados, como Kimi K2 e Qwen3-Max. Todos esses aproveitam arquiteturas MoE com portas esparsas para manter apenas dezenas de bilhões de parâmetros “ativos” de uma vez[5]. Em contraste, um modelo denso (como o GPT-5) precisaria usar todos os pesos a cada vez – uma abordagem que se torna proibitivamente cara além da escala de 500B–1T[10]. Notavelmente, o design do DeepSeek-V4 supostamente usa um caminho de 16 especialistas, significando que cada token é processado por até 16 sub-redes de especialistas em cada camada MoE, selecionados entre centenas de especialistas disponíveis. Este é um aumento substancial em relação aos modelos MoE anteriores (que frequentemente usavam os 2 ou 4 principais especialistas) e visa maximizar o poder expressivo do modelo através de rotas de especialistas mais especializadas.
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
O DeepSeek-V4 baseia-se na arquitetura MoE comprovada do DeepSeek, que foi introduzida no V2/V3[11] e refinada através da série de pesquisas DeepSeekMoE. No seu núcleo, o modelo substitui as camadas de feed-forward padrão do Transformer por uma série de redes de especialistas paralelas. Para cada token recebido, um roteador de gating seleciona dinamicamente um punhado de especialistas mais adequados para processar o conteúdo desse token (por exemplo, alguns especialistas podem se especializar em código, outros em matemática, outros em sintaxe comum). Apenas essas redes de especialistas selecionadas são executadas para esse token, tornando a computação esparsa.
Crucialmente, o DeepSeek inovou no roteamento MoE para melhorar a especialização e utilização dos especialistas. A arquitetura DeepSeekMoE introduziu duas estratégias-chave[12]:
A combinação de segmentação fina e especialistas compartilhados ajuda a evitar a sobreposição e o colapso de especialistas, um desafio notório em MoEs. Em MoEs tradicionais, se o roteador não for cuidadosamente gerenciado, pode superutilizar alguns especialistas e subtreinar outros (“colapso de rota”). DeepSeek-V3/V4 aborda isso com uma estratégia de roteamento de balanceamento de carga que não precisa de perda auxiliar[15]. Em vez do termo de perda extra usado no Switch Transformer para forçar a utilização de especialistas, o roteador do DeepSeek usa roteamento dinâmico com limites de capacidade adaptativos para equilibrar naturalmente a carga[16]. A estratégia sem perda auxiliar do V3 provou ser eficaz – o treinamento foi estável e todos os especialistas foram bem utilizados[17]. Podemos esperar que o V4 continue essa abordagem, permitindo um treinamento suave de centenas de especialistas sem colapso.
Em resumo, a arquitetura do DeepSeek-V4 exemplifica o design MoE de ponta: roteamento esparso de especialistas que expande massivamente a capacidade, um caminho de ativação com 16 especialistas para combinações mais ricas de expertise por token e técnicas personalizadas para garantir que os especialistas se especializem (via divisão detalhada e generalistas compartilhados) e treinem de forma robusta. É um modelo que “cresce em largura” através de especialistas em vez de “altura” através de camadas – uma estratégia de escalonamento fundamentalmente diferente da série GPT densa.
Um dos aspectos mais atraentes do DeepSeek-V4 é sua eficiência de custos, tanto no treinamento quanto na implantação. Escalar para 1 trilhão de parâmetros pode parecer exorbitantemente caro, mas a computação esparsa do MoE mantém os custos reais muito mais baixos do que um modelo denso de trilhão de parâmetros.
Em resumo, ao equilibrar inteligentemente a utilização total com a utilização esparsa, o DeepSeek-V4 atinge um desempenho quase no estado da arte com um cálculo drasticamente menor. Ele incorpora a promessa do MoE: “aumente o modelo, não o custo.” Essa eficiência é uma razão chave pela qual muitos especialistas veem as arquiteturas MoE como o futuro dos grandes modelos de IA[21][10].
Deixando o tamanho bruto de lado, o que o DeepSeek-V4 realmente pode fazer? Indicadores iniciais sugerem que ele se destaca em áreas onde a especialização de especialistas é mais benéfica – notavelmente raciocínio complexo (matemática, lógica) e programação – enquanto mantém fortes capacidades gerais comparáveis aos melhores modelos.
Em resumo, o DeepSeek-V4 parece aproveitar os pontos fortes do MoE: é um mago da matemática, um programador competente e uma IA conversacional sólida e completa. Ele pode não superar vastamente modelos como o GPT-5 em todas as tarefas (o GPT-5 ainda pode ter vantagem em algumas áreas “generalistas” ou de compreensão multimodal[32]), mas o V4 pode reivindicar liderança ou um segundo lugar próximo em vários domínios-chave, tudo enquanto sendo mais acessível. Para muitos casos de uso específicos – especialmente aqueles que exigem um grande contexto ou raciocínio específico de domínio – ele oferece uma combinação imbatível de alto desempenho e baixo custo.
A estreia do DeepSeek-V4 sinaliza mais do que apenas a conquista de uma empresa – representa uma mudança mais ampla em direção a modelos especialistas esparsos no futuro da IA. Como uma análise colocou, “para alcançar modelos com trilhões de parâmetros que sejam treináveis e implementáveis, a esparsidade através de MoE está se tornando a única abordagem viável.”[10] O DeepSeek provou isso ao entregar um modelo em escala de trilhões que a comunidade realmente pode usar. A escalabilidade densa tradicional (apenas aumentar o modelo e forçar sua utilização) está enfrentando severos retornos decrescentes e barreiras de custo[33][34]. Modelos esparsos como o DeepSeek-V4 apontam um caminho adiante onde podemos continuar expandindo as capacidades da IA sem explodir proporcionalmente os requisitos de computação.
Do ponto de vista do mercado, modelos chineses abertos agora estão rivalizando com os melhores laboratórios ocidentais. DeepSeek-V4 e seus pares (Qwen3, Kimi K2) têm sido comparados diretamente ao GPT-5 tanto na mídia quanto em benchmarks[35][36]. Eles frequentemente superam modelos da classe GPT-4 em áreas especializadas (codificação, raciocínio) e o fazem a uma fração do preço[37][38]. Isso está forçando um repensar competitivo: OpenAI e outros podem sentir pressão para incorporar técnicas MoE ou reduzir drasticamente seus custos. Para usuários finais e desenvolvedores, é uma grande vitória – temos mais opções do que nunca na vanguarda da IA, e muitas dessas opções são de código aberto e acessíveis. O ritmo de inovação no ecossistema de IA da China impulsionado por modelos como o DeepSeek é notável; está reduzindo custos e aumentando o desempenho, beneficiando a comunidade global.
Finalmente, vale notar que a abordagem do DeepSeek-V4 contrasta com outro caminho emergente: aprendizado por reforço + modelos com memória aumentada. A estratégia MoE expande a capacidade do modelo (parâmetros) e depende do roteamento para lidar com a complexidade, enquanto algumas outras pesquisas estão focando em aprimorar a capacidade do modelo através de ferramentas externas, memória de longo prazo ou ciclos de raciocínio semelhantes a agentes. Por exemplo, modelos como Kimi K2 “Thinking” incorporam o uso de ferramentas e um ciclo agente com um contexto de 256K para alcançar um planejamento de longo alcance notável[5][39]. Da mesma forma, sistemas futuros estão explorando módulos de memória explícita ou recuperação neural para permitir que modelos menores superem modelos maiores ao buscar informações. A filosofia do DeepSeek até agora tem sido embutir o máximo de conhecimento possível nos parâmetros do modelo (e, de fato, o V4 pode integrar algum pensamento em múltiplas etapas em seu ajuste fino). Ambas as abordagens – expansão via MoE e aprimoramento via memória/RL – são complementares. Em breve, podemos ver híbridos que combinam redes MoE massivas com memória dinâmica ou interfaces de ferramentas. De qualquer forma, o sucesso do V4 estabelece um alto padrão: qualquer abordagem alternativa deve medir-se em termos de desempenho e eficiência para ser levada a sério.
DeepSeek-V4 MoE representa um marco no desenvolvimento de IA – um modelo aberto com 1 trilhão de parâmetros que realiza a promessa do MoE de “crescer e permanecer eficiente”. Ele demonstra que modelos de especialistas esparsos podem alcançar resultados de ponta em tarefas desafiadoras, frequentemente superando modelos densos que são muito mais caros de treinar e executar. Ao disponibilizar o V4 como código aberto sob a licença MIT, a DeepSeek-AI garantiu que essa inovação seja amplamente acessível, estimulando o desenvolvimento de pesquisas e aplicações em todo o mundo. A recepção viral do modelo online é um testemunho do entusiasmo da comunidade: estamos testemunhando o fechamento da lacuna de qualidade entre modelos abertos e os melhores modelos fechados, e em alguns nichos, os modelos abertos estão avançando[40][38].
Olhando para o futuro, as técnicas pioneiras no DeepSeek-V4 – desde o roteamento de 16 especialistas até o balanceamento sem auxiliares – provavelmente influenciarão muitas arquiteturas futuras. Como pesquisadores de IA, agora temos evidências de que ampliar a largura (especialistas) pode ser tão poderoso quanto ampliar a profundidade ou os dados, se não mais, para certos problemas. Enquanto isso, os próximos desafios estão se delineando: como manter a coerência em contextos de milhões de tokens, como integrar aprendizado ou memória em tempo real e como melhorar ainda mais o "roteador" dos modelos MoE. O DeepSeek-V4 abriu um novo capítulo nesta história, e seu impacto será sentido tanto na engenharia de sistemas de IA quanto na economia do desenvolvimento de IA (modelos mais baratos e abertos para todos).
Em resumo, o DeepSeek-V4 é um triunfo do design de modelos esparsos – entregando proezas semelhantes ao GPT-5 através de um exército de especialistas, em vez de um monólito gigante. Isso destaca que a fronteira da IA não é mais apenas sobre quem tem mais dados ou pods TPU, mas também sobre arquitetura inteligente e abertura. Ao contrastar essa abordagem MoE com outros caminhos (como estratégias de aprendizado por reforço + memória em trabalhos futuros), uma coisa é clara: a corrida para AGI agora tem múltiplas rotas viáveis. E graças a inovações como o DeepSeek-V4, essa corrida está acelerando de forma aberta, econômica e extremamente empolgante.
Fontes:
· DeepSeek-AI, Relatório Técnico DeepSeek-V3, arXiv (2025) – Introduziu 671B-param MoE (37B ativo); treinamento estável em 14.8T tokens[18]. Demonstrou desempenho de modelo aberto comparável aos modelos fechados de nível GPT-4[2] com apenas 2.788M horas de treinamento H800[41].
· DeepSeek-AI, DeepSeekMoE: Especialização Suprema de Especialistas, arXiv (2024) – Propôs segmentação de especialistas em detalhes e especialistas compartilhados para resolver a sobreposição de MoE[12], permitindo especialistas m·K ativos (DeepSeekMoE 2B igualou o desempenho denso de 2B usando metade do processamento)[42]. Validação de escalonamento para 145B com ganhos substanciais sobre o GShard MoE.
· Joyce Birkins, Visão Geral dos Documentos Oficiais do DeepSeek, Medium (fev 2025) – Explicou a arquitetura do DeepSeek V2/V3. Observou o total de 671B do V3 vs 37B ativos (apenas ~5,5%)[11], uso de balanceamento de carga sem perda auxiliar[15], e 14 especialistas/token através da divisão de especialistas[13]. Destacou a estabilidade do V3 e o enorme salto de capacidade de código (30%+) em relação ao V2.5[22].
· Blog da Cerebras, Fundamentos de MoE: Modelos Esparsos (julho de 2025) – Discutiu por que a ativação <10% (como no DeepSeek) é uma característica para modelos em escala de trilhões[1]. Mostrou que mesmo 32 especialistas podem resultar em treinamento 3× mais rápido ou 5% de melhora na perda para o mesmo cálculo[43], e que o design de 256 especialistas do DeepSeek exemplifica essa eficiência[44]. Ilustrou como os MoEs superam os densos (Chinchilla-ótimo) com cálculo fixo[45].
· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nov 2025) – Comparados os modelos chineses mais recentes. Relatado o DeepSeek V3 com 89,3% em GSM8K e 61,6% em MATH, esperando que o V4 iguale/supere o GPT-5 em raciocínio matemático[3]. Observado que o Qwen 2.5-Max lidera os benchmarks de codificação com HumanEval de 92,7%[25], com DeepSeek V3 em 88,9%. Enfatizada a vantagem de custo do DeepSeek (código aberto, ~30× mais barato que o OpenAI)[46][47].
· Posts da comunidade Reddit DeepSeek (2025) – Destacou o custo do R1: “desempenho igual ao OpenAI-o1, a 1/27 do preço”[48]. Também foram notados rumores sobre a janela de contexto de 1M de tokens do V4 (não confirmados)[49] e o uso de “V3.2 sparse attention” como campo de testes para contexto longo antes do V4. O feedback da comunidade indica um custo de uso da API extremamente baixo (frações de centavo por milhão de tokens), permitindo conversas longas e indulgentes[50].
· Moonshot AI, Kimi K2 Thinking – Arquitetura e Desempenho (nov 2025) – Descreveu um modelo MoE contemporâneo de 1T-param. O K2 usa 256K de contexto, 1T no total com 32B ativado[5] e quantização INT4 para eficiência[51]. Demonstrou fortes capacidades de uso de ferramentas a longo prazo (200+ chamadas sequenciais) e benchmarks de agentes de última geração[52], demonstrando o potencial de combinar a escala MoE com loops de raciocínio agentes. O custo de treinamento do K2 ~$4.6M[20] exemplifica a nova acessibilidade do treinamento de trilhões de parâmetros.
[1] [10] [21] [33] [34] [43] [44] [45] Fundamentos do MoE: Por que Modelos Esparsos São o Futuro da IA
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] Relatório Técnico DeepSeek-V3
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: Os modelos de IA chineses superando o GPT-5 | Spectrum AI Labs
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] Relatório Semanal de IA Generativa | jax
[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Thinking: Planejamento de Longo Prazo com Contexto de 256K | por My Social | . | Nov, 2025 | Medium
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] Avaliação de benchmark dos modelos de linguagem grande do DeepSeek em ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] Visão Geral dos Artigos Oficiais do Deepseek 4: Deepseek MoE, MLA, MTP, Destilação | por Joyce Birkins | Medium
[12] [42] [2401.06066] DeepSeekMoE: Rumo à Especialização Final de Especialistas em Modelos de Linguagem de Mistura de Especialistas
https://arxiv.org/abs/2401.06066
[20] Kimi K2 Thinking: O Modelo de $4.6M Mudando Narrativas de IA
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] Deepseek V4. : r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/