DeepSeek-V4 MoE: Por Dentro da Revolução de 1 Trilhão de Parâmetros Open-Source

Autor: Boxu Li

Introdução: Levando Modelos Esparsos à Escala de Trilhões

DeepSeek-V4 tomou a comunidade de IA de assalto como o maior modelo de linguagem de Mistura de Especialistas (MoE) open-source até hoje. Um pré-print no arXiv detalhando este modelo de 1 trilhão de parâmetros explodiu online, destacando uma mudança de paradigma em como escalamos a IA. Diferente dos modelos densos que ativam todos os pesos para cada token, modelos MoE como o DeepSeek ativam apenas uma pequena fração de seus parâmetros de cada vez – tipicamente <10% por token[1]. Esta ativação esparsa é a característica que torna modelos com trilhões de parâmetros viáveis[1]. No caso do DeepSeek-V4, aproximadamente 32 bilhões de parâmetros (≈3% do total) são usados para qualquer token de entrada, aproveitando uma capacidade massiva com custos de computação muito menores do que um modelo denso igualmente grande.

Por que tanto alvoroço? Para começar, o DeepSeek-V4 é o maior modelo MoE de acesso aberto até agora, superando seus predecessores como o DeepSeek-V3 (671B params) e até rivalizando com modelos fechados em muitas tarefas[2]. Seu lançamento sob uma licença de código aberto permissiva significa que qualquer pessoa pode experimentar ou implantar um modelo na escala do GPT-5 – um desenvolvimento dramático em uma era onde os principais modelos são frequentemente proprietários. Além disso, os primeiros benchmarks sugerem que o DeepSeek-V4 oferece desempenho de ponta em domínios especializados como matemática e programação (onde a especialização de especialistas do MoE compensa), a uma fração do custo de modelos grandes anteriores[3][4]. Todos esses fatores combinados fizeram do DeepSeek-V4 uma sensação viral entre pesquisadores e engenheiros.

Maior Modelo MoE Aberto: Especificações Principais e Inovações

Para apreciar o DeepSeek-V4, é útil conhecer os principais detalhes técnicos e como ele se compara a outros modelos de ponta:

Modelo (2025)
Arquitetura
Parâmetros (Total / Ativo)
Janela de Contexto
Disponibilidade
DeepSeek-V4
MoE (Esparso, ~16 especialistas/token)
~1 trilhão / ~32 bilhões (est.)[5]
128K (estendida, rumores de até 1M)
Código aberto (licença MIT)[4]
Moonshot Kimi K2
MoE (Esparso)
1 trilhão / 32 bilhões[5]
256K[6]
Código aberto (licença MIT)
Alibaba Qwen3-Max
MoE (Esparso)
>1 trilhão / ~22 bilhões[7][8]
256K
Código aberto (Apache-2.0)
OpenAI GPT-5 (est.)
Denso (Totalmente Ativado)
~1.8 trilhões / ~1.8 trilhões (100% ativo)[9]
32K
Código fechado (proprietário)

Tabela: MoE de 1T-param do DeepSeek-V4 em contexto com modelos de próxima geração similares. “Ativo” refere-se aos parâmetros usados por token (os modelos MoE direcionam cada token por meio de um subconjunto de especialistas). Contexto = comprimento máximo da sequência que o modelo pode lidar.

Como mostrado acima, o DeepSeek-V4 junta-se a um clube seleto de modelos de trilhões de parâmetros ao lado de outros modelos chineses recentemente anunciados, como Kimi K2 e Qwen3-Max. Todos esses aproveitam arquiteturas MoE com portas esparsas para manter apenas dezenas de bilhões de parâmetros “ativos” de uma vez[5]. Em contraste, um modelo denso (como o GPT-5) precisaria usar todos os pesos a cada vez – uma abordagem que se torna proibitivamente cara além da escala de 500B–1T[10]. Notavelmente, o design do DeepSeek-V4 supostamente usa um caminho de 16 especialistas, significando que cada token é processado por até 16 sub-redes de especialistas em cada camada MoE, selecionados entre centenas de especialistas disponíveis. Este é um aumento substancial em relação aos modelos MoE anteriores (que frequentemente usavam os 2 ou 4 principais especialistas) e visa maximizar o poder expressivo do modelo através de rotas de especialistas mais especializadas.

Roteamento Esparso com uma Arquitetura de Caminho de 16 Especialistas

Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.

O DeepSeek-V4 baseia-se na arquitetura MoE comprovada do DeepSeek, que foi introduzida no V2/V3[11] e refinada através da série de pesquisas DeepSeekMoE. No seu núcleo, o modelo substitui as camadas de feed-forward padrão do Transformer por uma série de redes de especialistas paralelas. Para cada token recebido, um roteador de gating seleciona dinamicamente um punhado de especialistas mais adequados para processar o conteúdo desse token (por exemplo, alguns especialistas podem se especializar em código, outros em matemática, outros em sintaxe comum). Apenas essas redes de especialistas selecionadas são executadas para esse token, tornando a computação esparsa.

Crucialmente, o DeepSeek inovou no roteamento MoE para melhorar a especialização e utilização dos especialistas. A arquitetura DeepSeekMoE introduziu duas estratégias-chave[12]:

  • Segmentação Fina de Especialistas: Em vez de poucos especialistas massivos, o DeepSeek divide cada rede feed-forward em muitos especialistas menores (no V3, 256 especialistas por camada MoE). Isso permite ativar mais especialistas por token (m×K em vez de K) sem aumentar o custo por token[12]. Em MoEs anteriores como o GShard, um token poderia ir para os Top-2 especialistas; o DeepSeek V3 aumentou isso para efetivamente Top-14 segmentando especialistas em partes mais finas[13]. DeepSeek-V4 avança ainda mais – com um caminho de 16 especialistas, cada token envolve 16 especialistas em paralelo, proporcionando uma rica mistura de cálculos especializados. Mantendo cada especialista relativamente pequeno, o cálculo total por token permanece gerenciável mesmo com o crescimento dramático do número total de especialistas (e parâmetros totais)[12].
  • Especialistas “Generalistas” Compartilhados: O DeepSeek também designa um subconjunto de especialistas como especialistas compartilhados que sempre ativam para cada token[14]. Estes atuam como pools de conhecimento geral para lidar com padrões universais (linguagem comum, raciocínio geral), garantindo que cada token tenha algum processamento geral. Enquanto isso, os outros especialistas podem se concentrar em padrões complexos ou de nicho sem reaprender redundantemente o conhecimento básico[14]. Esta inovação mitiga o problema de “redundância de especialistas” onde múltiplos especialistas poderiam convergir para habilidades semelhantes. Ao isolar $K_s$ especialistas compartilhados para conhecimento comum, o DeepSeek-V4 pode dedicar os especialistas restantes puramente a domínios de conhecimento especializado[12].

A combinação de segmentação fina e especialistas compartilhados ajuda a evitar a sobreposição e o colapso de especialistas, um desafio notório em MoEs. Em MoEs tradicionais, se o roteador não for cuidadosamente gerenciado, pode superutilizar alguns especialistas e subtreinar outros (“colapso de rota”). DeepSeek-V3/V4 aborda isso com uma estratégia de roteamento de balanceamento de carga que não precisa de perda auxiliar[15]. Em vez do termo de perda extra usado no Switch Transformer para forçar a utilização de especialistas, o roteador do DeepSeek usa roteamento dinâmico com limites de capacidade adaptativos para equilibrar naturalmente a carga[16]. A estratégia sem perda auxiliar do V3 provou ser eficaz – o treinamento foi estável e todos os especialistas foram bem utilizados[17]. Podemos esperar que o V4 continue essa abordagem, permitindo um treinamento suave de centenas de especialistas sem colapso.

Em resumo, a arquitetura do DeepSeek-V4 exemplifica o design MoE de ponta: roteamento esparso de especialistas que expande massivamente a capacidade, um caminho de ativação com 16 especialistas para combinações mais ricas de expertise por token e técnicas personalizadas para garantir que os especialistas se especializem (via divisão detalhada e generalistas compartilhados) e treinem de forma robusta. É um modelo que “cresce em largura” através de especialistas em vez de “altura” através de camadas – uma estratégia de escalonamento fundamentalmente diferente da série GPT densa.

Eficiência de Custos: Treinamento e Inferência em Escala

Um dos aspectos mais atraentes do DeepSeek-V4 é sua eficiência de custos, tanto no treinamento quanto na implantação. Escalar para 1 trilhão de parâmetros pode parecer exorbitantemente caro, mas a computação esparsa do MoE mantém os custos reais muito mais baixos do que um modelo denso de trilhão de parâmetros.

  • Treinamento Computacional: A equipe da DeepSeek demonstrou repetidamente um treinamento econômico mesmo em grandes escalas. Por exemplo, o DeepSeek-V3 (671 bilhões de parâmetros) foi pré-treinado em 14,8 trilhões de tokens e ajustado com estágios supervisionados e RLHF por um custo total de treinamento de apenas 2,788 milhões de horas de GPU H800[18]. Isso é notavelmente baixo, considerando que modelos como o GPT-4 provavelmente consumiram dezenas de milhões de horas de GPU. O treinamento do DeepSeek-V3 também foi altamente estável, sem picos de perda ou reinicializações necessárias[17] – um feito impressionante para MoE, graças ao seu método de roteamento robusto. Embora as estatísticas exatas de treinamento do V4 ainda não sejam públicas, é provável que isso continue a tendência de escalabilidade eficiente. A vantagem do MoE é clara: você pode aumentar o total de parâmetros em 10×, mas pagar, digamos, apenas 2–3× mais em computação se mantiver a mesma fração ativada[10]. Análises da indústria observam que o MoE pode proporcionar um treinamento ~3× mais rápido com computação fixa para atingir uma perda alvo, em comparação com modelos densos, devido ao seu uso esparso[10].
  • Custo de Inferência e Uso: A DeepSeek ganhou destaque ao entregar desempenho equivalente ao GPT a uma pequena fração do custo de uso. O modelo anterior DeepSeek-R1 (a versão instrucional do V3) era 30× mais barato que o text-davinci (o1) da OpenAI no custo por token gerado[4]. Isso decorre diretamente da eficiência do MoE – no momento da inferência, o V4 apenas calcula uma passagem direta de ~30 bilhões de parâmetros por token, o que é muito mais fácil de executar do que uma passagem direta densa de 1 trilhão. Na prática, isso significa que mesmo um MoE de trilhões de parâmetros pode ser servido com clusters de GPU moderados ou até mesmo máquinas únicas para lotes menores, especialmente com implantações otimizadas. (Notavelmente, o modelo Kimi K2 de 1T da Moonshot roda com quantização de 4 bits para reduzir ainda mais as necessidades de memória/computação[19].) Usuários já relataram que a API da DeepSeek é extremamente acessível para consultas de grande contexto, possibilitando casos de uso que seriam proibitivos em APIs fechadas. O lançamento aberto também significa que as organizações podem hospedar o V4 internamente para evitar totalmente os custos de API. Essencialmente, DeepSeek-V4 oferece um “open GPT-5” talvez a centavos por dólar em comparação com a OpenAI – um grande ganho para a acessibilidade da IA.
  • Orçamento de Treinamento: Em termos absolutos, treinar um modelo de 1 trilhão de parâmetros não é mais reservado para gigantes da tecnologia. A eficiência do MoE, além de hardware cada vez mais poderoso, reduziu drasticamente a barreira. Por exemplo, a Moonshot AI teria treinado o Kimi K2 (1T MoE) por apenas $4,6 milhões em computação em nuvem[20]. Os custos da DeepSeek devem estar em uma faixa semelhante. Embora não seja barato, isso é ordens de magnitude menor do que o custo de treinar um modelo denso de capacidade comparável em 2025. Modelos esparsos estão efetivamente democratizando a IA em escala extrema, permitindo que startups e laboratórios acadêmicos experimentem em escalas de trilhões de parâmetros.

Em resumo, ao equilibrar inteligentemente a utilização total com a utilização esparsa, o DeepSeek-V4 atinge um desempenho quase no estado da arte com um cálculo drasticamente menor. Ele incorpora a promessa do MoE: “aumente o modelo, não o custo.” Essa eficiência é uma razão chave pela qual muitos especialistas veem as arquiteturas MoE como o futuro dos grandes modelos de IA[21][10].

Destaques de Desempenho: Forças Especializadas

Deixando o tamanho bruto de lado, o que o DeepSeek-V4 realmente pode fazer? Indicadores iniciais sugerem que ele se destaca em áreas onde a especialização de especialistas é mais benéfica – notavelmente raciocínio complexo (matemática, lógica) e programação – enquanto mantém fortes capacidades gerais comparáveis aos melhores modelos.

  • Matemática e Raciocínio: Os modelos DeepSeek ganharam reputação por seu excelente raciocínio matemático. O DeepSeek-V3 alcançou 89,3% no GSM8K (matemática de nível escolar) e 61,6% no benchmark MATH (matemática de nível de competição)[3] – resultados que rivalizam com o GPT-4 e outros modelos de ponta. Isso foi atribuído a um modo especial de treinamento “pensante” e especialistas MoE focados em habilidades matemáticas. Espera-se que o DeepSeek-V4 alcance ou supere o nível do GPT-5 em tarefas de raciocínio matemático[3], essencialmente fechando a lacuna com os modelos fechados mais recentes nesse domínio. Tal desempenho forte em problemas de matemática e lógica passo a passo é significativo, pois essas tarefas se beneficiam da abordagem de mistura de especialistas (por exemplo, alguns especialistas podem internalizar álgebra, outros geometria, etc., dividindo o espaço do problema). Em termos práticos, para qualquer aplicação que exija cálculos complexos ou raciocínio simbólico, o V4 seria uma escolha de destaque.
  • Codificação e Depuração: O MoE também impulsionou as habilidades de codificação. Entre o DeepSeek V2.5 e o V3, o desempenho na geração de código saltou de 17,8% para 48,4% no benchmark interno deles[22] – um ganho absoluto de cerca de 30%, em grande parte devido ao aumento do número de especialistas e ao treinamento. Embora as métricas específicas de codificação do V4 ainda não tenham sido publicadas, é provável que continue nessa trajetória ascendente. Modelos MoE concorrentes como o Kimi K2 relatam pontuações de raciocínio de código de última geração (cerca de 71% em um benchmark de código de múltiplas etapas desafiador)[23][24], indicando que modelos esparsos agora estão liderando em inteligência relacionada à codificação. O DeepSeek-V4 foi posicionado como um modelo ideal para casos de uso de “assistente de codificação por IA 2025”[25][26]. Sua capacidade de manter um contexto de 256K ou maior significa que ele pode ingerir bases de código inteiras ou vários arquivos e raciocinar sobre eles de forma holística – algo que o GPT-4 (32K máx.) tem dificuldade. Os usuários podem esperar uma geração de código mais confiável, melhores sugestões de depuração e melhor manejo de tarefas longas e complexas de codificação em comparação com modelos abertos anteriores[27][28].
  • Conhecimento Geral e Benchmarks: Em benchmarks amplos de PNL e conhecimento, espera-se que o DeepSeek-V4 tenha um desempenho equivalente a outros modelos de ponta. O DeepSeek-V3 já superou outros LLMs de código aberto e foi comparável aos principais modelos fechados em muitas avaliações[2]. A capacidade extra e o ajuste fino do V4 só devem melhorar isso. Provavelmente compete de perto com contemporâneos como Qwen-3 (que lidera em tarefas chinesas e multilíngues) e Claude 3.5, enquanto se aproxima do GPT-4/GPT-5 em benchmarks principais em inglês. Uma vantagem notável é a janela de contexto extremamente grande do V4 (relatadamente 128K tokens ou mais). Isso possibilita casos de uso como a ingestão de longos artigos de pesquisa, contratos extensos ou planejamento de agentes em várias etapas. Por exemplo, o contexto de 256K do Qwen-3 foi demonstrado para lidar com repositórios de código inteiros e diálogos longos[29]; espera-se que o DeepSeek-V4 ofereça comprimento de contexto semelhante ou maior, beneficiando enormemente tarefas que envolvem referência cruzada ou raciocínio sobre documentos longos.
  • Alinhamento Humano e Utilidade: Com o R1, o DeepSeek mostrou que pode ajustar modelos para serem úteis e inofensivos para usuários gerais, alcançando paridade com o modelo inicial GPT-4o da OpenAI em alinhamento, sendo muito mais barato[4]. Podemos esperar um DeepSeek-R2 (a versão ajustada por instrução do V4) a ser lançado ou em desenvolvimento, que provavelmente passará por Aprendizado de Reforço com Feedback Humano (RLHF) para refinar seus resultados. A licença MIT aberta e o desempenho forte já levaram o DeepSeek-R1 a ser integrado em muitas plataformas (desde o Microsoft Azure até o Hugging Face e assistentes locais)[30][31]. Se o V4 mantiver esse ethos aberto e adaptável, rapidamente se propagará pelo ecossistema também – de chatbots a ferramentas de produtividade – fornecendo uma alternativa gratuita viável aos modelos fechados para uma ampla gama de aplicações.

Em resumo, o DeepSeek-V4 parece aproveitar os pontos fortes do MoE: é um mago da matemática, um programador competente e uma IA conversacional sólida e completa. Ele pode não superar vastamente modelos como o GPT-5 em todas as tarefas (o GPT-5 ainda pode ter vantagem em algumas áreas “generalistas” ou de compreensão multimodal[32]), mas o V4 pode reivindicar liderança ou um segundo lugar próximo em vários domínios-chave, tudo enquanto sendo mais acessível. Para muitos casos de uso específicos – especialmente aqueles que exigem um grande contexto ou raciocínio específico de domínio – ele oferece uma combinação imbatível de alto desempenho e baixo custo.

Implicações e Perspectivas

A estreia do DeepSeek-V4 sinaliza mais do que apenas a conquista de uma empresa – representa uma mudança mais ampla em direção a modelos especialistas esparsos no futuro da IA. Como uma análise colocou, “para alcançar modelos com trilhões de parâmetros que sejam treináveis e implementáveis, a esparsidade através de MoE está se tornando a única abordagem viável.”[10] O DeepSeek provou isso ao entregar um modelo em escala de trilhões que a comunidade realmente pode usar. A escalabilidade densa tradicional (apenas aumentar o modelo e forçar sua utilização) está enfrentando severos retornos decrescentes e barreiras de custo[33][34]. Modelos esparsos como o DeepSeek-V4 apontam um caminho adiante onde podemos continuar expandindo as capacidades da IA sem explodir proporcionalmente os requisitos de computação.

Do ponto de vista do mercado, modelos chineses abertos agora estão rivalizando com os melhores laboratórios ocidentais. DeepSeek-V4 e seus pares (Qwen3, Kimi K2) têm sido comparados diretamente ao GPT-5 tanto na mídia quanto em benchmarks[35][36]. Eles frequentemente superam modelos da classe GPT-4 em áreas especializadas (codificação, raciocínio) e o fazem a uma fração do preço[37][38]. Isso está forçando um repensar competitivo: OpenAI e outros podem sentir pressão para incorporar técnicas MoE ou reduzir drasticamente seus custos. Para usuários finais e desenvolvedores, é uma grande vitória – temos mais opções do que nunca na vanguarda da IA, e muitas dessas opções são de código aberto e acessíveis. O ritmo de inovação no ecossistema de IA da China impulsionado por modelos como o DeepSeek é notável; está reduzindo custos e aumentando o desempenho, beneficiando a comunidade global.

Finalmente, vale notar que a abordagem do DeepSeek-V4 contrasta com outro caminho emergente: aprendizado por reforço + modelos com memória aumentada. A estratégia MoE expande a capacidade do modelo (parâmetros) e depende do roteamento para lidar com a complexidade, enquanto algumas outras pesquisas estão focando em aprimorar a capacidade do modelo através de ferramentas externas, memória de longo prazo ou ciclos de raciocínio semelhantes a agentes. Por exemplo, modelos como Kimi K2 “Thinking” incorporam o uso de ferramentas e um ciclo agente com um contexto de 256K para alcançar um planejamento de longo alcance notável[5][39]. Da mesma forma, sistemas futuros estão explorando módulos de memória explícita ou recuperação neural para permitir que modelos menores superem modelos maiores ao buscar informações. A filosofia do DeepSeek até agora tem sido embutir o máximo de conhecimento possível nos parâmetros do modelo (e, de fato, o V4 pode integrar algum pensamento em múltiplas etapas em seu ajuste fino). Ambas as abordagens – expansão via MoE e aprimoramento via memória/RL – são complementares. Em breve, podemos ver híbridos que combinam redes MoE massivas com memória dinâmica ou interfaces de ferramentas. De qualquer forma, o sucesso do V4 estabelece um alto padrão: qualquer abordagem alternativa deve medir-se em termos de desempenho e eficiência para ser levada a sério.

Conclusão

DeepSeek-V4 MoE representa um marco no desenvolvimento de IA – um modelo aberto com 1 trilhão de parâmetros que realiza a promessa do MoE de “crescer e permanecer eficiente”. Ele demonstra que modelos de especialistas esparsos podem alcançar resultados de ponta em tarefas desafiadoras, frequentemente superando modelos densos que são muito mais caros de treinar e executar. Ao disponibilizar o V4 como código aberto sob a licença MIT, a DeepSeek-AI garantiu que essa inovação seja amplamente acessível, estimulando o desenvolvimento de pesquisas e aplicações em todo o mundo. A recepção viral do modelo online é um testemunho do entusiasmo da comunidade: estamos testemunhando o fechamento da lacuna de qualidade entre modelos abertos e os melhores modelos fechados, e em alguns nichos, os modelos abertos estão avançando[40][38].

Olhando para o futuro, as técnicas pioneiras no DeepSeek-V4 – desde o roteamento de 16 especialistas até o balanceamento sem auxiliares – provavelmente influenciarão muitas arquiteturas futuras. Como pesquisadores de IA, agora temos evidências de que ampliar a largura (especialistas) pode ser tão poderoso quanto ampliar a profundidade ou os dados, se não mais, para certos problemas. Enquanto isso, os próximos desafios estão se delineando: como manter a coerência em contextos de milhões de tokens, como integrar aprendizado ou memória em tempo real e como melhorar ainda mais o "roteador" dos modelos MoE. O DeepSeek-V4 abriu um novo capítulo nesta história, e seu impacto será sentido tanto na engenharia de sistemas de IA quanto na economia do desenvolvimento de IA (modelos mais baratos e abertos para todos).

Em resumo, o DeepSeek-V4 é um triunfo do design de modelos esparsos – entregando proezas semelhantes ao GPT-5 através de um exército de especialistas, em vez de um monólito gigante. Isso destaca que a fronteira da IA não é mais apenas sobre quem tem mais dados ou pods TPU, mas também sobre arquitetura inteligente e abertura. Ao contrastar essa abordagem MoE com outros caminhos (como estratégias de aprendizado por reforço + memória em trabalhos futuros), uma coisa é clara: a corrida para AGI agora tem múltiplas rotas viáveis. E graças a inovações como o DeepSeek-V4, essa corrida está acelerando de forma aberta, econômica e extremamente empolgante.

Fontes:

·      DeepSeek-AI, Relatório Técnico DeepSeek-V3, arXiv (2025) – Introduziu 671B-param MoE (37B ativo); treinamento estável em 14.8T tokens[18]. Demonstrou desempenho de modelo aberto comparável aos modelos fechados de nível GPT-4[2] com apenas 2.788M horas de treinamento H800[41].

·      DeepSeek-AI, DeepSeekMoE: Especialização Suprema de Especialistas, arXiv (2024) – Propôs segmentação de especialistas em detalhes e especialistas compartilhados para resolver a sobreposição de MoE[12], permitindo especialistas m·K ativos (DeepSeekMoE 2B igualou o desempenho denso de 2B usando metade do processamento)[42]. Validação de escalonamento para 145B com ganhos substanciais sobre o GShard MoE.

· Joyce Birkins, Visão Geral dos Documentos Oficiais do DeepSeek, Medium (fev 2025) – Explicou a arquitetura do DeepSeek V2/V3. Observou o total de 671B do V3 vs 37B ativos (apenas ~5,5%)[11], uso de balanceamento de carga sem perda auxiliar[15], e 14 especialistas/token através da divisão de especialistas[13]. Destacou a estabilidade do V3 e o enorme salto de capacidade de código (30%+) em relação ao V2.5[22].

·      Blog da Cerebras, Fundamentos de MoE: Modelos Esparsos (julho de 2025) – Discutiu por que a ativação <10% (como no DeepSeek) é uma característica para modelos em escala de trilhões[1]. Mostrou que mesmo 32 especialistas podem resultar em treinamento 3× mais rápido ou 5% de melhora na perda para o mesmo cálculo[43], e que o design de 256 especialistas do DeepSeek exemplifica essa eficiência[44]. Ilustrou como os MoEs superam os densos (Chinchilla-ótimo) com cálculo fixo[45].

·      Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nov 2025) – Comparados os modelos chineses mais recentes. Relatado o DeepSeek V3 com 89,3% em GSM8K e 61,6% em MATH, esperando que o V4 iguale/supere o GPT-5 em raciocínio matemático[3]. Observado que o Qwen 2.5-Max lidera os benchmarks de codificação com HumanEval de 92,7%[25], com DeepSeek V3 em 88,9%. Enfatizada a vantagem de custo do DeepSeek (código aberto, ~30× mais barato que o OpenAI)[46][47].

· Posts da comunidade Reddit DeepSeek (2025) – Destacou o custo do R1: “desempenho igual ao OpenAI-o1, a 1/27 do preço”[48]. Também foram notados rumores sobre a janela de contexto de 1M de tokens do V4 (não confirmados)[49] e o uso de “V3.2 sparse attention” como campo de testes para contexto longo antes do V4. O feedback da comunidade indica um custo de uso da API extremamente baixo (frações de centavo por milhão de tokens), permitindo conversas longas e indulgentes[50].

·      Moonshot AI, Kimi K2 Thinking – Arquitetura e Desempenho (nov 2025) – Descreveu um modelo MoE contemporâneo de 1T-param. O K2 usa 256K de contexto, 1T no total com 32B ativado[5] e quantização INT4 para eficiência[51]. Demonstrou fortes capacidades de uso de ferramentas a longo prazo (200+ chamadas sequenciais) e benchmarks de agentes de última geração[52], demonstrando o potencial de combinar a escala MoE com loops de raciocínio agentes. O custo de treinamento do K2 ~$4.6M[20] exemplifica a nova acessibilidade do treinamento de trilhões de parâmetros.


[1] [10] [21] [33] [34] [43] [44] [45] Fundamentos do MoE: Por que Modelos Esparsos São o Futuro da IA

https://www.cerebras.ai/blog/moe-guide-why-moe

[2] [17] [18] [41] [2412.19437] Relatório Técnico DeepSeek-V3

https://arxiv.org/abs/2412.19437

[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: Os modelos de IA chineses superando o GPT-5 | Spectrum AI Labs

https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5

[4] [7] [22] [30] [31] [48] Relatório Semanal de IA Generativa | jax

https://cdjax.com/?p=680

[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Thinking: Planejamento de Longo Prazo com Contexto de 256K | por My Social | . | Nov, 2025 | Medium

https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72

[9] Avaliação de benchmark dos modelos de linguagem grande do DeepSeek em ...

https://www.nature.com/articles/s41591-025-03727-2

[11] [13] [14] [15] [16] Visão Geral dos Artigos Oficiais do Deepseek 4: Deepseek MoE, MLA, MTP, Destilação | por Joyce Birkins | Medium

https://medium.com/@joycebirkins/deepseek-4-official-papers-overview-deepseek-moe-mla-mtp-distillation-49a97b3b90a8

[12] [42] [2401.06066] DeepSeekMoE: Rumo à Especialização Final de Especialistas em Modelos de Linguagem de Mistura de Especialistas

https://arxiv.org/abs/2401.06066

[20] Kimi K2 Thinking: O Modelo de $4.6M Mudando Narrativas de IA

https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting

[49] [50] Deepseek V4. : r/DeepSeek

https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron