
May-akda: Boxu L
DeepSeek-V4 ay sumiklab sa AI community bilang pinakamalaking open Mixture-of-Experts (MoE) language model sa kasalukuyan. Isang arXiv preprint na nagdedetalye ng modelong ito na may 1 trilyon-parameter ang nag-viral online, na nagtatampok ng isang paradigm shift sa paraan ng pag-scale ng AI. Hindi tulad ng dense models na ina-activate ang lahat ng weights para sa bawat token, ang MoE models tulad ng DeepSeek ay nag-aactivate lamang ng maliit na bahagi ng kanilang mga parameters sa bawat pagkakataon – karaniwang <10% per token[1]. Ang sparse activation na ito ay ang tampok na nagiging posible ang trillion-parameter models[1]. Sa kaso ng DeepSeek-V4, humigit-kumulang 32 bilyong parameters (≈3% ng kabuuan) ang ginagamit para sa anumang ibinigay na input token, na nagbibigay-daan sa malaking kapasidad na may mas mababang gastos sa pag-compute kumpara sa isang kasing-laking dense model.
Bakit nga ba ito pinag-uusapan? Una, ang DeepSeek-V4 ang pinakamalaking open-access MoE model ngayon, na nilalampasan ang mga nauna tulad ng DeepSeek-V3 (671B params) at kahit na lumalaban sa mga closed models sa maraming gawain[2]. Ang pagpapalabas nito sa ilalim ng isang permisibong open-source na lisensya ay nangangahulugan na kahit sino ay maaaring mag-eksperimento o mag-deploy ng model sa scale ng GPT-5 – isang dramatikong pag-unlad sa isang panahon kung saan ang mga nangungunang modelo ay kadalasang proprietary. Bukod pa rito, ang mga unang benchmark ay nagpapahiwatig na ang DeepSeek-V4 ay nagbibigay ng makabagong pagganap sa mga espesyal na larangan tulad ng math at coding (kung saan ang espesyal na kakayahan ng MoE ay nagbubunga), sa mas mababang gastos kumpara sa mga nakaraang malalaking modelo[3][4]. Ang lahat ng mga faktor na ito ay pinagsama-samang nagpasikat sa DeepSeek-V4 sa mga mananaliksik at inhinyero.
Para ma-appreciate ang DeepSeek-V4, makakatulong na malaman ang mga pangunahing teknikal na detalye at kung paano ito ikinukumpara sa iba pang frontier na modelo:
Table: DeepSeek-V4’s 1T-param MoE sa konteksto ng mga katulad na susunod na henerasyong modelo. Ang “Active” ay tumutukoy sa mga parameter na ginagamit kada token (Ang mga MoE na modelo ay nagruruta ng bawat token sa isang subset ng mga eksperto). Ang Konteksto = pinakamahabang haba ng sequence na kayang hawakan ng modelo.
Tulad ng ipinapakita sa itaas, ang DeepSeek-V4 ay sumali sa isang elite na grupo ng mga modelong may trilyon na parameter kasama ng iba pang kamakailang inanunsyong mga modelong Tsino tulad ng Kimi K2 at Qwen3-Max. Ang lahat ng mga ito ay gumagamit ng sparsely-gated MoE na mga arkitektura upang panatilihing aktibo ang mga sampu-sampung bilyong parameter lamang sa isang pagkakataon[5]. Sa kabaligtaran, ang isang dense na modelo (tulad ng GPT-5) ay kailangang gamitin lahat ng timbang sa bawat oras – isang pamamaraan na nagiging sobrang magastos sa labas ng 500B–1T na saklaw[10]. Kapansin-pansin, ang disenyo ng DeepSeek-V4 ay sinasabing gumagamit ng isang 16-expert pathway, ibig sabihin bawat token ay pinoproseso ng hanggang 16 na expert subnetworks sa bawat MoE layer, na pinipili mula sa daan-daang magagamit na eksperto. Ito ay isang malaking pagtaas mula sa mga naunang MoE na modelo (na madalas gumagamit ng Top-2 o Top-4 na eksperto) at naglalayong palakasin ang kapangyarihang magpahayag ng modelo sa pamamagitan ng mas detalyadong mga ruta ng espesyalista.
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
Ang DeepSeek-V4 ay nakabatay sa napatunayang MoE architecture ng DeepSeek na ipinakilala sa V2/V3 at pinino sa pamamagitan ng seryeng pananaliksik ng DeepSeekMoE. Sa kanyang core, pinalitan ng modelo ang karaniwang Transformer feed-forward layers ng isang hanay ng mga parallel expert networks. Para sa bawat papasok na token, isang gating router ang dinamikong pumipili ng ilang eksperto na pinakamahusay na angkop sa pagproseso ng nilalaman ng token na iyon (halimbawa, ang ilang eksperto ay maaaring mag-specialize sa code, ang iba sa matematika, at ang iba sa karaniwang syntax). Tanging ang mga napiling expert networks lamang ang isinasagawa para sa token na iyon, na ginagawang sparse ang computation.
Mahalaga, ang DeepSeek ay nag-innovate sa MoE routing upang mapabuti ang espesyalisasyon at paggamit ng eksperto. Ang DeepSeekMoE na arkitektura ay nagpakilala ng dalawang pangunahing estratehiya[12]:
Ang kombinasyon ng pinong segmentasyon at ibinahaging eksperto ay tumutulong upang maiwasan ang pag-overlap at pagbagsak ng eksperto, isang kilalang hamon sa MoEs. Sa tradisyonal na MoEs, kung hindi maingat na pinamamahalaan ang router, maaari itong mag-overuse ng ilang eksperto at hindi ma-train nang sapat ang iba (“route collapse”). Ang DeepSeek-V3/V4 ay tinutugunan ito gamit ang isang load-balancing routing strategy na hindi nangangailangan ng auxiliary loss[15]. Sa halip na ang karagdagang loss term na ginagamit sa Switch Transformer upang pilitin ang paggamit ng eksperto, ang router ng DeepSeek ay gumagamit ng dynamic routing na may adaptive capacity limits upang natural na balansehin ang load[16]. Ang auxiliary-loss-free strategy ng V3 ay napatunayang epektibo – ang pag-train ay naging matatag at ang lahat ng eksperto ay nanatiling mahusay na nagagamit[17]. Inaasahan natin na ipagpapatuloy ng V4 ang pamamaraang ito, na nagbibigay-daan sa isang maayos na pag-train ng daan-daang eksperto nang hindi bumabagsak.
Sa kabuuan, ang arkitektura ng DeepSeek-V4 ay nagpapakita ng pinakamodernong disenyo ng MoE: sparse expert routing na lubos na nagpapalawak ng kapasidad, isang 16-expert activation pathway para sa mas mayamang kombinasyon ng kaalaman kada token, at mga espesyal na teknik upang matiyak na ang mga eksperto ay magpakadalubhasa (sa pamamagitan ng masusing paghahati at mga generalist na pinagsasaluhan) at sanayin nang matatag. Ito ay isang modelo na “lumalapad” sa pamamagitan ng mga eksperto sa halip na “tumataas” sa pamamagitan ng mga layer – isang pangunahing naiibang estratehiya ng pag-scale kaysa sa dense na serye ng GPT.
Isa sa mga pinaka-kapani-paniwalang aspeto ng DeepSeek-V4 ay ang kanyang kahusayan sa gastos, kapwa sa pagsasanay at pag-deploy. Ang pag-scale sa 1 trilyong parameter ay maaaring mukhang labis na mahal, ngunit ang sparse computation ng MoE ay pinapanatili ang aktwal na mga gastos na mas mababa kaysa sa isang dense na trilyong-param model.
Sa kabuuan, sa pamamagitan ng matalinong pag-trade off ng buong paggamit para sa mas kaunting paggamit, ang DeepSeek-V4 ay nakakamit ng halos state-of-the-art na performance na may mas mababang computation. Isinasabuhay nito ang pangako ng MoE: “palakihin ang modelo, hindi ang gastos.” Ang kahusayan na ito ay isang pangunahing dahilan kung bakit maraming eksperto ang nakikita ang MoE architectures bilang kinabukasan ng malalaking AI models[21][10].
Bukod sa hilaw na laki, ano ang kayang gawin ng DeepSeek-V4? Ang mga unang indikasyon ay nagpapakita na ito ay mahusay sa mga lugar kung saan ang ekspertong espesyalisasyon ay pinaka-kapaki-pakinabang – partikular sa masalimuot na pag-iisip (math, lohika) at pag-coding – habang pinapanatili ang matibay na pangkalahatang kakayahan na kapantay ng pinakamahusay na mga modelo.
Sa madaling salita, ang DeepSeek-V4 ay tila nagpapakita ng lakas ng MoE: ito ay isang wizard sa math, isang mahusay na coder, at isang solidong pangkalahatang conversational AI. Maaaring hindi nito lubos na nalalampasan ang mga modelo tulad ng GPT-5 sa bawat gawain (maaari pa ring magkaroon ng bentahe ang GPT-5 sa ilang “generalist” na area o multimodal na pag-unawa), ngunit ang V4 ay maaaring mag-angkin ng pamumuno o malapit na pangalawa sa ilang mahahalagang larangan, habang mas madaling ma-access. Para sa maraming tiyak na mga kaso ng paggamit – lalo na ang mga nangangailangan ng malaking konteksto o pang-domains na pangangatwiran – ito'y nag-aalok ng hindi matatawarang kombinasyon ng mataas na pagganap at mababang gastos.
Ang paglabas ng DeepSeek-V4 ay nagmumungkahi ng higit pa sa tagumpay ng isang kumpanya - ito ay kumakatawan sa mas malawak na pagbabago patungo sa mga sparse na expert models sa hinaharap ng AI. Ayon sa isang pagsusuri, “upang maabot ang trillion-parameter models na maaaring sanayin at i-deploy, ang sparsity sa pamamagitan ng MoE ay nagiging tanging praktikal na paraan.”[10] Pinatunayan ito ng DeepSeek sa pamamagitan ng paghahatid ng isang trillion-scale na modelo na talagang magagamit ng komunidad. Ang tradisyunal na dense scaling (dagdagan lang ang laki ng modelo at i-brute-force ito) ay nahaharap sa matinding pagbaba ng mga benepisyo at mga hadlang sa gastos[33][34]. Ang mga sparse na modelo tulad ng DeepSeek-V4 ay nagmumungkahi ng isang paraan pasulong kung saan maaari nating patuloy na palawakin ang mga kakayahan ng AI nang hindi proporsyonal na tumataas ang mga kinakailangan sa compute.
Mula sa perspektiba ng merkado, ang mga bukas na modelo ng Tsino ay nakikipagpaligsahan na sa pinakamahusay ng mga kanluraning laboratoryo. Ang DeepSeek-V4 at ang mga ka-uri nito (Qwen3, Kimi K2) ay direktang inihahambing sa GPT-5 sa parehong media at mga benchmark. Sila ay madalas na mas mahusay kaysa sa mga modelo ng GPT-4-class sa mga espesyal na larangan (pag-coding, pangangatwiran) at ginagawa ito sa mas mababang presyo. Ito ay nagiging sanhi ng isang mapagkumpitensyang pag-iisip: Ang OpenAI at iba pa ay maaaring makaramdam ng presyon na isama ang mga teknik ng MoE o lubhang babaan ang kanilang mga gastos. Para sa mga end user at developer, ito ay isang malaking panalo – mas marami tayong pagpipilian kaysa dati sa pinakabagong teknolohiya ng AI, at marami sa mga pagpipilian na iyon ay open-source at abot-kaya. Ang bilis ng inobasyon sa ekosistema ng AI ng Tsina na pinasisigla ng mga modelong tulad ng DeepSeek ay kamangha-mangha; ito ay nagpapababa ng mga gastos at nagtutulak ng pagtaas sa pagganap, na nakikinabang sa pandaigdigang komunidad.
Sa wakas, mahalagang banggitin na ang pamamaraan ng DeepSeek-V4 ay kabaligtaran sa isang umuusbong na landas: reinforcement learning + mga modelong may memory-augmentasyon. Ang estratehiyang MoE ay nagpapalawak ng kapasidad ng modelo (mga parameter) at umaasa sa pag-routing upang pamahalaan ang kumplikado, samantalang ang ilang pananaliksik ay nakatuon sa pagpapahusay ng kakayahan ng modelo sa pamamagitan ng mga panlabas na kasangkapan, long-term memory, o paraang agent-like reasoning loops. Halimbawa, ang mga modelo tulad ng Kimi K2 “Thinking” ay nagsasama ng paggamit ng mga kasangkapan at isang agentic loop na may 256K na konteksto upang makamit ang kahanga-hangang long-horizon planning[5][39]. Sa parehong paraan, ang mga paparating na sistema ay nagsasaliksik ng mga explicit memory modules o neural retrieval upang hayaan ang mas maliliit na mga modelo na mapagtagumpayan ang mas malalaki sa pamamagitan ng paghanap ng impormasyon. Ang pilosopiya ng DeepSeek sa ngayon ay ilagay ang mas maraming kaalaman hangga't maaari sa mga parameter ng modelo (at sa katunayan, ang V4 ay maaaring isama ang ilang multi-step thinking sa kanyang fine-tuning). Ang parehong mga pamamaraan – scaling sa pamamagitan ng MoE at pagpapahusay sa pamamagitan ng memory/RL – ay komplementaryo. Maaaring makakita tayo ng mga hybrid na pinagsasama ang malalaking MoE network sa dynamic memory o mga interface ng kasangkapan. Sa anumang kaso, ang tagumpay ng V4 ay nagtakda ng mataas na benchmark: ang anumang alternatibong pamamaraan ay dapat sukatin sa kanyang pagganap at kahusayan upang seryosohin.
DeepSeek-V4 MoE ay nagtatayo ng isang mahalagang tagumpay sa pag-unlad ng AI – isang modelo na may 1-trilyong parameter na nagbibigay katuparan sa pangako ng MoE na “lumaki at manatiling mahusay.” Ipinapakita nito na ang mga sparse expert models ay maaaring makamit ang pinaka-advanced na resulta sa mga mahihirap na gawain, madalas na nalalampasan ang mas mahal na dense models na matrabaho ang pagsasanay at pagpapatakbo. Sa pamamagitan ng open-sourcing ng V4 sa ilalim ng MIT license, tinitiyak ng DeepSeek-AI na ang tagumpay na ito ay malawak na ma-access, nag-uudyok ng pandaigdigang pananaliksik at pag-unlad ng aplikasyon. Ang viral na pagtanggap ng modelo sa online ay patunay sa kasiyahan ng komunidad: nasasaksihan natin ang pagsasara ng puwang ng kalidad sa pagitan ng mga open models at ng pinakamahusay na closed models, at sa ilang mga niche, ang open models ay nauuna na[40][38].
Sa hinaharap, ang mga teknik na pinaunlad sa DeepSeek-V4 – mula sa 16-expert routing hanggang sa auxiliary-free balancing – ay malamang na makaimpluwensya sa maraming arkitektura sa hinaharap. Bilang mga mananaliksik ng AI, mayroon na tayong ebidensya na ang pag-scale ng lapad (mga eksperto) ay maaaring kasing-lakas ng pag-scale ng lalim o data, kung hindi man higit pa, para sa ilang mga problema. Samantala, ang mga susunod na hamon ay nagiging mas malinaw: paano mapanatili ang pagkapare-pareho sa mga konteksto ng milyon-token, paano isama ang real-time na pag-aaral o memorya, at paano pa mapabuti ang “router” utak ng mga modelo ng MoE. Binuksan ng DeepSeek-V4 ang isang bagong kabanata sa kwentong ito, at ang epekto nito ay madarama sa parehong engineering ng mga sistema ng AI at sa ekonomiya ng AI deployment (mas mura, mas bukas na mga modelo para sa lahat).
Sa kabuuan, ang DeepSeek-V4 ay isang tagumpay ng sparse model design – nagbibigay ng kapangyarihan na parang GPT-5 sa pamamagitan ng hukbo ng mga eksperto, sa halip na isang higanteng monolith. Ipinapakita nito na ang hangganan ng AI ay hindi na lamang tungkol sa kung sino ang may mas maraming data o TPU pods, kundi pati na rin sa matalinong arkitektura at pagiging bukas. Habang ikinukumpara natin ang pamamaraang MoE na ito sa iba pang landas (tulad ng reinforcement learning + memory strategies sa paparating na mga gawain), malinaw ang isang bagay: ang karera patungo sa AGI ay ngayon ay may maraming posibleng ruta. At salamat sa mga inobasyon tulad ng DeepSeek-V4, ang karerang iyon ay bumibilis sa isang bukas, matipid, at lubhang kapana-panabik na paraan.
Mga Pinagmulan:
· DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv (2025) – Ipinakilala ang 671B-param MoE (37B aktibo); matatag na pagsasanay sa 14.8T tokens[18]. Ipinakita ang open-model na performance na kapantay ng closed GPT-4-level models[2] na may lamang 2.788M H800-oras ng pagsasanay[41].
· DeepSeek-AI, DeepSeekMoE: Ultimate Expert Specialization, arXiv (2024) – Nagmungkahi ng detalyadong segmentasyon ng eksperto at shared experts para lutasin ang MoE overlap[12], na nagpapagana ng m·K na eksperto na aktibo (DeepSeekMoE 2B na tumugma sa dense 2B na pagganap gamit ang 1/2 ng compute)[42]. Napatunayan ang scaling sa 145B na may malaking pag-unlad kumpara sa GShard MoE.
· Joyce Birkins, DeepSeek Official Papers Overview, Medium (Pebrero 2025) – Ipinapaliwanag ang arkitektura ng DeepSeek V2/V3. Nabigyang-diin ang V3’s 671B kabuuang vs 37B aktibo (tanging ~5.5%)[11], paggamit ng aux-loss-free na pagbalanse ng load[15], at 14 experts/token gamit ang paghahati ng eksperto[13]. Binanggit ang katatagan ng V3 at malaking pagtalon sa kakayahan ng code (30%+) kumpara sa V2.5[22].
· Cerebras Blog, MoE Fundamentals: Sparse Models (Hulyo 2025) – Tinalakay kung bakit ang <10% activation (tulad sa DeepSeek) ay isang tampok para sa trillion-scale models[1]. Ipinakita na kahit 32 na eksperto ay maaaring magdulot ng 3× na mas mabilis na pagsasanay o 5% na mas magandang pagkawala para sa parehong compute[43], at ang disenyo ng 256 na eksperto ng DeepSeek ay nagpapakita ng kahusayan na ito[44]. Ipinakita kung paano mas mahusay ang MoEs kumpara sa dense (Chinchilla-optimal) sa nakatakdang compute[45].
· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nob 2025) – Inihambing ang pinakabagong mga modelong Tsino. Iniulat ang DeepSeek V3 na may 89.3% GSM8K at 61.6% MATH, inaasahang ang V4 ay tatapat/lalampas sa GPT-5 sa kakayahan sa math na pangangatwiran[3]. Napansin ang HumanEval ng Qwen 2.5-Max na may 92.7% na nangunguna sa mga benchmark ng coding[25], habang ang DeepSeek V3 ay nasa 88.9%. Binibigyang-diin ang kalamangan sa gastos ng DeepSeek (open-source, ~30× mas mura kaysa sa OpenAI)[46][47].
· Mga post ng komunidad ng Reddit DeepSeek (2025) – Itinampok ang gastos ng R1: “kahusayan na katumbas ng OpenAI-o1, sa 1/27 na presyo”[48]. Nabanggit din ang mga usap-usapan tungkol sa 1M token context window ng V4 (hindi pa kumpirmado)[49] at ang paggamit ng “V3.2 sparse attention” bilang testbed para sa mahabang konteksto bago ang V4. Ang feedback mula sa komunidad ay nagpapahiwatig ng sobrang mababang gastos sa paggamit ng API (bahagi ng sentimo bawat milyon tokens) na nagbibigay-daan sa mas mahahabang pag-uusap na walang alalahanin[50].
· Moonshot AI, Kimi K2 Thinking – Arkitektura at Pagganap (Nob 2025) – Inilalarawan ang isang makabagong 1T-param MoE modelo. Ang K2 ay gumagamit ng 256K konteksto, 1T kabuuan na may 32B aktibo[5] at INT4 quantization para sa kahusayan[51]. Nagpakita ito ng malalakas na kakayahan sa paggamit ng tool sa mahabang horizon (200+ sunud-sunod na tawag) at mga nangungunang benchmark ng ahente[52], na nagpapakita ng potensyal ng pagsasama ng MoE scale sa agentic reasoning loops. Ang gastos sa pagsasanay ng K2 ay ~$4.6M[20] na nagpapakita ng bagong abot-kayang halaga ng trillion-param training.
[1] [10] [21] [33] [34] [43] [44] [45] Mga Pangunahing Kaalaman sa MoE: Bakit ang mga Sparse Model ang Kinabukasan ng AI
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] DeepSeek-V3 Technical Report
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: Ang mga Modelong AI ng Tsina na Tumatak sa GPT-5 | Spectrum AI Labs
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] Lingguhang AI malaking modelo lingguhang ulat | jax
[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Thinking: Long-Horizon Planning na may 256K Konteksto | ni My Social | . | Nobyembre, 2025 | Medium
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] Benchmark evaluation ng mga DeepSeek na malalaking modelo ng wika sa ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] Pangkalahatang-ideya ng Opisyal na Mga Papel ng Deepseek 4: Deepseek MoE, MLA, MTP, Distillation | ni Joyce Birkins | Medium
[12] [42] [2401.06066] DeepSeekMoE: Patungo sa Pinakamataas na Ekspertong Espesyalisasyon sa Mixture-of-Experts Language Models
https://arxiv.org/abs/2401.06066
[20] Kimi K2 Thinking: Ang $4.6M Modelong Nagbabago ng AI Narratives
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] Deepseek V4. : r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/