Ika-3 Anibersaryo na Regalo ng ChatGPT – DeepSeek V3.2 Series na Hamon sa GPT-5 at Gemini

May-akda: Boxu Li

Tatlong taon pagkatapos ng pagsisimula ng ChatGPT, isang bagong open-source na katunggali ang dumating bilang pangregalo sa kaarawan para sa komunidad ng AI. DeepSeek-V3.2 at DeepSeek-V3.2-Speciale – dalawang bagong inilabas na malalaking modelo ng wika – ay ipinap pushing ang mga hangganan ng mga open AI system. Binuo ng Chinese AI lab na DeepSeek, ang mga modelong ito ay naglalayong maghatid ng GPT-5-level na performance sa pangangatwiran, na nakikipagtagisan sa mga pinaka-advanced na saradong modelo tulad ng Google’s Gemini-3.0-Pro[1][2]. Ang parehong mga modelo at isang detalyadong teknikal na ulat ay open-sourced, na nagbibigay-daan sa mga mananaliksik at developer na mas malapitan ang pagtingin sa kung gaano kalayo ang narating ng mga open model.

DeepSeek-V3.2: Pang-araw-araw na Pagmaneho sa GPT-5 Level na Performance

Ang DeepSeek-V3.2 ay idinisenyo bilang isang balanseng “daily driver” na modelo – angkop para sa pangkalahatang tanong-sagot, tulong sa pag-coding, at mga gawain ng AI agent sa totoong mga aplikasyon. Ayon sa mga benchmark ng DeepSeek, ang kakayahan sa pangangatwiran ng V3.2 ay katumbas ng antas ng GPT-5 sa mga pampublikong pagsusulit sa pangangatwiran at bahagyang nasa likod lamang ng Gemini-3.0-Pro[1]. Sa praktikal na mga termino, nangangahulugan ito na ang V3.2 ay kayang humawak ng mga kumplikadong tanong sa lohikal at analitikal na halos kasing husay ng pinakamahusay na mga saradong modelo ngayon. Kapansin-pansin, ang V3.2 ay gumagawa ng mas masusing mga output kumpara sa ilang naunang bukas na mga modelo (tulad ng Kimi-K2-Thinking), na binabawasan ang paggamit ng token at oras ng paghihintay ng gumagamit nang hindi nawawala ang lalim ng pangangatwiran[3].

Sa ilalim ng hood, ang DeepSeek-V3.2 ay may 685 bilyong mga parameter na aktibo bawat token (mula sa isang 670B MoE na arkitektura) – ngunit ito ay na-optimize para sa kahusayan at paggamit ng mahabang konteksto. Sinusuportahan nito ang pinalawak na 128K token context window, na nagpapahintulot sa pagsusuri ng daan-daan na pahina ng teksto sa isang go. Sa kabila ng laki nito, ang V3.2 ay na-fine-tune upang isama ang pangangatwiran gamit ang panlabas na paggamit ng tool. Sa katunayan, ito ang unang modelo ng DeepSeek na kayang “mag-isip” sa proseso ng pagtawag ng mga tool. Sinusuportahan nito ang parehong chain-of-thought mode at karaniwang mode kapag gumagamit ng mga tool, na nagpapahintulot dito na magrason sa pamamagitan ng mga multi-step na tool-augmented na gawain (tulad ng paggamit ng mga calculator, tagasalin ng code, o search engines) sa isang istrukturadong paraan. Ginagawa nitong lalo na makapangyarihan ang V3.2 para sa mga aplikasyon ng agent – mula sa mga coding assistant na nagpapatakbo ng code hanggang sa mga conversational agents na nagba-browse sa web.

V3.2-Speciale: Extreme Reasoning, katumbas ng Gemini Pro

Para sa mga gumagamit na nangangailangan ng higit pang kapangyarihan sa pangangatwiran, naglabas ang DeepSeek ng V3.2-Speciale kasabay ng karaniwang modelo. Ang bersyong Speciale ay nagtutulak sa open-source na pangangatwiran sa sukdulan, na nagsasama ng pinalawak na mekanismo ng “pag-iisip” at maging ng isang nakalaang module para sa pagpatunay ng teorema sa matematika (mula sa modelong DeepSeek-Math-V2). Ang resulta ay isang modelong nakatuon para sa napaka-komplikadong paglutas ng problema – “sinusuri ang hangganan ng kakayahan ng modelo,” ayon sa mga developer[4]. Sa mga mahigpit na benchmark ng lohika at matematika, ang pagganap ng DeepSeek-V3.2-Speciale ay maihahambing sa Gemini-3.0-Pro[4], na karaniwang naaabot ang pinaka-advanced sa mga larangang iyon.

Ang claim na ito ay sinusuportahan ng mga tagumpay ni Speciale sa mga prestihiyosong kumpetisyon: naiulat na nakamit nito ang antas na gold-medal na resulta sa International Math Olympiad (IMO 2025), ang Chinese Math Olympiad (CMO 2025), ang ICPC 2025 World Finals (programming), at ang IOI 2025 (informatics)[5]. Sa katunayan, sa ICPC coding contest, ang performance ng V3.2-Speciale ay katumbas ng sa isang human silver medalist (ika-2 pwesto), at sa IOI ay ka-level ito ng isang top-10 human competitor[5]. Ang mga ito ay pambihirang tagumpay para sa isang AI model, na nagpapakita ng kakayahan sa pangangatwiran at paglutas ng problema sa antas ng elite na tao.

Mahalagang tandaan na ang Speciale ay isang modelong nakatuon sa mga eksperto. Mahusay ito sa mga mahabang anyo ng pangangatwiran (hal. detalyadong patunay, multi-step na lohika, kumplikadong mga hamon sa programming), ngunit hindi ito na-optimize para sa kaswal na chat o malikhaing pagsusulat. Mas mahal din itong patakbuhin – may tendensiya ang Speciale na gumamit ng mas maraming token upang makuha ang mga sagot nito. Sa ngayon, ang DeepSeek ay nagbibigay lamang ng V3.2-Speciale sa pamamagitan ng isang limitadong research API (na walang naka-enable na tool-use) at nagbabala na ito ay para sa mga akademiko o mga gawain na may mataas na panganib sa pangangatwiran kaysa sa pang-araw-araw na pag-uusap.

Mahusay na Pangangatwiran sa Pamamagitan ng Sparse Attention (DSA)

Isa sa mga pangunahing inobasyon na nagpapahusay sa performance ng DeepSeek-V3.2 ay ang bagong mekanismo ng atensyon na tinatawag na DeepSeek Sparse Attention (DSA). Ang tradisyunal na Transformer models ay may quadratic na gastos habang humahaba ang konteksto, dahil ang bawat token ay nagbibigay-pansin sa bawat ibang token. Binabasag ng DSA ang hadlang na ito sa pamamagitan ng paggamit ng fine-grained sparse attention na pattern[7]. Nagpapakilala ito ng isang “lightning indexer” na bahagi na mabilis na nagtatantiya ng mga score ng kaugnayan sa pagitan ng kasalukuyang token at mga nakaraang token, at pagkatapos ay pinipili lamang ang top-$k$ na pinaka-kaugnay na mga token upang bigyan ng pansin[7]. Sa esensya, natututo ang modelo na huwag pansinin ang hindi kaugnay na konteksto at magtuon lamang sa mahahalagang bahagi ng isang mahabang pagkakasunod-sunod.

Ang disenyo ng sparse attention na ito ay nagpapababa sa kinakailangang computation para sa mahabang mga sequence mula O(L²) pababa sa O(L·k), kung saan ang k ay mas maliit kaysa sa L. Sa pagpapatupad ng DeepSeek, k=2048 ang ginamit (bawat token ay tumutukoy sa 2048 napiling nakaraang mga token) sa ikalawang yugto ng pagsasanay. Ang koponan ay gumamit ng dalawang-yugtong estratehiya sa pagsasanay para sa DSA: una ay ang dense warm-up kung saan ang lightning indexer ay sinanay kasama ng buong attention para sa ilang bilyong mga token, upang matiyak na natutunan nitong gayahin ang pag-uugali ng buong attention. Pagkatapos ay lumipat ang modelo sa sparse mode at sinanay sa daan-daang bilyong higit pang mga token na may top-$k$ na limitasyon. Ang resulta ay isang malaking pagtaas sa kahusayan na walang pagkawala sa katumpakan. Sa katunayan, ang V3.2-Exp (ang experimental precursor sa pinal na modelo) ay nag-perform kapantay ng V3.1-Terminus sa iba't ibang mga benchmark, kahit na gamit ang bagong sparse attention[8].

Sa praktikal na paggamit, ang DSA ay nangangahulugang ang mahahabang dokumento ay hindi na isang pabigat. Ipinakita ng mga panloob na pagsubok na hanggang 2–3× mas mabilis na pagproseso sa mga input na may haba na 128K at mga 30–40% na mas mababang paggamit ng memorya[9]. Bumaba rin nang malaki ang mga gastos. Iniulat ng DeepSeek na para sa mga konteksto ng 128K sa kanilang H800 cluster, ang prompt (prefill) na gastos bawat milyong token ay bumaba mula sa ~$0.70 hanggang sa ~$0.20, at ang gastos sa pagbuo mula sa ~$2.40 hanggang sa ~$0.80 – isang 3× na pagbawas sa gastos sa long-context inference. Sa pampublikong API, ang mga pagtitipid na ito ay naisalin sa mahigit 50% mas mababang presyo para sa mga gumagamit[10]. Sa madaling salita, pinapayagan ng DSA ang V3.2 na hawakan ang sobrang haba ng mga input sa mas kaunting oras at gastos kaysa sa mga naunang modelo, nang hindi isinasakripisyo ang kalidad ng output.

Reinforcement Learning sa Malakihang Sukat: GRPO at Expert Distillation

Isa pang malaking salik sa malakas na pagganap ng DeepSeek-V3.2 ay ang malawakang reinforcement learning (RL) fine-tuning na isinagawa dito. Ang koponan ng DeepSeek ay naglaan ng walang kapantay na dami ng compute sa post-training RL – lumampas ng 10% ng compute na ginamit sa pre-training (na sa kanyang sarili ay napakalaki para sa isang 670B-scale model). Ito ay lubhang hindi karaniwan sa open-source AI, kung saan ang mga RL fine-tuning budget ay karaniwang mas maliit. Ang dahilan ay habang ang pre-training ay nagtuturo ng malawak na kaalaman, ang masinsinang RL ay maaaring magbukas ng mga advanced na kakayahan sa pamamagitan ng pag-aayon ng modelo sa mga kumplikadong layunin (tulad ng paglutas ng multi-step na mga problema, paggamit ng mga tool, o pagsunod sa mga tagubilin sa ilalim ng mga hadlang)[2].

Para mapalawak ang RL nang ligtas, ang DeepSeek ay bumuo sa kanilang custom na Group Relative Policy Optimization (GRPO) na algorithm. Inilunsad nila ang ilang mga pagbuti sa katatagan at kahusayan sa RL pipeline na ito:

· Unbiased KL Estimation: Inayos ng team ang mga isyu sa orihinal na K3 estimator na ginagamit para sa mga KL-divergence penalties, tinanggal ang sistematikong bias na maaaring magdulot ng walang limitasyong pag-update ng gradient. Pinigilan nito ang mga problema sa pagsasanay na maaaring mangyari kapag ang polisiya ay lumihis nang labis mula sa reference na polisiya.

· Offline Sequence Masking: Dahil ang RL training ay madalas na bumubuo ng malalaking batch ng "rollout" data na ginagamit muli sa maraming gradient updates (isang off-policy scenario), kinompyut ng DeepSeek ang KL divergence sa pagitan ng rollout policy at ng kasalukuyang policy para sa bawat sample. Kung ang isang nalikhang sequence ay lumayo masyado mula sa kasalukuyang modelo, ang sequence na iyon ay tinanggal (hindi isinama) mula sa mga training updates[11][12]. Ang matalinong trick na ito ay tiniyak na ang modelo ay kadalasang natututo mula sa on-policy o malapit sa on-policy na data, nagpapabuti ng katatagan at pumipigil sa masamang trajectories na makapinsala sa pag-aaral.

· Panatilihin ang Routing para sa MoE: Gumagamit ang mga modelo ng DeepSeek ng arkitekturang Mixture-of-Experts, na nangangahulugang ang iba't ibang “eksperto” (sub-networks) ay humahawak ng iba't ibang token. Ang isang hamon dito ay ang bahagyang pagkakaiba sa pagitan ng pagpapatupad ng inference at training ay maaaring magdulot ng pagpili ng iba't ibang eksperto para sa parehong input, na nagreresulta sa hindi pagkakapare-pareho. Tinalakay ito ng DeepSeek sa pamamagitan ng pagkuha ng mga desisyon sa routing ng eksperto sa panahon ng inference at pinipilit ang parehong mga ruta ng eksperto sa panahon ng mga update sa RL. Ang pamamaraang “Panatilihin ang Routing” ay tinitiyak na ang mga parameter na inaayos sa panahon ng RL ay tumutukoy sa parehong mga eksperto na gagamitin sa inference, upang maiwasan ang anumang hindi magandang sorpresa mula sa pag-shuffle ng eksperto.

Bukod sa mga algorithmic tweaks na ito, ang data regime para sa RL ay napaka-ambisyoso. Nag-train ang DeepSeek ng serye ng mga specialist models – bawat isa ay nakatuon sa partikular na domain o kasanayan – at pagkatapos ay dinistil ang kaalaman mula sa lahat ng ito sa V3.2. Halimbawa, kanilang pinino ang mga eksperto para sa mga tiyak na domain tulad ng matematika (mga patunay), pagprograma, lohikal na pangangatwiran, mga pangkalahatang gawain na gamit ang mga tool, mga ahenteng batay sa code, at mga ahenteng batay sa paghahanap. Ang bawat isa sa mga specialist models na ito ay sinanay sa parehong “pag-iisip” (chain-of-thought) na mode at “hindi pag-iisip” na mode bilang kinakailangan. Gamit ang mga eksperto na ito, lumikha ang DeepSeek ng napakalaking synthetic dataset ng mga de-kalidad na demonstrasyon sa bawat domain, na ginamit upang pangasiwaan ang huling V3.2 model. Ang expert-distillation pipeline na ito ay nagbigay sa V3.2 ng masaganang training signals sa higit sa 85,000+ kumplikadong mga instruksyon, na sumasaklaw sa lahat mula sa hakbang-hakbang na mga patunay sa matematika hanggang sa mga sesyon ng pag-debug ng software.

Pinahusay na Kakayahan ng Ahente at Pagsasama ng Paggamit ng Mga Tool

Isa sa mga pangunahing tampok ng DeepSeek-V3.2 ay ang mas pinahusay na kakayahan ng ahente – sa esensya, ang kakayahan ng modelo na magplano, mag-isip, at gumamit ng mga tool sa isang multi-step na proseso upang malutas ang mga problema. Ang mga naunang bersyon ng modelo ng pag-iisip ng DeepSeek ay may malaking limitasyon: kung ang modelo ay nasa "thinking mode" (ibig sabihin, gumagawa ng chain-of-thought), hindi nito magagawang tawagan ang mga panlabas na tool, at vice versa. Inalis ng V3.2 ang hadlang na iyon. Ito ang unang modelo ng DeepSeek na ganap na nagsasama ng pag-iisip sa paggamit ng mga tool, ibig sabihin kaya nitong panatilihin ang isang panloob na chain of reasoning habang naglalabas din ng mga tawag sa tool (hal. pagpapatakbo ng code, paghahanap sa web) sa gitna ng pag-uusap[13]. Nagbibigay ito ng mas makapangyarihan at nababaluktot na pag-uugali ng ahente.

Upang suportahan ito, muling inisip ng team ng DeepSeek kung paano gumagana ang pamamahala ng konteksto ng modelo para sa mga multi-turn na gawain. Sa V3.2, ang mga reasoning traces ng modelo (ang mga "inisip") ay napanatili sa kabuuan ng sunud-sunod na tawag ng mga tool, sa halip na mabura sa bawat hakbang. Tanging kapag may dumating na bagong query mula sa user ang sistema ay magre-reset ng konteksto ng pag-iisip (habang pinapanatili pa rin ang kaugnay na kasaysayan ng interaksyon sa tool sa usapan)[14][15]. Ang pamamaraang ito ay nakakatipid ng maraming token at hinahayaan ang modelo na bumuo ng isang persistent chain-of-thought para sa isang problema habang paulit-ulit na nagtatawag ng mga tool. Halimbawa, kung ang user ay nagtatanong ng kumplikadong tanong sa coding, ang modelo ay maaaring mag-isip sa mga hakbang, magtawag ng isang Python interpreter upang subukan ang ilang code, magpatuloy na mag-isip batay sa resulta, marahil ay magtawag ng isang tool sa paghahanap ng dokumentasyon, at iba pa – tanging tatapusin ang sagot kapag napatunayan na ang tamang solusyon. Ang lahat ng pansamantalang pag-iisip ay nananatiling magagamit sa modelo hanggang sa matapos ang gawain.

Binigyan din ng DeepSeek ang modelo ng “cold start” prompt na hayagang humihikayat sa ganitong asal. Ang mga tagubilin ng sistema ay nagpapahiwatig sa modelo na unang maglabas ng detalyadong proseso ng pangangatwiran (na minarkahan ng mga espesyal na token) bago ihayag ang panghuling sagot, lalo na para sa mga masalimuot na gawain tulad ng mga hamon sa programming. Tinitiyak ng prompt engineering na alam ng V3.2 na dapat itong gamitin ang kakayahan nito sa chain-of-thought at mga tool para sa mahihirap na tanong, sa halip na direktang lumundag sa isang (madalas na mali) na sagot.

Marahil ang pinaka-kahanga-hangang aspeto ng kasanayan ng ahente ng V3.2 ay nagmumula sa kung paano ito sinanay. Ang koponan ay bumuo ng automatic environment synthesis pipeline upang lumikha ng makatotohanan at hamon na mga senaryo para sa modelo na pag-aralan. Nilikha nila ang 1,827 interactive task environments na may kasamang 85,000+ kumplikadong mga tagubilin para sa modelo na lutasin[16]. Mahalaga, ang mga gawaing ito ay idinisenyo upang maging “mahirap lutasin, madaling i-verify.” Sa madaling salita, ang modelo ay inihaharap sa mga problema na may malawak na search space (mahirap makahanap ng solusyon nang nagkataon) ngunit may malinaw na pamantayan upang suriin ang solusyon. Ang katangiang ito ay ginagawang perpekto ang mga ito para sa reinforcement learning: maaring mag-eksperimento ang modelo (o gumamit ng kasangkapan) upang magmungkahi ng solusyon at pagkatapos ay mabilis na i-verify kung ito ay nakakatugon sa lahat ng ibinigay na mga limitasyon.

Halimbawa, ang isang synthesized na gawain ay isang tatlong-araw na plano sa paglalakbay na may maraming mga limitasyon (huwag ulitin ang mga lungsod, ayusin ang mga badyet nang dinamiko batay sa gastos ng hotel, atbp.). Mahirap para sa isang modelo na basta hulaan ang isang wastong itineraryo dahil ang mga limitasyon ay lumilikha ng isang problemang pangkombinatoryo – ngunit kung ang modelo ay makabuo ng isang kandidato na itineraryo, madali itong suriin kung lahat ng mga limitasyon ay natutugunan. Sa pamamagitan ng pagsasanay sa maraming ganitong gawain (sumasaklaw sa mga larangan tulad ng pagplano ng paglalakbay, pag-iiskedyul, mga lohikal na palaisipan, at marami pa), natutunan ng V3.2 na mas mahusay na pamahalaan ang mga problemang nangangailangan ng paghahanap, pag-optimize, o multi-step na pangangatwiran. Ang regimen ng pagsasanay na ito ay lubos na nagpabuti sa kakayahan ng modelo na magpalawak sa mga bago, hindi pa nakikitang gawain ng ahente.

Sa larangan ng mga coding agent, nag-tap ang DeepSeek sa GitHub – minina ang milyon-milyong totoong issue threads at pull requests. Awtomatikong bumuo sila ng sampu-sampung libo ng mga executable coding challenge environment mula sa datos na ito. Ang modelo ay maaaring magsanay na magbasa ng bug report o feature request, pagkatapos ay mag-navigate sa codebase (na may tulong ng tool) upang magpatupad ng ayos o feature. Ang mga environment na ito ay sumasaklaw sa iba't ibang programming languages (Python, Java, JavaScript, atbp.), na naglalantad sa modelo sa iba't ibang problema sa software. Isang hiwalay na pipeline ang humawak sa mga search-based QA agent: gamit ang isang multi-agent simulation, lumikha ang DeepSeek ng mga dataset kung saan ang isang agent ay nagtatanong ng mahihirap na tanong tungkol sa long-tail entities at ang isa pang agent (na may access sa tool ng paghahanap) ay kailangang maghanap at mag-verify ng mga sagot. Ang multi-step generation na ito (paggawa ng tanong → web search → pag-validate ng sagot) ay nagbigay ng mataas na kalidad na mga halimbawa ng pagsasanay para turuan ang V3.2 kung paano maging epektibong “research assistant.”

Salamat sa mga pagsisikap na ito, ang DeepSeek-V3.2 ay nakagawa ng pag-unlad sa mga gawain ng ahente na gumagamit ng mga kasangkapan. Sa mga internal na pagsusuri, ang V3.2 ay nakamit ang pinakamataas na marka sa anumang bukas na modelo sa isang hanay ng mga benchmark ng ahente, na malaki ang inilapit sa mga saradong modelo[17]. Ang mga developer ay binibigyang-diin na ang V3.2 ay hindi tahasang inayon sa mga partikular na kasangkapan sa mga pagsusulit na iyon – na nagmumungkahi na ang mga kasanayan ng ahente nito ay naililipat sa mga totoong senaryo, hindi lamang sa makikitid na benchmark[18]. Sa madaling salita, natutunan ng modelo kung paano mangatuwiran at gumamit ng mga kasangkapan sa pangkalahatan, sa halip na mag-overfit sa mga partikular na gawain.

Mga Benchmark ng Pagganap at Paghahambing

Paano nakikipagsabayan ang mga bagong modelo ng DeepSeek laban sa mga pinakamahusay na AI system sa merkado? Ang teknikal na ulat at mga unang pagsusuri ay nagbibigay ng ilang sagot. Sa pangkalahatan, ang DeepSeek-V3.2 ay nagbibigay ng nangungunang pagganap sa mga gawain ng matematikal na pangangatwiran at pag-coding, at ang V3.2-Speciale ay nakikipagsabayan pa sa mga pinakamahusay sa masalimuot na pangangatwiran – ngunit may mga bahagi (tulad ng bukas na paggamit ng mga kasangkapan) kung saan ang mga saradong modelo ay may kalamangan pa rin. Sa ibaba ay isang snapshot ng napiling mga resulta ng benchmark na naglalarawan ng kompetitibong tanawin:

Talahanayan 1: Pagganap sa Halimbawang Benchmark ng Pangangatwiran (Katumpakan%)

Benchmark (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

AIME (Math Olympiad)

~94.6% (est.)

~95.0% (est.)

93.1%

96.0%[4]

HMMT (Math Tournament)

88.3%

97.5%

92.5%

99.2%[4]

GPQA (Science QA, hard)

85.7%

91.9%

82.4%

85.7%

<small>Mga Pinagmulan: DeepSeek ulat teknikal[4]. Mga resulta ng GPT-5.1 at Gemini ay mga tinatayang halaga mula sa mga grap ng ulat. Madalas na naaabot o nalalampasan ng Speciale ang Gemini sa mga gawain sa matematika, habang ang karaniwang V3.2 ay nasa antas ng GPT-5, bahagyang mas mababa kaysa sa Gemini.</small>

Tulad ng nakikita natin, ang DeepSeek-V3.2 ay tumutupad sa pangako nito sa mga hamon sa akademikong pag-iisip. Sa mga math contests tulad ng AIME at HMMT, ang katumpakan ng V3.2 ay kapareho ng isang advanced na modelo ng GPT-5, at ilang puntos lamang ang pagitan mula sa mga pinakamataas na marka ng Gemini. Ang modelong Speciale ay higit pa sa Gemini sa mga math benchmarks na ito[4], na nagpapakita ng benepisyo ng pinahusay nitong “long thinking” na pamamaraan. Ang mga resulta ay kapansin-pansin – matagal nang itinuturing ang math at pormal na pag-iisip bilang kahinaan ng mga open models, ngunit ipinapakita ng V3.2 na ang mga open-source systems ay maaaring makamit ang frontier-level performance sa larangang ito[19].

Sa coding side, namumukod-tangi rin ang DeepSeek-V3.2, bagaman matindi ang kumpetisyon. Sa SWE-Bench Verified na pagsusulit (na sinusuri kung makakagawa ang isang modelo ng bug-fixing code diffs na pumapasa sa unit tests), nakapuntos ang V3.2 ng ~73%, na malaki ang paglagpas kumpara sa nauna nitong bersyon (nakapuntos ang V3.1 ng ~66%[20]) at halos kasintulad ng iba pang nangungunang open models tulad ng Kimi K2 ng Moonshot at Qwen-3 ng Alibaba. Sa katunayan, bahagyang higit na magaling ang lahat ng mga open models na ito kaysa sa mas lumang 120B baseline ng OpenAI sa coding benchmark na ito[21][22]. Ito ay nagpapakita kung gaano kalayo ang narating ng mga open models sa praktikal na kakayahan sa coding. Ang DeepSeek V3.2 ay maaasahang mag-ayos ng totoong mga bug at bumuo ng gumaganang code, na ginagawa itong napaka-kapaki-pakinabang para sa tulong sa mga developer.

Gayunpaman, laban sa mga pinaka-mahusay na closed models, magkahalong larawan ang makikita. Sa ilang coding tasks, may kalamangan pa rin ang GPT-5.1. Halimbawa, sa mas komplikadong Terminal-Bench 2.0 (na sumusuri sa paggamit ng multi-step CLI tool at coding sa agent loop), ang mga unang ulat ay nagpapakita na ang GPT-5 at maging ang Claude ng Anthropic ay mas mahusay kaysa sa DeepSeek, lalo na sa patuloy na pagiging maaasahan sa mahahabang sesyon ng paggamit ng tool[23]. Ang katumpakan ng DeepSeek-V3.2 ay bumababa sa mga masalimuot na multi-step agent tasks, na nagpapakita na kahit ito ay napakahusay, hindi pa ito ang nangungunang performer pagdating sa ganap na autonomous coding agents o long-horizon problem solving. Katulad nito, sa masaklaw na tool-use benchmarks tulad ng MCP-Universe at Tool-Decathlon, malayo ang V3.2 sa likod ng GPT-5 at Gemini[24]. Ang mga sistema ng OpenAI at Google ay mas maaasahang magpatupad ng kumplikadong, multi-tool na mga plano. Ang agwat ay lumiit – umabot ang V3.2 ng bagong mataas na antas para sa open models sa mga pagsusulit na ito[17] – ngunit may malawak na margin pa bago ang open models ay tunay na makakatugma sa closed ones sa pangkalahatang kasanayan sa paggamit ng tool.

Sa kabuuan, ang DeepSeek-V3.2 ay naglalaman ng malapit sa hangganang pagganap sa maraming larangan. Ito ay nakikipagkumpitensya sa GPT-5 sa mga tunay na coding na gawain at maging nakikipantay sa Gemini sa mga advanced na pagdadahilan sa matematika[19]. Kasabay nito, hindi ito isang ganap na kapalit ng GPT-5 o Gemini sa kabuuan – lalo na sa mga ultra-komplikadong “agent” na senaryo na kinasasangkutan ng masalimuot na pagsasaayos ng kagamitan, kung saan ang mga saradong modelo ay may kalamangan pa rin[25][24]. Ang balanseng pananaw na ito ay mahalaga para sa pag-set ng mga inaasahan: Ang V3.2 ay namumukod-tangi sa kung ano ito ay na-optimize para sa (pangangatwiran at coding na may kahusayan), habang ang variant na Speciale ay nagpapakita ng mga posibilidad kapag itinulak ang pangangatwiran sa hangganan.

Mga Limitasyon at Pananaw

Sa kabila ng mga kahanga-hangang tagumpay, ang koponan ng DeepSeek ay tapat tungkol sa ilang mga limitasyon ng serye ng V3.2. Una, dahil ang kabuuang training FLOPs (floating-point operations) ay mas mababa pa rin kaysa sa ilang ultra-laking saradong modelo, ang lawak ng kaalaman sa mundo at paggunita ng mga bihirang katotohanan sa V3.2 ay maaaring humabol sa mga lider tulad ng GPT-5. Sa madaling salita, maaaring hindi nito alam ang ilang malabong trivia o impormasyong tiyak sa isang larangan na nasagot ng mas malalaking proprietary na modelo. Ito ay isang karaniwang kompromiso sa mga bukas na modelo, na madalas na kailangang magsanay sa medyo mas maliit o hindi gaanong magkakaibang corpora.

Isa pang hamon ay ang kahusayan sa token. Napansin ng DeepSeek na parehong V3.2 at Speciale ay minsang kailangan lumikha ng mas mahahabang kadena ng pangangatwiran upang maabot ang parehong kalidad ng sagot na kayang makamit ng isang modelo tulad ng Gemini-3.0-Pro na may mas maikling tugon[6]. Sa praktikal na paggamit, nangangahulugan ito na ang paggamit ng V3.2 sa “thinking mode” nito ay maaaring magdulot ng mas mataas na token na halaga (at latency) upang malutas ang sobrang hirap na mga problema – magiging detalyado ang modelo habang ginagawa ang mga hakbang. Partikular na ang Speciale, kahit na sobrang kakayahan, ay malakas kumain ng token: maaari itong magbigay ng napaka-detalyadong patunay o paliwanag kung saan ang isang dalubhasang tao o isang pinong closed model ay makapagbibigay ng mas maiksing sagot. Hindi ito laging negatibo (ang masusing pangangatwiran ay maaaring mahalaga), ngunit nagiging mas magastos ito sa ilang paggamit.

Ang DeepSeek-V3.2 ay kasalukuyang kulang pa sa fine-tuning para sa bukas na pag-uusap o malikhaing pagsulat. Ang pokus ng training nito ay malinaw na nakatuon sa structured problem solving at agents. Napansin ng mga gumagamit na ang istilo nito ay lohikal at nagbibigay ng impormasyon, ngunit maaaring hindi ganoon ka-chatty o malikhain kumpara sa mga modelong tulad ng GPT-4 o Claude sa kaswal na pag-uusap. Ito ay isang sinadyang desisyon: ang DeepSeek ay nag-prioritize ng mga gawain sa pananaliksik, pag-coding, at kakayahan sa matematika para sa paglabas na ito, kahit na ang ibig sabihin nito ay maaaring may pagbaba sa karaniwang pagiging palakaibigan.

Sa hinaharap, ang koponan ng DeepSeek ay nagbigay-pahiwatig ng patuloy na pag-unlad. Ang V3.2 teknikal na ulat ay lantad na tinatalakay ang mga kakulangan na ito bilang mga target para sa hinaharap na pagpapabuti. Mayroon nang komunidad na nag-aabang para sa posibleng DeepSeek-R2 na modelo – na, kung magpapatuloy ang pangalan, ay maaaring maging susunod na modelong nakatuon sa pangangatwiran na itinatayo sa pundasyon ng R1 at V3.2. (Ang mga tagasubaybay ng DeepSeek ay nagbibiro ng kalahating seryoso na “Kailan darating ang R2?!” bilang tugon sa paglunsad ng V3.2.) Kung at kailan darating ang R2, inaasahan na maaari nitong higit pang mapalapit ang mga puwang, marahil sa pamamagitan ng pagsasama ng mas malalaking pagtakbo ng pagsasanay, mas maraming pag-infuse ng kaalaman, at pinahusay na mga teknik sa kahusayan ng token.

Sa ngayon, ang DeepSeek-V3.2 ay kumakatawan sa isang mahalagang tagumpay sa mundo ng open-source AI. Ipinapakita nito na sa pamamagitan ng matalinong pag-engineer – mula sa sparse attention hanggang sa malawakang RL fine-tuning at synthetic task generation – ang isang open model ay maaaring makamit ang nauunang performance sa reasoning at coding, mga larangang dating itinuturing na protektadong domain ng trillion-parameter closed models. Tulad ng sabi ng isang analyst, ang V3.2 ay isang “malakas, mababang-gastos na model para sa pag-iisip at pag-coding na nag-aalok ng nauunang antas ng resulta kung saan karamihan sa mga developer ay talagang nagtatrabaho: sa code at math”[26]. Maaaring hindi nito mapalitan ang GPT-5 o Gemini bilang ang universal AI solution, ngunit sa kanyang espesyal na papel, ang DeepSeek-V3.2 ay nagtatagumpay ng labis[27] – at higit sa lahat, ginagawa niya ito bilang isang libreng available na model. Sa mas malawak na ecosystem ng AI, isa itong napakahalagang regalo sa anibersaryo ng ChatGPT.

Mga Pinagmulan: Ang impormasyon at mga sipi sa artikulong ito ay kinuha mula sa opisyal na tala ng paglabas at teknikal na ulat ng DeepSeek[1][4][13][17], mga balita at pagsusuri sa mga publikasyong may kaugnayan sa AI[2], gayundin ang mga independiyenteng pagsusuri ng DeepSeek-V3.2 ng mga naunang gumagamit[19][24] at mga eksperto sa komunidad[7][8]. Ang lahat ng benchmark at paghahambing ay nagpapakita ng kasalukuyang estado (Dis 2025) ng pagganap ng modelo sa kani-kanilang gawain.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 Opisyal na Bersyon: Pinahusay na Kakayahan ng Agent, Pagsasama ng Pag-iisip at Pangangatwiran | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] Inilabas ng DeepSeek ang Mga Bagong Modelong Pangangatwiran upang Makipagsabayan sa GPT-5, Karibal na Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp Review. Ang pinakabagong experimental model ng DeepSeek… | ni Barnacle Goose | Okt, 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 laban sa Gemini 3.0 laban sa Claude 4.5 laban sa GPT-5 | ni Mehul Gupta | Data Science sa Iyong Bulsa | Dis, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1