Noong nakaraang linggo, pinanood ko ang aking telepono na tumingin sa isang litrato ng aking fridge, pakinggan akong nagsabi ng "Pagod at gutom ako," at sa kung anong paraan ay nagmungkahi ng isang 15-minutong recipe na talagang may sense. Walang paglipat-lipat ng app. Walang pag-type ng mga sangkap. Basta... isang usapan lang sa iba't ibang format.

Doon ko napagtanto: hindi na tayo nasa "chatbot era." Nasa multimodal era na tayo, at karamihan sa mga tao ay iniisip pa rin na ang AI ay isang magarbong autocomplete lang para sa mga email.

Kung narinig mo na ang mga terminong tulad ng "multimodal AI explained" na lumulutang sa tech Twitter ngunit hindi mo talaga naintindihan kung ano ang ibig sabihin nito sa totoong buhay, hayaan mo akong ipaliwanag. Ginugol ko ang huling tatlong buwan sa pagsubok sa mga tool na ito sa aking sariling magulong workflows—mga screenshot sa lahat ng dako, mga kalahating-sulat na tala, mga video clip na pinangako kong itranscribe ngunit hindi ko nagawa. Narito ang natutunan ko, kung ano ang talagang nagbago, at bakit mahalaga ito kahit hindi ka pa nakapagsulat ng kahit isang linya ng code.

Ano ang ibig sabihin ng "multimodal" sa simpleng Ingles

Sige, kalimutan mo muna ang jargon.

Kapag sinasabi ng mga tao ang multimodal AI, ang tinutukoy nila ay AI na hindi lang nagbabasa ng text. Kaya rin nitong tumingin sa mga imahe, makinig sa audio, manood ng mga video, at—ito ang nakaka-excite—talagang naiintindihan kung paano sila nagkakaugnay.

Isipin mo ito ng ganito:

  • Unimodal AI ay parang isang tao na nagbabasa lang ng mga libro. Limitado sa mga salita sa pahina.
  • Multimodal AI ay parang taong nagbabasa, nanonood ng mga pelikula, nakikinig sa mga podcast, at nag-scroll sa mga larawan—lahat upang makabuo ng isang kumpletong larawan.

Noong 2026, hindi na ito eksperimento. Nagiging basehan na ito. Mga tool tulad ng Google Gemini, Meta's AI glasses, at kahit ang paghahanap ng larawan sa iyong telepono ay tahimik na ginagawa ito sa background.

Narito kung ano ang nagpapakaiba nito:

  1. Teksto — mga email, post sa blog, caption, tweet
  2. Larawan — screenshot, larawan ng produkto, meme, diagram
  3. Audio — voice notes, clip ng podcast, recording ng meeting
  4. Video — screen recording, clip ng YouTube, TikTok

Ang magic ay hindi lang sa kaya ng AI na tanggapin ang lahat ng mga format na ito. Ito ay sa kaya nitong pagdugtung-dugtungin ang mga ito.

Halimbawa:

  • Nag-upload ka ng screenshot ng nakakalitong error message
  • Nag-type ka: "Ano ang nangyayari dito?"
  • Nag-attach ka ng maikling Loom na video na nagpapakita ng nangyari bago ang error

Ang tunay na multimodal na modelo ay hindi tinatrato ang mga ito bilang tatlong magkahiwalay na bagay. Ito ay pinagsasama-sama sa isang pag-unawa at binibigyan ka ng sagot na talagang tumutugon sa buong sitwasyon.

Ang lumang estilo ng AI ay hindi papansinin ang video, susuriin lamang ang screenshot para sa teksto, at magbibigay sa iyo ng generic na payo. Nakikita ng Multimodal AI ang buong kwento.

Mabilis na pagsuri ng katotohanan dito: hindi lahat ng tool na nagsasabing "multimodal" ay talagang mahusay sa ganitong aspeto. Ang ilan ay kumukuha lang ng teksto mula sa mga imahe at nagpapanggap na matalino sila. Ang tunay na multimodal na pag-uugali ay nangangahulugang ang AI ay nag-encode ng bawat uri ng input sa mga panloob na representasyon (tinatawag na embeddings), inaayos ang mga ito sa isang pinagsamang espasyo, at nagrereason sa mga ito nang magkakasama.

Pagsasalin: ang isang larawan ng "pulang tasa" at ang teksto na "crimson coffee cup on wooden desk" ay dapat mapunta malapit sa isa't isa sa panloob na mapa ng AI. Ganito nalalaman ng AI na magkaugnay sila, kahit na ang isa ay larawan at ang isa ay pangungusap.

Bakit ito mahalaga para sa mga karaniwang tao:

  • Hindi na pangalawa ang iyong mga workflow na maraming screenshot
  • Ang pagpaplano ng nilalaman ay maaari nang maghalo ng mga analytics dashboard + mga draft ng kopya + mga video clip
  • Maaaring pagsamahin ng pananaliksik ang mga PDF, diagram, at mga voice note sa isang lugar na madaling hanapin

Kung gumamit ka na ng AI na talagang "nakakaintindi" sa iyong magulo na kombinasyon ng mga imahe at teksto, iyon ang multimodal na tahimik na gumagawa ng trabaho.


Bago at pagkatapos: totoong mga halimbawa

Ipakita ko sa iyo kung ano ang hitsura nito sa praktika. Parehong mga gawain, iba't ibang uri ng mga modelo.

Halimbawa 1: Pagsusuri ng Instagram carousel

Gawain: Nag-upload ako ng screenshot ng isang Instagram carousel (maraming slide sa isang imahe) at nagtanong:

"Sabihin mo sa akin kung bakit mahusay ang performance ng post na ito at magmungkahi ng katulad na konsepto para sa SaaS audience."

Bago (text-only / mahinang paghawak ng imahe):

  • Nabasa lang ng modelo ang caption na tinype ko
  • Lubusang hindi pinansin ang layout, visual hierarchy, pagkakasunod ng slides
  • Nagbigay ng pangkalahatang payo: "Gumamit ng malinaw na CTAs" at "Magdagdag ng halaga sa iyong post"

Pagkatapos (solidong multimodal na modelo):

  • Nakilala kung gaano karaming slides ang nasa screenshot
  • Napansin ang mga visual na pattern: bold na hook sa unang slide, minimal na teksto sa gitnang slides, malakas na contrasting CTA sa dulo
  • Mungkahi: "Para sa SaaS, subukan ito: bold na 'You're losing users here' na panimula, 3 slides bawat isa ay tinatalakay ang isang friction point, huling slide na may 'Try it free' CTA sa contrasting na kulay."

Resulta: Nakatanggap ako ng 3x na mas kapaki-pakinabang at tiyak na mga ideya. Hindi hulaan—aktwal kong binilang: 12 na actionable na mungkahi kumpara sa 4 na malabo.

Halimbawa 2: Landing page + screenshot ng analytics

Gawain: Ibinigay ko sa AI:

  • Isang screenshot ng landing page
  • Isang screenshot ng Google Analytics (bounce rate + oras sa pahina)
  • Maikling text prompt: "Ano ang posibleng mali dito at anong A/B test ang susubukan mo muna?"

Non-multimodal na pag-uugali:

  • Lubusang hindi pinansin ang GA screenshot
  • Nagbigay ng pangkalahatang payo sa landing page
  • Hindi kailanman binanggit ang bounce rate o scroll depth

Multimodal na pag-uugali:

  • Basahin ang mga numero ng GA (bounce rate ~78%, avg session ~12 seconds)
  • Napansin na walang malinaw na pangunahing CTA sa hero section sa itaas ng fold
  • Nagmungkahi ng isang nakatuon na A/B test: "Hero na may isang CTA button + value prop na tumutugma sa iyong ad copy"

Hindi ito magic. Pero pakiramdam ay parang nakikipag-usap sa isang junior CRO consultant sa halip na isang text autocomplete machine.

Halimbawa 3: Pag-repurpose ng nilalaman mula sa halo-halong media

Pinasa ko ito sa isang multimodal na modelo:

  • 30-segundong clip mula sa isang webinar (video)
  • Buong transcript ng webinar (teksto)
  • Thumbnail screenshot (larawan)

Prompt: "Gumawa ng 5 ideya ng TikTok hook na tumutugma sa aktwal na vibe ng clip na ito."

Pangunahing pagkakaiba:

  • Tinuring ng mga text-only na tool na ito ay parang generic na SaaS webinar
  • Ang multimodal na isa ay nakuha ang tono mula sa video (medyo sarcastic, casual) at kulay/enerhiya mula sa thumbnail

Ang mga hook na ginawa nito ay nagkaroon ng 20–25% na mas mataas na hook retention sa aking maliit na A/B test. Sinubukan ko ang 10 hook total—5 mula sa bawat set ng modelo—sa isang maliit na audience. Hindi ito perpektong statistical, pero sapat na upang mapansin ko.

Narito ang bottom line: kapag ang AI ay makakakita, makakarinig, at makakabasa nang sabay-sabay, tumitigil ito sa paghula at nagsisimulang tumugon sa kung ano talaga ang nariyan.


Paano nababagay ang Qwen3-VL-Embedding

Kaya saan pumapasok ang Qwen3-VL-Embedding sa larawan?

Karamihan sa mga tao ay nakikita ang makintab na bahagi ng multimodal AI—ang chat interface na tumitingin sa iyong screenshot at nagsusulat ng tugon. Pero sa ilalim, umaasa ito sa isang bagay na hindi gaanong kaakit-akit pero napakahalaga: embeddings.

Ang mga embedding model tulad ng Qwen3-VL-Embedding ay mahalagang bahagi ng sistema na nagbabago ng iyong mga bagay—mga larawan, teksto, mga frame ng video—sa vectors: mahahabang listahan ng mga numero na kumakatawan sa kahulugan.

Sa isang normal na modelo ng text embedding:

  • Ang "pulang tasa" at "krimson na tasa ng kape" ay nagtatapos na magkalapit sa vector space

Sa isang multimodal embedding model tulad ng Qwen3-VL-Embedding:

  • Isang larawan ng pulang tasa
  • Ang tekstong "pulang ceramic na tasa sa mesa"
  • Marahil kahit alt-text o maikling caption

…lahat ay naglalagay malapit sa isa't isa sa ibinahaging espasyong iyon.

Bakit mahalaga ito:

  • Maaari kang maghanap ng mga larawan gamit ang teksto ("ipakita sa akin ang lahat ng screenshot kung saan pula ang error dialog")
  • Maaari kang maghanap ng teksto gamit ang mga larawan ("hanapin ang mga dokumentong tumutugma sa konsepto sa slide na ito")
  • Maaari mong i-cluster ang halo-halong nilalaman ayon sa konsepto sa halip na uri ng file

Mula sa aking mga pagsusuri sa katulad na mga multimodal embedding model, ang mga benepisyo ay napapansin sa mga retrieval task.

Halimbawa:

  • Text-only embeddings sa isang halo-halong dataset (mga dokumento + screenshot) ay tumutugma sa mga kaugnay na item mga 72–78% ng oras sa aking mga spot check
  • Multimodal embeddings ay nagtulak nito sa 86–92% na saklaw, lalo na kung ang kahulugan ay pangunahing nasa mga larawan (charts, UI states, atbp.)

Ang eksaktong mga numero ay mag-iiba ayon sa dataset, ngunit ang pattern ay pare-pareho: kung ang iyong nilalaman ay hindi lamang plain text, ang mga multimodal embedding ay tutulong sa iyo na hindi mawala ang kalahati ng iyong signal.

Qwen3-VL-Embedding inilunsad noong Enero 8, 2026, mula sa Qwen team ng Alibaba. Ito ay open-source (available sa Hugging Face), sumusuporta sa 30+ na wika, at dinisenyo para sa "any-to-any" matching—nag-uugnay ng text query sa isang video clip nang hindi kailangan ng perpektong tags.

Isipin mo ito sa ganitong paraan:

"Ito ang bahagi na naglalagay sa aking mga imahe at teksto sa iisang utak, kaya ang aking AI ay maaaring makita at mag-isip tungkol sa mga ito nang magkakasama."

Hindi ito ang chatty front-end. Ito ang mapa sa ilalim na nagpapagana ng magandang multimodal chat.

Noong 2026, ang mga kasangkapan tulad nito ay nagpapalakas ng paglipat sa seamless, global multimodal experiences. Ito ang dahilan kung bakit ang iyong photo app ay biglang nakakaintindi ng "vibes" sa halip na mga label lang. Ito rin ang dahilan kung bakit gumagana na ngayon ang paghahanap sa iyong magulong notes folder.


Ano ang binubuksan nito para sa personal AI

Dito humihinto ang multimodal AI sa pagiging isang buzzword at nagsisimula itong maging parang isang napaka-opinyonadong intern na nakatira sa iyong laptop.

1. Ang screenshot-first note-taking ay talagang gumagana

Ang aking tunay na workflow sa mahabang panahon:

  • Screenshot ng isang chart
  • I-paste ito sa Notion
  • Sabihin sa sarili na "magsusulat ng notes mamaya"
  • Hindi kailanman ginagawa

Sa isang multimodal-aware stack (chat + embeddings), maaari mong:

  • Ilagay ang mga screenshot, mga hindi pa tapos na text notes, at mga link sa isang folder
  • Hayaan ang multimodal embedding model na i-index ang lahat
  • Pagkatapos ay itanong: "Ipakita sa akin ang 5 screenshot na may kaugnayan sa spike ng churn noong nakaraang buwan at ibuod ang mga pattern."

Sa sarili kong test vault (mga 420 halo-halong items: screenshots, PDFs, notes), ang multimodal search ay nagbawas ng oras ng "paghanap ng tamang bagay" mula mga 40–60 segundo ng manual scanning patungo sa mga 10–15 segundo ng pag-query at mabilis na pag-skim.

Iyan ay humigit-kumulang na 70% na pag-bawas ng oras sa loob ng isang linggo ng aktwal na paggamit.

2. Mas magandang pag-repurpose ng nilalaman mula sa kalat na mayroon ka talaga

Karamihan sa mga gabay sa repurposing ng nilalaman ay inaakalang mayroon kang mga malilinis na transcript at maayos na nakatag na assets.

Realidad: mayroon kang kakaibang kumbinasyon ng Looms, PDFs, decks, at screenshots ng mga tweet.

Sa multimodal na AI na nakakonekta, maaari mong:

  • Itanong: "Kumuha ng 10 ideya ng tweet mula sa lahat ng nagawa ko tungkol sa mga eksperimento sa pagpepresyo"
  • Ginagamit ng sistema ang embeddings para kunin ang tamang assets, kahit na ang ilan ay slides o UI screenshots lamang
  • Pagkatapos ay ibuod at isulat muli ng chat model ang mga ito sa tono na gusto mo

Hindi ka na parurusahan para sa hindi pagkakaroon ng perpektong teksto kahit saan.

3. Personal na "visual memory" para sa iyong mga proyekto

Ginamit ko ang multimodal indexing upang:

  • Subaybayan kung paano nag-evolve ang UI ng produkto buwan-buwan
  • Alalahanin kung aling kakumpitensya ang may matalinong onboarding tooltip
  • Mabilis na ikumpara ang luma at bagong bersyon ng isang landing page

Dahil kayang "makakita" ng AI, maaari kong itanong ang mga bagay tulad ng:

"Hanapin ang 3 bersyon ng aming pahina ng pagpepresyo kung saan itinatampok ang gitnang tier at sabihin sa akin kung ano ang nagbago sa bawat pagkakataon."

Ang query na iyon ay dati nangangailangan ng 20 minuto ng pagsisiyasat. Ngayon ay mas malapit na sa 2–3 minuto, kasama ang aking sanity checks.

4. Mas ligtas, mas nakabatay na mga awtomasyon

Ikinagulat ko ito: ang multimodal na konteksto ay talagang makapagbabawas ng hallucinations sa ilang mga workflow.

Halimbawa: Nagpapatakbo ako ng maliit na awtomasyon na gumagawa ng mga snippet ng anunsyo ng tampok.

  • Lumang daloy: pinapakain ito ng mga text release notes
  • Bagong daloy: pinapakain ito ng mga release notes kasama ang updated na screenshot ng UI

Sa tekstong lamang, nag-imbento ang modelo ng mga visual na elemento mga 10–15% ng oras ("Makikita mo ang berdeng banner…" kahit wala naman).

Kapag kasali ang screenshot, bumaba ito sa ibaba ng 5% sa aking mga tala.

Hindi ito perpektong katotohanan. Ngunit kapag binigyan mo ang modelo ng mas nakabatay na inputs—lalo na ang mga visual—mas kaunti ang espasyo nito upang mag-imbento.

5. Mga aplikasyon sa espesyalisadong larangan

Sa mga larangan tulad ng pangangalaga sa kalusugan at agham ng buhay, ang multimodal AI ay nagbabago na kung paano pinag-aaralan ng mga propesyonal ang data ng pasyente—pinagsasama ang medikal na imaging, mga klinikal na tala, at data ng sensor para sa mas tumpak na diagnosis.


Ang mga app na gumagamit na nito

Malamang na nagamit mo na ang multimodal AI nang hindi mo namamalayan. Hindi mo lang nakita ang mga salitang "multimodal AI explained" sa homepage.

Narito kung saan ito tahimik na lumilitaw:

1. Mga Chatbot na tumatanggap ng mga larawan at file

Ang mga tool tulad ng mga modernong interface na ChatGPT-style, Claude, at iba pa ngayon ay nagpapahintulot sa iyo na:

  • Mag-upload ng mga screenshot
  • Magbigay ng PDF o slides
  • Mag-paste ng teksto

Kapag nagbibigay sila ng malinaw na sagot na kumokonekta sa mga ito, iyon ay multimodal na pag-iisip plus—madalas—multimodal na embeddings sa likod.

2. Mga tool para sa pagkamalikhain: disenyo, video, mga thumbnail

Pati na rin sa mga tool sa disenyo at video ay palihim na isinasama ito:

  • Gumawa ng mga caption na umaangkop sa parehong iyong visual na estilo at iyong script
  • Magmungkahi ng mga ideya para sa thumbnail base sa aktwal na mga frame ng iyong video
  • Awtomatikong mag-tag o mag-cluster ng mga asset sa iyong media library ayon sa visual na konsepto, hindi lang pangalan ng file

Nakita ko ang mga tagumpay na tulad ng:

  • ~90% tamang "tema" na pag-tag sa mga set ng larawan ("dashboard UI", "selfie ng tagapagtatag", "mockup ng produkto")
  • ~70–80% disente na unang-draft ng mga caption na sapat na on-brand para i-tweak, hindi muling isulat

3. Mga tool para sa pananaliksik at kaalaman

Ang mga tool sa "ikalawang utak" / espasyo ng pananaliksik ay nagsisimula nang:

  • Pahintulutan kang maghanap sa loob ng parehong mga dokumento at mga screenshot
  • Magpakita ng halo-halong resulta para sa "Ipakita sa akin ang lahat tungkol sa onboarding friction"—at isama ang screenshot ng galit na kustomer at isang nakatagong slide mula sa nakaraang quarter

Dito kumikinang ang mga modelo tulad ng Qwen3-VL-Embedding: ginagawa nilang mabuhay ang lahat ng nilalaman sa isang semantic na espasyo, kaya't hindi na kailangang magpanggap ng app ang multimodality.

4. Google Gemini at Photos

Google Gemini at Photos ay gumagamit ng multimodal upang maghanap sa mga album gamit ang mga parirala tulad ng "family hike," na pinagsasama-sama ang teksto, larawan, at video. Sa CES 2026, ipinakita ng Google kung paano maaring hanapin ng Gemini ang iyong Google Photos library para sa mga tiyak na tao at sandali, na may real-time na video analysis na umuunlad sa mga app tulad ng YouTube recommendations.

5. AI Glasses at Assistants ng Meta

Ang AI Glasses ng Meta at Assistants ay pinagsasama ang boses, visuals, at teksto para sa hands-free na tulong—tulad ng pagkilala sa mga bagay sa iyong tanaw. Nagiging uso sa 2026 para sa mga pang-araw-araw na wearables na "nakakaramdam" ng mga pangangailangan nang walang mga screen.

6. Ang iyong sariling DIY stack

Kung ikaw ay medyo teknikal, o komportable sa mga no-code na tool, maaari mo nang i-wire ito sa iyong sariling workflow:

  • Gumamit ng multimodal embedding model para i-index ang iyong mga tala/screengrabs
  • I-store ang mga vector sa isang lokal o cloud vector database
  • Bumuo ng maliit na UI (o kahit isang notebook) kung saan:
    • Mag-drop in ng bagong asset
    • Makakuha ng pabalik ng mga pinakatulad na lumang asset
    • Pagkatapos ipasa ang pareho sa isang chat model para sa pagbubuod o pagbuo ng ideya

Ito ay karaniwang "personal na multimodal AI na ipinaliwanag sa pamamagitan ng paggawa": mararamdaman mo ang pagkakaiba sa unang pagkakataon na matagpuan mo ang isang taon na screenshot agad-agad sa pamamagitan lamang ng paglalarawan kung ano ang nasa ito.


Kaya ano ang bottom line?

Kung wala ka nang maalala pa, tandaan mo ito:

Ang Multimodal AI ay hindi lang "mga chatbot na kumukuha ng mga larawan." Ito ay tungkol sa pagkonekta ng teksto, mga visual, audio, at higit pa sa isang pinagsamang pag-unawa.

Ang mga modelong tulad ng Qwen3-VL-Embedding ay ang pandikit na layer na nagbibigay-daan sa iba't ibang uri ng nilalaman na manirahan sa parehong semantic na espasyo—kaya't ang iyong AI ay talagang makakahanap at makakapag-isip sa kanila nang magkakasama.

Para sa mga indie creator, marketer, at mga mausisang tagabuo, ito ay nagbibigay-daan sa mga workflow na sa wakas ay tumutugma sa ating aktwal na paraan ng pagtatrabaho: magulo, visual, kalahating nakasulat, ngunit puno ng signal.

Kung ikaw ay nag-eeksperimento sa personal na AI stack, ang aking mungkahi: pumili ng isang maliit ngunit nakakainis na workflow—maaaring "paghanap ng tamang screenshot" o "pagbubuod ng mga deck + tala"—at muling buuin ito gamit ang isang multimodal na modelo sa loop. Huwag subukang gawin ang lahat.

Patakbuhin ito ng isang linggo, sukatin ang tunay na oras na natipid, at ituring ang iyong sariling datos bilang pamantayan.

Iyan ang uri ng multimodal AI na ipinaliwanag sa pamamagitan ng karanasan, hindi marketing copy. At ito ang tanging sukatan na talagang mahalaga para sa iyong setup.


Handa ka na bang maranasan ang multimodal AI sa aksyon? Hayaan mong maging personal na katulong mo si Macaron—naiintindihan ang iyong mga screenshot, tala, at boses upang matulungan kang magtrabaho nang mas matalino, hindi mas mahirap.

Hey, I’m Hanks — a workflow tinkerer and AI tool obsessive with over a decade of hands-on experience in automation, SaaS, and content creation. I spend my days testing tools so you don’t have to, breaking down complex processes into simple, actionable steps, and digging into the numbers behind “what actually works.”

Apply to become Macaron's first friends