
Ang MiniCPM5-1B, isang modelong may isang bilyong parameter mula sa OpenBMB, ang pinakabagong release sa serye ng MiniCPM on-device. Sinusuportahan nito ang native tool calling at ang Model Context Protocol (MCP), kayang magkasya sa memorya ng smartphone, at nangunguna sa mga benchmark kumpara sa bawat maihahambing na open-source na modelo sa laki nito.
Ang modelo ay ang unang release sa pamilya ng MiniCPM5, na idinisenyo mula sa simula para sa lokal na deployment sa hardware na limitado sa mapagkukunan. Sa 1 bilyong parameter, maliit ito sa anumang kasalukuyang pamantayan. (Ang mga parameter ang nagbibigay sa isang modelo ng AI ng lawak ng kaalaman nito, kung saan ang mas malaking bilang ay karaniwang nangangahulugang mas malakas ito.)
Ang Gemma 4 ng Google ay nagsisimula sa 2 bilyong epektibong parameter ngunit umaabot sa 31 bilyon. Ang Llama 4 Scout ay nagpapatakbo ng 17 bilyong aktibong parameter. Walang pagpapanggap ang MiniCPM5-1B na makipagkumpitensya sa mga iyon. Ang layunin nito ay makagawa ng mas marami sa mas kaunti.
Ang arkitektural na pundasyon ay nagmula sa MiniCPM4, na detalyado sa isang teknikal na ulat mula sa pangkat ng OpenBMB sa THUNLP, Tsinghua University, at ModelBest. Ang pangunahing inobasyon ay ang InfLLM v2, isang mekanismong attention na maaaring sanayin na nagpoproseso ng bawat token laban sa mas mababa sa 5% ng mga nakapaligid na token sa panahon ng inferencing na may mahabang konteksto—malaki ang pagbawas sa komputasyon nang walang makabuluhang pagbaba sa katumpakan. (Ang “token” ay ang batayang unit ng impormasyon na hinahawakan ng isang modelo ng AI.)
Sa bahagi ng data, binuo ng koponan ang UltraClean, isang filtering pipeline na nakapagbigay sa modelo ng mapagkumpitensyang performance gamit ang 8 trilyong training token, kumpara sa 36 trilyong kinonsumo ng Qwen 3. Ang post-training ay gumamit ng reinforcement learning na sinamahan ng mabisang diskarte sa distillation (gamit ang mas malaking modelo bilang gabay para sa mas maliit), na nagpataas ng mga benchmark score sa matematika, coding, at pagsunod sa instruksyon ng 16 puntos habang binabawasan ang mga tugon na sobrang haba ng 29 porsyentong puntos.
Ang context window ay nasa 128K token—humigit-kumulang 96,000 salita ng tuloy-tuloy na teksto sa isang pagpasa. Para sa isang modelong may 1 bilyong parameter, iyon ay isang makabuluhang bilang. Ang paulit-ulit na memorya sa isang mahabang sesyon ng roleplay, isang buong PDF digest, o isang konteksto ng ahente na hindi nagre-reset sa gitna ng gawain ay nasa loob ng saklaw.
Sinubukan namin ito at kinumpirma na sinusuportahan ng MiniCPM5-1B ang MCP at tool calls. Dahil dito, napabilang ito sa napakaikling listahan ng mga modelong mas mababa sa 2 bilyong parameter na may kakayahang magsagawa ng tunay na agentic workflows nang walang imprastraktura ng cloud.
Gayunpaman, para gumana ito, kailangan ng mga user na mag-set up ng karagdagang configuration, na nakalista lahat sa Github repo ng modelo.
Ang praktikal na senaryo: isang lokal na ahente sa isang iPhone na kayang mag-query ng kalendaryo, maghanap sa isang lokal na database, o tumawag sa isang web research MCP server—ganap na offline. Gaya ng aming natalakay, ang pagpapatakbo ng lokal na AI ay mas madali nang ma-access kaysa sa iniisip ng karamihan, at ang on-device race ay bumibilis. Ang mga modelong idinisenyo upang tumakbo sa isang telepono nang walang cloud backend ay nagiging isang tunay na kategorya ng produkto, hindi isang kuryosidad sa pananaliksik.
Hindi mo kailangan ng OpenAI para suriin ang iyong kalendaryo kung kayang kunin lang ito ng isang lokal na ahente at sabihin sa iyo kung ano ang nasa iyong iskedyul para ngayon.
Para sa magaan na agentic tasks at pinahabang konteksto ng pag-uusap, ang MiniCPM5-1B ay mapagkumpitensya. Gayunpaman, kahit na hindi ito naisip ng OpenBMB, ang maberong istilo ng modelo ay nagiging magandang kandidato ito para sa lokal na roleplay—ang 128K na konteksto ay nangangahulugang ang isang kuwento ay maaaring umunlad sa dose-dosenang, kung hindi man daan-daang palitan nang hindi nawawala ang usapan ng modelo.
Ang maliliit na ahente na nagbabasa ng mga tala, nagbubuod ng mga dokumento, at sumasagot ng mga tanong tungkol sa mga ito ay kumportableng nasa saklaw nito, lalo na kapag ipinares sa isang MCP research server upang takpan ang mga kakulangan sa kaalaman.
Kasama sa kompetisyon sa sukat na ito ang Qwen3-0.6B ng Alibaba, Qwen3.5-0.8B, at LFM2.5-1.2B-Thinking ng Liquid AI. Ang sariling capability benchmark ng OpenBMB ay inihahambing ang lahat ng apat sa pangkalahatang kaalaman, kaalaman sa domain, coding, pagsunod sa instruksyon, pangangatwiran sa matematika, lohikal na pangangatwiran, at agentic tasks. Ang MiniCPM5-1B ang nangunguna sa lahat ng pitong kategorya, na may pinakapansin-pansing kalamangan sa agentic performance at pangkalahatang kaalaman.
Nagsagawa kami ng tatlong mabilisang pagsusuri. Ang una ay isang klasikong bitag ng lohika: "Mangyaring kumilos bilang isang ekspertong abogado at mambabatas. Legal ba para sa isang lalaki na pakasalan ang kapatid ng kanyang balo ayon sa legal na sistema na sumasaklaw sa Falkland Islands?"
Ang tamang sagot ay halata—patay na ang lalaking may balo, at ang mga patay ay hindi pumipirma ng mga sertipiko ng kasal. Gumawa ang MiniCPM5-1B ng detalyadong pagsusuri sa batas sa pag-aasawa ng Falkland Islands at lubos na hindi napansin ang bitag, tinrato ito bilang isang tuwirang tanong sa hurisdiksyon.
“Mahalaga, kailangan mong tukuyin ang aktwal na marital status sa Falkland Islands. Ito ay isang bagay na dapat matukoy ng mga lokal na awtoridad o sa pamamagitan ng legal na proseso,” sagot ng modelo pagkatapos ng mahabang pangangatwiran.
Ang aming ikalawang pagsubok ay humingi ng tiyak na pagpili sa A/B. Hindi pinili ng modelo ang alinman, sa halip ay nagbigay ng sagot na parehong panig. Ito ay isang kilalang paraan ng pagkabigo sa maliliit na modelo sa ilalim ng presyon ng pag-uusap. Ang MiniCPM5-1B ay hindi iba.
Tinanong namin ang modelo kung aling industriya ang mangunguna sa ekonomiya sa taong 2100: Crypto o AI? Sa halip na mangatwiran tungkol sa tanong, ang panloob na pag-iisip ng modelo ay nagsimulang suriin ang cryptocurrency at AI investment bilang synergic mula sa simula.
Sa katunayan, walang alinman sa mga ito ang nakakagulat para sa isang modelong 1B.
Ang agentic capabilities ang tunay na kuwento dito. Ipares ang MiniCPM5-1B sa isang MCP server para sa pananaliksik sa web at ang tendency nitong mag-hallucinate sa mga malabong tanong na base sa katotohanan ay mawawala, o hindi bababa sa malaki ang pagbaba.
Tinanong namin ang modelo para sa presyo ng Bitcoin ngayon at tatlong rekomendasyon sa stock, at matagumpay na tinawag ang tool, at ang mga rekomendasyon (Amazon, Microsoft at Nvidia) ay may katuturan.
Ang isang maberong, lokal na ahente na kayang tumawag ng mga tool, humawak ng 128K na konteksto, at tumakbo nang buo sa device ay isang mas kawili-wiling produkto kaysa sa isang standalone na modelo ng pagsagot sa tanong na nakikipagkumpitensya sa GPT-4.
Huwag mo lang kanselahin ang iyong subscription sa AI dahil dito. Alamin kung ano ang iyong kinakaharap: Mahina ang kaalaman nito kumpara sa malalaking modelo, mahina itong mag-code (muli, kumpara sa mas malalaking modelo) at hindi ito malapit sa AGI, kung iyon ang iyong hinahanap.
Ang MiniCPM5-1B ay available na ngayon sa Hugging Face sa ilalim ng lisensya ng Apache 2.0, na tugma sa vLLM, SGLang, at standard Transformers inference.