PangunaLBank News Center
Nais ng Perplexity na gawin ng iyong laptop ang bahagi ng gawaing AI—upang hindi na nito kailanganin
perplexity-hybrid-ai-local-cloud-mode
Nais ng Perplexity na gawin ng iyong laptop ang bahagi ng gawaing AI—upang hindi na nito kailanganin
Ang bagong hybrid na sistema ng inference ng kumpanya ay awtomatikong nagruruta ng mga gawain ng AI sa pagitan ng iyong device at ng cloud. Ang privacy at pagtitipid sa gastos ang ipinangangako — at mas mababang singil sa server.
2026-06-03 Pinagmulan:decrypt.co

Sa maikling salita

  • Inanunsyo ng Perplexity ang "hybrid agentic inference" sa Computex 2026, isang sistema na awtomatikong naghahati ng mga gawain ng AI sa pagitan ng lokal na device ng user at ng mga cloud-based na frontier model—hindi nangangailangan ng manual na pag-configure.
  • Darating ang feature sa Perplexity Computer sa Hulyo, na ipinakita sa mga Intel Core Ultra Series 3 processor at kasalukuyang eksklusibo sa Windows PC app.
  • Ipinaliwanag ni CEO Aravind Srinivas ang paglipat sa paligid ng cost efficiency: lumago ng limang beses ang kita ng Perplexity sa $500 milyon habang ang bilang ng empleyado ay tumaas lamang ng 34%, at ang paglilipat ng inference sa hardware ng gumagamit ay nagpapanatili sa ratio na iyon na gumagana.

Umakyat sa entablado si Perplexity CEO Aravind Srinivas sa Computex 2026 sa Taipei noong Hunyo 2 kasama si Intel CEO Lip-Bu Tan upang ianunsyo ang tinatawag ng kumpanya na unang hybrid na local-server inference orchestrator. Ang sistema, na darating sa Perplexity Computer sa Hulyo, ay awtomatikong nagpapasya kung aling bahagi ng isang gawain ng AI ang tatakbo sa iyong makina at kung aling bahagi ang iruruta sa mas makapangyarihang mga modelo sa cloud—nang hindi ka hinihiling na pumili.

“Ngayon ay inanunsyo namin ang susunod na hakbang para sa Personal Computer: ang unang hybrid na local-server inference orchestrator,” inanunsyo ng Perplexity. “Nagpapasya ito kung anong gawain ang dapat tumakbo sa iyong device at kung anong gawain ang dapat pumunta sa mga cloud agent, awtomatikong iruruta ang bawat bahagi ng isang gawain sa tamang lugar”

"Ang tamang layunin para sa isang sistema ng AI ay ang maghatid ng pinakamalaking token value bawat watt, para sa bawat user," isinulat ng Perplexity sa opisyal na anunsyo. Tatlong magkakumpitensyang presyon ang nagpapahirap dito: hinihingi ng katumpakan ang pinakamakapangyarihang mga modelo, hinihingi ng privacy na huwag umalis ang ilang data sa iyong makina, at hinihingi ng gastos na huwag mong gastusin ang computing resources ng isang frontier model sa isang gawain na kayang hawakan ng mas maliit na modelo.

Ang solusyon na tinatawag ng Perplexity na "hybrid agentic inference" ay tinutugunan ang lahat ng tatlong ito nang sabay-sabay. Isang compact na modelo ang tumatakbo nang lokal sa iyong device at nagsisilbing traffic cop—inaalam kung aling impormasyon ang sapat na sensitibo para manatiling lokal at kung aling mga gawain ang nangangailangan ng buong kapangyarihan ng isang cloud-based na frontier model.

"Ang hybrid agentic inference ay para sa gawain na kinabibilangan ng sensitibong data ngunit nangangailangan ng makapangyarihang AI. Mga bagay tulad ng mga rekord sa pananalapi, impormasyon sa kalusugan, at personal na file," paliwanag ng kumpanya. "Ang compact na modelo ay tumatakbo nang lokal sa iyong device upang matukoy kung kailan dapat manatili nang lokal ang sensitibong data. Samantala, ang gawain na nangangailangan ng buong kakayahan ng isang frontier model ay tumatakbo sa server."

Dapat mo ba itong pakialaman?

Inference—ang proseso ng pagpapatakbo ng isang trained na modelo ng AI upang makabuo ng tugon—ay ang gawain sa kompyutasyon na nangyayari tuwing magsesend ka ng prompt sa isang chatbot. Sa ngayon, halos lahat ng ito ay nangyayari sa mga remote server na pag-aari ng mga kumpanya ng AI. Nangangahulugan iyan na ang iyong mga dokumento sa pananalapi, mga katanungan sa kalusugan, at mga pribadong tala ay naglalakbay sa kompyuter ng iba bago ka makakuha ng sagot.

Ito ang dahilan kung bakit nakikita mo ang mga mode na “Auto” o “low thinking” sa iyong chatbot. Laging susubukan ng mga kumpanya ng AI na pilitin ang mga user na iruta ang mga interaksyon sa pinakamurang mode na posible para sa kanila.

Direkta si Srinivas tungkol dito. Sa isang panayam sa Bloomberg Television sa Computex, sinabi niya ang totoo: "Ayaw mong ang lahat ng iyong kompyut ay sentralisado sa mga server at lahat ay tumatakbo sa pinakamalaking modelo. Ang ilang tao ay gumagastos ng kalahating bilyong dolyar bawat buwan. Ang gusto mo talaga ay mahusay na halaga bawat watt bawat user." Ang paglilipat ng gawain ng inference sa hardware ng gumagamit ay nagbabawas ng mga gastos na iyon—para sa Perplexity.

Ang lokal na inference ang pinakamahusay para sa mga kumpanyang iyon dahil binabawasan nito ang maraming gastos, ngunit may malaking punto rin ito na pabor sa mga user ng AI: Pinapanatili nito ang data na iyon sa iyong makina. Ang tradeoff ay palaging kapangyarihan: ang mas maliliit na modelo na tumatakbo nang lokal ay hindi gaanong may kakayahan kaysa sa malalaking modelo na nasa mga data center.

Sinusubukan ng orchestrator ng Perplexity na makuha ang pareho. Ang mga simpleng gawain—pagbubuod ng isang dokumento na naisulat mo na, pag-format ng teksto, lightweight na klasipikasyon—ay tumatakbo nang lokal. Ang kumplikadong pag-iisip ay iruruta sa cloud, sa perpektong sitwasyon nang walang kalakip na sensitibong bahagi ng iyong gawain. Sinabi ng kumpanya na nangyayari ito awtomatiko, sa gitna ng gawain, hindi nakikita ng gumagamit. Kung ang routing ay kasing-maaasahan sa praktika gaya ng tunog nito sa isang Computex demo ay isang katanungan na sasagutin ng paglulunsad sa Hulyo.

Isang paglilinaw na mahalagang gawin: ito ay hindi Perplexity na nagbibigay ng isang open-source na lokal na modelo na kinokontrol mo. Ang lokal na bahagi ay isang compact na modelo na idine-deploy ng Perplexity bilang bahagi ng app nito. Ang cloud component ay nagruruta pa rin sa pamamagitan ng mga server ng Perplexity. Ang mga user na gustong magkaroon ng ganap na offline, self-hosted na setup—ang uri ng mga proyekto tulad ng MiniCPM5-1B ay nag-aalok—ay hindi makikita iyon dito.

Ang mga numero ang nagbibigay ng konteksto sa pagpapaliwanag na iyan. Lumago ang kita ng Perplexity mula $100 milyon tungo $500 milyon habang ang bilang ng empleyado ay tumaas lamang ng 34%, inanunsyo ni Srinivas noong Abril. Ang isang kumpanya na nagruruta ng mga query sa mga modelo na hindi nito sinasanay ay may matinding insentibo upang panatilihing mababa hangga't maaari ang mga gastos sa kompyut. Ang paglilipat ng bahagi ng pasanin ng inference sa mga device ng user—bilyun-bilyong PC na nasa sirkulasyon—ay isang mahusay na paraan upang magawa iyon. Totoo ang argumento para sa privacy, ngunit naaayon din ito sa pinansyal na aspeto.

Sino pa ang gumagawa nito

Bawat pangunahing manlalaro sa AI ay nagtutulak tungo sa on-device o hybrid inference sa ngayon. Ang Apple Intelligence ay nagpapatakbo ng pinakasensitibong pagproseso nito nang lokal sa mga M-series chips. Naabot ng Foundry Local ng Microsoft ang general availability noong Abril 2026, na nagpapagana ng buong AI inference sa Windows, macOS, at Linux nang walang dependency sa cloud.

Inanunsyo ng Nvidia ang RTX Spark sa parehong Computex kung saan inanunsyo ng Perplexity ang kanilang bagong feature, na target ang lokal na LLM inference sa mga laptop at desktop. Ang diskarte ng Google, tulad ng iniulat ng Decrypt, ay mas kontrobersyal—tahimik na ini-install ng Chrome ang isang 4GB Gemini Nano model nang walang pahintulot ng user, at ang "AI Mode" na button na nakikita ng karamihan ng user ay hindi rin pala ito ginagamit.

Ang pagkakaiba ng Perplexity ay ang orchestration layer. Sa halip na hilingin sa mga user na pumili ng lokal o cloud nang maaga, ang sistema ang nagpapasya bawat gawain, nang real time. Sinabi ni Srinivas na ang diskarte ay "chip agnostic"—ang Computex demo ay tumakbo sa Intel Core Ultra Series 3, ngunit sinusuportahan din ang mga Nvidia processor. Ang feature ay kasalukuyang eksklusibo sa Perplexity para sa Windows PC app, at ang mas malawak na timeline ng paglulunsad ay hindi pa kumpirmado.