首頁LBank 新聞中心
Perplexity 欲讓你的筆記型電腦分擔部分 AI 工作,以減輕其自身負擔
perplexity-hybrid-ai-local-cloud-mode
Perplexity 欲讓你的筆記型電腦分擔部分 AI 工作,以減輕其自身負擔
這家公司的新型混合式AI推論系統,能夠自動將AI任務在您的裝置和雲端之間進行路由。其主要訴求是隱私保護、節省成本,以及降低伺服器費用。
2026-06-03 來源:decrypt.co

簡要

  • Perplexity 在 2026 年台北國際電腦展(Computex)上宣布了「混合代理推理」(hybrid agentic inference),該系統會自動將 AI 工作負載分配給用戶的本機設備和基於雲端的領先模型——無需手動配置。
  • 該功能將於 7 月在 Perplexity Computer 上推出,並在 Intel Core Ultra Series 3 處理器上進行了演示,目前僅限 Windows PC 應用程式使用。
  • 執行長 Aravind Srinivas 將此舉歸因於成本效益:Perplexity 的營收增長了五倍達到 5 億美元,而員工人數僅增長了 34%,將推理工作分擔到用戶硬體上有助於維持這一比例。

Perplexity 執行長 Aravind Srinivas 於 6 月 2 日在台北舉行的 2026 年台北國際電腦展(Computex)上與 Intel 執行長 Lip-Bu Tan 共同登台,宣布了該公司稱之為首個混合本地-伺服器推理協調器。該系統將於 7 月在 Perplexity Computer 上推出,它會自動決定 AI 任務的哪些部分應在您的機器上運行,哪些部分應路由到雲端中更強大的模型——無需您手動選擇。

Perplexity 宣布:「今天,我們將發布個人電腦的下一步:首個混合本地-伺服器推理協調器。」「它會決定哪些工作應在您的設備上運行,哪些工作應交由雲端代理執行,自動將任務的每個部分路由到正確的位置。」

Perplexity 在官方公告中寫道:「AI 系統的正確目標是為每個用戶提供每瓦最高的代幣價值。」有三個相互競爭的壓力使得這項任務變得困難:準確性需要最頂尖的模型,隱私要求某些數據絕不能離開您的機器,而成本則要求您不要將領先模型的計算資源浪費在較小模型就能處理的任務上。

Perplexity 稱之為「混合代理推理」的解決方案同時解決了這三個問題。一個輕量級模型在本機設備上運行,充當交通警察——判斷哪些信息足夠敏感需要保留在本機,以及哪些任務需要基於雲端的領先模型提供全部能力。

該公司解釋說:「混合代理推理適用於包含敏感數據但需要強大 AI 的工作,例如財務記錄、健康資訊和個人文件。」「輕量級模型在本機設備上運行,以判斷何時應將敏感數據保留在本機。同時,需要領先模型全部能力的工作則在伺服器上運行。」

您應該關心嗎?

推理——運行訓練過的 AI 模型以產生回應的過程——是您每次向聊天機器人發送提示時所發生的計算工作。目前,幾乎所有這些工作都在 AI 公司擁有的遠端伺服器上進行。這意味著您的財務文件、健康查詢和私人筆記在您收到回覆之前,都會傳輸到別人的電腦上。

這就是為什麼您會在聊天機器人上看到「自動」模式或「低思考」模式。AI 公司總是會試圖強迫用戶以對他們來說最便宜的模式進行互動路由。

Srinivas 對此直言不諱。在台北國際電腦展(Computex)接受彭博電視台採訪時,他明確指出:「您不希望所有計算都集中在伺服器上,所有內容都透過最大的模型運行。有些人每月花費 5 億美元。您真正想要的是每個用戶每瓦的有效價值。」將推理工作分擔到用戶硬體上有助於 Perplexity 降低這些費用。

本地推理對這些公司來說是最好的,因為它能大幅削減成本,但對於 AI 用戶而言,它有一個主要優勢:它能將數據保留在您的機器上。權衡點始終是能力:在本機運行的較小型模型,其能力不如數據中心中的大型模型。

Perplexity 的協調器試圖兼顧兩者。簡單的任務——例如總結您已撰寫的文件、格式化文本、輕量級分類——在本機運行。複雜的推理則被路由到雲端,理想情況下不會附帶任務的敏感部分。該公司表示,這一切都是自動發生,在任務進行中,對用戶而言是無形的。這種路由在實踐中是否像 Computex 演示聽起來那樣可靠,將是 7 月份推出後才能解答的問題。

值得澄清的一點是:這並非 Perplexity 提供一個您可以控制的開源本地模型。本地組件是 Perplexity 作為其應用程式一部分部署的輕量級模型。雲端組件仍然透過 Perplexity 的伺服器路由。那些希望擁有完全離線、自託管設置(例如 MiniCPM5-1B 專案提供的類型)的用戶,將不會在這裡找到。

這些數字為上述背景提供了依據。Srinivas 在 4 月宣布,Perplexity 的營收從 1 億美元增長到 5 億美元,而員工人數僅增加了 34%。一家將查詢路由到它未訓練的模型上的公司,有強烈的動機將計算成本盡可能降低。將部分推理負擔轉移到用戶設備上——數十億台已在流通的個人電腦——是一種有效的方式。隱私方面的訴求是真實的,但它也恰好與財務訴求相符。

還有誰在做這件事

目前,AI 領域的每個主要參與者都在推動設備端或混合推理。Apple Intelligence 將其最敏感的處理在本機 M 系列晶片上運行。微軟的 Foundry Local 已於 2026 年 4 月全面上市,實現了在 Windows、macOS 和 Linux 上無需雲端依賴的完整 AI 推理。

Nvidia 在 Perplexity 做出公告的同一屆 Computex 上宣布了 RTX Spark,旨在筆記型電腦和桌上型電腦上實現本地 LLM 推理。據《Decrypt》報導,Google 的做法更具爭議性——Chrome 在未經用戶同意的情況下悄悄安裝了一個 4GB 的 Gemini Nano 模型,而大多數用戶實際看到的「AI 模式」按鈕甚至沒有使用它。

Perplexity 的差異化在於其協調層。該系統不是預先讓用戶選擇本地或雲端,而是根據每個任務即時做出決定。Srinivas 表示,這種方法「不限晶片」——Computex 演示是在 Intel Core Ultra Series 3 上運行的,但也支援 Nvidia 處理器。該功能目前僅限 Perplexity 的 Windows PC 應用程式使用,更廣泛的推出時間表尚未確認。