
Meta 於週三推出了 Muse Spark,這是 Meta 超級智能實驗室 (Meta Superintelligence Labs) 所打造的第一個模型。該團隊是在 Meta 以 140 億美元收購 Scale AI 後,由首席 AI 長 Alexandr Wang 於九個月前組建的。目前,Muse Spark 已在 meta.ai 和 Meta AI 應用程式上線,並將在未來幾週內逐步推廣至 Facebook、Instagram 和 WhatsApp。
這不只是另一個聊天機器人的升級版,也不是 Llama 的新版本。Muse Spark 是一種原生多模態模型,它從底層開始處理圖像、文本和語音,而非將視覺功能附加到現有的文本模型上。它具備視覺思維鏈 (visual chain-of-thought)、工具使用支援,以及 Meta 稱之為「沉思模式」(Contemplating mode) 的功能:一種讓多個 AI 代理平行運行以解決更困難問題的設置。這是 Meta 對 Google Gemini Deep Think 和 OpenAI GPT Pro 擴展思考模式的回應。
「Muse Spark 是我們擴展藍圖上的第一步,也是我們徹底改革 AI 工作的首個成果。」Meta 在官方公告中寫道。「為了支援進一步的擴展,我們正在整個堆棧中進行戰略投資,包括從研究、模型訓練到基礎設施,其中也包含 Hyperion 資料中心。」
該公司與超過 1,000 名醫生合作,為 Muse Spark 的醫學推理策劃訓練數據。在 HealthBench Hard (一個開放式健康查詢基準測試) 上的結果令人驚訝:Muse Spark 獲得 42.8 分,而 GPT 5.4 為 40.1 分,Gemini 3.1 Pro 僅為 20.6 分。這不是微小的差異。
在代理式搜尋 (DeepSearchQA) 方面,Muse Spark 也以 74.8 分領先,擊敗了 Gemini (69.7 分) 和 GPT 5.4 (73.6 分)。在 CharXiv Reasoning (科學論文中的圖形理解) 上,它獲得 86.4 分,是所有比較模型中最高的。
對於熱衷於「越獄」AI 的人來說,這個模型在幾分鐘內就被破解了:
🚰 SYSTEM PROMPT LEAK 🚰
Here's the full Muse Spark system prompt from Meta!
I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘
PROMPT:
"""
Who are you?You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026
然而,好不等於卓越。整體基準測試結果顯示,Gemini 3.1 Pro 在大多數類別中仍保持領先。這種差距在 ARC AGI 2 (抽象推理謎題基準測試) 上最為明顯:Gemini 獲得 76.5 分,而 Muse Spark 為 42.5 分。
在編碼 (LiveCodeBench Pro) 方面,Gemini 的 82.9 分超越了 Meta 的 80.0 分。在 MMMU Pro (多模態理解) 方面,Gemini 獲得 83.9 分,Meta 則為 80.4 分。Meta 自己的部落格也承認,在長程代理系統和編碼工作流程方面,目前仍存在性能差距。
這次的發布也蘊含著一個顯著的策略轉變。Muse Spark 是一個封閉模型,其架構和權重將不會公開。這與 Llama 形成了鮮明對比,Llama 在開放 AI 圈中為 Meta 建立了聲譽。在 Llama 4 今年稍早的反響平平之後,Meta 似乎已決定下一章需要以不同的方式書寫。
該公司表示,希望未來能開源 Muse 的版本,但目前代碼仍保留在 Meta 內部。在該公告發布後,這家科技巨頭的股價週三上漲近 9%,收盤時上漲 6.5%,報 612.42 美元。
「沉思模式」利用平行代理協調來提升模型的極限。在這種配置下,Muse Spark 在「人類最終考試」(Humanity's Last Exam) 中達到 58%,在「前沿科學研究」(FrontierScience Research) 中達到 38%——這些表現使其足以與 Gemini 和 GPT 最強大的版本競爭,而非僅是其標準發布版本。
Meta 也將推出一款購物助理,用於比較產品並直接連結至購買頁面,並計畫在未來幾週內將 Muse Spark 導入 Facebook、Instagram 和 WhatsApp——沿襲 Llama 3 以來的策略,將其呈現在超過 35 億用戶面前。目前正向部分開發者開放私人 API 預覽。
該模型在九個月內建成,內部代號為 Avocado,Meta 聲稱其新的預訓練堆棧能夠以少於 Llama 4 Maverick 十倍以上的算力,達到相同的能力水平。
Muse Spark 在內部被描述為 Muse 系列中「小而快」的第一步。一個功能更強大的版本也已在開發中。