meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta 推出其最強 AI Muse Spark——但 Gemini 3.1 Pro 仍居領先地位
Meta 超級智能團隊的首個模型本身即為多模態,專為健康推理而設計,且具備真正的競爭力,但並未在所有排行榜上名列前茅。
2026-04-08 來源:decrypt.co

重點摘要

  • Meta 全新 Muse Spark 標誌著其轉向封閉、原生多模態且具備代理式推理能力的 AI。
  • Meta 報告 Muse Spark 在健康和搜尋領域的基準測試表現強勁,但在核心推理和編碼方面仍落後於 Gemini。
  • 該模型在九個月內以遠少於預期的算力建成,這預示著 Meta 正採取一種效率導向的新 AI 策略。

Meta 於週三推出了 Muse Spark,這是 Meta 超級智能實驗室 (Meta Superintelligence Labs) 所打造的第一個模型。該團隊是在 Meta 以 140 億美元收購 Scale AI 後,由首席 AI 長 Alexandr Wang 於九個月前組建的。目前,Muse Spark 已在 meta.ai 和 Meta AI 應用程式上線,並將在未來幾週內逐步推廣至 Facebook、Instagram 和 WhatsApp。

這不只是另一個聊天機器人的升級版,也不是 Llama 的新版本。Muse Spark 是一種原生多模態模型,它從底層開始處理圖像、文本和語音,而非將視覺功能附加到現有的文本模型上。它具備視覺思維鏈 (visual chain-of-thought)、工具使用支援,以及 Meta 稱之為「沉思模式」(Contemplating mode) 的功能:一種讓多個 AI 代理平行運行以解決更困難問題的設置。這是 Meta 對 Google Gemini Deep Think 和 OpenAI GPT Pro 擴展思考模式的回應。

「Muse Spark 是我們擴展藍圖上的第一步,也是我們徹底改革 AI 工作的首個成果。」Meta 在官方公告中寫道。「為了支援進一步的擴展,我們正在整個堆棧中進行戰略投資,包括從研究、模型訓練到基礎設施,其中也包含 Hyperion 資料中心。」

該公司與超過 1,000 名醫生合作,為 Muse Spark 的醫學推理策劃訓練數據。在 HealthBench Hard (一個開放式健康查詢基準測試) 上的結果令人驚訝:Muse Spark 獲得 42.8 分,而 GPT 5.4 為 40.1 分,Gemini 3.1 Pro 僅為 20.6 分。這不是微小的差異。

在代理式搜尋 (DeepSearchQA) 方面,Muse Spark 也以 74.8 分領先,擊敗了 Gemini (69.7 分) 和 GPT 5.4 (73.6 分)。在 CharXiv Reasoning (科學論文中的圖形理解) 上,它獲得 86.4 分,是所有比較模型中最高的。

對於熱衷於「越獄」AI 的人來說,這個模型在幾分鐘內就被破解了:

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

然而,好不等於卓越。整體基準測試結果顯示,Gemini 3.1 Pro 在大多數類別中仍保持領先。這種差距在 ARC AGI 2 (抽象推理謎題基準測試) 上最為明顯:Gemini 獲得 76.5 分,而 Muse Spark 為 42.5 分。

在編碼 (LiveCodeBench Pro) 方面,Gemini 的 82.9 分超越了 Meta 的 80.0 分。在 MMMU Pro (多模態理解) 方面,Gemini 獲得 83.9 分,Meta 則為 80.4 分。Meta 自己的部落格也承認,在長程代理系統和編碼工作流程方面,目前仍存在性能差距。

這次的發布也蘊含著一個顯著的策略轉變。Muse Spark 是一個封閉模型,其架構和權重將不會公開。這與 Llama 形成了鮮明對比,Llama 在開放 AI 圈中為 Meta 建立了聲譽。在 Llama 4 今年稍早的反響平平之後,Meta 似乎已決定下一章需要以不同的方式書寫。

該公司表示,希望未來能開源 Muse 的版本,但目前代碼仍保留在 Meta 內部。在該公告發布後,這家科技巨頭的股價週三上漲近 9%,收盤時上漲 6.5%,報 612.42 美元。

「沉思模式」利用平行代理協調來提升模型的極限。在這種配置下,Muse Spark 在「人類最終考試」(Humanity's Last Exam) 中達到 58%,在「前沿科學研究」(FrontierScience Research) 中達到 38%——這些表現使其足以與 Gemini 和 GPT 最強大的版本競爭,而非僅是其標準發布版本。

Meta 也將推出一款購物助理,用於比較產品並直接連結至購買頁面,並計畫在未來幾週內將 Muse Spark 導入 Facebook、Instagram 和 WhatsApp——沿襲 Llama 3 以來的策略,將其呈現在超過 35 億用戶面前。目前正向部分開發者開放私人 API 預覽。

該模型在九個月內建成,內部代號為 Avocado,Meta 聲稱其新的預訓練堆棧能夠以少於 Llama 4 Maverick 十倍以上的算力,達到相同的能力水平。

Muse Spark 在內部被描述為 Muse 系列中「小而快」的第一步。一個功能更強大的版本也已在開發中。