加密新聞標籤聚合與專題資訊

meta-muse-spark-most-capable-ai-gemini-pro-still-leads

Meta 推出其最強 AI Muse Spark——但 Gemini 3.1 Pro 仍居領先地位

Meta 超級智能團隊的首個模型本身即為多模態，專為健康推理而設計，且具備真正的競爭力，但並未在所有排行榜上名列前茅。

2026-04-08 來源:decrypt.co

多模態人工智慧

Meta Muse Spark

人工智慧基準測試

重點摘要

Meta 全新 Muse Spark 標誌著其轉向封閉、原生多模態且具備代理式推理能力的 AI。
Meta 報告 Muse Spark 在健康和搜尋領域的基準測試表現強勁，但在核心推理和編碼方面仍落後於 Gemini。
該模型在九個月內以遠少於預期的算力建成，這預示著 Meta 正採取一種效率導向的新 AI 策略。

Meta 於週三推出了 Muse Spark，這是 Meta 超級智能實驗室 (Meta Superintelligence Labs) 所打造的第一個模型。該團隊是在 Meta 以 140 億美元收購 Scale AI 後，由首席 AI 長 Alexandr Wang 於九個月前組建的。目前，Muse Spark 已在 meta.ai 和 Meta AI 應用程式上線，並將在未來幾週內逐步推廣至 Facebook、Instagram 和 WhatsApp。

這不只是另一個聊天機器人的升級版，也不是 Llama 的新版本。Muse Spark 是一種原生多模態模型，它從底層開始處理圖像、文本和語音，而非將視覺功能附加到現有的文本模型上。它具備視覺思維鏈 (visual chain-of-thought)、工具使用支援，以及 Meta 稱之為「沉思模式」(Contemplating mode) 的功能：一種讓多個 AI 代理平行運行以解決更困難問題的設置。這是 Meta 對 Google Gemini Deep Think 和 OpenAI GPT Pro 擴展思考模式的回應。

「Muse Spark 是我們擴展藍圖上的第一步，也是我們徹底改革 AI 工作的首個成果。」Meta 在官方公告中寫道。「為了支援進一步的擴展，我們正在整個堆棧中進行戰略投資，包括從研究、模型訓練到基礎設施，其中也包含 Hyperion 資料中心。」

該公司與超過 1,000 名醫生合作，為 Muse Spark 的醫學推理策劃訓練數據。在 HealthBench Hard (一個開放式健康查詢基準測試) 上的結果令人驚訝：Muse Spark 獲得 42.8 分，而 GPT 5.4 為 40.1 分，Gemini 3.1 Pro 僅為 20.6 分。這不是微小的差異。

在代理式搜尋 (DeepSearchQA) 方面，Muse Spark 也以 74.8 分領先，擊敗了 Gemini (69.7 分) 和 GPT 5.4 (73.6 分)。在 CharXiv Reasoning (科學論文中的圖形理解) 上，它獲得 86.4 分，是所有比較模型中最高的。

對於熱衷於「越獄」AI 的人來說，這個模型在幾分鐘內就被破解了：

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

然而，好不等於卓越。整體基準測試結果顯示，Gemini 3.1 Pro 在大多數類別中仍保持領先。這種差距在 ARC AGI 2 (抽象推理謎題基準測試) 上最為明顯：Gemini 獲得 76.5 分，而 Muse Spark 為 42.5 分。

在編碼 (LiveCodeBench Pro) 方面，Gemini 的 82.9 分超越了 Meta 的 80.0 分。在 MMMU Pro (多模態理解) 方面，Gemini 獲得 83.9 分，Meta 則為 80.4 分。Meta 自己的部落格也承認，在長程代理系統和編碼工作流程方面，目前仍存在性能差距。

這次的發布也蘊含著一個顯著的策略轉變。Muse Spark 是一個封閉模型，其架構和權重將不會公開。這與 Llama 形成了鮮明對比，Llama 在開放 AI 圈中為 Meta 建立了聲譽。在 Llama 4 今年稍早的反響平平之後，Meta 似乎已決定下一章需要以不同的方式書寫。

該公司表示，希望未來能開源 Muse 的版本，但目前代碼仍保留在 Meta 內部。在該公告發布後，這家科技巨頭的股價週三上漲近 9%，收盤時上漲 6.5%，報 612.42 美元。

「沉思模式」利用平行代理協調來提升模型的極限。在這種配置下，Muse Spark 在「人類最終考試」(Humanity's Last Exam) 中達到 58%，在「前沿科學研究」(FrontierScience Research) 中達到 38%——這些表現使其足以與 Gemini 和 GPT 最強大的版本競爭，而非僅是其標準發布版本。

Meta 也將推出一款購物助理，用於比較產品並直接連結至購買頁面，並計畫在未來幾週內將 Muse Spark 導入 Facebook、Instagram 和 WhatsApp——沿襲 Llama 3 以來的策略，將其呈現在超過 35 億用戶面前。目前正向部分開發者開放私人 API 預覽。

該模型在九個月內建成，內部代號為 Avocado，Meta 聲稱其新的預訓練堆棧能夠以少於 Llama 4 Maverick 十倍以上的算力，達到相同的能力水平。

Muse Spark 在內部被描述為 Muse 系列中「小而快」的第一步。一個功能更強大的版本也已在開發中。

熱門閱讀

Polymarket 美國禁令擋不住政治押注：報導

10小時前

Kalshi 和 Polymarket 總交易量六月飆升75%至450億美元，世界盃熱潮帶動

2天前

「我們迫切需要一套納入倫理規範的立法：」川普財務申報案增添了加密法案協商的急迫性

2天前

其它文章

CFTC主席抨擊伊利諾州祭出「懲罰性」虛擬貨幣稅