首頁LBank 新聞中心
中國小米 MiMo 現已比 ChatGPT 和 Claude 快 15 倍
xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
中國小米 MiMo 現已比 ChatGPT 和 Claude 快 15 倍
小米的 MiMo-V2.5-Pro-UltraSpeed 在一般 GPU 上,輕鬆超越了客製化晶片公司耗費多年才實現的速度門檻。
2026-06-08 來源:decrypt.co

摘要

  • 小米及其推論合作夥伴 TileRT 首次在兆級參數模型上突破每秒 1,000 個 token 的速度,使用的是標準的 8 顆 GPU 商用節點,而非客製化晶片。
  • 此速度得益於模型專家層的 FP4 量化技術,以及 DFlash 推測性解碼,後者能夠一次性提出一整塊 token,而非逐一提出。
  • 限時 API 試用將於 6 月 9 日至 6 月 23 日開放,定價為標準 MiMo 費率的 3 倍,卻能提供約 10 倍的生成速度。

大多數人認識小米是中國手機品牌。一個生產廉價電動滑板車和空氣清淨機的公司。你不會期待它在某個週一早上打破一項主要的 AI 推論速度紀錄。

然而,小米剛剛發布了 MiMo-V2.5-Pro-UltraSpeed,這是其兆級參數旗艦模型的一個服務模式,其速度超過每秒 1,000 個 token——在演示中峰值接近 1,200。

參數是定義模型思維方式的內部數值權重——參數越多,模型能識別的模式就越複雜。Token 是模型讀寫的文字區塊,平均每個約為四分之三個單詞。

小米在單一 8 顆 GPU 商用節點上實現了這一點。標準硬體,無客製化晶片。這改變了誰能真正將這種速度投入生產的計算方式。

用白話來說:根據 Artificial Analysis 的數據,GPT-5.5——大多數 ChatGPT 用戶實際使用的模型——約為 68。Claude Opus 4.6 約為 71,較低階的模型 Haiku 則達到每秒 98 個 token。Gemini Flash 達到每秒 192 個 token。MiMo-V2.5-Pro-UltraSpeed 則能達到 1,000,而且該模型在程式編碼基準測試中與 Opus 旗鼓相當。

Cerebras 和 Groq 都圍繞這個問題建立起了整個業務。Cerebras 設計了一款晶圓級晶片,大小如同餐盤,內建 44GB 的晶片內存,以消除減緩 GPU 推論速度的頻寬瓶頸。它在 Meta 的 Llama 3.1 405B 上達到了每秒 969 個 token——這令人印象深刻,但那是一個 4050 億參數的模型,不到 MiMo-V2.5-Pro 模型大小的一半。Groq 的客製化語言處理單元 (LPU) 架構,根據模型的不同,最高可達每秒 300–750 個 token。

這兩者都無法在今晚從 AWS 租賃到的硬體上運行。

小米僅透過軟體就做到了,在通用型 GPU 上——結合了模型級別的技巧和一個專為推論而設計的引擎 TileRT。

底層究竟發生了什麼

有兩種技術促成了這次的速度提升。第一種技術稱為 FP4 量化:小米沒有以完整的 8 位元或 16 位元數值精度運行模型,而是將構成萬億參數大部分的專家層縮小到 4 位元。記憶體佔用量下降,頻寬壓力減輕,速度隨之提升。通常這種做法會伴隨輕微的品質下降。小米的解決方案是精準的:只有專家層被壓縮,其他部分保持完整精度。透過這種方法,品質損失被描述為接近於零。

第二種是 DFlash 推測性解碼。正常的推測性解碼是讓一個小型草稿模型預測接下來的幾個 token,然後由大型模型平行驗證它們。DFlash 完全跳過循序草稿——它在單次前向傳遞中填充整個遮罩位置區塊。在程式編碼任務中,大型模型在每個驗證輪次中平均接受 8 個提議 token 中的 6.3 個。這表示一次確認了六個 token,而非一個。

TileRT 將這些技術整合在一起。它使整個計算管線持續駐留在 GPU 內部——沒有單個運算子啟動的開銷,也沒有執行間隙。

小米將這種方法稱為「極致的模型與系統協同設計」,這個詞是準確的:單獨任何一項技術都無法達到每秒 1,000 個 token,但所有方法的協同作用則可以。

MiMo-V2.5-Pro 是一個頂尖模型。我們在四月報導了 V2.5 Pro 的發布——它在大多數程式編碼基準測試中與 Claude Opus 旗鼓相當,每百萬 token 的輸入成本約為 0.43 美元,輸出成本約為 0.87 美元。而 Opus 每百萬 token 的輸入成本為 5 美元,輸出成本為 25 美元。

UltraSpeed 加速的是精確的 MiMo V2.5 Pro 模型,而非簡化版。

足夠快的推論速度改變了模型的使用方式。您可以平行運行數十條推理路徑,而不是等待一個答案。詐欺偵測、交易訊號生成、即時代理迴圈——所有這些都存在硬性延遲限制,每秒 60 個 token 無法滿足。而每秒 1,000 個 token 則可以。

小米將這項速度服務定價為標準 MiMo-V2.5-Pro 費率的 3 倍,以提供約 10 倍的輸出。API 試用將於 6 月 9 日至 23 日開放,採申請制,企業和專業開發者優先。FP4-DFlash 檢查點已在 Hugging Face 上開源,供社群測試。