加密新聞標籤聚合與專題資訊

xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude

中國小米 MiMo 現已比 ChatGPT 和 Claude 快 15 倍

小米的 MiMo-V2.5-Pro-UltraSpeed 在一般 GPU 上，輕鬆超越了客製化晶片公司耗費多年才實現的速度門檻。

2026-06-08 來源:decrypt.co

大型語言模型

摘要

小米及其推論合作夥伴 TileRT 首次在兆級參數模型上突破每秒 1,000 個 token 的速度，使用的是標準的 8 顆 GPU 商用節點，而非客製化晶片。
此速度得益於模型專家層的 FP4 量化技術，以及 DFlash 推測性解碼，後者能夠一次性提出一整塊 token，而非逐一提出。
限時 API 試用將於 6 月 9 日至 6 月 23 日開放，定價為標準 MiMo 費率的 3 倍，卻能提供約 10 倍的生成速度。

大多數人認識小米是中國手機品牌。一個生產廉價電動滑板車和空氣清淨機的公司。你不會期待它在某個週一早上打破一項主要的 AI 推論速度紀錄。

然而，小米剛剛發布了 MiMo-V2.5-Pro-UltraSpeed，這是其兆級參數旗艦模型的一個服務模式，其速度超過每秒 1,000 個 token——在演示中峰值接近 1,200。

參數是定義模型思維方式的內部數值權重——參數越多，模型能識別的模式就越複雜。Token 是模型讀寫的文字區塊，平均每個約為四分之三個單詞。

小米在單一 8 顆 GPU 商用節點上實現了這一點。標準硬體，無客製化晶片。這改變了誰能真正將這種速度投入生產的計算方式。

用白話來說：根據 Artificial Analysis 的數據，GPT-5.5——大多數 ChatGPT 用戶實際使用的模型——約為 68。Claude Opus 4.6 約為 71，較低階的模型 Haiku 則達到每秒 98 個 token。Gemini Flash 達到每秒 192 個 token。MiMo-V2.5-Pro-UltraSpeed 則能達到 1,000，而且該模型在程式編碼基準測試中與 Opus 旗鼓相當。

Cerebras 和 Groq 都圍繞這個問題建立起了整個業務。Cerebras 設計了一款晶圓級晶片，大小如同餐盤，內建 44GB 的晶片內存，以消除減緩 GPU 推論速度的頻寬瓶頸。它在 Meta 的 Llama 3.1 405B 上達到了每秒 969 個 token——這令人印象深刻，但那是一個 4050 億參數的模型，不到 MiMo-V2.5-Pro 模型大小的一半。Groq 的客製化語言處理單元 (LPU) 架構，根據模型的不同，最高可達每秒 300–750 個 token。

這兩者都無法在今晚從 AWS 租賃到的硬體上運行。

小米僅透過軟體就做到了，在通用型 GPU 上——結合了模型級別的技巧和一個專為推論而設計的引擎 TileRT。

底層究竟發生了什麼

有兩種技術促成了這次的速度提升。第一種技術稱為 FP4 量化：小米沒有以完整的 8 位元或 16 位元數值精度運行模型，而是將構成萬億參數大部分的專家層縮小到 4 位元。記憶體佔用量下降，頻寬壓力減輕，速度隨之提升。通常這種做法會伴隨輕微的品質下降。小米的解決方案是精準的：只有專家層被壓縮，其他部分保持完整精度。透過這種方法，品質損失被描述為接近於零。

第二種是 DFlash 推測性解碼。正常的推測性解碼是讓一個小型草稿模型預測接下來的幾個 token，然後由大型模型平行驗證它們。DFlash 完全跳過循序草稿——它在單次前向傳遞中填充整個遮罩位置區塊。在程式編碼任務中，大型模型在每個驗證輪次中平均接受 8 個提議 token 中的 6.3 個。這表示一次確認了六個 token，而非一個。

TileRT 將這些技術整合在一起。它使整個計算管線持續駐留在 GPU 內部——沒有單個運算子啟動的開銷，也沒有執行間隙。

小米將這種方法稱為「極致的模型與系統協同設計」，這個詞是準確的：單獨任何一項技術都無法達到每秒 1,000 個 token，但所有方法的協同作用則可以。

MiMo-V2.5-Pro 是一個頂尖模型。我們在四月報導了 V2.5 Pro 的發布——它在大多數程式編碼基準測試中與 Claude Opus 旗鼓相當，每百萬 token 的輸入成本約為 0.43 美元，輸出成本約為 0.87 美元。而 Opus 每百萬 token 的輸入成本為 5 美元，輸出成本為 25 美元。

UltraSpeed 加速的是精確的 MiMo V2.5 Pro 模型，而非簡化版。

足夠快的推論速度改變了模型的使用方式。您可以平行運行數十條推理路徑，而不是等待一個答案。詐欺偵測、交易訊號生成、即時代理迴圈——所有這些都存在硬性延遲限制，每秒 60 個 token 無法滿足。而每秒 1,000 個 token 則可以。

小米將這項速度服務定價為標準 MiMo-V2.5-Pro 費率的 3 倍，以提供約 10 倍的輸出。API 試用將於 6 月 9 日至 23 日開放，採申請制，企業和專業開發者優先。FP4-DFlash 檢查點已在 Hugging Face 上開源，供社群測試。

熱門閱讀

Kalshi 和 Polymarket 總交易量六月飆升75%至450億美元，世界盃熱潮帶動

2天前

「我們迫切需要一套納入倫理規範的立法：」川普財務申報案增添了加密法案協商的急迫性

2天前

Solana預測市場DApp於Phantom錢包上線

2天前

其它文章

Securitize 成為首家在紐交所及鏈上發行股票的公司，但這不會是最後一次