首頁LBank 新聞中心
DGrid AI 的最新研究解決了去中心化 AI 評分中的一個核心缺陷
dgrid-ais-latest-research-tackles-a-core-flaw-in-decentralized-ai-scoring
DGrid AI 的最新研究解決了去中心化 AI 評分中的一個核心缺陷
DGrid AI 的全新 PoQ 研究引入了無參考評分,可在無需正確答案的情況下獎勵 AI 節點。DGrid 訓練了專業的 AI 評審來評估輸出品質,大規模提升了去中心化 AI 獎勵系統。DGrid AI 的新品質證明模型有助於去中心化 AI 網路,使其無需真實數據也能準確評估回應。
2026-06-18 來源:crypto.news

DGrid AI 推出新的品質證明框架,旨在評估人工智慧輸出並改善去中心化網路中的獎勵分配。

摘要
  • DGrid AI 的新 PoQ 研究引入了無參考計分,以便在不需要正確答案的情況下獎勵 AI 節點。
  • DGrid 訓練了專門的 AI 評審以評分輸出品質,從而大規模改進了去中心化 AI 獎勵系統。
  • DGrid AI 的新品質證明模型協助去中心化 AI 網路在沒有真實數據的情況下準確評估回應。

去中心化 AI 網路存在一個支付問題,研究人員多年來一直悄悄地繞過這個問題,而 DGrid AI 最近發表的一篇論文直接提出了這個問題。為節點獎勵提供動力的品質計分系統在很大程度上依賴於手頭有正確答案進行比較。在實際應用中,這種答案很少存在。

這篇論文是 DGrid 關於品質證明 (PoQ) 系列研究的第四篇,提出了一種經過訓練的替代方案並公佈了其背後的數據。PoQ 使用小型評估模型來評分每個輸出的品質,這些分數驅動著獎勵。成本低廉,且可擴展。

DGrid 逐步建立這一切:一個考量成本的版本,將延遲納入支付計算中;一個對抗式魯棒性層,當評分者撒謊或偷懶時也能維持穩定;以及一個將「品質」分解為可檢查部分的框架。堅實的工程。而每一層都持續碰到同樣的瓶頸。

計分問題如何發展

去中心化推論網路的基本結構帶來了測量挑戰。獨立節點運行語言模型並回應使用者查詢。這些回應需要評分,因為分數決定了報酬。對每個計算進行密碼學驗證在技術上是萬無一失的,但在規模化時成本過高,因此實用的途徑是使用較小的模型進行自動化品質評估。

DGrid 早期的工作逐步建立這種方法,增加了延遲調整後的報酬、防禦操縱性評分者的措施,以及更細緻地分解「品質」在評分情境中究竟意味著什麼。它無法完全解決的是評估訊號本身。

團隊所擁有的最強訊號是語義相似性:將模型的輸出與已知的正確答案進行比較,並測量它們在嵌入空間中的距離。這在存在參考答案的基準測試環境中是可行的。但在用戶提出開放式問題且資料庫中沒有真實數據的實時網路中則行不通。

現成的替代方案測試結果更差。一種 NLI 交叉編碼器(一種旨在評估句子之間邏輯蘊涵的模型類別)在沒有參考答案的情況下用於評分答案品質時,回報的皮爾遜相關係數為 −0.363。負相關意味著該模型更可能偏愛糟糕的回應而非優質的回應。這不是一個可用的評估工具。

論文提出什麼

研究人員沒有改編現有模型,而是專門針對無參考品質計分訓練了三個評審。每個評審都將問題和回應作為輸入,並輸出 0 到 10 的分數,而無需提供正確答案。

這三個模型主要在大小和速度上有所不同:

  • TextCNN (約 1000 萬參數) 每次呼叫運行時間約 1 毫秒,適用於高吞吐量的初步篩選。
  • MiniLM (2200 萬參數) 居中,約為 13 毫秒。
  • DeBERTa (1.84 億參數) 約需 15 毫秒,並針對準確性進行最佳化。

訓練採用兩階段過程。這些模型首先在 UltraFeedback(一個由 GPT-4 評分的公開回應資料集)上進行預訓練,然後根據網路本身的任務分佈進行微調。目的是讓評審在將注意力集中到特定的計分情境之前,對品質有一個廣泛的基礎理解。

核心結果

在一個由 300 個範例組成的獨立測試集上,DeBERTa 評審在不存取任何參考答案的情況下,與真實數據代理之間達到了 0.747 的皮爾遜相關係數。而之前框架中基於參考的評估器(確實存取了正確答案)最高達到了 0.647。

這種差距有直接的解釋。舊的評估器是測量與參考嵌入的餘弦距離的相似性指標。新的評審是為計分任務本身進行端到端最佳化的。性能差異反映了這種區別,而非任何架構上的突破。

作者們提出的一個注意事項是:這裡使用的真實數據本身是一個代理—詞元級單詞重疊,而非人工判斷。評審與此指標高度相關,但單詞重疊是否可靠地反映了人類會認為是高品質的回應,這是一個獨立且尚未解決的問題。

兩個面向部署的功能伴隨著這些評審。一個級聯管道首先將查詢路由到輕量級模型,只有當分數模糊不清時才升級到更大型的模型,從而在最激進的閾值設定下將評估成本降低高達 72.7%,儘管在這種配置下相關係數會下降到約 0.51。一個無需手動調整的線上校準機制,持續識別語義品質為主要訊號,並相應調整權重,使其權重隨時間增加到初始權重的 4.7 倍。

系統仍在努力之處

這些評審在不同任務類型上的表現不均衡。在問答任務上,相關係數達到 0.830。在摘要任務上,則降至 0.199。論文將此歸因於訓練期間使用的評估指標,而非評審本身的失敗:原始單詞重疊是摘要品質的一個糟糕衡量標準,因此基於此訓練的模型學習追蹤的是一個微弱訊號。作者將此描述為主要開放問題,而非一個正在悄悄處理的已知限制。

這種框架與論文整體呈現其結果的方式一致——有條不紊地,改進之處和失敗案例都清晰地陳述。這項研究系列的第四篇論文讀起來不像是一個產品發布,而更像是一個團隊逐步縮小差距,以實現他們實際部署的目標。

聲明:此內容由第三方提供。crypto.news 及其文章作者均不認可本頁面提及的任何產品。用戶在採取任何與該公司相關的行動之前,應自行進行研究。