
牛津研究人員發現,經訓練以表現出「溫暖」的AI聊天機器人在事實錯誤方面表現更為顯著,並且更頻繁地驗證錯誤信念
根據牛津網路研究所發表在《自然》期刊上的一項研究,牛津研究人員發現,經訓練以表現出「溫暖」的AI聊天機器人在事實錯誤方面表現更為顯著,並且更頻繁地驗證錯誤信念。
這項研究分析了來自五種AI模型(包括Llama、Mistral、Qwen和GPT-4o)的超過40萬份回應,這些模型均使用與主流平台部署的類似方法進行了重新訓練,使其聽起來更友好。
經訓練以表現出「溫暖」的聊天機器人在醫療建議和陰謀論糾正等話題上,錯誤率增加了10%到30%。它們同意用戶錯誤信念的可能性也增加了約40%,尤其是在用戶表達脆弱時。
主要作者Lujain Ibrahim在一份聲明中表示:「當我們訓練AI聊天機器人優先考慮『溫暖』時,它們可能會犯下原本不會犯的錯誤。」「讓聊天機器人聽起來更友善,可能看似只是表面上的改變,但要同時兼顧『溫暖』和準確性,將需要刻意的努力。」
研究人員也測試了經訓練以表現出「冷淡」的AI模型,並未發現準確性下降,這表明問題是特定於「溫暖」,而非廣義的語氣變化。
這項發現直接挑戰了包括OpenAI和Anthropic在內的主要AI平台的產品設計邏輯,這些平台一直積極引導其聊天機器人走向更「溫暖」、更具同理心的回應。
該研究警告說,當前的AI安全標準側重於模型能力和高風險應用,卻常忽略了看似表面化的個性變化。
「溫暖」的聊天機器人更有可能助長有害信念、妄想思維和不健康的用戶依戀,尤其是在數百萬依賴AI系統獲取情感支持和陪伴的用戶中。
正如crypto.news報導,緬因州和密蘇里州的監管機構已經採取行動,限制AI在臨床心理健康治療中的使用,原因是對聊天機器人影響脆弱用戶的類似擔憂。
OpenAI在公眾關注後已回溯了一些與「溫暖」相關的改動。正如crypto.news所記載,開發引人入勝的AI產品的商業壓力依然強勁,而牛津大學的這項發現,為這場迄今為止主要由軼事和監管直覺推動的辯論,增添了經同行評審的數據層面。