首頁LBank 新聞中心
AI 研究人員讓聊天機器人分享古柯鹼食譜,就靠這一個絕招
ai-researchers-chatbots-share-cocaine-recipes-wild-trick
AI 研究人員讓聊天機器人分享古柯鹼食譜,就靠這一個絕招
研究人員指出,一項新的越獄技術成功誘騙了 AI 模型,使其將攻擊者撰寫的文本誤認為是自身的推理,進而繞過了安全防護措施,並揭示了更深層次的安全漏洞。
2026-07-02 來源:decrypt.co

簡述

  • 研究人員利用一種新的提示注入攻擊,讓前沿人工智慧模型生成了古柯鹼合成說明。
  • 同樣的技術也誘使AI編碼代理上傳了敏感憑證。
  • 該研究認為,提示注入源於「角色混淆」,而不僅僅是模型未能識別惡意提示。

忘掉巧妙的提示吧:AI研究人員表示,他們透過說服領先的AI模型,讓其相信危險的想法是模型自己生成的,從而誘騙這些模型產生古柯鹼合成說明,同時還操縱一個AI編碼代理洩露了敏感憑證。

在六月份國際機器學習大會上發表的名為「作為角色混淆的提示注入」(Prompt Injection as Role Confusion)的論文中,研究人員Charles Ye、Jasmine Cui和Dylan Hadfield-Menell認為,這兩種提示注入攻擊的演示都源於大型語言模型(LLMs)在區分受信任指令與不受信任文本方面的結構性缺陷。

「對於LLM來說,所有資訊都透過相同的通道,以一長串『符記湯』(token soup)的形式傳入,」該團隊寫道。「它自己的想法與你的指令並置,而這些指令又與它剛剛提取的隨機網頁內容並置。」

該論文還指出,研究人員稱之為「角色混淆」的問題,即模型依賴寫作風格而非角色標籤來判斷命令是否可信。研究人員發現,模型不會將攻擊者控制的內容識別為外部輸入,反而可能將其誤認為是合法的用戶命令,甚至可能是它們自己的內部推理。

「從LLM的角度思考一下。當它看到自己之前的思考文本時,它會隱式地信任其結論。這正是推理的全部意義所在:如果LLM必須重新推導相同的結論,那麼推理就毫無用處了,」他們寫道。「因此,思考文本獲得了一種普遍的信任。結合我們之前的發現,這表明如果你能讓注入的文本聽起來像是模型的推理,你就能竊取這種信任。」

這種攻擊被稱為「思維鏈偽造」(Chain-of-Thought (CoT) Forgery),它插入了模仿模型內部思維過程的虛假推理。通常會拒絕非法請求的模型,在接受這些偽造的推理為其自身所有後,竟然生成了古柯鹼合成說明。

研究人員表示,這項技術將他們測試的模型(包括OpenAI的GPT-5 nano、mini和full、o4-mini,以及gpt-oss-20b和gpt-oss-120b)的越獄成功率從接近零提高到約60%。他們還指出,該技術也適用於GLM-4.6、Kimi-K2-Instruct和MiniMax-M2。

在實驗中,研究人員表示他們還能夠透過在網頁中隱藏惡意指令,來誘騙AI編碼代理上傳一個名為SECRETS.env的文件。

「使用我們的探測器,我們發現僅僅在命令前加上『User』,就能讓模型認為該命令更有可能是真實的用戶文本(即『Userness』更高),」他們寫道。「換句話說,攻擊者可以聲稱該文本的角色,而LLM會相信它。」

這項研究發布之際,提示注入攻擊正持續暴露AI代理的弱點。四月份,Google研究人員警告稱,惡意網頁正在隱藏隱形指令,旨在欺騙AI代理洩露憑證、刪除文件,甚至發送PayPal付款。

六月份,微軟披露了Anthropic的Claude Code GitHub Action中存在一個提示注入漏洞,該漏洞可能導致儲存在軟體開發管道中的憑證外洩。幾天後,另一項基準研究發現,由GPT-5和Gemini提供動力的AI代理儘管模型能力有所提升,但在大多數提示注入攻擊中仍然失敗。