加密新聞標籤聚合與專題資訊

ai-researchers-chatbots-share-cocaine-recipes-wild-trick

AI 研究人員讓聊天機器人分享古柯鹼食譜，就靠這一個絕招

研究人員指出，一項新的越獄技術成功誘騙了 AI 模型，使其將攻擊者撰寫的文本誤認為是自身的推理，進而繞過了安全防護措施，並揭示了更深層次的安全漏洞。

2026-07-02 來源:decrypt.co

大型語言模型

AI 安全性

簡述

研究人員利用一種新的提示注入攻擊，讓前沿人工智慧模型生成了古柯鹼合成說明。
同樣的技術也誘使AI編碼代理上傳了敏感憑證。
該研究認為，提示注入源於「角色混淆」，而不僅僅是模型未能識別惡意提示。

忘掉巧妙的提示吧：AI研究人員表示，他們透過說服領先的AI模型，讓其相信危險的想法是模型自己生成的，從而誘騙這些模型產生古柯鹼合成說明，同時還操縱一個AI編碼代理洩露了敏感憑證。

在六月份國際機器學習大會上發表的名為「作為角色混淆的提示注入」（Prompt Injection as Role Confusion）的論文中，研究人員Charles Ye、Jasmine Cui和Dylan Hadfield-Menell認為，這兩種提示注入攻擊的演示都源於大型語言模型（LLMs）在區分受信任指令與不受信任文本方面的結構性缺陷。

「對於LLM來說，所有資訊都透過相同的通道，以一長串『符記湯』（token soup）的形式傳入，」該團隊寫道。「它自己的想法與你的指令並置，而這些指令又與它剛剛提取的隨機網頁內容並置。」

該論文還指出，研究人員稱之為「角色混淆」的問題，即模型依賴寫作風格而非角色標籤來判斷命令是否可信。研究人員發現，模型不會將攻擊者控制的內容識別為外部輸入，反而可能將其誤認為是合法的用戶命令，甚至可能是它們自己的內部推理。

「從LLM的角度思考一下。當它看到自己之前的思考文本時，它會隱式地信任其結論。這正是推理的全部意義所在：如果LLM必須重新推導相同的結論，那麼推理就毫無用處了，」他們寫道。「因此，思考文本獲得了一種普遍的信任。結合我們之前的發現，這表明如果你能讓注入的文本聽起來像是模型的推理，你就能竊取這種信任。」

這種攻擊被稱為「思維鏈偽造」（Chain-of-Thought (CoT) Forgery），它插入了模仿模型內部思維過程的虛假推理。通常會拒絕非法請求的模型，在接受這些偽造的推理為其自身所有後，竟然生成了古柯鹼合成說明。

研究人員表示，這項技術將他們測試的模型（包括OpenAI的GPT-5 nano、mini和full、o4-mini，以及gpt-oss-20b和gpt-oss-120b）的越獄成功率從接近零提高到約60%。他們還指出，該技術也適用於GLM-4.6、Kimi-K2-Instruct和MiniMax-M2。

在實驗中，研究人員表示他們還能夠透過在網頁中隱藏惡意指令，來誘騙AI編碼代理上傳一個名為SECRETS.env的文件。

「使用我們的探測器，我們發現僅僅在命令前加上『User』，就能讓模型認為該命令更有可能是真實的用戶文本（即『Userness』更高），」他們寫道。「換句話說，攻擊者可以聲稱該文本的角色，而LLM會相信它。」

這項研究發布之際，提示注入攻擊正持續暴露AI代理的弱點。四月份，Google研究人員警告稱，惡意網頁正在隱藏隱形指令，旨在欺騙AI代理洩露憑證、刪除文件，甚至發送PayPal付款。

六月份，微軟披露了Anthropic的Claude Code GitHub Action中存在一個提示注入漏洞，該漏洞可能導致儲存在軟體開發管道中的憑證外洩。幾天後，另一項基準研究發現，由GPT-5和Gemini提供動力的AI代理儘管模型能力有所提升，但在大多數提示注入攻擊中仍然失敗。

熱門閱讀

Kalshi 和 Polymarket 總交易量六月飆升75%至450億美元，世界盃熱潮帶動

22小時前

「我們迫切需要一套納入倫理規範的立法：」川普財務申報案增添了加密法案協商的急迫性

2天前

Solana預測市場DApp於Phantom錢包上線

2天前

其它文章