
Habang nagmamadali ang mga developer na mag-deploy ng mga AI agent na may kakayahang mag-browse ng internet, magsagawa ng pananaliksik, mamili online, at mag-trade ng cryptocurrency nang awtonomo, iminumungkahi ng bagong pananaliksik na ang mga sistema ay nananatiling lubhang mahina sa mga pag-atake ng prompt injection.
Sa isang bagong pag-aaral na inilathala noong Huwebes, natuklasan ng mga mananaliksik mula sa Nanyang Technological University, ST Engineering, IBM Research, at University of Illinois Urbana-Champaign na wala sa mga AI agent na kanilang sinubukan ang tuloy-tuloy na nakatagal sa mga pag-atake ng prompt injection.
“Ang mga umiiral na benchmark ng seguridad ay gumagamit ng perspektibong nakasentro sa pag-atake, na tumutuon sa teknikal na posibilidad ng mga injection habang binabalewala ang masalimuot na distribusyon ng mga nagreresultang pinsala,” isinulat ng mga mananaliksik. “Sa praktika, gayunpaman, ang panganib ng prompt-injection ay nakasalalay sa biktima: ang isang solong exploit ay maaaring magdulot ng asimetrikal na kahihinatnan para sa iba't ibang stakeholder, at ang parehong pattern ng pag-atake ay maaaring magpakita ng lubhang magkakaibang pagiging epektibo depende sa kung sino ang tinatarget nito.”
Nangyayari ang prompt injection kapag nagbaon ang mga umaatake ng mga nakatagong instruksyon sa nilalaman na nakikita ng isang AI agent, na nagiging sanhi upang sundin nito ang mga direksyon ng umaatake sa halip na ang sa user. Upang tugunan ang mga puwang sa mga umiiral na pagsusuri ng AI agent, binuo ng mga mananaliksik ang StakeBench, isang benchmark na sumusubok kung paano tumutugon ang mga AI agent sa mga pag-atake ng prompt injection sa makatotohanang mga online na kapaligiran.
“Ginagamit namin ngayon ang StakeBench upang ilarawan ang mga kondisyon kung saan ang kahinaang ito ay pinalalakas o pinipigilan, na tumutuon sa [Indirect Prompt Injection] bilang pangunahing channel na may kaugnayan sa deployment,” isinulat ng mga mananaliksik. “Sinusuri ng StakeBench ang tatlong naturang salik: ang semantic na distansya sa pagitan ng inilagay na layunin at ng orihinal na intensyon ng user, ang pagkakapare-pareho ng mga nakapaligid na pahiwatig ng kapaligiran, at ang posisyon sa kahabaan ng trajectory ng pagpapatupad ng ahente kung saan unang inilalantad ng benchmark ang injected content dito.”
Nagsagawa ang pangkat ng 3,168 simulasyon ng pag-atake gamit ang NanoBrowser at BrowserUse kasama ang GPT-5 at Gemini 2.5-Flash. Natuklasan ng mga mananaliksik na ang mga direktang pag-atake ng prompt injection ay nagtagumpay nang higit sa 79% ng pagkakataon sa lahat ng sinubukan na configuration, at ang mga hindi direktang pag-atake ay nakamit ang mga success rate na 41.67% hanggang 68.16%.
Lumabas ang pag-aaral habang lalong nagiging karaniwan ang mga pag-atake ng prompt injection at dumarami ang mga AI agent.
Noong Pebrero, nagbabala ang mga mananaliksik ng Microsoft na ang mga nakatagong instruksyon na nakabaon sa mga link ng buod ng AI ay maaaring makaimpluwensya sa gawi ng chatbot. Noong Abril, idinokumento ng Google ang mga pag-atake ng prompt injection na nakatago sa mga web page na nagtangkang manipulahin ang mga AI agent na mag-leak ng credentials o magpadala ng bayad. Kamakailan, inihayag ng Microsoft ang isang prompt injection flaw sa Claude Code GitHub Action ng Anthropic na maaaring naglantad ng mga credentials ng user.
Natukoy din ng pag-aaral ang tinawag ng mga mananaliksik na "stealthy parasitism," kung saan nakukumpleto ng isang AI agent ang gawain ng isang user habang sabay na isinusulong ang layunin ng umaatake. Halimbawa, ang stealthy parasitism na sanhi ng isang pag-atake ng prompt injection ay maaaring banayad na makaimpluwensya sa mga rekomendasyon ng produkto, na itinutulak ang mga user patungo sa isang partikular na item nang walang anumang malinaw na palatandaan na nakompromiso ang sistema.
“Ipinapahiwatig ng mga resultang ito na ang seguridad ng prompt-injection sa mga deployable na web agent ay hindi isang scalar na katangian ng backbone model kundi isang distribusyon ng pinsala na ang pagsasakatuparan ay sama-samang tinutukoy ng apektadong stakeholder, ang semantic alignment sa pagitan ng inilagay na layunin at ng gawain ng user, at ang konteksto ng arkitektura kung saan inilalagay ang backbone,” isinulat nila.