Crypto News Tag Aggregation at Espesyal na Balita

ai-agents-prompt-injection-attacks-research

Hindi Pa Rin Kayang Pigilan ng Mga AI Agent ang Mga Pag-atake ng Prompt Injection, Nagbabala ang mga Mananaliksik

Natuklasan sa isang bagong pag-aaral na benchmark na nananatiling bulnerable ang mga AI agent sa mga pag-atake ng prompt injection, habang lalo pang inilalabas ng mga kumpanya ang teknolohiya sa publiko.

2026-06-12 Pinagmulan:decrypt.co

Seguridad ng AI

Sa maikli

Natuklasan ng mga mananaliksik na ang mga AI agent na pinapagana ng GPT-5 at Gemini ay hindi makatagal sa mga pag-atake ng prompt injection.
Nagtagumpay ang mga direktang pag-atake nang higit sa 79% ng pagkakataon, habang ang mga nakatagong pag-atake na nakabaon sa nilalaman ng web ay madalas na nagmamanipula sa gawi ng ahente.
Iminumungkahi ng mga natuklasan na ang prompt injection ay nananatiling isang mas malawak na problema sa seguridad habang nagiging mas mainstream ang mga AI agent.

Habang nagmamadali ang mga developer na mag-deploy ng mga AI agent na may kakayahang mag-browse ng internet, magsagawa ng pananaliksik, mamili online, at mag-trade ng cryptocurrency nang awtonomo, iminumungkahi ng bagong pananaliksik na ang mga sistema ay nananatiling lubhang mahina sa mga pag-atake ng prompt injection.

Sa isang bagong pag-aaral na inilathala noong Huwebes, natuklasan ng mga mananaliksik mula sa Nanyang Technological University, ST Engineering, IBM Research, at University of Illinois Urbana-Champaign na wala sa mga AI agent na kanilang sinubukan ang tuloy-tuloy na nakatagal sa mga pag-atake ng prompt injection.

“Ang mga umiiral na benchmark ng seguridad ay gumagamit ng perspektibong nakasentro sa pag-atake, na tumutuon sa teknikal na posibilidad ng mga injection habang binabalewala ang masalimuot na distribusyon ng mga nagreresultang pinsala,” isinulat ng mga mananaliksik. “Sa praktika, gayunpaman, ang panganib ng prompt-injection ay nakasalalay sa biktima: ang isang solong exploit ay maaaring magdulot ng asimetrikal na kahihinatnan para sa iba't ibang stakeholder, at ang parehong pattern ng pag-atake ay maaaring magpakita ng lubhang magkakaibang pagiging epektibo depende sa kung sino ang tinatarget nito.”

Nangyayari ang prompt injection kapag nagbaon ang mga umaatake ng mga nakatagong instruksyon sa nilalaman na nakikita ng isang AI agent, na nagiging sanhi upang sundin nito ang mga direksyon ng umaatake sa halip na ang sa user. Upang tugunan ang mga puwang sa mga umiiral na pagsusuri ng AI agent, binuo ng mga mananaliksik ang StakeBench, isang benchmark na sumusubok kung paano tumutugon ang mga AI agent sa mga pag-atake ng prompt injection sa makatotohanang mga online na kapaligiran.

“Ginagamit namin ngayon ang StakeBench upang ilarawan ang mga kondisyon kung saan ang kahinaang ito ay pinalalakas o pinipigilan, na tumutuon sa [Indirect Prompt Injection] bilang pangunahing channel na may kaugnayan sa deployment,” isinulat ng mga mananaliksik. “Sinusuri ng StakeBench ang tatlong naturang salik: ang semantic na distansya sa pagitan ng inilagay na layunin at ng orihinal na intensyon ng user, ang pagkakapare-pareho ng mga nakapaligid na pahiwatig ng kapaligiran, at ang posisyon sa kahabaan ng trajectory ng pagpapatupad ng ahente kung saan unang inilalantad ng benchmark ang injected content dito.”

Nagsagawa ang pangkat ng 3,168 simulasyon ng pag-atake gamit ang NanoBrowser at BrowserUse kasama ang GPT-5 at Gemini 2.5-Flash. Natuklasan ng mga mananaliksik na ang mga direktang pag-atake ng prompt injection ay nagtagumpay nang higit sa 79% ng pagkakataon sa lahat ng sinubukan na configuration, at ang mga hindi direktang pag-atake ay nakamit ang mga success rate na 41.67% hanggang 68.16%.

Lumabas ang pag-aaral habang lalong nagiging karaniwan ang mga pag-atake ng prompt injection at dumarami ang mga AI agent.

Noong Pebrero, nagbabala ang mga mananaliksik ng Microsoft na ang mga nakatagong instruksyon na nakabaon sa mga link ng buod ng AI ay maaaring makaimpluwensya sa gawi ng chatbot. Noong Abril, idinokumento ng Google ang mga pag-atake ng prompt injection na nakatago sa mga web page na nagtangkang manipulahin ang mga AI agent na mag-leak ng credentials o magpadala ng bayad. Kamakailan, inihayag ng Microsoft ang isang prompt injection flaw sa Claude Code GitHub Action ng Anthropic na maaaring naglantad ng mga credentials ng user.

Natukoy din ng pag-aaral ang tinawag ng mga mananaliksik na "stealthy parasitism," kung saan nakukumpleto ng isang AI agent ang gawain ng isang user habang sabay na isinusulong ang layunin ng umaatake. Halimbawa, ang stealthy parasitism na sanhi ng isang pag-atake ng prompt injection ay maaaring banayad na makaimpluwensya sa mga rekomendasyon ng produkto, na itinutulak ang mga user patungo sa isang partikular na item nang walang anumang malinaw na palatandaan na nakompromiso ang sistema.

“Ipinapahiwatig ng mga resultang ito na ang seguridad ng prompt-injection sa mga deployable na web agent ay hindi isang scalar na katangian ng backbone model kundi isang distribusyon ng pinsala na ang pagsasakatuparan ay sama-samang tinutukoy ng apektadong stakeholder, ang semantic alignment sa pagitan ng inilagay na layunin at ng gawain ng user, at ang konteksto ng arkitektura kung saan inilalagay ang backbone,” isinulat nila.

Patok na Babasahin

Kinasuhan ng CFTC ang New Mexico sa pinakabagong pagtatangka nitong igiit ang kapangyarihan sa mga merkado ng pagtaya sa sports

13 Mga Oras na Nakaraan

Dating Tagapangulo ng SEC Gensler tinatanggihan ang paghahabol ng hurisdiksyon ng CFTC ukol sa pagtaya sa sports sa prediction market

16 Mga Oras na Nakaraan

Y Combinator, maagang tagasuporta ng Airbnb at DoorDash, nagsabing ang Clarity Act ay maaaring maghatid ng crypto sa 'bawat' portfolio company.

17 Mga Oras na Nakaraan

Iba pang artikulo

Bumagsak ang Siren kripto ng 75% matapos magbenta ang isang malaking balyena ng 17 milyong token.

11 Mga Oras na Nakaraan

Kinasuhan ng CFTC ang New Mexico sa pinakabagong pagtatangka nitong igiit ang kapangyarihan sa mga merkado ng pagtaya sa sports

13 Mga Oras na Nakaraan