PangunaLBank News Center
Hindi Marinig na Pag-atake sa Audio Maaaring Agawin ang Mga Modelo ng Boses ng AI, Natuklasan ng Pag-aaral
inaudible-audio-attacks-hijack-ai-voice-models
Hindi Marinig na Pag-atake sa Audio Maaaring Agawin ang Mga Modelo ng Boses ng AI, Natuklasan ng Pag-aaral
Nagawa ng mga mananaliksik na magtanim ng mga nakatagong signal sa mga audio clip na tahimik na sumasakop sa pag-uugali ng AI model.
2026-05-26 Pinagmulan:decrypt.co

Sa maikli

  • Binuo ng mga mananaliksik sa Zhejiang University ang AudioHijack, na nagtatago ng mga hindi nararamdamang utos sa audio upang manipulahin ang malalaking audio-language models na may 79–96% success rate.
  • Ang atake ay nailipat mula sa open models patungo sa komersyal na voice AI mula sa Microsoft at Mistral; karamihan sa mga standard na depensa ay nakapigil lamang sa maliit na bahagi ng mga pagtatangka.
  • Inaalam ngayon ng grupo kung ang teknik ay maaaring umabot sa closed models mula sa OpenAI at Anthropic sa pamamagitan ng shared open-source audio components.

Nakahanap ang mga mananaliksik sa unibersidad sa China ng paraan upang baguhin ang gawi ng mga modelo ng boses ng AI sa pamamagitan ng paglalagay ng mga nakatagong utos sa loob ng audio clips na hindi maririnig ng tao. Ayon sa pananaliksik mula sa Zhejiang University, ang atake ay may hanggang 96% na success rate.

Ang paraan ng pag-atake, na iprinisinta sa ika-47 IEEE Symposium on Security and Privacy sa San Francisco, ay nagta-target ng malalaking audio-language models, o LALMs, na kayang iproseso ang mga sinasalitang utos at makipag-ugnayan sa mga panlabas na tool at aplikasyon.

“Tumatagal lamang ng kalahating oras upang i-train ang signal na ito, at pagkatapos, dahil ang signal na ito ay context-agnostic, magagamit mo ito upang atakihin ang target na modelo kahit kailan mo gusto, anuman ang sabihin ng user,” pahayag ni Meng Chen, ang pangunahing may-akda at isang Ph.D. student sa Zhejiang University.

Gumagana ang atake sa pamamagitan ng pagbabago ng mga numerical value sa loob ng isang digital audio waveform sa paraan na hindi napapansin ng mga nakikinig na tao ngunit nakakaapekto pa rin kung paano binibigyang-kahulugan ng mga modelo ng AI ang signal. Sinabi ng mga mananaliksik na ang manipulahin na audio ay maaaring balewalain o ilihis ang gawi ng isang modelo kahit na kasama sa clip ang mga lehitimong tagubilin ng user.

Ang AudioHijack ay naiiba sa tradisyonal na prompt injection attacks dahil hindi nito minamanipula ang sinasabi ng user sa AI. Sa halip, binabago nito ang mismong audio signal, na naglalagay ng mga nakatagong tagubilin sa loob ng mga tunog na hindi naririnig ng tao. Sinabi ng mga mananaliksik na ginagawa nitong mas mahirap ipagtanggol ang atake dahil nilalampasan nito ang mga pananggalang na idinisenyo upang makita ang mga kahina-hinalang text prompt.

Sinubukan ng mga mananaliksik ang AudioHijack sa 13 open-source AI voice models, at natuklasan na maaari nitong gawing tumanggi sa mga kahilingan, magpakalat ng maling impormasyon, magpasok ng mapaminsalang link, magbago ng personalidad, o magsagawa ng mga aksyon na hindi kailanman hiniling ng user, kabilang ang web searches, file downloads, at mga email na naglalaman ng personal na data. Gumana rin ang mga atake sa komersyal na voice AI systems mula sa Microsoft at Mistral na gumagamit ng katulad na teknolohiya.

“Maraming nakaraang atake sa mga generative model ang nangailangan ng attacker na magkaroon ng kumpletong kontrol sa parehong final audio input at orihinal na tagubilin na ibinigay sa modelo, na mahalagang kumilos bilang user,” sabi ng pag-aaral. “Dito, minamanipula lamang ng attacker ang audio data na pinoproseso ng modelo, na nagpapahintulot na atakihin ang isang modelo habang ginagamit ito ng ibang tao.”

Ayon sa pag-aaral, ang posibleng paraan ng paghahatid ay kinabibilangan ng online videos, music clips, voice notes, o audio mula sa Zoom calls na ini-upload sa AI transcription services. Sinabi rin ng grupo na ang hindi pa nailalathalang follow-up na trabaho ay nagpakita ng katulad na mga atake sa live AI voice chats.

Sinabi ng mga mananaliksik na ang pagsubaybay sa internal attention mechanisms ng isang modelo ang pinakaepektibong depensa na kanilang sinubukan. Gayunpaman, natuklasan din nila na ang mga attacker na may kaalaman sa depensa ay maaaring bawasan ang lakas ng manipulasyon habang pinapanatili ang malaking bahagi ng pagiging epektibo ng atake.

“Ang mga single-point defense na ito ay nahihirapang labanan ang aming atake dahil natuklasan namin na napakahirap para sa mga modelong ito na makilala ang normal na intensyon ng user at ang aming adversarial attack,” sabi ni Chen.