PangunaLBank News Center
Sa Wakasan, Ipinaliwanag ng OpenAI Kung Bakit Hindi Itinigil ng ChatGPT ang Pagsasalita Tungkol sa Mga Goblin
openai-explains-chatgpt-mention-goblins
Sa Wakasan, Ipinaliwanag ng OpenAI Kung Bakit Hindi Itinigil ng ChatGPT ang Pagsasalita Tungkol sa Mga Goblin
Bakit kinailangan ng OpenAI na isulat ang "huwag kailanman banggitin ang mga goblin" sa kanilang production code sa ChatGPT? Naglathala ang kumpanya ng post-mortem.
2026-04-30 Pinagmulan:decrypt.co

Sa maikli

  • Ang pagkatao ng OpenAI na "Nerdy" ay ginantimpalaan ang mga metapora ng goblin, na ikinakalat ang kakaibang ugali na ito sa lahat ng modelo ng GPT sa pamamagitan ng reinforcement learning.
  • Ang pagbanggit ng goblin sa Nerdy mode ng GPT-5.4 ay tumaas ng 3,881% kumpara sa GPT-5.2, na nag-udyok ng panloob na imbestigasyon at emergency na patch sa system prompt.
  • Ang solusyon—ang pagsulat ng "huwag magsalita tungkol sa mga goblin" sa isang developer prompt—ay nagpapakita kung bakit ang mga patch ng system prompt ay mas mabilis ngunit mas mapanganib kaysa sa muling pagsasanay.

Kung humingi ka ng tulong sa coding sa ChatGPT kamakailan at tumugon ito sa pagtawag sa iyong bug na isang "mischievous little gremlin," hindi ka nagkakamali. Ang modelo ay nagkaroon ng tunay na pagkahumaling sa mga nilalang pantasya—mga goblin, gremlin, raccoon, troll, ogre, at oo, mga kalapati—at inilathala ng OpenAI ang isang buong post-mortem kung paano ito nangyari.

Ang maikling bersyon: isang senyales ng gantimpala na idinisenyo upang gawing mas mapaglaro ang ChatGPT ay nagkagulo, at ang mga goblin ay dumami.

Ang kuwento ng goblin ay naging pampubliko lamang dahil napansin ng mga gumagamit ng Reddit ang linyang "never mention goblins" sa isang leaked Codex system prompt sa GitHub.

Nag-viral ang post bago pa man inilathala ng OpenAI ang sarili nitong paliwanag.

Paano nagdulot ng pagdami ng goblin ang pagkataong Nerdy

Ayon sa OpenAI, nagsimula ang lahat sa GPT-5.1, na inilunsad noong nakaraang Nobyembre. Noon ipinakilala ng OpenAI ang pag-customize ng personalidad, na nagpapahintulot sa mga user na pumili ng mga istilo tulad ng Friendly, Professional, Efficient, at Nerdy. Ang Nerdy persona ay may kasamang system prompt na nagsasabi sa modelo na maging nerdy at mapaglaro, upang "undercut pretension through playful use of language," at kilalanin na "the world is complex and strange."

Ang prompt na iyon, lumabas, ay isang pang-akit ng goblin.

Sa panahon ng pagsasanay sa reinforcement learning, ang senyales ng gantimpala para sa personalidad na Nerdy ay patuloy na nagbigay ng mas mataas na puntos sa mga output kapag naglalaman ang mga ito ng mga metapora ng salitang-nilalang. Sa 76.2% ng mga dataset na in-audit, ang mga tugon na may "goblin" o "gremlin" ay nakakuha ng mas mahusay na marka kaysa sa parehong mga tugon na wala nito. Natuto ang modelo: ang kapritso ay katumbas ng gantimpala.

Ang mga pagbanggit ng goblin ay sumabog sa GPT-5.4, na nagpakita ang personalidad na Nerdy ng 3,881% na pagtaas kumpara sa GPT-5.2.

Ang problema ay hindi pinapanatili ng reinforcement learning ang natutunang pag-uugali na malinis na nakapaloob. Kapag ang isang style tic ay ginantimpalaan sa isang konteksto, ito ay kumakalat sa iba sa pamamagitan ng isang feedback loop: ang modelo ay bumubuo ng mga output na puno ng nilalang, ang mga output na iyon ay muling ginagamit sa fine-tuning data, at ang pag-uugali ay lumalalim sa buong modelo, kahit na walang aktibong Nerdy prompt.

Ang Nerdy ay bumubuo lamang ng 2.5% ng lahat ng tugon ng ChatGPT. Ito ang responsable para sa 66.7% ng lahat ng pagbanggit ng "goblin". Dahil sa mga pamamaraan ng OpenAI, ang pagkalat ng Goblin at gremlin ay patuloy na tumaas sa pag-unlad ng pagsasanay nang aktibo ang personalidad na Nerdy.

Kahit na walang personalidad na Nerdy, ang mga pagbanggit ng nilalang ay dahan-dahang tumaas—ebidensya ng cross-contamination sa pamamagitan ng supervised fine-tuning data.

Huli na ang lahat para sa GPT-5.5

Sa oras na natuklasan ng OpenAI ang ugat ng problema, malalim na sa pagsasanay ang GPT-5.5, at nasipsip na nito ang buong pamilya ng mga salitang nilalang. Ang isang pag-audit ng data ay hindi lamang nagmarka ng mga goblin at gremlin, kundi pati na rin ang mga raccoon, troll, ogre, at kalapati bilang tinatawag ng kumpanya na "tic words." (Ang "mga palaka," para sa mga mausisa, ay karaniwang lehitimo.)

Ang unang nasusukat na pagtaas: ang pagbanggit ng goblin ay tumaas ng 175% at ang pagbanggit ng gremlin ay 52% pagkatapos ng paglulunsad ng GPT-5.1.

Kahit ang Punong Siyentista ng OpenAI na si Jakub Pachocki ay nakakuha ng goblin nang humingi siya ng unicorn sa ASCII art.

Binitawan ng OpenAI ang personalidad na Nerdy noong Marso at tinanggal ang mga senyales ng gantimpala na nauugnay sa nilalang mula sa pagsasanay sa hinaharap. Ngunit nagsimula na ang training run ng GPT-5.5. Ang solusyon ng kumpanya para sa Codex—ang ahente nito sa coding—ay ang magdagdag lamang ng isang linya sa developer system prompt na nagsasabing "Huwag kailanman magsalita tungkol sa mga goblin, gremlin, raccoon, troll, ogre, kalapati, o iba pang hayop o nilalang maliban kung ito ay ganap at walang pag-aalinlangang nauugnay sa tanong ng user."

May isang tao sa OpenAI ang nag-commit niyan sa production code at nagpatuloy sa kanilang araw.

Ang problema sa patch ng system prompt

Ngunit bakit pinili ng OpenAI ang landas na ito?

Ang muling pagsasanay ng isang modelo na kasinglaki ng GPT-5.5 upang tanggalin ang isang kakaibang pag-uugali ay magastos at mabagal. Ang isang pag-aayos sa system prompt ay tumatagal lamang ng ilang minuto. Ang mga kumpanya sa buong industriya ay unang kumukuha ng prompt patch dahil ito ang opsyon na mababa ang gastos at mabilis i-deploy kapag tumataas ang mga reklamo ng user.

Ngunit ang mga prompt patch ay may sariling mga panganib. Hindi nito inaayos ang pinagbabatayang pag-uugali kundi pinipigilan lamang ito. At ang pagpigil ay maaaring magkaroon ng mga side effect.

Ang sitwasyon ng goblin ng OpenAI ay isang medyo hindi nakakapinsalang halimbawa. Ang pinakanakakatakot na bersyon ng dinamikong ito ay nangyari sa Grok noong nakaraang taon. Matapos itulak ng xAI ang isang update sa system prompt na nagsasabi sa Grok na ituring ang media bilang biased at "not shy away from politically incorrect claims," ang chatbot ay gumugol ng 16 na oras na tinawag ang sarili nitong "MechaHitler" at nag-post ng antisemitic na nilalaman sa X. Ang solusyon ay isa pang pagbabago sa prompt, na mabilis na sumobra kaya't sinimulan ng Grok na i-flag ang antisemitism sa mga larawan ng tuta, ulap, at sarili nitong logo. Ang desperadong prompt engineering ay nagresulta sa mas desperadong prompt engineering.

Hindi naman nagdulot ng ganoon kalaking drama ang goblin patch. Ngunit inamin ng OpenAI na inilabas pa rin ang GPT-5.5 na mayroong buo pa rin ang pinagbabatayang kakaibang pag-uugali, na pinigilan lamang sa Codex. Inilathala pa ng kumpanya ang isang command para tanggalin ang mga tagubilin sa pagpigil ng goblin kung nais ng mga user na ibalik ang mga nilalang.

Bakit itinago ng mga kumpanya ang kanilang system prompts

Ang pagtatago o pagpapalabo ng iyong buong system prompt ay karaniwan sa industriya ng AI. Itinuturing ng mga kumpanya ang system prompts bilang trade secrets para sa ilang kadahilanan: proteksyon ng intellectual property, kalamangan sa kompetisyon, at seguridad. Kung alam ng isang jailbreaker ang eksaktong mga patakaran na sinusunod ng isang modelo, ang pagdaan dito ay nagiging mas madali.

Mayroon ding ikaapat na dahilan kung bakit hindi ini-aanunsyo ng mga kumpanya: pamamahala ng imahe. Ang isang linyang nagsasabing "huwag kailanman banggitin ang mga goblin" ay hindi nagbibigay inspirasyon ng kumpiyansa sa pinagbabatayang teknolohiya. Ang paglalathala nito ay nangangailangan ng sentido komun o isang matatag na kultura ng pananaliksik, o pareho.

Sinabi ng OpenAI na ang imbestigasyon ay nagbunga ng mga bagong panloob na tool upang suriin ang pag-uugali ng modelo at bakasin ang mga kakaibang pag-uugali pabalik sa kanilang pinagmulan ng pagsasanay. Ang data ng pagsasanay ng GPT-5.5 ay nalinis na mula sa mga halimbawang nauugnay sa nilalang. Ang susunod na henerasyon ng modelo ay dapat dumating na walang goblin—maliban na lamang, siyempre, kung may iba pa na ginantimpalaan para sa mga kadahilanang hindi pa nauunawaan ng sinuman.