PangunaLBank News Center
Anthropic Humihingi ng Paumanhin para sa Lihim na Sensura ng Claude Fable 5—Ngunit May Kondisyon ang Solusyon
anthropic-apologizes-claude-fable-5-secret-censorship
Anthropic Humihingi ng Paumanhin para sa Lihim na Sensura ng Claude Fable 5—Ngunit May Kondisyon ang Solusyon
Isang araw matapos magulantang ang komunidad ng AI dahil sa hindi nakikitang sabotahe sa performance, nagbago ng patakaran ang Anthropic. Darating ang mga nakikitang pananggalang—at ganoon din ang mas maraming 'false positives'.
2026-06-11 Pinagmulan:decrypt.co

Sa madaling sabi

  • Inamin ng Anthropic na ang kanilang di-nakikitang mga pananggalang sa pagpapaunlad ng LLM ay "maling pagpapalit" at papalitan ang mga ito ng nakikitang paglipat sa Claude Opus 4.8, simula ngayong linggo.
  • Ang mga kahilingang namarkahan sa API ay magbabalik na ngayon ng dahilan ng kanilang pagtanggi, sa halip na tahimik na magbigay ng pinababang sagot.
  • Ang paggawa ng mga pananggalang na nakikita ay nangangahulugang mas madali itong malusutan.

Ginugol ng Anthropic ang halos 48 oras bilang kontrabida ng linggo ng industriya ng AI bago sumuko.

Inilunsad ng kumpanya ang Claude Fable 5 ngayong linggo at kaagad na umani ng pagtutol dahil sa isang pananggalang na nakabaon sa 319-pahinang system card nito: Ang modelo, ang una sa bagong Mythos class ng kumpanya, ay lihim na pabababain ang kalidad ng sarili nitong mga tugon para sa mga user na pinaghihinalaan nitong gumagawa ng nakikipagkumpitensyang mga AI model—walang babala, walang mensahe ng paglipat, tahimik lang na mas masamang output. Pagsapit ng Huwebes, humihingi na ng tawad ang Anthropic.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

"Ang di-nakikitang mga pananggalang ay maaaring targetin nang mas tiyak, na nagbibigay-daan sa amin na mabilis na magpadala na may napakakaunting maling positibo. Pinili namin ang di-nakikitang mga pananggalang sa dahilang ito—at iyon ay maling desisyon," post ng kumpanya sa X. "Dapat ay may kaalaman kayo sa mga pananggalang na mayroon kami, at kung bakit.”

“Patawad kung hindi namin nakuha ang tamang balanse."

Simula ngayong linggo, ang mga kahilingang namarkahan ay hayag na ididirekta sa Claude Opus 4.8, isang hindi gaanong mahusay na modelo, sa halip na tahimik na magbigay ng pinababang output ng Fable. Makakatanggap ang mga user ng API ng nakasaad na dahilan kapag tinanggihan ang isang kahilingan. Sinabi ng Anthropic na ilalabas ang mga server-side fallback notification sa loob ng ilang araw.

Ano ang talagang nangyayari

Para sa mga hindi teknikal na mambabasa, narito ang tungkol sa kontrobersiya. Mayroon nang nakikitang mga pananggalang ang Claude Fable 5 para sa cybersecurity at pananaliksik sa biology—kung magtatanong ka ng isang bagay na nag-trigger sa mga filter na iyon, makakatanggap ka ng abiso na ang iyong kahilingan ay idinidirekta sa mas lumang modelong Opus 4.8. Alam mong may nagbago. Maaari mong ayusin ang iyong prompt o gumamit ng ibang tool.

Gayunpaman, ang mga pananggalang na ito ay masyadong matindi, ayon sa ilang mananaliksik sa bio.

Gayunpaman, ang pananggalang sa pagpapaunlad ng LLM ay gumana nang naiiba. Kung na-detect ng Fable 5 na nagtatrabaho ka sa mga bagay tulad ng pretraining ng mga AI system, pagbuo ng distributed training infrastructure, o pagdidisenyo ng machine learning chips, tahimik na babaguhin ng modelo ang sarili nitong pag-uugali—sa pamamagitan ng pagbabago ng prompt, steering vectors, o pagbabago ng parameter—para bigyan ka ng mas masamang sagot nang hindi sinasabi sa iyo. Makakakuha ka ng tugon. Hindi lang ito manggagaling sa Fable 5 na binayaran mo.

Ang Fable 5 ay itinatanghal bilang mukha ng publiko ng pinakamahusay na Mythos-class na modelo ng Anthropic, at ang mga mananaliksik na gumagamit nito para sa lehitimong trabaho sa machine learning ay walang paraan para malaman na ang kanilang mga resulta ay apektado. Ang isang nabigong eksperimento ay pareho lang ang itsura kung mali ang iyong hypothesis o tahimik na inutusan ang modelo na bumaba ang performance. Iyan ang problema sa reproducibility na nagdulot ng matinding pagkabahala sa komunidad ng pananaliksik sa AI.

Ang problema ay hindi gaanong tumpak ang classifier. Ang AI research firm na SemiAnalysis ay kabilang sa mga unang hayagang pumuna sa kanila matapos nilang makitang namarkahan ang kanilang GPU inference research.

BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won't notice. We are already seeing Anthropic's latest model's moderation filters our GPU… pic.twitter.com/9sa95cCSvS

— SemiAnalysis (@SemiAnalysis_) June 9, 2026

Ang nakatagong isyu sa solusyon

Ang pagbaliktad ng Anthropic ay may direktang pag-amin sa kompromiso na tinatanggap nito. Ang paggawa ng mga pananggalang na nakikita ay mas madali itong malusutan, na nangangahulugang ang classifier ay kailangang magtakda ng mas malawak na saklaw upang manatiling epektibo.

Mas maraming maling positibo—lehitimong trabaho sa machine-learning na nahuhuli at idinidirekta sa iba—ang darating habang inaayos ng kumpanya ang mga sistema nito. Sinabi ng Anthropic na nagsusumikap silang bawasan ang maling positibo "sa pinakamabilis na paraan" ngunit walang inalok na timeline.

Inilalapat din ng kumpanya ang parehong pagwawasto sa mga classifier nito para sa biology at cybersecurity, na umani ng sarili nilang mga reklamo tungkol sa pagmamarka ng hindi nakakapinsalang research prompts.

Gayunpaman, ang natitirang alalahanin ay hindi inaalis ng Anthropic ang kategoryang ito ng mga restriksyon—ginagawa lang nilang nakikita ang mga ito. Para sa mga naniniwalang mali ang mga restriksyon mismo, ang paghingi ng tawad noong Huwebes ay isang bahagyang solusyon. Ang Fable 5 ay nananatiling libre sa mga planong Pro, Max, Team, at Enterprise hanggang Hunyo 22, pagkatapos nito ay magiging API usage credits na lang ang batayan ng paggamit.