
Ipinakilala ng DGrid AI ang isang bagong balangkas ng Proof of Quality na idinisenyo upang suriin ang mga output ng AI at pagbutihin ang pamamahagi ng gantimpala sa mga desentralisadong network.
Ang mga desentralisadong AI network ay may problema sa pagbabayad na tahimik na pinagtatrabahuhan ng mga mananaliksik sa loob ng maraming taon, at isang kamakailang papel mula sa DGrid AI ang direktang naglalatag ng isyu. Ang mga sistema ng pagmamarka ng kalidad na nagpapagana sa mga gantimpala ng node ay higit na nakadepende sa pagkakaroon ng tamang sagot na magagamit para ikumpara. Sa produksyon, bihirang umiiral ang sagot na iyon.
Ang papel, ang ikaapat sa patuloy na serye ng pananaliksik ng DGrid sa Proof of Quality (PoQ), ay nagmumungkahi ng isang sinanay na alternatibo at inilalathala ang mga numero sa likod nito. Gumagamit ang PoQ ng maliliit na modelo ng ebalweytor upang bigyan ng marka ang kalidad ng bawat output, at ang mga markang iyon ang nagtutulak sa mga gantimpala. Mura, at nag-i-scale.
Binuo ito ng DGrid nang paisa-isa: isang bersyon na may kamalayan sa gastos na nagsasama ng latency sa pagtutuos ng bayad, isang layer ng adversarial-robustness na nananatiling matatag kapag ang mga nagmamarka ay naging sinungaling o tamad, at isang balangkas na naghihiwalay ng “kalidad” sa mga bahagi na maaari mong suriin. Solidong engineering. At bawat layer ay patuloy na bumabangga sa parehong pader.
Ang pangunahing istraktura ng isang desentralisadong inference network ay lumilikha ng isang hamon sa pagsukat. Ang mga independiyenteng node ay nagpapatakbo ng mga modelo ng wika at tumutugon sa mga query ng user. Ang mga tugon na iyon ay kailangang markahan dahil ang mga marka ang nagtatakda ng bayad. Ang cryptographic verification ng bawat komputasyon ay magiging technically airtight ngunit labis na mahal sa sukat, kaya ang praktikal na landas ay ang automated quality evaluation gamit ang mas maliliit na modelo.
Ang mas naunang trabaho ng DGrid ay unti-unting binuo ang diskarteng iyon, nagdagdag ng mga latency-adjusted na bayad, mga depensa laban sa mapanlinlang na mga scorer, at isang mas detalyadong paghihiwalay ng kung ano talaga ang ibig sabihin ng “kalidad” sa isang konteksto ng pagmamarka. Ang hindi nito lubos na nalutas ay ang signal ng ebalwasyon mismo.
Ang pinakamalakas na signal na nakuha ng koponan ay semantic similarity: ikumpara ang output ng modelo sa isang kilalang tamang sagot at sukatin ang distansya sa pagitan nila sa embedding space. Gumagana iyan sa mga benchmark environment kung saan umiiral ang mga reference na sagot. Hindi iyan gumagana sa isang live na network kung saan nagtatanong ang mga user ng mga open-ended na tanong at walang ground truth na naghihintay sa isang database.
Mas malala ang resulta ng mga off-the-shelf na alternatibo. Isang NLI cross-encoder, isang klase ng modelo na idinisenyo upang suriin ang logical entailment sa pagitan ng mga pangungusap, ay nagbalik ng Pearson correlation na −0.363 nang ginamit upang suriin ang kalidad ng sagot nang walang reference na sagot. Ang isang negatibong korelasyon ay nangangahulugang mas malamang na paboran ng modelo ang mahinang mga tugon kaysa sa magagandang tugon. Hindi ito isang magagamit na tool sa ebalwasyon.
Sa halip na iakma ang mga umiiral na modelo, nagsanay ang mga mananaliksik ng tatlong judge partikular para sa reference-free quality scoring. Ang bawat isa ay tumatanggap ng tanong at tugon bilang input at nagbibigay ng marka mula 0 hanggang 10, nang walang ibinigay na tamang sagot.
Ang tatlong modelo ay pangunahing nagkakaiba sa laki at bilis:
Ang pagsasanay ay sumunod sa isang dalawang-yugtong proseso. Ang mga modelo ay unang sinanay sa UltraFeedback, isang pampublikong dataset ng mga tugon na minarkahan ng GPT-4, bago ang fine-tuning sa sariling distribusyon ng gawain ng network. Ang layunin ay bigyan ang mga judge ng malawak na pangunahing pag-unawa sa kalidad bago paliitin ang kanilang pagtuon sa partikular na konteksto ng pagmamarka.
Sa isang held-out test set na may 300 halimbawa, nakamit ng DeBERTa judge ang isang Pearson correlation na 0.747 laban sa ground-truth proxy — nang walang access sa anumang reference na sagot. Ang reference-based na mga ebalweytor mula sa naunang balangkas, na may access sa mga tamang sagot, ay umabot sa pinakamataas na 0.647.
Ang puwang ay may tuwirang paliwanag. Ang mga mas lumang ebalweytor ay mga metric ng pagkakapareho na sumusukat sa cosine distance sa isang reference embedding. Ang mga bagong judge ay na-optimize end-to-end para sa mismong gawain ng pagmamarka. Ang pagkakaiba sa performance ay sumasalamin sa pagkakaibang iyon higit pa sa anumang architectural breakthrough.
Isang babala na isinama ng mga may-akda: ang ground truth na ginamit dito ay isa ring proxy — token-level word overlap sa halip na paghuhusga ng tao. Ang mga judge ay mahusay na nauugnay sa metric na ito, ngunit kung ang word overlap ay maaasahang sumasalamin sa kung ano ang ituturing ng isang tao na isang kalidad na tugon ay isang hiwalay at hindi pa nalulutas na tanong.
Dalawang feature na nakatuon sa deployment ang kasama ng mga judge. Ang isang cascading pipeline ay nagruruta ng mga query sa pamamagitan ng lightweight na modelo muna at nag-e-escalate sa mas mabibigat na modelo lamang kapag malabo ang mga marka, binabawasan ang mga gastos sa ebalwasyon ng hanggang 72.7% sa pinakamapanganib na setting ng threshold, bagaman bumababa ang korelasyon sa humigit-kumulang 0.51 sa konpigurasyong iyon. Ang isang online calibration mechanism, na tumatakbo nang walang manual tuning, ay patuloy na kinikilala ang semantic quality bilang dominanteng signal at naaayon na inaayos ang mga timbang, na nagtatalaga dito ng 4.7 beses sa panimulang timbang nito sa paglipas ng panahon.
Ang mga judge ay hindi pantay na gumaganap sa iba't ibang uri ng gawain. Sa question answering, umaabot ang korelasyon sa 0.830. Sa summarization, bumababa ito sa 0.199. Itinuturo ng papel ito hindi sa kabiguan ng mga judge mismo kundi sa metric ng ebalwasyon na ginamit sa pagsasanay: ang raw word overlap ay isang mahinang sukat ng kalidad ng summarization, kaya ang mga modelong sinanay laban dito ay natututong subaybayan ang mahinang signal. Inilalarawan ito ng mga may-akda bilang pangunahing bukas na problema sa halip na isang kilalang limitasyon na tahimik na pinamamahalaan.
Ang pagbalangkas na iyon ay naaayon sa kung paano ipinapakita ng papel ang mga resulta nito sa pangkalahatan — nang may pamamaraan, na ang mga kaso ng pagkabigo ay malinaw na nakasaad tulad ng mga pagpapabuti. Apat na papel na sa thread ng pananaliksik na ito, ang trabaho ay mas mababa ang tunog na tulad ng isang anunsyo ng produkto at mas tulad ng isang koponan na unti-unting nagsasara ng mga puwang sa isang bagay na balak nilang talagang i-deploy.
Paglalahad: Ang nilalamang ito ay ibinigay ng isang third party. Hindi ineendorso ng crypto.news o ng may-akda ng artikulong ito ang anumang produkto na nabanggit sa pahinang ito. Ang mga gumagamit ay dapat magsagawa ng sariling pananaliksik bago gumawa ng anumang aksyon na may kaugnayan sa kumpanya.