
DGrid AI یک چارچوب جدید اثبات کیفیت (Proof of Quality) معرفی میکند که برای ارزیابی خروجیهای هوش مصنوعی و بهبود توزیع پاداش در شبکههای غیرمتمرکز طراحی شده است.
شبکههای هوش مصنوعی غیرمتمرکز با مشکل پرداخت روبرو هستند که محققان سالهاست بیصدا در تلاش برای حل آن بودهاند و مقاله اخیر DGrid AI این مسئله را مستقیماً روی میز میگذارد. سیستمهای امتیازدهی کیفیت که پاداش گرهها را تأمین میکنند، تا حد زیادی به داشتن پاسخ صحیح برای مقایسه وابسته بودهاند. در محیط واقعی، چنین پاسخی به ندرت وجود دارد.
این مقاله، چهارمین مقاله از مجموعه تحقیقات جاری DGrid در مورد اثبات کیفیت (PoQ)، جایگزینی آموزشدیده را پیشنهاد میکند و آمار و ارقام آن را منتشر مینماید. PoQ از مدلهای ارزیاب کوچک برای امتیازدهی کیفیت هر خروجی استفاده میکند و این امتیازها پاداشها را تعیین میکنند. ارزان و مقیاسپذیر است.
DGrid این سیستم را مرحله به مرحله ساخت: یک نسخه آگاه به هزینه که تأخیر را در محاسبات پرداخت لحاظ میکند، یک لایه مقاوم در برابر حملات متخاصم که در برابر دروغگویی یا تنبلی امتیازدهندگان مقاومت میکند، و چارچوبی که «کیفیت» را به بخشهای قابل بررسی تقسیم میکند. مهندسی قوی. و هر لایه به همان دیوار برخورد میکرد.
ساختار اصلی یک شبکه استنتاج غیرمتمرکز، چالشی در اندازهگیری ایجاد میکند. گرههای مستقل مدلهای زبان را اجرا کرده و به پرسشهای کاربران پاسخ میدهند. این پاسخها باید امتیازدهی شوند زیرا امتیازها میزان پرداخت را تعیین میکنند. تأیید رمزنگاری هر محاسبه از نظر فنی بینقص خواهد بود اما در مقیاس، هزینهبر و غیرقابل قبول است، بنابراین مسیر عملی، ارزیابی کیفیت خودکار با استفاده از مدلهای کوچکتر بوده است.
کار قبلی DGrid این رویکرد را به تدریج توسعه داد؛ شامل پرداختهای تنظیمشده با تأخیر، دفاع در برابر امتیازدهندگان دستکاریگر، و تفکیک جزئیتر آنچه که «کیفیت» در یک زمینه امتیازدهی به معنای واقعی کلمه است. آنچه را که نتوانست به طور کامل حل کند، خود سیگنال ارزیابی بود.
قویترین سیگنال تیم، شباهت معنایی بود: خروجی مدل را با یک پاسخ صحیح شناختهشده مقایسه کرده و فاصله بین آنها را در فضای تعبیهسازی اندازهگیری کنید. این روش در محیطهای بنچمارک که پاسخهای مرجع وجود دارند، کار میکند. اما در یک شبکه زنده که کاربران سوالات آزاد میپرسند و هیچ حقیقت مطلقی در پایگاه داده منتظر نیست، کارآمد نیست.
جایگزینهای آماده آزمایششده نتایج بدتری داشتند. یک رمزگذار متقاطع NLI، یک کلاس مدل که برای ارزیابی استلزام منطقی بین جملات طراحی شده است، هنگامی که برای ارزیابی کیفیت پاسخ بدون پاسخ مرجع استفاده شد، همبستگی پیرسون −۰.۳۶۳ را برگرداند. همبستگی منفی به این معنی است که مدل بیشتر احتمال دارد پاسخهای ضعیف را به پاسخهای خوب ترجیح دهد. این یک ابزار ارزیابی قابل استفاده نیست.
به جای تطبیق مدلهای موجود، محققان سه داور را بهطور خاص برای امتیازدهی کیفیت بدون نیاز به مرجع آموزش دادند. هر کدام یک سوال و یک پاسخ را به عنوان ورودی میگیرد و امتیازی بین ۰ تا ۱۰ را بدون ارائه پاسخ صحیح، خروجی میدهد.
این سه مدل عمدتاً در اندازه و سرعت متفاوت هستند:
آموزش در یک فرآیند دو مرحلهای دنبال شد. مدلها ابتدا بر روی UltraFeedback، یک مجموعه داده عمومی از پاسخهای ارزیابی شده توسط GPT-4، پیشآموزش داده شدند، سپس بر روی توزیع وظیفه خاص شبکه تنظیم دقیق شدند. هدف این بود که به داوران یک درک پایه گسترده از کیفیت داده شود، قبل از اینکه تمرکز آنها به زمینه امتیازدهی خاص محدود شود.
در یک مجموعه آزمایشی جداگانه شامل ۳۰۰ مثال، داور DeBERTa به همبستگی پیرسون ۰.۷۴۷ در برابر معیار تقریبی حقیقت مطلق دست یافت — بدون دسترسی به هیچ پاسخ مرجعی. ارزیابهای مبتنی بر مرجع از چارچوب قبلی، که به پاسخهای صحیح دسترسی داشتند، حداکثر به ۰.۶۴۷ رسیدند.
این شکاف توضیح سادهای دارد. ارزیابهای قدیمی معیارهای شباهت بودند که فاصله کسینوسی را تا یک تعبیهسازی مرجع اندازهگیری میکردند. داوران جدید برای خود وظیفه امتیازدهی بهینه شده بودند. تفاوت عملکرد بیشتر منعکسکننده این تمایز است تا هرگونه پیشرفت معماری.
یک اخطار که نویسندگان اضافه کردهاند: حقیقت مطلق مورد استفاده در اینجا خود یک معیار تقریبی است — همپوشانی کلمات در سطح توکن به جای قضاوت انسانی. داوران با این معیار همبستگی خوبی دارند، اما اینکه آیا همپوشانی کلمات به طور قابل اعتماد منعکسکننده آنچه یک انسان پاسخ با کیفیت تلقی میکند، یک سوال جداگانه و حل نشده است.
دو ویژگی مرتبط با استقرار همراه داوران است. یک خط لوله آبشاری، پرسشها را ابتدا از طریق مدل سبکوزن هدایت میکند و تنها زمانی که امتیازها مبهم هستند، به مدلهای سنگینتر ارتقا میدهد که هزینههای ارزیابی را تا ۷۲.۷٪ در تهاجمیترین تنظیم آستانه کاهش میدهد، هرچند همبستگی در آن پیکربندی به حدود ۰.۵۱ کاهش مییابد. یک سازوکار کالیبراسیون آنلاین، که بدون تنظیم دستی اجرا میشود، به طور مداوم کیفیت معنایی را به عنوان سیگنال غالب شناسایی میکند و وزنها را بر این اساس تنظیم میکند و به مرور زمان ۴.۷ برابر وزن اولیه خود را به آن اختصاص میدهد.
عملکرد داوران در انواع وظایف ناهموار است. در پرسش و پاسخ، همبستگی به ۰.۸۳۰ میرسد. در خلاصهسازی، به ۰.۱۹۹ کاهش مییابد. این مقاله این امر را به شکست خود داوران نسبت نمیدهد، بلکه به معیار ارزیابی استفاده شده در طول آموزش: همپوشانی خام کلمات معیار ضعیفی برای کیفیت خلاصهسازی است، بنابراین مدلهایی که بر اساس آن آموزش میبینند، یاد میگیرند که یک سیگنال ضعیف را دنبال کنند. نویسندگان این را به عنوان مشکل اصلی باز توصیف میکنند، نه یک محدودیت شناختهشده که بیصدا مدیریت میشود.
این چارچوب با نحوه ارائه نتایج کلی مقاله مطابقت دارد — روشمندانه، با موارد شکست به همان وضوح بهبودها بیان شدهاند. پس از چهار مقاله در این رشته تحقیقاتی، این کار کمتر شبیه یک اعلامیه محصول است و بیشتر شبیه به تلاشی از سوی یک تیم است که به تدریج کاستیها را در چیزی که قصد استقرار آن را دارند، برطرف میکند.
افشا: این محتوا توسط شخص ثالث ارائه شده است. نه crypto.news و نه نویسنده این مقاله هیچ محصولی که در این صفحه ذکر شده است را تأیید نمیکنند. کاربران باید قبل از انجام هرگونه اقدام مرتبط با شرکت، تحقیقات خود را انجام دهند.