صفحه اصلیمرکز اخبار LBank
جدیدترین پژوهش DGrid AI به یک نقص اساسی در امتیازدهی هوش مصنوعی غیرمتمرکز می‌پردازد
dgrid-ais-latest-research-tackles-a-core-flaw-in-decentralized-ai-scoring
جدیدترین پژوهش DGrid AI به یک نقص اساسی در امتیازدهی هوش مصنوعی غیرمتمرکز می‌پردازد
تحقیقات جدید PoQ (اثبات کیفیت) دی‌گرید اِی‌آی، مکانیزم امتیازدهی بدون مرجع را برای پاداش دادن به نودهای هوش مصنوعی بدون نیاز به پاسخ‌های صحیح معرفی می‌کند. دی‌گرید داوران هوش مصنوعی متخصصی را برای ارزیابی کیفیت خروجی آموزش داده است که این امر سیستم‌های پاداش‌دهی هوش مصنوعی غیرمتمرکز را در مقیاس وسیع بهبود می‌بخشد. مدل‌های جدید اثبات کیفیت دی‌گرید اِی‌آی به شبکه‌های هوش مصنوعی غیرمتمرکز کمک می‌کنند تا پاسخ‌ها را بدون نیاز به داده‌های حقیقت مبنا به طور دقیق ارزیابی کنند.
2026-06-18 منبع:crypto.news

DGrid AI یک چارچوب جدید اثبات کیفیت (Proof of Quality) معرفی می‌کند که برای ارزیابی خروجی‌های هوش مصنوعی و بهبود توزیع پاداش در شبکه‌های غیرمتمرکز طراحی شده است.

خلاصه
  • تحقیقات جدید PoQ دی‌گرید AI، امتیازدهی بدون نیاز به مرجع را برای پاداش دادن به گره‌های هوش مصنوعی بدون نیاز به پاسخ‌های صحیح معرفی می‌کند.
  • دی‌گرید داوران متخصص هوش مصنوعی را برای امتیازدهی کیفیت خروجی آموزش داد که سیستم‌های پاداش هوش مصنوعی غیرمتمرکز را در مقیاس بهبود می‌بخشد.
  • مدل‌های جدید اثبات کیفیت (Proof of Quality) دی‌گرید AI به شبکه‌های هوش مصنوعی غیرمتمرکز کمک می‌کنند تا پاسخ‌ها را با دقت و بدون داده‌های حقیقت مطلق ارزیابی کنند.

شبکه‌های هوش مصنوعی غیرمتمرکز با مشکل پرداخت روبرو هستند که محققان سال‌هاست بی‌صدا در تلاش برای حل آن بوده‌اند و مقاله اخیر DGrid AI این مسئله را مستقیماً روی میز می‌گذارد. سیستم‌های امتیازدهی کیفیت که پاداش گره‌ها را تأمین می‌کنند، تا حد زیادی به داشتن پاسخ صحیح برای مقایسه وابسته بوده‌اند. در محیط واقعی، چنین پاسخی به ندرت وجود دارد.

این مقاله، چهارمین مقاله از مجموعه تحقیقات جاری DGrid در مورد اثبات کیفیت (PoQ)، جایگزینی آموزش‌دیده را پیشنهاد می‌کند و آمار و ارقام آن را منتشر می‌نماید. PoQ از مدل‌های ارزیاب کوچک برای امتیازدهی کیفیت هر خروجی استفاده می‌کند و این امتیازها پاداش‌ها را تعیین می‌کنند. ارزان و مقیاس‌پذیر است.

DGrid این سیستم را مرحله به مرحله ساخت: یک نسخه آگاه به هزینه که تأخیر را در محاسبات پرداخت لحاظ می‌کند، یک لایه مقاوم در برابر حملات متخاصم که در برابر دروغ‌گویی یا تنبلی امتیازدهندگان مقاومت می‌کند، و چارچوبی که «کیفیت» را به بخش‌های قابل بررسی تقسیم می‌کند. مهندسی قوی. و هر لایه به همان دیوار برخورد می‌کرد.

چگونه مشکل امتیازدهی توسعه یافت

ساختار اصلی یک شبکه استنتاج غیرمتمرکز، چالشی در اندازه‌گیری ایجاد می‌کند. گره‌های مستقل مدل‌های زبان را اجرا کرده و به پرسش‌های کاربران پاسخ می‌دهند. این پاسخ‌ها باید امتیازدهی شوند زیرا امتیازها میزان پرداخت را تعیین می‌کنند. تأیید رمزنگاری هر محاسبه از نظر فنی بی‌نقص خواهد بود اما در مقیاس، هزینه‌بر و غیرقابل قبول است، بنابراین مسیر عملی، ارزیابی کیفیت خودکار با استفاده از مدل‌های کوچک‌تر بوده است.

کار قبلی DGrid این رویکرد را به تدریج توسعه داد؛ شامل پرداخت‌های تنظیم‌شده با تأخیر، دفاع در برابر امتیازدهندگان دستکاری‌گر، و تفکیک جزئی‌تر آنچه که «کیفیت» در یک زمینه امتیازدهی به معنای واقعی کلمه است. آنچه را که نتوانست به طور کامل حل کند، خود سیگنال ارزیابی بود.

قوی‌ترین سیگنال تیم، شباهت معنایی بود: خروجی مدل را با یک پاسخ صحیح شناخته‌شده مقایسه کرده و فاصله بین آنها را در فضای تعبیه‌سازی اندازه‌گیری کنید. این روش در محیط‌های بنچمارک که پاسخ‌های مرجع وجود دارند، کار می‌کند. اما در یک شبکه زنده که کاربران سوالات آزاد می‌پرسند و هیچ حقیقت مطلقی در پایگاه داده منتظر نیست، کارآمد نیست.

جایگزین‌های آماده آزمایش‌شده نتایج بدتری داشتند. یک رمزگذار متقاطع NLI، یک کلاس مدل که برای ارزیابی استلزام منطقی بین جملات طراحی شده است، هنگامی که برای ارزیابی کیفیت پاسخ بدون پاسخ مرجع استفاده شد، همبستگی پیرسون −۰.۳۶۳ را برگرداند. همبستگی منفی به این معنی است که مدل بیشتر احتمال دارد پاسخ‌های ضعیف را به پاسخ‌های خوب ترجیح دهد. این یک ابزار ارزیابی قابل استفاده نیست.

آنچه مقاله پیشنهاد می‌کند

به جای تطبیق مدل‌های موجود، محققان سه داور را به‌طور خاص برای امتیازدهی کیفیت بدون نیاز به مرجع آموزش دادند. هر کدام یک سوال و یک پاسخ را به عنوان ورودی می‌گیرد و امتیازی بین ۰ تا ۱۰ را بدون ارائه پاسخ صحیح، خروجی می‌دهد.

این سه مدل عمدتاً در اندازه و سرعت متفاوت هستند:

  • TextCNN (حدود ۱۰ میلیون پارامتر) تقریباً ۱ میلی‌ثانیه در هر فراخوانی اجرا می‌شود، که آن را برای فیلترینگ اولیه با توان عملیاتی بالا مناسب می‌سازد.
  • MiniLM (۲۲ میلیون پارامتر) در حدود ۱۳ میلی‌ثانیه در میانه قرار دارد.
  • DeBERTa (۱۸۴ میلیون پارامتر) تقریباً ۱۵ میلی‌ثانیه زمان می‌برد و برای دقت بهینه شده است.

آموزش در یک فرآیند دو مرحله‌ای دنبال شد. مدل‌ها ابتدا بر روی UltraFeedback، یک مجموعه داده عمومی از پاسخ‌های ارزیابی شده توسط GPT-4، پیش‌آموزش داده شدند، سپس بر روی توزیع وظیفه خاص شبکه تنظیم دقیق شدند. هدف این بود که به داوران یک درک پایه گسترده از کیفیت داده شود، قبل از اینکه تمرکز آنها به زمینه امتیازدهی خاص محدود شود.

نتیجه اصلی

در یک مجموعه آزمایشی جداگانه شامل ۳۰۰ مثال، داور DeBERTa به همبستگی پیرسون ۰.۷۴۷ در برابر معیار تقریبی حقیقت مطلق دست یافت — بدون دسترسی به هیچ پاسخ مرجعی. ارزیاب‌های مبتنی بر مرجع از چارچوب قبلی، که به پاسخ‌های صحیح دسترسی داشتند، حداکثر به ۰.۶۴۷ رسیدند.

این شکاف توضیح ساده‌ای دارد. ارزیاب‌های قدیمی معیارهای شباهت بودند که فاصله کسینوسی را تا یک تعبیه‌سازی مرجع اندازه‌گیری می‌کردند. داوران جدید برای خود وظیفه امتیازدهی بهینه شده بودند. تفاوت عملکرد بیشتر منعکس‌کننده این تمایز است تا هرگونه پیشرفت معماری.

یک اخطار که نویسندگان اضافه کرده‌اند: حقیقت مطلق مورد استفاده در اینجا خود یک معیار تقریبی است — همپوشانی کلمات در سطح توکن به جای قضاوت انسانی. داوران با این معیار همبستگی خوبی دارند، اما اینکه آیا همپوشانی کلمات به طور قابل اعتماد منعکس‌کننده آنچه یک انسان پاسخ با کیفیت تلقی می‌کند، یک سوال جداگانه و حل نشده است.

دو ویژگی مرتبط با استقرار همراه داوران است. یک خط لوله آبشاری، پرسش‌ها را ابتدا از طریق مدل سبک‌وزن هدایت می‌کند و تنها زمانی که امتیازها مبهم هستند، به مدل‌های سنگین‌تر ارتقا می‌دهد که هزینه‌های ارزیابی را تا ۷۲.۷٪ در تهاجمی‌ترین تنظیم آستانه کاهش می‌دهد، هرچند همبستگی در آن پیکربندی به حدود ۰.۵۱ کاهش می‌یابد. یک سازوکار کالیبراسیون آنلاین، که بدون تنظیم دستی اجرا می‌شود، به طور مداوم کیفیت معنایی را به عنوان سیگنال غالب شناسایی می‌کند و وزن‌ها را بر این اساس تنظیم می‌کند و به مرور زمان ۴.۷ برابر وزن اولیه خود را به آن اختصاص می‌دهد.

جایی که سیستم هنوز با مشکل مواجه است

عملکرد داوران در انواع وظایف ناهموار است. در پرسش و پاسخ، همبستگی به ۰.۸۳۰ می‌رسد. در خلاصه‌سازی، به ۰.۱۹۹ کاهش می‌یابد. این مقاله این امر را به شکست خود داوران نسبت نمی‌دهد، بلکه به معیار ارزیابی استفاده شده در طول آموزش: همپوشانی خام کلمات معیار ضعیفی برای کیفیت خلاصه‌سازی است، بنابراین مدل‌هایی که بر اساس آن آموزش می‌بینند، یاد می‌گیرند که یک سیگنال ضعیف را دنبال کنند. نویسندگان این را به عنوان مشکل اصلی باز توصیف می‌کنند، نه یک محدودیت شناخته‌شده که بی‌صدا مدیریت می‌شود.

این چارچوب با نحوه ارائه نتایج کلی مقاله مطابقت دارد — روشمندانه، با موارد شکست به همان وضوح بهبودها بیان شده‌اند. پس از چهار مقاله در این رشته تحقیقاتی، این کار کمتر شبیه یک اعلامیه محصول است و بیشتر شبیه به تلاشی از سوی یک تیم است که به تدریج کاستی‌ها را در چیزی که قصد استقرار آن را دارند، برطرف می‌کند.

افشا: این محتوا توسط شخص ثالث ارائه شده است. نه crypto.news و نه نویسنده این مقاله هیچ محصولی که در این صفحه ذکر شده است را تأیید نمی‌کنند. کاربران باید قبل از انجام هرگونه اقدام مرتبط با شرکت، تحقیقات خود را انجام دهند.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!