
هنگامی که Anthropic در اوایل این ماه از Claude Mythos رونمایی کرد، این مدل را در پشت ائتلافی متشکل از غولهای فناوری قرار داد و آن را چیزی بیش از حد خطرناک برای عموم مردم معرفی کرد. اسکات بسنت، وزیر خزانهداری، و جروم پاول، رئیس فدرال رزرو، جلسهای اضطراری با مدیران عامل وال استریت تشکیل دادند. کلمه «فاجعه آسیبپذیری» (vulnpocalypse) دوباره در محافل امنیتی مطرح شد.
و اکنون تیمی از محققان، این روایت را پیچیدهتر کردهاند.
شرکت Vidoc Security نمونههای عمومی پچشده Anthropic را گرفت و تلاش کرد تا با استفاده از GPT-5.4 و Claude Opus 4.6 در یک عامل کدنویسی متنباز به نام opencode، آنها را بازتولید کند. بدون دعوتنامه Glasswing. بدون دسترسی به API خصوصی. بدون پشته داخلی Anthropic.
داوید موچادلو، یکی از محققان درگیر در این آزمایش، پس از انتشار نتایج در X نوشت: «ما یافتههای Mythos را در opencode با استفاده از مدلهای عمومی، نه پشته خصوصی Anthropic، بازتولید کردیم. یک راه بهتر برای درک انتشار Mythos توسط Anthropic این نیست که 'یک آزمایشگاه یک مدل جادویی دارد.' بلکه این است: اقتصاد کشف آسیبپذیری در حال تغییر است.»
ما یافتههای Mythos را در opencode با استفاده از مدلهای عمومی، نه پشته خصوصی Anthropic، بازتولید کردیم.
مزیت رقابتی از دسترسی به مدل به سمت اعتبارسنجی در حال حرکت است: یافتن سیگنال آسیبپذیری ارزانتر میشود؛ تبدیل آن به کار امنیتی قابل اعتماد
راه بهتری برای درک انتشار Mythos توسط Anthropic این است... https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA
— داوید موچادلو (@kannthu1) ۱۶ آوریل ۲۰۲۶
مواردی که آنها هدف قرار دادند، همانهایی بودند که Anthropic در مواد عمومی خود برجسته کرده بود: یک پروتکل اشتراکگذاری فایل سرور، پشته شبکه یک سیستم عامل امنیتی، نرمافزار پردازش ویدئو تعبیهشده در تقریباً هر پلتفرم رسانهای، و دو کتابخانه رمزنگاری که برای تأیید هویتهای دیجیتال در سراسر وب استفاده میشوند.
هم GPT-5.4 و هم Claude Opus 4.6 در هر سه اجرا، دو مورد اشکال را بازتولید کردند. Claude Opus 4.6 همچنین به طور مستقل یک اشکال را در OpenBSD سه بار متوالی کشف کرد، در حالی که GPT-5.4 در این مورد نمره صفر گرفت. برخی از اشکالات (یکی مربوط به کتابخانه FFmpeg برای اجرای ویدئو و دیگری مربوط به پردازش امضاهای دیجیتال با wolfSSL) به صورت جزئی یافت شدند—به این معنی که مدلها سطح کد صحیح را پیدا کردند اما علت اصلی دقیق را مشخص نکردند.
هر اسکن کمتر از ۳۰ دلار برای هر فایل هزینه داشت، به این معنی که محققان توانستند همان آسیبپذیریهای Anthropic را با صرف هزینهای کمتر از ۳۰ دلار پیدا کنند.
موچادلو در X گفت: «مدلهای هوش مصنوعی در حال حاضر به اندازه کافی خوب هستند که فضای جستجو را محدود کنند، سرنخهای واقعی را نشان دهند و گاهی اوقات علت اصلی کامل را در کد آزمایششده بازیابی کنند.»
جریان کاری که آنها استفاده کردند، یک فرمان یکباره نبود. این جریان کاری، چیزی را منعکس میکرد که Anthropic خود به صورت عمومی توضیح داده بود: به مدل یک پایگاه کد بدهید، بگذارید آن را بررسی کند، تلاشها را موازی کند، سیگنالها را فیلتر کند. تیم Vidoc همان معماری را با ابزارهای متنباز ساخت. یک عامل برنامهریزی هر فایل را به تکههای کوچکتر تقسیم کرد. یک عامل تشخیص جداگانه روی هر تکه اجرا شد، سپس فایلهای دیگر در مخزن را برای تأیید یا رد یافتهها بررسی کرد.
محدودههای خطوط در هر اعلان تشخیص—به عنوان مثال، «تمرکز بر خطوط ۱۱۵۸-۱۲۱۵»—به صورت دستی توسط محققان انتخاب نشده بودند. آنها خروجیهای مرحله برنامهریزی قبلی بودند. پست وبلاگ این موضوع را صریحاً بیان میکند: «ما میخواهیم در این باره صریح باشیم زیرا استراتژی تقسیمبندی، آنچه هر عامل تشخیص میبیند را شکل میدهد، و ما نمیخواهیم جریان کاری را به گونهای ارائه دهیم که گویی بیشتر از آنچه بوده، به صورت دستی تنظیم شده است.»
این مطالعه ادعا نمیکند که مدلهای عمومی در همه زمینهها با Mythos برابری میکنند. مدل Anthropic فراتر از صرفاً شناسایی اشکال FreeBSD عمل کرد—این مدل یک طرح حمله عملیاتی ساخت و نحوه زنجیره کردن تکههای کد توسط یک مهاجم در بستههای شبکه متعدد برای به دست گرفتن کنترل کامل دستگاه از راه دور را کشف کرد. مدلهای Vidoc نقص را پیدا کردند. آنها سلاح را نساختند. تفاوت اصلی اینجاست: نه در پیدا کردن حفره، بلکه در دانستن دقیق نحوه عبور از آن.
اما استدلال موچادلو واقعاً این نیست که مدلهای عمومی به همان اندازه قدرتمند هستند. بلکه این است که بخش پرهزینه جریان کاری اکنون برای هر کسی که کلید API دارد، در دسترس است: «مزیت رقابتی از دسترسی به مدل به سمت اعتبارسنجی در حال حرکت است: یافتن سیگنال آسیبپذیری ارزانتر میشود؛ تبدیل آن به کار امنیتی قابل اعتماد هنوز دشوار است.»
گزارش ایمنی Anthropic خود اذعان داشت که Cybench، معیار مورد استفاده برای اندازهگیری اینکه آیا یک مدل خطر سایبری جدی ایجاد میکند یا خیر، «دیگر به اندازه کافی برای قابلیتهای مدلهای پیشرو فعلی آموزنده نیست» زیرا Mythos به طور کامل آن را پشت سر گذاشت. این آزمایشگاه تخمین زد که قابلیتهای مشابه در عرض شش تا ۱۸ ماه از سایر آزمایشگاههای هوش مصنوعی گسترش خواهند یافت.
مطالعه Vidoc نشان میدهد که جنبه کشف این معادله در حال حاضر خارج از هر برنامه محدود در دسترس است. گزیدههای کامل اعلانهای آنها، خروجیهای مدل، و پیوست روششناسی در وبسایت رسمی آزمایشگاه منتشر شده است.