صفحه اصلیمرکز اخبار LBank
شیائومی میمو چین اکنون ۱۵ برابر سریع‌تر از ChatGPT و Claude است
xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
شیائومی میمو چین اکنون ۱۵ برابر سریع‌تر از ChatGPT و Claude است
MiMo-V2.5-Pro-UltraSpeed شیائومی با سرعتی خیره‌کننده از آستانه سرعتی عبور می‌کند که شرکت‌های تولیدکننده سیلیکون سفارشی سال‌ها برای دستیابی به آن تلاش کرده بودند – آن هم بر روی GPUهای معمولی.
2026-06-08 منبع:decrypt.co

به‌طور خلاصه

  • شیائومی و شریک پردازش استنتاجی (inference) خود، TileRT، با استفاده از یک نود استاندارد تجاری 8-GPU – نه تراشه‌های سفارشی – به سرعت بیش از 1000 توکن در ثانیه در یک مدل یک تریلیون پارامتری دست یافته‌اند که این در این مقیاس بی‌سابقه است.
  • این سرعت ناشی از کوانتیزاسیون FP4 در لایه‌های تخصصی مدل و رمزگشایی گمانه‌زنانه DFlash است که یک بلوک کامل از توکن‌ها را در یک گذر (pass) پیشنهاد می‌دهد، به جای اینکه توکن‌ها را یکی یکی پردازش کند.
  • یک دوره آزمایشی محدود API از 9 ژوئن تا 23 ژوئن آغاز می‌شود که با نرخی 3 برابر نرخ استاندارد MiMo برای سرعتی تقریباً 10 برابر بیشتر در تولید محتوا قیمت‌گذاری شده است.

بسیاری از مردم شیائومی را به عنوان برند چینی گوشی می‌شناسند. همان شرکتی که اسکوترهای برقی ارزان و تصفیه کننده‌های هوا می‌سازد. دقیقاً شرکتی نیست که انتظار داشته باشید یک دوشنبه صبح رکورد اصلی سرعت پردازش استنتاجی هوش مصنوعی را بشکند.

و با این حال. شیائومی به تازگی MiMo-V2.5-Pro-UltraSpeed را منتشر کرده است، حالتی برای ارائه مدل پرچم‌دار تریلیون پارامتری خود که به بیش از 1000 توکن در ثانیه می‌رسد – و در دموها به نزدیکی 1200 توکن نیز می‌رسد.

پارامترها وزن‌های عددی داخلی هستند که نحوه تفکر یک مدل را تعریف می‌کنند – هرچه بیشتر داشته باشید، الگوهای پیچیده‌تری را می‌تواند تشخیص دهد. توکن‌ها قطعاتی از متن هستند که مدل می‌خواند و می‌نویسد، به طور متوسط تقریباً سه چهارم یک کلمه.

شیائومی این کار را بر روی یک نود تجاری 8-GPU انجام داد. سخت‌افزار استاندارد، بدون تراشه‌های سفارشی. این امر محاسبات را برای اینکه چه کسی واقعاً می‌تواند این نوع سرعت را در تولید (production) مستقر کند، تغییر می‌دهد.

برای بیان این عدد به زبان ساده: طبق تحلیل Artificial Analysis، GPT-5.5 – که بیشتر کاربران ChatGPT در واقع با آن صحبت می‌کنند – در 68 توکن قرار دارد. Claude Opus 4.6 با مدل پایین‌تر، Haiku، در حدود 71 توکن و به 98 توکن در ثانیه می‌رسد. Gemini Flash به 192 توکن در ثانیه می‌رسد. MiMo-V2.5-Pro-UltraSpeed به 1000 توکن در ثانیه می‌رسد، آن هم با مدلی که در معیارهای کدنویسی با Opus برابری می‌کند.

شرکت‌های Cerebras و Groq کسب‌وکارهای کاملی را حول این مشکل بنا کرده‌اند. Cerebras یک تراشه به اندازه یک بشقاب شام طراحی کرده است که 44 گیگابایت حافظه روی تراشه دارد تا گلوگاه پهنای باند را که سرعت استنتاج GPU را کاهش می‌دهد، از بین ببرد. این تراشه به 969 توکن در ثانیه در مدل Llama 3.1 405B متا دست یافت – چشمگیر است، اما این یک مدل 405 میلیارد پارامتری است که کمتر از نیمی از اندازه MiMo-V2.5-Pro است. معماری سفارشی واحد پردازش زبان (LPU) شرکت Groq بسته به مدل، به حداکثر 300 تا 750 توکن در ثانیه می‌رسد.

هیچ‌کدام از اینها بر روی سخت‌افزاری اجرا نمی‌شوند که بتوانید امشب از AWS اجاره کنید.

شیائومی این کار را بر روی GPUهای تجاری تنها از طریق نرم‌افزار انجام داد – ترکیبی از ترفندهای در سطح مدل و یک موتور پردازش استنتاجی اختصاصی به نام TileRT.

آنچه واقعاً در پس‌زمینه اتفاق می‌افتد

دو تکنیک این سرعت را فراهم می‌کنند. تکنیک اول کوانتیزاسیون FP4 نام دارد: به جای اجرای مدل با دقت عددی کامل 8 بیتی یا 16 بیتی، شیائومی لایه‌های تخصصی را – که بیشتر یک تریلیون پارامتر را تشکیل می‌دهند – به 4 بیت کاهش می‌دهد. حجم حافظه کاهش می‌یابد، فشار پهنای باند کاهش می‌یابد، و سرعت افزایش می‌یابد. معمولاً اشکال این کار کاهش جزئی کیفیت است. راه‌حل شیائومی دقیق است: فقط لایه‌های تخصصی فشرده می‌شوند، بقیه با دقت کامل باقی می‌مانند. با این رویکرد، کاهش کیفیت تقریباً صفر توصیف شده است.

دومین تکنیک رمزگشایی گمانه‌زنانه DFlash است. در رمزگشایی گمانه‌زنانه معمولی، یک مدل پیش‌نویس کوچک چند توکن بعدی را حدس می‌زند، سپس مدل بزرگ آنها را به صورت موازی تأیید می‌کند. DFlash به طور کامل از پیش‌نویس متوالی صرف‌نظر می‌کند – یک بلوک کامل از موقعیت‌های ماسک شده را در یک گذر (forward pass) پر می‌کند. در کارهای کدنویسی، مدل بزرگ به طور متوسط 6.3 از 8 توکن پیشنهادی را در هر دور تأیید می‌پذیرد. این یعنی شش توکن در یک مرحله تأیید می‌شوند به جای یک توکن.

TileRT اینها را به هم پیوند می‌زند. این سیستم کل خط لوله محاسباتی را به طور پیوسته در GPU نگه می‌دارد – بدون سربار راه‌اندازی هر اپراتور، بدون شکاف‌های اجرایی.

شیائومی این رویکرد را "طراحی مشترک مدل-سیستم افراطی" می‌نامد و این عبارت دقیق است: هیچ یک از این تکنیک‌ها به تنهایی به 1000 توکن در ثانیه نمی‌رسد، اما هم‌افزایی بین همه رویکردها این کار را انجام می‌دهد.

MiMo-V2.5-Pro یک مدل در سطح پیشرو است. ما عرضه V2.5 Pro را در آوریل پوشش دادیم – این مدل در بیشتر معیارهای کدنویسی با Claude Opus برابری می‌کند و با هزینه تقریبی 0.43 دلار ورودی / 0.87 دلار خروجی به ازای هر میلیون توکن اجرا می‌شود. Opus به ازای هر میلیون توکن 5 دلار ورودی / 25 دلار خروجی هزینه دارد.

UltraSpeed دقیقاً همان مدل MiMo V2.5 Pro را تسریع می‌کند، نه یک نسخه ساده‌شده را.

سرعت استنتاج کافی، نحوه استفاده از مدل را تغییر می‌دهد. شما می‌توانید ده‌ها مسیر استدلالی را به صورت موازی اجرا کنید به جای اینکه منتظر یک پاسخ باشید. تشخیص کلاهبرداری، تولید سیگنال معاملاتی، حلقه‌های عامل بی‌درنگ – همه اینها محدودیت‌های تأخیر سختی دارند که 60 توکن در ثانیه نمی‌توانند آنها را برآورده کنند. با سرعت 1000 توکن در ثانیه، این امکان فراهم می‌شود.

شیائومی این سرعت را با نرخی 3 برابر نرخ استاندارد MiMo-V2.5-Pro برای تقریباً 10 برابر خروجی قیمت‌گذاری کرده است. دوره آزمایشی API از 9 تا 23 ژوئن اجرا می‌شود، بر اساس درخواست، با اولویت برای توسعه‌دهندگان سازمانی و حرفه‌ای. checkpoint FP4-DFlash از قبل در Hugging Face برای آزمایش جامعه متن باز (open-sourced) شده است.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!