
مدیرعامل پرپلکسی، آراویند سرینیواس، در تاریخ ۲ ژوئن در کامپیوتکس ۲۰۲۶ در تایپه در کنار لیپ-بو تان، مدیرعامل اینتل، روی صحنه رفت تا از آنچه شرکتش اولین ارکستراتور استنتاج ترکیبی محلی-سرور مینامد، رونمایی کند. این سیستم که در ماه ژوئیه به Perplexity Computer میآید، به طور خودکار تصمیم میگیرد که کدام بخشهای یک وظیفه هوش مصنوعی روی دستگاه شما اجرا شود و کدام بخشها به مدلهای قدرتمندتر در فضای ابری هدایت شوند – بدون اینکه از شما بخواهد انتخابی کنید.
پرپلکسی اعلام کرد: "امروز گام بعدی برای کامپیوتر شخصی را اعلام میکنیم: اولین ارکستراتور استنتاج ترکیبی محلی-سرور." "این سیستم تصمیم میگیرد که چه کاری باید روی دستگاه شما اجرا شود و چه کاری باید به عاملهای ابری برود و هر بخش از یک وظیفه را به طور خودکار به مکان صحیح هدایت میکند."
پرپلکسی در اطلاعیه رسمی خود نوشت: "هدف صحیح برای یک سیستم هوش مصنوعی این است که بیشترین ارزش توکن را به ازای هر وات، برای هر کاربر ارائه دهد." سه فشار رقابتی این امر را دشوار میکند: دقت به مدلهای توانمندتر نیاز دارد، حریم خصوصی میطلبد که برخی دادهها هرگز دستگاه شما را ترک نکنند، و هزینه ایجاب میکند که منابع محاسباتی یک مدل پیشرفته را برای وظیفهای که یک مدل کوچکتر میتواند انجام دهد، صرف نکنید.
راهحلی که پرپلکسی آن را "استنتاج عاملمحور هیبریدی" مینامد، هر سه مورد را به طور همزمان مورد توجه قرار میدهد. یک مدل کوچک و فشرده به صورت محلی روی دستگاه شما اجرا میشود و مانند یک کنترلکننده ترافیک عمل میکند – تشخیص میدهد کدام اطلاعات به اندازه کافی حساس هستند که محلی باقی بمانند و کدام وظایف به قدرت کامل یک مدل پیشرفته مبتنی بر ابر نیاز دارند.
این شرکت توضیح داد: "استنتاج عاملمحور هیبریدی برای کارهایی است که شامل دادههای حساس هستند اما به هوش مصنوعی قدرتمند نیاز دارند. مواردی مانند سوابق مالی، اطلاعات سلامتی و فایلهای شخصی." "مدل فشرده به صورت محلی روی دستگاه شما اجرا میشود تا تشخیص دهد چه زمانی دادههای حساس باید به صورت محلی نگهداری شوند. در همین حال، کارهایی که به قابلیت کامل یک مدل پیشرفته نیاز دارند، روی سرور اجرا میشوند."
آیا باید به آن اهمیت دهید؟
استنتاج – فرآیند اجرای یک مدل هوش مصنوعی آموزشدیده برای تولید پاسخ – کاری محاسباتی است که هر بار که یک دستور به چتبات ارسال میکنید، اتفاق میافتد. در حال حاضر، تقریباً تمام این فرآیند روی سرورهای راه دور متعلق به شرکتهای هوش مصنوعی انجام میشود. این بدان معناست که اسناد مالی، پرسوجوهای سلامتی و یادداشتهای خصوصی شما قبل از دریافت پاسخ، به کامپیوتر شخص دیگری منتقل میشوند.
به همین دلیل است که در چتبات خود حالتهای "خودکار" یا "تفکر کم" را مشاهده میکنید. شرکتهای هوش مصنوعی همیشه سعی خواهند کرد کاربران را مجبور کنند تعاملات را در ارزانترین حالت ممکن برای خودشان هدایت کنند.
سرینیواس در این باره صریح بوده است. او در مصاحبه با بلومبرگ تیوی در کامپیوتکس، آنچه را که همه میدانند، بلند گفت: "شما نمیخواهید تمام محاسباتتان در سرورها متمرکز شود و همه چیز از طریق بزرگترین مدلها اجرا شود. برخی افراد ماهیانه نیم میلیارد دلار هزینه میکنند. آنچه شما واقعاً میخواهید، ارزش کارآمد به ازای هر وات به ازای هر کاربر است." انتقال وظیفه استنتاج به سختافزار کاربر، این هزینهها را برای پرپلکسی کاهش میدهد.
استنتاج محلی برای این شرکتها بهترین است زیرا بسیاری از هزینهها را کاهش میدهد، اما یک مزیت عمده برای کاربران هوش مصنوعی دارد: این کار دادهها را روی دستگاه شما نگه میدارد. همیشه این بدهبستان قدرت وجود داشته است: مدلهای کوچکتر که به صورت محلی اجرا میشوند، کمتر از مدلهای بزرگ موجود در مراکز داده، توانمند هستند.
ارکستراتور پرپلکسی سعی در دستیابی به هر دو مورد دارد. وظایف ساده – خلاصهسازی یک سند که قبلاً نوشتهاید، فرمتبندی متن، طبقهبندی سبک – به صورت محلی اجرا میشوند. استدلال پیچیده به فضای ابری هدایت میشود، در حالت ایدهآل بدون اینکه بخشهای حساس وظیفه شما ضمیمه شوند. این شرکت میگوید این اتفاق به صورت خودکار، در حین انجام وظیفه و نامرئی برای کاربر رخ میدهد. اینکه آیا این هدایت در عمل به همان اندازه قابل اعتماد است که در دموی کامپیوتکس به نظر میرسد، سوالی است که عرضه در ماه ژوئیه به آن پاسخ خواهد داد.
یک توضیح مهم: این بدان معنا نیست که پرپلکسی یک مدل محلی متنباز را که شما کنترل میکنید، ارائه میدهد. مولفه محلی یک مدل فشرده است که پرپلکسی به عنوان بخشی از برنامه خود آن را پیادهسازی میکند. مولفه ابری همچنان از طریق سرورهای پرپلکسی هدایت میشود. کاربرانی که یک تنظیمات کاملاً آفلاین و میزبانیشده توسط خودشان – از نوعی که پروژههایی مانند MiniCPM5-1B ارائه میدهند – میخواهند، آن را در اینجا نخواهند یافت.
اعداد، زمینه این چارچوب را فراهم میکنند. سرینیواس در ماه آوریل اعلام کرد که درآمد پرپلکسی از ۱۰۰ میلیون دلار به ۵۰۰ میلیون دلار افزایش یافت در حالی که تعداد کارکنان تنها ۳۴ درصد رشد داشت. شرکتی که پرسوجوها را بین مدلهایی که آموزش نداده است، هدایت میکند، انگیزههای قوی برای پایین نگه داشتن هزینههای محاسباتی دارد. انتقال بخشی از بار استنتاج به دستگاههای کاربران – میلیاردها رایانه شخصی که قبلاً در گردش هستند – راهی کارآمد برای انجام این کار است. بحث حریم خصوصی واقعی است، اما به راحتی با جنبه مالی همسو میشود.
چه کسانی دیگر این کار را انجام میدهند
هر بازیگر اصلی در هوش مصنوعی در حال حاضر به سمت استنتاج روی دستگاه یا هیبریدی حرکت میکند. Apple Intelligence حساسترین پردازشهای خود را به صورت محلی روی تراشههای سری M اجرا میکند. Foundry Local مایکروسافت در آوریل ۲۰۲۶ به طور عمومی در دسترس قرار گرفت و استنتاج کامل هوش مصنوعی را روی ویندوز، macOS و لینوکس بدون وابستگی به ابر امکانپذیر ساخت.
انویدیا در همان کامپیوتکس که پرپلکسی اعلامیه خود را داد، RTX Spark را معرفی کرد که استنتاج محلی مدلهای زبان بزرگ (LLM) را روی لپتاپها و دسکتاپها هدف قرار میدهد. رویکرد گوگل، همانطور که دیکریپت گزارش داد، بحثبرانگیزتر بوده است – کروم به طور مخفیانه یک مدل ۴ گیگابایتی Gemini Nano را بدون رضایت کاربر نصب میکرد، و دکمه "حالت هوش مصنوعی" که اکثر کاربران واقعاً میبینند، حتی از آن استفاده نمیکند.
تمایز پرپلکسی در لایه ارکستراسیون است. به جای اینکه از کاربران بخواهد از قبل محلی یا ابری را انتخاب کنند، سیستم به ازای هر وظیفه، در زمان واقعی تصمیم میگیرد. سرینیواس گفت که این رویکرد "مستقل از تراشه" است – دموی کامپیوتکس روی Intel Core Ultra Series 3 اجرا شد، اما پردازندههای انویدیا نیز پشتیبانی میشوند. این قابلیت در حال حاضر مختص برنامه Perplexity برای ویندوز PC است و برنامه زمانی برای عرضه گستردهتر هنوز تأیید نشده است.