معرفی مدل Claude Opus 4.8؛ عملکرد بهتر از GPT-5.5 و صداقت بیشتر

اشتراک‌گذاری سریع

شرکت آنتروپیک از نسخه جدید هوش مصنوعی خود با نام Claude Opus 4.8 رونمایی کرده است. این مدل که بر پایه نسخه قبلی خود، Opus 4.7، توسعه یافته، در بنچمارک‌های مختلف عملکرد بهتری داشته و همکاری موثرتری را با کاربران ارائه می‌دهد.

تصویر خبر

ویژگی‌ها و قابلیت‌های جدید

Claude Opus 4.8 با چندین ویژگی کاربردی معرفی شده است. کاربران در پلتفرم claude.ai می‌توانند میزان تلاش و تفکر مدل را برای انجام یک وظیفه کنترل کنند. پیش‌تر، گوگل نیز چنین ویژگی را برای جمینای ارائه کرده بود. علاوه بر این، ابزار هوش مصنوعی توسعه‌دهندگان این شرکت، یعنی Claude Code، به قابلیت جدید «Dynamic Workflows» مجهز شده که به هوش مصنوعی اجازه می‌دهد صدها زیرعامل (Subagent) را به‌صورت موازی برای حل مشکلات بزرگ در سطح کدهای کلان مدیریت و بررسی کند. در این حالت، خود هوش مصنوعی قبل از ارائه گزارش نهایی، خروجی کار را بررسی و ارزیابی می‌کند.

حالت سریع (Fast mode) برای این مدل ارائه شده است که قادر است با ۲.۵ برابر سرعت بیشتر کار کند و هزینه آن نیز ۳ برابر ارزان‌تر از مدل‌های قبلی است. ویدیو زیر که توسط آنتروپیک منتشر شده، نشان می‌دهد چگونه ترکیب مدل Claude Opus 4.8 و ابزار Claude Code به برنامه‌نویسان اجازه می‌دهد تا وظایف طولانی و پیچیده را به هوش مصنوعی بسپارند.

تصویر خبر

عملکرد و دقت مدل

اولین آزمایش‌کنندگان Claude Opus 4.8 گزارش داده‌اند که این مدل در انجام وظایف عامل‌محور (Agentic) بسیار قابل‌اعتمادتر و دقیق‌تر عمل می‌کند. طبق داده‌های رسمی منتشرشده، Claude Opus 4.8 در بیشتر بنچمارک‌های کلیدی هوش مصنوعی نسبت به نسخه قبلی خود و رقبای خود مانند GPT-5.5 و Gemini 3.1 Pro، عملکرد بهتری نشان داده است.

این مدل در آزمون کدنویسی عامل‌محور SWE-Bench Pro با کسب امتیاز 69.2 درصد و در بخش استفاده ایجنتی از کامپیوتر (OSWorld-Verified) با امتیاز 83.4 درصد، بالاترین کارایی را در میان تمام مدل‌ها به ثبت رسانده است. در آزمون استدلال چندرشته‌ای (Humanity's Last Exam)، مدل جدید آنتروپیک چه در حالت بدون ابزار (49.8 درصد) و چه با استفاده از ابزارها (57.9 درصد) پیشتاز رقابت است.

این مدل همچنین در حوزه‌های تخصصی مورد ارزیابی قرار گرفته و توانسته امتیازات خوبی در کار با داده‌ها و تحلیل‌های مالی به‌دست آورد. با این حال، در بنچمارک کدنویسی عاملی در محیط ترمینال (Terminal-Bench 2.1)، GPT-5.5 با امتیاز 78.2 درصد رتبه اول و Opus 4.8 با امتیاز 74.6 درصد در رتبه دوم قرار دارد.

تصویر خبر

بهبودهای صداقت و خودآگاهی

یکی از برجسته‌ترین بهبودهای مدل، افزایش صداقت و خودآگاهی آن است. مدل‌های هوش مصنوعی معمولاً تمایل دارند به سرعت نتیجه‌گیری کنند و ادعاهای بی‌اساس بکنند. آزمایش‌های اولیه نشان می‌دهند که Opus 4.8 با احتمال بیشتری عدم قطعیت‌های خود را اعلام کرده و از ادعاهای بی‌اساس پرهیز می‌کند.

ارزیابی‌ها حاکی از آن است که احتمال نادیده گرفتن خطاها در کدهای نوشته‌شده توسط این مدل، حدود ۴ برابر کمتر از نسخه قبلی است. رفتارهای نامناسب مدل (مانند فریب‌کاری) نیز نسبت به نسخه 4.7 کاهش یافته و به سطح ایمن‌ترین مدل این شرکت یعنی Claude Mythos Preview رسیده است.

نمودار ارزیابی رفتارهای نامناسب به‌طور پیش‌فرض روی حالت «پرتلاش» تنظیم شده است که بهترین تعادل را میان کیفیت و تجربه کاربری ایجاد می‌کند.

تصویر خبر

قیمت‌گذاری و برنامه‌های آینده

آنتروپیک اعلام کرده است که در قالب پروژه Glasswing، مدل پیشرفته‌تری به نام Claude Mythos Preview را برای کارهای امنیت سایبری به تعدادی از سازمان‌ها ارائه کرده است. این شرکت قصد دارد پس از اعمال تدابیر امنیتی شدیدتر، مدل‌های کلاس Mythos را در هفته‌های آینده به صورت عمومی عرضه کند.

هزینه استفاده از Claude Opus 4.8 بدون تغییر باقی مانده است و به ازای هر میلیون توکن ورودی ۵ دلار و هر میلیون توکن خروجی ۲۵ دلار است. همچنین، قیمت حالت سریع ۱۰ دلار برای هر میلیون توکن ورودی و ۵۰ دلار برای هر میلیون توکن خروجی تعیین شده است.