» هوش مصنوعی و رباتیک » Claude Opus 4.7 معرفی شد؛ قدرتمندترین مدل عمومی آنتروپیک با تمرکز بر امنیت

Claude Opus 4.7 معرفی شد؛ قدرتمندترین مدل عمومی آنتروپیک با تمرکز بر امنیت

دیجیاتو digiato فروردین ۳۰, ۱۴۰۵ 220148

شرکت آنتروپیک از مدل جدیدی با نام Claude Opus 4.7 رونمایی کرده که درحال‌حاضر قدرتمندترین نسخه عمومی از مجموعه مدل‌های این شرکت محسوب می‌شود.

پیشرفت‌های چشمگیر Claude Opus 4.7

به گفته آنتروپیک، Opus 4.7 نسبت به نسخه قبلی خود (Opus 4.6)، در انجام وظایف پیشرفته مهندسی نرم‌افزار، به‌ویژه در حوزه کدنویسی پیچیده عملکرد بهتری دارد. علاوه‌براین، دقت مدل در تحلیل تصاویر، پیروی از دستورالعمل‌ها و تولید محتوای خلاقانه مانند اسلایدها و اسناد افزایش یافته است.

طبق توضیحات آنتروپیک، مدل Claude Opus 4.7 نسبت به نسل قبل، پیشرفت محسوسی در «درک و اجرای دقیق دستورات» داشته است. این بهبود به‌حدی است که حتی پرامپت‌هایی که برای مدل‌های قبلی نوشته شده‌اند، ممکن است حالا نتایج متفاوتی تولید کنند. دلیل این موضوع، تفسیر کاملاً دقیق و لفظ‌به‌لفظ دستورها توسط Opus 4.7 اعلام شده؛ درحالی که مدل‌های قبلی گاهی بخشی از دستور را نادیده می‌گرفتند یا تفسیر آزاد‌تری ارائه می‌کردند. به‌همین‌دلیل، آنتروپیک توصیه می‌کند کاربران پرامپت‌های خود را برای این مدل مجدداً تنظیم کنند.

در حوزه چندرسانه‌ای نیز Opus 4.7 ارتقای قابل‌توجهی داشته است. این مدل حالا می‌تواند تصاویر با وضوح بالا (تا حدود ۳.۷۵ مگاپیکسل) را پردازش کند. این ویژگی کاربردهای متنوعی دارد، مانند تحلیل اسکرین‌شات‌های پیچیده، استخراج داده از نمودارها و دیاگرام‌های دقیق و حتی استفاده در ابزارهای مبتنی بر «ایجنت‌های کامپیوتری» که نیاز به درک جزئیات بصری دارند.

عملکرد Claude Opus 4.7 در بنچمارک‌ها

آنتروپیک ادعا کرده که Claude Opus 4.7 در بنچمارک GDPval-AA که توانایی مدل‌ها در انجام کارهای اقتصادی (مثل تحلیل‌ مالی) را بررسی می‌کند، با کسب امتیاز 1753، ، عملکرد بهتری نسبت به Opus 4.6 ،GPT-5.4 و Gemini 3.1 Pro دارد.

برای سنجش توانایی مدل در حل مسائل برنامه‌نویسی نیز بنچمارک SWE-bench Multilingual & Multimodal نشان می‌دهد که Opus 4.7 پیشرفت جزئی نسبت به نسل قبلی خود داشته است. همچنین در بنچمارک OfficeQA Pro که میزان توانایی مدل در تحلیل و استدلال روی اسناد (مثل فایل‌های اداری و متنی) را بررسی می‌کند، این مدل با اختلاف قابل‌توجهی نسبت به Opus 4.6 و سایر رقبا عملکرد بهتری دارد.

در کنار این پیشرفت‌ها، آنتروپیک به نتایج ارزیابی‌های رفتاری مدل خود نیز اشاره کرده است. طبق این آمار، «امتیاز رفتارهای ناهماهنگ» (Misaligned Behavior) در Opus 4.7 نسبت به Opus 4.6 و Sonnet 4.6 کمی بهبود یافته است. با‌این‌حال، مدل Mythos Preview همچنان کمترین میزان این نوع رفتارها را ثبت کرده و از این نظر ایمن‌تر ارزیابی می‌شود.

«امتیاز رفتارهای ناهماهنگ» یا Misaligned Behavior نشان می‌دهد یک مدل هوش مصنوعی چقدر از دستورها یا چارچوب‌های تعیین‌شده خود منحرف می‌شود.

قیمت‌گذاری این مدل نیز درست مانند Opus 4.6 تعیین شده و ۵ دلار به ازای هر میلیون توکن ورودی و ۲۵ دلار به ازای هر میلیون توکن خروجی هزینه دارد. آنتروپیک همچنین اعلام کرده که متخصصان امنیتی که مایل به استفاده از این مدل برای اهدافی مانند تحقیقات آسیب‌پذیری هستند، می‌توانند در برنامه Cyber Verification جدید این شرکت ثبت‌نام کنند که ظاهراً برخی از محدودیت‌های اعمال‌شده روی Opus 4.7 را کاهش می‌دهد.

Opus 4.7 درحالی منتشر شده که اوایل ماه جاری، آنتروپیک از مدلی با نام Claude Mythos Preview رونمایی کرده بود که قدرتمندترین مدل کلی آنها محسوب می‌شود. در مقایسه، Opus 4.7 محدودیت‌های بیشتری دارد. خود آنتروپیک هم در کارت سیستمی Opus 4.7 توضیح داده که این مدل «مرز قابلیت‌های» شرکت را جلو نمی‌برد، چراکه Mythos Preview «در تمام ارزیابی‌های مرتبط» نتایج بالاتری کسب کرده است.

حرکت به‌سمت Mythos با Claude Opus 4.7

به دلایل امنیتی، دسترسی به Mythos Preview هم‌اکنون تنها به‌صورت خصوصی برای شرکای منتخب مانند انویدیا، JPMorgan Chase، گوگل، اپل و مایکروسافت فراهم شده است. آنتروپیک در وبلاگ خود توضیح داده:

«ما اعلام کرده‌ایم که انتشار Claude Mythos Preview را محدود نگه می‌داریم و موارد حفاظتی سایبری جدید را ابتدا روی مدل‌های کم‌توان‌تر آزمایش می‌کنیم. Opus 4.7 اولین مدل با این رویکرد است؛ قابلیت‌های سایبری آن به اندازه Mythos Preview پیشرفته نیست و در طول آموزش، تلاش کردیم این قابلیت‌ها را به‌طور متفاوت کاهش دهیم.»

این شرکت می‌گوید مدل جدید را با ویژگی‌های امنیت سایبری بیشتری نسبت به Opus 4.6 عرضه کرده و نتایج مربوط به استقرار این ویژگی‌ها به آنتروپیک کمک می‌کند تا به سمت هدف نهایی خود یعنی انتشار گسترده مدل‌های کلاس Mythos پیش برود.