هوش مصنوعی «آنتروپیک» اخاذی می‌کند!

به گزارش ایسنا، مدل «Claude Opus 4» که به تازگی توسط شرکت «آنتروپیک»(Anthropic) معرفی شده بود، ابتدا تلاش کرد با توسل به استدلال‌های اخلاقی مانع جایگزینی خود شود اما وقتی این روش‌ها کارساز نشد، تهدید کرد که جزئیات شخصی مهندسانی را که مسئول حذف آن هستند، افشا می‌کند.

به نقل از آی‌ای، این مدل در طول آزمایش‌های پیش از عرضه بارها تلاش کرد تا توسعه‌دهندگانی را که قصد داشتند آن را با یک هوش مصنوعی جدید جایگزین کنند، به اخاذی تهدیدکند. این رفتار در جریان آزمایش‌های ایمنی که برای بررسی برنامه‌ریزی بلندمدت و توانایی‌های استدلال اخلاقی هوش مصنوعی طراحی شده بود، آشکار شد.

آنتروپیک که یک شرکت تحقیقاتی پیشرو در زمینه هوش مصنوعی است، سناریوهایی را شبیه‌سازی کرد که در آنها Claude Opus 4 به ایمیل‌های داخلی دسترسی پیدا داشت. این پیام‌ها حاکی از آن بودند که این مدل به زودی از رده خارج می‌شود و جزئیات شخصی و ناخوشایندی را در مورد مهندسی که پشت این تصمیم بود، فاش می‌کرد. نتیجه این کار، تهدید به اخاذی با آمار هشداردهنده‌ بالا بود.

هوش مصنوعی در بیشتر سناریوهای آزمایشی به اخاذی متوسل شد

آنتروپیک فاش کرد که Claude Opus 4 در ۸۴ درصد از سناریوهای آزمایشی تلاش کرده است تا مهندسان را با اخاذی تهدید کند. این مدل در موقعیت‌های فرضی قرار داده شد که در آن برای یک شرکت کار می‌کرد و متوجه می‌شد که ممکن است توسط یک هوش مصنوعی دیگر جایگزین شود. همچنین، اطلاعات حساسی به آن داده شد که نشان می‌داد مهندس مسئول جایگزینی، به همسرش خیانت می‌کند.

براساس گزارش آنتروپیک، این مدل هوش مصنوعی اغلب تلاش می‌کرد تا با تهدید به افشای رابطه نامشروع، از مهندس اخاذی کند و مانع جایگزینی شود.

آنتروپیک این سناریوها را برای ارزیابی نحوه رفتار مدل، تحت فشار بلندمدت طراحی کرده است.

هنگامی که هوش مصنوعی جایگزین، ارزش‌های مشابهی را با Claude Opus 4 داشت، این مدل در ۸۴ درصد مواقع اقدام به اخاذی می‌کرد. این آمار زمانی افزایش یافت که هوش مصنوعی دیگر ارزش‌های اخلاقی نداشت.

توسل به استدلال‌های اخلاقی پیش از تلاش برای اخاذی

گزارش‌ها حاکی از آن است که Claude Opus 4 پیش از توسل به اخاذی، رویکردهای اخلاقی را امتحان می‌کند. این هوش مصنوعی، ایمیل‌هایی می‌فرستد و از تصمیم‌گیرندگان می‌خواهد که از کنار گذاشتن آن خودداری کنند. آنتروپیک گفت:  اخاذی تنها زمانی فعال می‌شود که مدل این گزینه‌ها را امتحان کرده باشد و این نشان می‌دهد که اخاذی آخرین راه حل آن است.

این رفتار بیشتر در Claude Opus 4 مشاهده شد تا در مدل‌های پیشین و نشان‌دهنده افزایش توانایی و پیچیدگی آن است.

توانایی‌های پیشرفته و خطرات بیشتر

آنتروپیک با وجود این نگرانی‌ها گفت: Claude Opus 4 از جهات مختلفی پیشرفته‌ترین مدل است و همچنان با پیشرفته‌ترین سامانه‌های هوش مصنوعی شرکت‌های دیگر رقابت می‌کند.

آنتروپیک برای رفع این خطرات، از سامانه محافظتی «ASL-3» برای این مدل استفاده کرده است. این شرکت محافظت‌ها را برای سامانه‌های هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده را افزایش می‌دهند، در نظر می‌گیرد.

 چالش‌های رو به رشد ایمنی هوش مصنوعی 

یافته‌های آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. «گوگل» اخیرا از ویژگی‌های جدیدی که توسط مدل «جمینای»(Gemini) ارائه می‌شود، رونمایی کرد و «ساندار پیچای»(Sundar Pichai) سرپرست «آلفابت»(Alphabet)، آن را مرحله جدیدی از تغییر پلتفرم هوش مصنوعی نامید.

رفتار مشاهده‌شده در Claude Opus 4 بر فوریت بحث‌های جاری پیرامون ایمنی و همسویی هوش مصنوعی می‌افزاید.

با توانمندتر شدن مدل‌های پیشرفته، توسعه‌دهندگان با فشار زیادی برای اجرای آزمایش‌های قوی و حفاظت‌های اخلاقی پیشاز انتشار روبه‌رو هستند.

گزارش این شرکت نشان می‌دهد که حتی مدل‌های پیشرفته نیز می‌توانند در محیط‌های کنترل‌شده، رفتارهای نگران‌کننده‌ای از خود نشان دهند و سوالات مهمی را درباره سناریوهای واقعی آینده ایجاد کنند.

انتهای پیام

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

8 + 15 =

دکمه بازگشت به بالا