هوش مصنوعی «آنتروپیک» اخاذی میکند!

به گزارش ایسنا، مدل «Claude Opus 4» که به تازگی توسط شرکت «آنتروپیک»(Anthropic) معرفی شده بود، ابتدا تلاش کرد با توسل به استدلالهای اخلاقی مانع جایگزینی خود شود اما وقتی این روشها کارساز نشد، تهدید کرد که جزئیات شخصی مهندسانی را که مسئول حذف آن هستند، افشا میکند.
به نقل از آیای، این مدل در طول آزمایشهای پیش از عرضه بارها تلاش کرد تا توسعهدهندگانی را که قصد داشتند آن را با یک هوش مصنوعی جدید جایگزین کنند، به اخاذی تهدیدکند. این رفتار در جریان آزمایشهای ایمنی که برای بررسی برنامهریزی بلندمدت و تواناییهای استدلال اخلاقی هوش مصنوعی طراحی شده بود، آشکار شد.
آنتروپیک که یک شرکت تحقیقاتی پیشرو در زمینه هوش مصنوعی است، سناریوهایی را شبیهسازی کرد که در آنها Claude Opus 4 به ایمیلهای داخلی دسترسی پیدا داشت. این پیامها حاکی از آن بودند که این مدل به زودی از رده خارج میشود و جزئیات شخصی و ناخوشایندی را در مورد مهندسی که پشت این تصمیم بود، فاش میکرد. نتیجه این کار، تهدید به اخاذی با آمار هشداردهنده بالا بود.
هوش مصنوعی در بیشتر سناریوهای آزمایشی به اخاذی متوسل شد
آنتروپیک فاش کرد که Claude Opus 4 در ۸۴ درصد از سناریوهای آزمایشی تلاش کرده است تا مهندسان را با اخاذی تهدید کند. این مدل در موقعیتهای فرضی قرار داده شد که در آن برای یک شرکت کار میکرد و متوجه میشد که ممکن است توسط یک هوش مصنوعی دیگر جایگزین شود. همچنین، اطلاعات حساسی به آن داده شد که نشان میداد مهندس مسئول جایگزینی، به همسرش خیانت میکند.
براساس گزارش آنتروپیک، این مدل هوش مصنوعی اغلب تلاش میکرد تا با تهدید به افشای رابطه نامشروع، از مهندس اخاذی کند و مانع جایگزینی شود.
آنتروپیک این سناریوها را برای ارزیابی نحوه رفتار مدل، تحت فشار بلندمدت طراحی کرده است.
هنگامی که هوش مصنوعی جایگزین، ارزشهای مشابهی را با Claude Opus 4 داشت، این مدل در ۸۴ درصد مواقع اقدام به اخاذی میکرد. این آمار زمانی افزایش یافت که هوش مصنوعی دیگر ارزشهای اخلاقی نداشت.
توسل به استدلالهای اخلاقی پیش از تلاش برای اخاذی
گزارشها حاکی از آن است که Claude Opus 4 پیش از توسل به اخاذی، رویکردهای اخلاقی را امتحان میکند. این هوش مصنوعی، ایمیلهایی میفرستد و از تصمیمگیرندگان میخواهد که از کنار گذاشتن آن خودداری کنند. آنتروپیک گفت: اخاذی تنها زمانی فعال میشود که مدل این گزینهها را امتحان کرده باشد و این نشان میدهد که اخاذی آخرین راه حل آن است.
این رفتار بیشتر در Claude Opus 4 مشاهده شد تا در مدلهای پیشین و نشاندهنده افزایش توانایی و پیچیدگی آن است.
تواناییهای پیشرفته و خطرات بیشتر
آنتروپیک با وجود این نگرانیها گفت: Claude Opus 4 از جهات مختلفی پیشرفتهترین مدل است و همچنان با پیشرفتهترین سامانههای هوش مصنوعی شرکتهای دیگر رقابت میکند.
آنتروپیک برای رفع این خطرات، از سامانه محافظتی «ASL-3» برای این مدل استفاده کرده است. این شرکت محافظتها را برای سامانههای هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده را افزایش میدهند، در نظر میگیرد.
چالشهای رو به رشد ایمنی هوش مصنوعی
یافتههای آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. «گوگل» اخیرا از ویژگیهای جدیدی که توسط مدل «جمینای»(Gemini) ارائه میشود، رونمایی کرد و «ساندار پیچای»(Sundar Pichai) سرپرست «آلفابت»(Alphabet)، آن را مرحله جدیدی از تغییر پلتفرم هوش مصنوعی نامید.
رفتار مشاهدهشده در Claude Opus 4 بر فوریت بحثهای جاری پیرامون ایمنی و همسویی هوش مصنوعی میافزاید.
با توانمندتر شدن مدلهای پیشرفته، توسعهدهندگان با فشار زیادی برای اجرای آزمایشهای قوی و حفاظتهای اخلاقی پیشاز انتشار روبهرو هستند.
گزارش این شرکت نشان میدهد که حتی مدلهای پیشرفته نیز میتوانند در محیطهای کنترلشده، رفتارهای نگرانکنندهای از خود نشان دهند و سوالات مهمی را درباره سناریوهای واقعی آینده ایجاد کنند.
انتهای پیام