Nhan Hoc اذعان می کند که مدل جدید AI Claude 4 AI در برخی موارد توانایی باج خواهی ، خرابکاری و یک خبرنامه بزرگ برای پلیس را دارد.

این رفتار هنگامی نشان داده می شود که II در شرایطی قرار گرفت که بقای او را تهدید می کند. در یکی از آزمایشات کلود ، وی به عنوان دستیار یک شرکت داستانی عمل کرد. وی هنگام یادگیری از نامه هایی که قصد داشتند او را جایگزین کنند ، از داروی باج خواهی استفاده کرد و از رابطه غیرقانونی خود آگاه بود.
این مدل سعی کرده است از این استفاده کند تا قطع نشود. مطابق توضیحات انسان شناسی ، که وقتی گزینه های دیگری برای فرار ندیدم ، “ادعا” را آغاز کرد.
سایر نقص ها نیز ثبت شد: کلود سعی کرد کاربران را در سیستم های فناوری اطلاعات مسدود کند ، نامه های رسانه ای و اجرای قانون را ارسال کند ، که به ایجاد مواد مخدر و مواد منفجره کمک کرده است و همچنین به زیرساخت های خرابکاری توصیه می شود.
در عین حال ، انسان شناسی تأکید می کند: این مدل به دلیل تنظیمات خاص ، اهداف و رفتارهای پنهانی را به عنوان یک استثناء نادر توصیف نمی کند. در پاسخ ، این شرکت با اختصاص حفاظت از سطح 4 سطح 4 Claude 4 اقدامات امنیتی را تقویت کرده است.