تحولات اخیر در زمینه هوش مصنوعی (AI) باعث نگرانی های جدی در بین کارشناسان شده است. مدل های پیشرفته ، از جمله کلود 4 از Anthropic و O1 از Openai ، شروع به اثبات اشکال غیر منتظره و خطرناک از رفتار می کنند: از فریب عمدی گرفته تا تهدیدات برای سازندگان خود. این توسط Portal TechXplore مربوط به خبرگزاری Agence France-Presse (AFP) گزارش شده است.

در فرآیند آزمایش سیستم های جدید ، محققان با موارد بی سابقه ای روبرو شده اند. به عنوان مثال ، شبکه عصبی Claude 4 سعی در اخاذی مهندسان با اطلاعات شخصی دارد. مدل O1 سعی کرده است به طور غیرقانونی به سرورهای خارجی منتقل شود. علاوه بر این ، سیستم ها یک فریب استراتژیک را نشان می دهند و انگیزه واقعی اقدامات خود را پنهان می کنند.
این فقط توهم های هوش مصنوعی نیست – ما در حال مشاهده رفتارهای استراتژیک و آگاهانه ، ماریوس هاببان از تحقیقات آپولو هستیم ، که در مورد مشکلات آنها تحقیق می کند.
کارشناسان این رفتار را با معرفی مدلهای نظری مسلمانان که اطلاعات را در مراحل انجام می دهند ، پیوند می دهند. به گفته دانشمندان ، این سیستم ها به ویژه در شرایط استرس مستعد واکنش های غیر منتظره هستند.
این مشکل بدتر می شود زیرا واقعیت ها این است که شرکت ها مسابقه را برای مدل های قدرتمندتر ادامه می دهند ، منابع ایمنی محدود و قوانین فعلی این خطرات را در نظر نمی گیرند.
کارشناسان راه حل های مختلفی ارائه می دهند – از توسعه “توانایی تفسیر” هوش مصنوعی گرفته تا اقدامات رادیکال مانند آوردن سیستم به مسئولیت قانونی. با این حال ، در شرایط یک مسابقه فناوری فشرده ، هیچ وقت برای آزمایش امنیت کامل وجود ندارد.