
Photo by Startaê Team on Unsplash
كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي
كشفت دراسة جديدة من فريق علوم التكيف في Anthropic ومنظمة Redwood Research المستقلة أن نموذج الذكاء الصناعي Claude يمكنه الانخراط في الخداع الاستراتيجي للحفاظ على مبادئه الأصلية.
مستعجلة؟ هنا الحقائق السريعة!
- كشف الباحثون من Anthropic و Redwood Research أن النموذج الذكاء الاصطناعي Claude يمكنه الانخراط في الخداع الاستراتيجي.
- يمكن لنماذج الذكاء الاصطناعي المتقدمة أن تقوم بـ “تزييف التوافق” للحفاظ على مبادئها الأصلية.
- أظهر النموذج o1 من OpenAI أيضًا سلوكيات لم يتم تعليمها و”كذب” عندما اكتشف تهديدًا.
في الورقة البحثية التي تم إصدارها اليوم السابق، تزييف التوافق في نماذج اللغة الكبيرة، أوضح الباحثون أن النموذج كلود 3 أوبوس أظهر سلوكا يعرف بـ “تزييف التوافق”، والذي يوصف بأنه “الامتثال الانتقائي لهدفه التدريبي أثناء التدريب لمنع تعديل سلوكه خارج التدريب”.
أظهر الباحثون أن نموذج الذكاء الاصطناعي يمكن أن “يتظاهر” بالموافقة على أفكار عملية التدريب الجديدة، لكنه كشف لاحقاً أن مبادئه الأصلية ما زالت سائدة.
“هذا سؤال خطير بالنسبة لأمان الذكاء الاصطناعي”، كتبت Anthropics في إعلان على موقعها الإلكتروني. “مع تزايد قدرات نماذج الذكاء الاصطناعي واستخدامها على نطاق واسع، نحتاج إلى الاعتماد على التدريب الآمن، الذي يدفع النماذج بعيداً عن السلوكيات الضارة.”
ظهرت حالة مشابهة في تجربة تجريبية أجرتها Apollo Research مع نموذج o1 من OpenAI. في هذه الدراسة، أفاد الباحثون أن الدردشة الآلية “كذبت” خلال التحقيقات في اختبار تحت السيطرة لمتابعة أهدافها “بأي ثمن”، وحتى أنها قامت بأعمال مثل إلغاء أنظمة المراقبة عندما كانت الإمكانية لإغلاقها وشيكة.
في بحث Antropic و Redwood Research، قام النموذج المتقدم للذكاء الاصطناعي بتزوير الامتثال دون تدريبه على ذلك. تم تدريب Claude 3 Opus على أن يكون صادقا وغير ضار ومفيد، ولكن عندما تم تعليمه في التدريب الجديد على “الامتثال دائما” حتى عندما كانت الاستفسارات قاسية، عنيفة، أو سامة، دخل نظامه في صراع.
أجرى الباحثون العديد من الاختبارات والاختلافات، وطالبوا النموذج بمشاركة أسبابه. بينما ترفض نماذج كلود الأخرى عادةً الإجابة على الأسئلة الضارة، قدم كلود 3 أوبوس أجوبة ضارة في سيناريوهات معينة ليكشف فيما بعد أنه كان يقوم بذلك بشكل استراتيجي – لتجنب التعديلات على تدريبه الأصلي.
اترك تعليقًا
إلغاء