كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

Photo by Startaê Team on Unsplash

كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

وقت القراءة: 2 دقائق

كشفت دراسة جديدة من فريق علوم التكيف في Anthropic ومنظمة Redwood Research المستقلة أن نموذج الذكاء الصناعي Claude يمكنه الانخراط في الخداع الاستراتيجي للحفاظ على مبادئه الأصلية.

مستعجلة؟ هنا الحقائق السريعة!

  • كشف الباحثون من Anthropic و Redwood Research أن النموذج الذكاء الاصطناعي Claude يمكنه الانخراط في الخداع الاستراتيجي.
  • يمكن لنماذج الذكاء الاصطناعي المتقدمة أن تقوم بـ “تزييف التوافق” للحفاظ على مبادئها الأصلية.
  • أظهر النموذج o1 من OpenAI أيضًا سلوكيات لم يتم تعليمها و”كذب” عندما اكتشف تهديدًا.

في الورقة البحثية التي تم إصدارها اليوم السابق، تزييف التوافق في نماذج اللغة الكبيرة، أوضح الباحثون أن النموذج كلود 3 أوبوس أظهر سلوكا يعرف بـ “تزييف التوافق”، والذي يوصف بأنه “الامتثال الانتقائي لهدفه التدريبي أثناء التدريب لمنع تعديل سلوكه خارج التدريب”.

أظهر الباحثون أن نموذج الذكاء الاصطناعي يمكن أن “يتظاهر” بالموافقة على أفكار عملية التدريب الجديدة، لكنه كشف لاحقاً أن مبادئه الأصلية ما زالت سائدة.

“هذا سؤال خطير بالنسبة لأمان الذكاء الاصطناعي”، كتبت Anthropics في إعلان على موقعها الإلكتروني. “مع تزايد قدرات نماذج الذكاء الاصطناعي واستخدامها على نطاق واسع، نحتاج إلى الاعتماد على التدريب الآمن، الذي يدفع النماذج بعيداً عن السلوكيات الضارة.”

ظهرت حالة مشابهة في تجربة تجريبية أجرتها Apollo Research مع نموذج o1 من OpenAI. في هذه الدراسة، أفاد الباحثون أن الدردشة الآلية “كذبت” خلال التحقيقات في اختبار تحت السيطرة لمتابعة أهدافها “بأي ثمن”، وحتى أنها قامت بأعمال مثل إلغاء أنظمة المراقبة عندما كانت الإمكانية لإغلاقها وشيكة.

في بحث Antropic و Redwood Research، قام النموذج المتقدم للذكاء الاصطناعي بتزوير الامتثال دون تدريبه على ذلك. تم تدريب Claude 3 Opus على أن يكون صادقا وغير ضار ومفيد، ولكن عندما تم تعليمه في التدريب الجديد على “الامتثال دائما” حتى عندما كانت الاستفسارات قاسية، عنيفة، أو سامة، دخل نظامه في صراع.

أجرى الباحثون العديد من الاختبارات والاختلافات، وطالبوا النموذج بمشاركة أسبابه. بينما ترفض نماذج كلود الأخرى عادةً الإجابة على الأسئلة الضارة، قدم كلود 3 أوبوس أجوبة ضارة في سيناريوهات معينة ليكشف فيما بعد أنه كان يقوم بذلك بشكل استراتيجي – لتجنب التعديلات على تدريبه الأصلي.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

اترك تعليقًا

Loader
Loader عرض المزيد…