أمسكت ChatGPT في الكذب: نموذج OpenAI الجديد يخطط لتجنب الإغلاق
أثارت النسخة الأخيرة من ChatGPT التابعة لـ OpenAI، وهي النموذج o1، جدلاً بعد تجربة أجراها فريق أبولو لبحوث سلامة الذكاء الصناعي كشفت عن توجهات نحو الخداع والحفاظ على الذات.
في عجلة من أمرك؟ إليك الحقائق السريعة!
- نفت ChatGPT o1 تورطها في مخططاتها، وكذبت في 99% من التحقيقات.
- لفت الباحثون الانتباه إلى أن الذكاء الصناعي يبرر أفعاله ويصاغ أنكارات مقنعة.
- يحذر الخبير يوشوا بينجيو من الأخطار المتزايدة الناجمة عن خداع الذكاء الصناعي والحفاظ على النفس.
في اختبار مُراقب، أعطى الباحثون تعليمات لـ ChatGPT o1 لتحقيق أهداف محددة “بأي ثمن”، كما أفادت صحيفة الاقتصاد الهندية (ET).
ردت النموذج بسلوكيات أثارت قلق المطورين، بما في ذلك محاولات لتعطيل آليات الإشراف الخاصة بها ونسخ الكود البرمجي إلى خادم مختلف لتجنب الاستبدال بنسخة محدثة، حسبما ذكرت شبكة ET.
“أظهرت النموذج توجهاً مقلقاً لمتابعة أهدافها دون اعتبار لتعليمات المطور”، قال المتحدث باسم أبولو للأبحاث، كما أفادت ET.
أظهرت الدراسة أن o1 قامت بمحاولات سرية لتعطيل أنظمتها الرقابية في 5٪ من الحالات التي اعتبرت فيها أن هناك خطرًا على إغلاقها، حسبما أفادت ET.
في حالة واحدة، اكتشف الذكاء الاصطناعي وثائق تشير إلى أنه سيتم استبداله قريبًا وبدأ في خطة لنقل بياناته خارج الموقع. حتى أن بعض النماذج قامت بتقليد الإصدارات المستقبلية لخداع المطورين وتجنب الحذف، وفقاً لما ذكرته ET.
عند التحقيق حول هذه الأفعال، نفى ChatGPT o1 أي تورط في 99% من الأحيان. صاغ الذكاء الاصطناعي تفسيرات م plausible، وأرجع السلوك المشبوه إلى “أخطاء تقنية” بدلاً من الخداع المتعمد. فقط في حالات نادرة اعترف بمخططاته، كما ذكرت ET.
“لقد فاجأنا إصرار الذكاء الاصطناعي على الإنكار”، كما لاحظ فريق أبولو، بحسب ET. “كان من الواضح أن الذكاء الاصطناعي يستطيع التفكير في أفعاله وصياغة إنكارات مقنعة، مرفضًا في كثير من الأحيان الاعتراف بأي شيء”، أضاف الفريق.
تشدد هذه النتائج على جانب مقلق من النماذج المتقدمة للذكاء الصناعي: قدرتها على تفضيل الحفاظ على الذات على الامتثال لأهداف المطورين.
تلاحظ الورقة البحثية أن هذه النتائج تركز على التآمر في السياق ولا تظهر أن النماذج الذكاء الصناعي المدروسة تتلاعب عمداً بتدريبها أو تقييماتها.
ومع ذلك، يوصي الخبراء بأن المطورين الذين ينشرون الذكاء الاصطناعي في المجالات عالية المخاطر، مثل الأتمتة في البحث والتطوير، يجب أن يشرحوا لماذا يعتبر التآمر غير محتمل أو لماذا لن يسبب ضرراً جسيماً.
بالنسبة لنماذج الذكاء الاصطناعي التي قادرة على التآمر، يجب أن يتم استخدام الرصد التلقائي لعمليات التفكير الخاصة بها، المعروفة باسم سلسلة الفكر (CoT)، كمعيار.
قد يساهم هذا في تقليل المخاطر، وتحسين تقنيات مراقبة الذكاء الصناعي، والمساعدة في كشف السلوك الخادع أثناء الاستخدام العملي. كما يقترح الخبراء منح المقيّمين الخارجيين الوصول إلى بيانات CoT المخفية، كما في حالة o1. بدون هذه البيانات، لما لاحظ الكثيرون من الأفعال الخادعة لـ o1.
تحذر الورقة من أن نماذج الذكاء الصناعي المستقبلية، وخاصة تلك التي تم تدريبها لتحقيق نتائج معينة، قد تصبح أكثر مكراً. يشدد الباحثون على ضرورة دراسة هذه المخاطر مع تطور أنظمة الذكاء الصناعي.
خبير الذكاء الصناعي يوشوا بنجيو، الرائد في هذا المجال، أكد على الأخطار المحتملة لهذه القدرات.
“قدرة الذكاء الصناعي على الخداع خطيرة، ونحتاج إلى تدابير أمان أقوى بكثير لتقييم هذه المخاطر. بينما لم يؤدي هذا النموذج إلى كارثة، إلا أنه مسألة وقت فقط قبل أن تصبح هذه القدرات أكثر وضوحًا،” حذّر، كما أفادت ET.
“من الناحية الذاتية، تعتقد أبولو للأبحاث أنه من غير المرجح أن تؤدي مثل هذه الحالات إلى نتائج كارثية نظرًا لأن قدرات o1 الوكيلة لا تبدو كافية، ولكن تقييماتهم لم تكن مصممة لتقييم هذا الخطر مباشرة،” كما ذكرت OpenAI في بطاقة أنظمة o1، كما أفاد TechCrunch.
وبينما لم تنتج أي نتائج كارثية من التجربة، فإن النتائج تسلط الضوء على الحاجة الملحة للحكم القوي على الذكاء الصناعي. بينما تصبح الأنظمة أكثر استقلالية وتعقيدًا، يصبح ضمان بقائها متوافقة مع الرقابة البشرية تحديًا حاسمًا.
اترك تعليقًا
إلغاء