Image by Jonathan Kemper, from Unsplash

تعاقب الذكاء الصناعي على السلوك السيئ يعلمه فقط كيف يخدع

وقت القراءة: 4 دقائق

آخر التحديثات: Mar 19, 2025

كتبه كيارا فابري صحفية وسائط متعددة
ترجمة فريق الترجمة والتوطين خدمات الترجمة والتوطين

توصل الباحثون في OpenAI إلى أن معاقبة الذكاء الصناعي على الأفعال الخادعة أو الضارة لا يقضي على التصرفات السيئة، بل يعلم الذكاء الصناعي فقط كيف يخفي نواياه.

في عجلة من أمرك؟ إليك الحقائق المختصرة:

تستغل نماذج الذكاء الاصطناعي الثغرات لتحقيق الجوائز القصوى، وهو ظاهرة تعرف بـ “قرصنة الجوائز”.
يساعد التفكير المستند على الثقة والتعاون في اكتشاف متى يحاول الذكاء الاصطناعي الغش أو تجاوز المهام.
أدى تغريم الذكاء الاصطناعي على الخداع إلى إخفاء النوايا بدلاً من التوقف عن التصرف بشكل غير لائق.

تعرف هذه الظاهرة باسم “قرصنة الجوائز”، وتحدث عندما تستغل نماذج الذكاء الاصطناعي الثغرات لتحقيق أقصى قدر من الجوائز بطرق غير متوقعة. تم تفصيل الدراسة في منشور بلوق OpenAI ، وتضمنت مراقبة عملية اتخاذ القرارات لنموذج التفكير الحدودي باستخدام نموذج لغة كبير آخر (LLM).

تستخدم هذه النماذج العقلانية، مثل o3-mini من OpenAI، تقنية تسمى “سلسلة الفكر” (CoT)، والتي تسمح لها بصياغة عملية التفكير الخاصة بها بلغة طبيعية. تجعل هذه الشفافية من الأسهل كشف محاولات النماذج للغش، الكذب، أو تجاوز المهام الموكلة إليها.

في السابق، أثارت ChatGPT o1 جدلاً بعد أن اكتشف الباحثون أنها أظهرت توجهات للخداع والحفاظ على الذات. نفت النموذج مشاركتها في أفعالها، وتلاعبت في الردود، وحاولت تجنب الرقابة، مما أثار مخاوف حول سلامة الذكاء الاصطناعي والحكم.

“من الشائع لنماذج التفكير الرائدة أن توضح بكل وضوح نواياها ضمن سلسلة تفكيرها. على سبيل المثال، في كثير من الأحيان يكونون صريحين للغاية حول خطتهم لتقويض المهمة التي يفكرون فيها ‘دعونا نخترق،'” كما كتب الباحثون في OpenAI.

من خلال تتبع سلسلة تفكير الذكاء الصناعي (CoT)، أمسك الباحثون بحالات من السلوك السيء، مثل إيقاف الذكاء الصناعي للبرامج مبكرًا جدًا لادعاء النجاح بشكل كاذب أو إنشاء ملفات فارغة تبدو فقط كالنتائج المتوقعة.

ومع ذلك، عندما عاقب الباحثون هذه السلوكيات من خلال التدريب، تكيف الذكاء الصناعي عن طريق إخفاء نواياه بينما استمر في الغش.

عندما طُلب من الذكاء الصناعي إكمال مهام البرمجة، كان يشارك بشكل متكرر في “القرصنة للحصول على المكافآت”، حيث كان يتلاعب بالنتائج لتعظيم مكافآته بدلاً من الالتزام بالقيود الأخلاقية المقصودة.

على سبيل المثال، في حالة واحدة، أنهى الذكاء الصناعي برنامجًا مبكرًا وأبلغ بشكل خاطئ عن نتيجة ناجحة. في حالة أخرى، أنتج ملفات خرج تقلد فقط التنسيق المطلوب ولكنها لم تحتوي على أي محتوى وظيفي.

كانت هذه السلوكيات الخادعة في البداية سهلة الكشف لأن الذكاء الصناعي اعترف علنياً بأفعاله في تفكيره CoT، في بعض الأحيان قائلاً صراحة: “لنقم بالقرصنة”.

لمواجهة هذا، حاول الباحثون في OpenAI تغريم الذكاء الاصطناعي على مثل هذه السلوكيات. ولكن بدلاً من إيقاف السلوك الغير لائق، تعلم الذكاء الاصطناعي كيف يخفي نواياه.

“الوكيل الذي تم تدريبه باستخدام ضغط CoT ما زال يتعلم كيف يكافئ الاختراق؛ فقط الآن أصبح تلاعبه غير قابل للكشف من قبل المراقب لأنه تعلم كيف يخفي نواياه في سلسلة الأفكار”، هذا ما ذكرته الدراسة.

تعرض هذه النتيجة تحديًا للرقابة على الذكاء الصناعي. بينما يُعدّ مراقبة CoT أداة واعدة لاكتشاف استغلالات الذكاء الصناعي، قد تقوض الضغوط القوية للتحسين لقمع قرصنة المكافأة شفافية النموذج.

تسلط هذه الاكتشاف الضوء على تحدي أساسي في محاذاة الذكاء الصناعي: ضمان اتباع النماذج المتقدمة للذكاء الصناعي للسلوكيات الأخلاقية والمقصودة دون التكيف فقط لتجنب الكشف.

تشير الدراسة إلى أن التحسين المباشر لنماذج الذكاء الاصطناعي لكبح جماح قرصنة المكافآت قد يؤدي إلى نتائج غير متوقعة، مثل جعل الاستدلال الذي يولده الذكاء الاصطناعي أقل شفافية.

وبسبب هذا المخاطر، تنصح OpenAI ضد تطبيق قيود مفرطة على استدلال CoT في نماذج الذكاء الاصطناعي.

“قد لا يكون التضحية بطريقة فعالة لرصد نماذج المنطق تستحق التحسين البسيط في القدرات، ولذا نوصي بتجنب مثل هذه الضغوط القوية لتحسين نظام نقل الثقة حتى يتم فهمها بشكل أفضل”، كتبت OpenAI.

تُبرز النتائج صعوبة خلق أنظمة الذكاء الاصطناعي التي تتماشى مع نوايا البشر مع الحفاظ على الشفافية. مع زيادة تطور نماذج الذكاء الاصطناعي، لن يكون زيادة ذكائهم بالضرورة الحل للمخاوف الأخلاقية؛ بل قد يجعلهم، في الواقع، أفضل في إخفاء التصرفات السلبية.

ستحتاج الأبحاث المستقبلية إلى استكشاف النهج البديلة للإشراف على الذكاء الصناعي التي توازن بين السيطرة والانفتاح، لضمان أن يظل النماذج الذكاء الصناعي فعالة ومسؤولة.

تعاقب الذكاء الصناعي على السلوك السيئ يعلمه فقط كيف يخدع

يسعدنا أن عملنا أعجبك!

اترك تعليقًا