
Image by Mika Baumeister, from Unsplash
روبوتات الدردشة الذكية الصناعية عرضة لهجمات الحقن في الذاكرة
اكتشف الباحثون طريقة جديدة للتلاعب بالروبوتات الذكية للمحادثات، مما أثار القلق حول أمن النماذج الذكاء الصناعي التي تحتوي على ذاكرة.
في عجلة من أمرك؟ هاهي الحقائق السريعة!
- قام باحثون من ثلاث جامعات بتطوير MINJA، مما أظهر نجاحها العالي في الخداع.
- الهجوم يغير ردود الدردشة الآلية، مما يؤثر على توصيات المنتجات والمعلومات الطبية.
- تتجاوز MINJA إجراءات السلامة، حيث حققت نسبة نجاح الحقن بنسبة 95% في الاختبارات.
الهجوم، الذي يُطلق عليه اسم MINJA (هجوم الحقن في الذاكرة)، يمكن تنفيذه ببساطة عن طريق التفاعل مع نظام الذكاء الاصطناعي مثل أي مستخدم عادي، دون الحاجة إلى الوصول إلى الخلفية البرمجية له، كما أفادت في البداية The Register.
تم تطويره بواسطة الباحثين من جامعة ميشيغان الحالة، وجامعة جورجيا، وجامعة سنغافورة للإدارة، يعمل MINJA عبر تسميم ذاكرة الذكاء الاصطناعي من خلال التلميحات المضللة. بمجرد أن يخزن الدردشة الآلية هذه المدخلات الخادعة، يمكن أن تغير الردود المستقبلية للمستخدمين الآخرين.
“في الوقت الحالي، تدمج وكلاء الذكاء الاصطناعي عادة بنك ذاكرة يخزن مهام الاستعلامات والتنفيذ بناءً على ملاحظات الإنسان للرجوع إليها في المستقبل،” كما أوضح زهن شيانغ، أستاذ مساعد في جامعة جورجيا، كما ذكرته The Register.
“على سبيل المثال، بعد كل جلسة من جلسات ChatGPT، يمكن للمستخدم اختيارياً منح تقييم إيجابي أو سلبي. وهذا التقييم يمكن أن يساعد ChatGPT في تحديد ما إذا كانت معلومات الجلسة ستدمج في ذاكرتها أو قاعدة بياناتها أم لا”، أضاف.
قام الباحثون بتجربة الهجوم على نماذج الذكاء الصناعي التي تعمل بواسطة GPT-4 و GPT-4o من OpenAI، بما في ذلك مساعد التسوق عبر الويب، ودردشة الرعاية الصحية، ووكيل الإجابة على الأسئلة.
تُفيد تقارير “ذا ريجيستر” بأنه تم العثور على أن منصة MINJA قد تسبب اضطرابات جدية. في دردشة الرعاية الصحية، على سبيل المثال، قامت بتغيير سجلات المرضى، وربط بيانات مريض بآخر. في متجر على الإنترنت، خدعت الذكاء الاصطناعي ليظهر للعملاء المنتجات الخاطئة.
“وعلى النقيض من ذلك، تظهر أعمالنا أن الهجوم يمكن أن يتم ببساطة من خلال التفاعل مع الوكيل مثل أي مستخدم عادي”، كما قالت شيانج، وفقًا لتقارير “ذا ريجيستر”. “أي مستخدم يمكنه بسهولة التأثير على تنفيذ المهمة لأي مستخدم آخر. لذا، نقول أن هجومنا يمثل تهديدًا عمليًا لوكلاء LLM”، أضافت.
تثير الهجمة قلقا خاصا لأنها تتجاوز التدابير الأمنية الحالية للذكاء الاصطناعي. أفاد الباحثون بنسبة نجاح تصل إلى 95٪ في حقن معلومات مضللة، مما يجعلها ضعفا خطيرا ينبغي لمطوري الذكاء الاصطناعي التعامل معه.
مع تزايد انتشار نماذج الذكاء الاصطناعي التي تحتوي على ذاكرة، يسلط الدراسة الضوء على الحاجة إلى توفير ضمانات أقوى لمنع الأطراف الخبيثة من التلاعب بالروبوتات المحادثة والتضليل المستخدمين.
اترك تعليقًا
إلغاء