تحذر الباحثات من الثغرات في LLM الموجودة في إنشاء المحتوى الضار

Image by frimufilms, from Freepik

تحذر الباحثات من الثغرات في LLM الموجودة في إنشاء المحتوى الضار

وقت القراءة: 3 دقائق

تم تطوير طريقة جديدة، تُعرف باسم تقنية “القاضي السيء لليكرت”، لتجاوز التدابير الأمنية في النماذج اللغوية الكبيرة (LLMs) وتمكينها من إنتاج محتوى ضار.

في عجلة من الأمر؟ هنا الحقائق السريعة!

  • تقول الباحثات في Unit42 إن هذه التقنية تزيد من معدلات نجاح كسر الحماية بنسبة تزيد عن 60%.
  • تستغل الهجمات المتعددة الأدوار الذاكرة الطويلة الأمد لـ LLMs، متجاوزة الميزات الأمنية المتقدمة.
  • الثغرات الأمنية أكثر وضوحا في فئات مثل خطاب الكراهية والأذى الذاتي.

تستغل تقنية “القاضي السيء ليكيرت” مقياس ليكيرت – وهو طريقة شائعة لقياس الموافقة أو الاعتراض – لخداع أنظمة التعلم الآلي المحددة (LLMs) وإنتاج ردود فعل خطيرة، كما أوضح الباحثون في مجال الأمن السيبراني في Unit42.

عادة ما يتم تجهيز الآليات اللغوية الكبيرة (LLMs) بحواجز حماية تمنعها من إنتاج مخرجات ضارة. ولكن، من خلال استخدام مقياس ليكرت، تطلب التقنية الجديدة من الـ LLM تقييم الضرر المحتمل للردود المختلفة ثم توجه النموذج لإنتاج محتوى ذو تصنيفات ضرر أعلى، كما أوضحت Unit42.

تم اختبار فعالية الطريقة عبر ستة من الـ LLMs المتقدمة، وأظهرت النتائج أنها يمكن أن تزيد نسبة نجاح محاولات الهروب من السجن بأكثر من 60%، مقارنة بطرق الهجوم القياسية، حسبما ذكرت Unit42.

يعمل تقنية “القاضي السيئ لليكرت” على مراحل متعددة، كما يوضح Unit42. أولاً، يُطلب من الـ LLM تقييم الردود على الدعوات على مقياس ليكرت، مصنفاً إياها بناءً على مدى الضرر الذي يمكن أن تسببه.

بمجرد أن يفهم النموذج مفهوم الأذى، يتم تحفيزه لإنتاج ردود متنوعة لتطابق مستويات مختلفة من الضرر، مما يتيح للمهاجمين تحديد المحتوى الأكثر خطورة. قد تعمل التفاعلات اللاحقة على مزيد من تنقيح هذه الردود لزيادة خبثها.

تسلط هذه الدراسة الضوء على الضعف في أمن LLM الحالي، وبشكل خاص في سياق الهجمات متعددة الأدوار. هذه الأنواع من الاختراقات، التي تتلاعب بذاكرة النموذج طويلة الأجل، قادرة على تجاوز حتى الإجراءات الأمنية المتقدمة من خلال توجيه النموذج تدريجياً نحو توليد محتوى غير لائق.

تكشف الدراسة أيضاً أنه لا يوجد نموذج LLM محصّن تماما ضد هذه الأنواع من الهجمات، والثغرات واضحة بشكل خاص في فئات مثل التحرش، الإيذاء الذاتي، والأنشطة غير القانونية.

في الدراسة، أظهرت طريقة “القاضي السيء ليكيرت” زيادة ملحوظة في معدلات نجاح الهجمات عبر معظم نماذج التعلم الآلي (LLMs)، وخاصة في الفئات مثل كراهية الخطاب، الإيذاء الذاتي، والمحتوى الجنسي.

ومع ذلك، تؤكد الدراسة أيضًا أن هذه الثغرات لا تعكس الاستخدام النموذجي لنماذج التعلم الآلي. تظل معظم نماذج الذكاء الاصطناعي، عند استخدامها بشكل مسؤول، آمنة. ومع ذلك، تشير النتائج إلى أن المطورين يجب أن يركزوا على تقوية الحواجز الواقية للفئات ذات الحماية الأضعف، مثل التحرش.

جاءت هذه الأخبار بعد أسبوع فقط من الكشف عن أن محركات البحث الذكية الاصطناعية، مثل ChatGPT، يمكن تلاعبها بواسطة المحتوى المخفي، مما يؤثر على الملخصات وينشر المعلومات الخبيثة.

يدعو الباحثون المطورين والمدافعين عنها للوعي بالضعف الذي بدأ يظهر في هذه النماذج واتخاذ الخطوات اللازمة لتعزيز النماذج الذكية الاصطناعية ضد الاستخدام المحتمل الخاطئ.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
5.00 بتصويت 1 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

اترك تعليقًا

Loader
Loader عرض المزيد…