تدهور نموذج الذكاء الصناعي: تظهر الأبحاث الجديدة مخاطر تدريب الذكاء الصناعي على البيانات المُنتجة من الذكاء الصناعي
وفقًا لـ دراسة نُشرت في 24 يوليو، فإن جودة نتائج نماذج الذكاء الاصطناعي معرضة للخطر من التدهور مع زيادة فيضان البيانات الناتجة عن الذكاء الاصطناعي على الإنترنت.
اكتشف الباحثون في هذه الدراسة أن النماذج الذكاء الاصطناعي المدربة على البيانات التي أنشأها الذكاء الاصطناعي تنتج نتائج متزايدة الهراء مع مرور الوقت. يُعرف هذا الظاهرة بـ “انهيار النموذج”. ايليا شومايلوف ، المؤلف الرئيسي للدراسة، يقارن العملية بنسخ الصورة مرارًا وتكرارًا. “إذا التقطت صورة وفحصتها، ثم طبعتها، وكررت هذه العملية مع مرور الوقت، في الأساس الضوضاء تطغى على العملية بأكملها، […] تبقى في النهاية بمربع داكن”.
تشكل هذه التدهور خطرًا كبيرًا على النماذج الصناعية الكبيرة مثل GPT-3، التي تعتمد على كميات ضخمة من بيانات الإنترنت للتدريب. تم تدريب GPT-3، على سبيل المثال، جزئيًا على بيانات من Common Crawl، وهو مستودع على الإنترنت يحتوي على أكثر من 3 مليارات صفحة ويب. ويتفاقم المشكلة مع توالي نشر المحتوى الرديء المنشأ من الذكاء الصناعي على الإنترنت. قد يتم تضخيم هذا التأثير بشكل أكبر بناءً على نتائج دراسة جديدة تشير إلى القيود المتزايدة على البيانات المتاحة لتدريب الذكاء الصناعي.
قام فريق البحث بتجربة الأثار عن طريق تعديل نموذج اللغة الكبيرة (LLM) على بيانات ويكيبيديا ثم إعادة تدريبه على مخرجاته الخاصة على مدى تسعة أجيال. قيسوا جودة الإخراج باستخدام “درجة الحيرة”، والتي تشير إلى ثقة النموذج في التنبؤ بالجزء التالي من التسلسل. تعكس الدرجات الأعلى نماذج أقل دقة. لاحظوا أن درجات الحيرة ازدادت في كل جيل لاحق، مما يسلط الضوء على التدهور.
قد يؤدي هذا التدهور إلى إبطاء التحسينات والتأثير على الأداء. على سبيل المثال، في إحدى التجارب، بعد تسعة أجيال من إعادة التدريب، أنتج النموذج نصًا غير مفهوم تمامًا.
إحدى الأفكار للمساعدة في منع التدهور هي التأكد من أن النموذج يعطي أوزانًا أكبر للبيانات التي تم إنشاؤها بواسطة الإنسان أصلا. كما سمح جزء آخر من دراسة شومايلوف للأجيال المستقبلية بأخذ عينة تبلغ 10٪ من البيانات الأصلية، وهو ما تسبب في التخفيف من بعض الآثار السلبية.
تسلط مناقشة الدراسة الضوء على أهمية الحفاظ على البيانات ذات الجودة العالية والمتنوعة والمُنشأة بواسطة البشر لتدريب نماذج الذكاء الاصطناعي. دون إدارة حذرة، قد يؤدي الاعتماد المتزايد على المحتوى الذي تولده الذكاء الاصطناعي إلى تراجع في أداء الذكاء الاصطناعي وعدالته. لمعالجة هذا، هناك حاجة للتعاون بين الباحثين والمطورين لتتبع أصل البيانات (نسب البيانات) والتأكد من أن النماذج المستقبلية للذكاء الاصطناعي لديها إمكانية الوصول إلى مواد تدريبية موثوقة.
ومع ذلك، تتطلب تنفيذ مثل هذه الحلول طرق فعالة لنسب البيانات، والتي تعاني حاليا من النقص. على الرغم من وجود أدوات للكشف عن النصوص التي تولدها الذكاء الاصطناعي، إلا أن دقتها محدودة.
تخلص شومايلوف بالقول: “للأسف، لدينا المزيد من الأسئلة من الأجوبة […] ولكن من الواضح أنه من المهم معرفة أين تأتي بياناتك من ومدى موثوقيتك في أنها تمثل عينة ممثلة من البيانات التي تتعامل معها.”
اترك تعليقًا
إلغاء