تواجه الذكاء الصناعي أزمة بيانات: ماسك يحذر من استنفاد المعرفة البشرية
أظهرت شركات الذكاء الاصطناعي استنفاد المعرفة البشرية المتاحة لتدريب نماذجها، كما كشف إيلون ماسك خلال مقابلة بثت مباشرة، حسبما أفاد الجارديان.
في عجلة من أمرك؟ هنا الحقائق السريعة!
- يقول إيلون ماسك أن شركات الذكاء الصناعي استنفدت المعرفة البشرية لتدريب النماذج.
- يقترح ماسك أن “البيانات الاصطناعية” أساسية لتقدم أنظمة الذكاء الصناعي.
- تعقيد الهلوسة الذكاء الصناعي في استخدام البيانات الاصطناعية، مما يعرض للأخطاء في المحتوى المنشأ.
اقترح الملياردير أن الشركات يجب أن تعتمد بشكل متزايد على البيانات “الاصطناعية” – المحتوى الذي تم إنشاؤه بواسطة الذكاء الصناعي نفسه – لتطوير أنظمة جديدة، وهي طريقة تكتسب الآن زخمًا. قال ماسك، كما ذكرت صحيفة The Guardian: “لقد استنفد مجموع المعرفة البشرية في تدريب الذكاء الصناعي. وذلك حدث في العام الماضي تقريبًا.”
من المقرر أن يشكل هذا تحدياً كبيراً لنماذج الذكاء الصناعي مثل GPT-4، التي تعتمد على مجموعات بيانات ضخمة مستمدة من الإنترنت لتحديد الأنماط وتوقع نتائج النصوص.
أبرز ماسك، الذي أسس شركة xAI في عام 2023، البيانات الصناعية كحل أساسي لتقدم الذكاء الصناعي. ومع ذلك، حذر من المخاطر المرتبطة بالممارسة، وبالأخص “هلوسات” الذكاء الصناعي، حيث تولد النماذج معلومات غير دقيقة أو غير معقولة، كما أفادت صحيفة الغارديان.
تشير The Guardian إلى أن شركات التكنولوجيا الرائدة، بما في ذلك ميتا ومايكروسوفت، اعتمدت على البيانات الاصطناعية لنماذج الذكاء الاصطناعي الخاصة بهم، مثل Llama و Phi-4. كما أدرجت جوجل وOpenAI هذا النهج أيضا.
على سبيل المثال، تقدر Gartner أن 60% من البيانات المستخدمة لمشاريع الذكاء الاصطناعي والتحليلات في عام 2024 تم إنتاجها بشكل اصطناعي، كما أفادت TechCrunch.
بالإضافة إلى ذلك، يوفر التدريب على البيانات الاصطناعية توفيرًا كبيرًا في التكاليف. تشير TechCrunch إلى أن الشركة الناشئة في مجال الذكاء الصناعي Writer تدعي أن نموذجها Palmyra X 004، الذي تم تطويره باستخدام مصادر اصطناعية بشكل شبه كامل، كلف فقط 700,000 دولار لإنشائه.
بالمقارنة، تشير التقديرات إلى أن نموذجاً بحجم مماثل من OpenAI سيكلف حوالي 4.6 مليون دولار لتطويره، حسبما ذكرت TechCrunch. ومع ذلك، بينما تتيح البيانات الاصطناعية تحسين النموذج بشكل مستمر، يحذر الخبراء من العيوب المحتملة.
أفادت صحيفة “الغارديان” بأن أندرو دنكان، مدير الذكاء الاصطناعي الأساسي في معهد آلان تورينغ، لفت الانتباه إلى أن الاعتماد على البيانات الاصطناعية يشكل خطر “انهيار النموذج”، حيث تفقد المخرجات جودتها مع مرور الوقت.
قال دنكان: “عندما تبدأ في تغذية النموذج بمواد اصطناعية، تبدأ في الحصول على عوائد تقل بمرور الوقت”، مضيفًا أن التحيزات والإبداع المخفض قد يظهران أيضًا.
تثير الانتشار المتزايد للمحتوى المُنشأ بواسطة الذكاء الصناعي على الإنترنت مخاوف أخرى. حذر دنكان من أن هذه المواد قد تدخل دون قصد إلى مجموعات البيانات للتدريب، مما يعقد التحديات أكثر، كما ذكرت صحيفة The Guardian.
استشهد دنكان بدراسة نُشرت في عام 2022 توقعت أن ينفد البيانات النصية عالية الجودة لـ تدريب الذكاء الصناعي بحلول العام 2026 إذا استمرت الاتجاهات الحالية. توقع الباحثون أيضًا أن ينفد البيانات اللغوية ذات الجودة المنخفضة بين الأعوام 2030 و2050، بينما قد ينفد البيانات ذات الجودة المنخفضة بين الأعوام 2030 و2060.
علاوة على ذلك، تحذر دراسة أحدث نشرت في يوليو من أن نماذج الذكاء الاصطناعي قد تتعرض للتدهور حيث أن البيانات التي يتم توليدها بواسطة الذكاء الاصطناعي تشبع الإنترنت بشكل متزايد. وقد وجد الباحثون أن النماذج التي تم تدريبها على المخرجات التي تم إنشاؤها بواسطة الذكاء الاصطناعي تنتج نتائج غير معقولة مع مرور الوقت ، وهو ظاهرة تُسمى “انهيار النموذج”.
قد يؤدي هذا التدهور إلى إبطاء تقدم الذكاء الاصطناعي، مما يبرز الحاجة إلى مصادر بيانات متنوعة وعالية الجودة ومُنتجة بواسطة الإنسان.
شاهدي مقابلة الرئيس التنفيذي لشركة Stagwell، مارك بين، مع إيلون ماسك في CES! https://t.co/BO3Z7bbHOZ
— بث مباشر (@Live) 9 يناير 2025
اترك تعليقًا
إلغاء