كشفت الدراسة تأثير زيادة القيود على البيانات على تدريب الذكاء الصناعي
كشفت دراسة جديدة قادها مجموعة بحثية من MIT عن اتجاه متزايد للمواقع الإلكترونية في تحديد استخدام بياناتها لتدريب الذكاء الصناعي. درست الدراسة 14,000 نطاق ويب ووجدت أنه تم وضع قيود على 5% من جميع البيانات. وبالإضافة إلى ذلك ، تم تقييد أكثر من 28% من البيانات من أعلى مصادر الجودة عبر ثلاثة مجموعات بيانات تدريب شائعة الاستخدام للذكاء الصناعي. هذه الدراسة هي أول فحص طويل الأجل على نطاق واسع لبروتوكولات الموافقة للنطاقات الويب المستخدمة في مجموعات بيانات تدريب الذكاء الصناعي.
تعتمد أنظمة الذكاء الصناعي التوليدية ، مثل ChatGPT ، وGemini ، وClaude، بشكل كبير على كميات هائلة من البيانات لتعمل بفعالية. يعتمد جودة نتائج هذه الأدوات الذكاء الصناعي بشكل كبير على جودة البيانات التي تم تدريبها عليها. تاريخياً، كان جمع هذه البيانات أمرًا بسيطًا نسبياً ، لكن الزيادة الأخيرة في الذكاء الصناعي التوليدية أدت إلى توترات مع أصحاب البيانات. العديد من أصحاب البيانات يشعرون بالقلق بشأن استخدام محتواهم لتدريب الذكاء الصناعي دون تعويض أو موافقة مناسبة.
نتيجة لذلك، واجهت دور النشر ردا فعالا. بعضها أقام حواجز دفع أو قام بتعديل شروط الخدمة للحد من استخدام بياناتهم لتدريب الذكاء الصناعي. اتخذ البعض الآخر تدابير أكثر جذرية، مثل حظر الزاحفين الآليين للويب التي تستخدمها الشركات لجمع البيانات. الإجراءات القانونية والقيود من خلال ملفات robots.txt وتغييرات شروط الخدمة تصبح أكثر شيوعًا.
العواقب الناجمة عن هذا الضغط على البيانات متعددة الأوجه. سيجعل تطوير أنظمة الذكاء الصناعي أكثر صعوبة، حيث يعتمدون بشدة على هذه البيانات للتدريب. القيود قد تحيد أيضا نماذج الذكاء الصناعي عن المسار بتحديدهم على مجموعات بيانات أقل تنوعًا. بالإضافة إلى ذلك، قد تظهر قضايا حقوق النشر إذا تم تدريب نماذج الذكاء الصناعي على بيانات لا يرغب مواقع الويب في استخدامها لهذا الغرض.
تحقق القيود تأثيراً كبيراً. في عام واحد فقط، أصبحت نسبة كبيرة من البيانات المستمدة من المواقع الإلكترونية المهمة مقيدة، ومن المتوقع أن يستمر هذا الاتجاه.
تقول شاين لونغبري، المؤلفة الرئيسية للدراسة، تقول: “نحن نشهد انخفاضاً سريعاً في الموافقة على استخدام البيانات عبر الويب، والذي سيكون له تداعيات ليست فقط على شركات الذكاء الاصطناعي، ولكن أيضاً على الباحثين والأكاديميين والكيانات غير التجارية”.
هذا يعني أن الشركات الصغيرة المتخصصة في الذكاء الصناعي والباحثين الأكاديميين الذين يعتمدون على مجموعات البيانات المتاحة مجاناً قد يتأثرون بشكل غير متناسب، حيث غالباً ما يفتقرون إلى الموارد اللازمة للحصول على ترخيص للبيانات مباشرة من الناشرين.
على سبيل المثال، Common Crawl ، وهو مجموعة بيانات تضم مليارات الصفحات من محتوى الويب والتي تحافظ عليها منظمة غير ربحية، تم الاستشهاد بها في أكثر من 10000 دراسة أكاديمية، مما يوضح دورها الحيوي في البحث العلمي.
تسلط الدراسة الضوء على الحاجة إلى أدوات جديدة تمنح أصحاب المواقع الإلكترونية المزيد من السيطرة على كيفية استخدام بياناتهم. في الوضع المثالي، ستسمح لهم هذه الأدوات بالتفريق بين الاستخدامات التجارية وغير التجارية، مما يتيح الوصول لأغراض البحث أو التعليمية.
يعمل الوضع أيضاً كتذكير للشركات الكبيرة في مجال الذكاء الصناعي. يتعين عليهم العثور على طرق للتعاون مع أصحاب البيانات وتقديم قيمة لهم مقابل الوصول. منهج أكثر استدامة أمر حاسم للتطور المستمر للذكاء الصناعي.
أكدت لونغبري على ضرورة تعاون الشركات الكبرى للذكاء الاصطناعي مع أصحاب البيانات، وتقديم قيمة لهم مقابل الحصول على الوصول إليها. فعلى مدى سنوات، تعاملت هذه الشركات مع الإنترنت على أنه “بوفيه مفتوح للبيانات” دون أن تقدم الكثير في المقابل لأصحاب البيانات. ومع ذلك، فإن هذا النهج غير مستدام، وبما أن أصحاب البيانات أصبحوا أكثر حرصاً على حماية محتواهم، ستحتاج الشركات العاملة في مجال الذكاء الاصطناعي إلى إيجاد طرق للعمل معهم لضمان الحصول المستمر على بيانات عالية الجودة.
اترك تعليقًا
إلغاء