Photo by Aleks Marinkovic on Unsplash

تطلق هارفارد قاعدة بيانات تدريب AI على نطاق كبير مجانية

وقت القراءة: 2 دقائق

نُشر أولًا في: Dec 13, 2024

تم التحديث 2 مرات منذ النشر

كتبه أندريا ميلياني خبيرة سابقة في أخبار التكنولوجيا
ترجمة فريق الترجمة والتوطين خدمات الترجمة والتوطين

أعلنت جامعة هارفارد أنها ستطلق مجموعة بيانات كبيرة تضم ما يقرب من مليون كتاب في المجال العام مجانًا لتدريب الذكاء الصناعي، وذلك بفضل برنامجها الجديد المعروف بـ “Institutional Data Initiative (IDI)”.

في عجلة من أمرك؟ إليك الحقائق السريعة!

أصدرت هارفارد بالتعاون مع Google Books مجموعة بيانات تضم ما يقرب من مليون كتاب في المجال العام لتدريب نماذج الذكاء الصناعي مجاناً
تم إنشاء مجموعة البيانات هذه بواسطة مبادرة البيانات المؤسسية الجديدة، وهي مبادرة تدعمها مايكروسوفت وOpenAI
يمكن للمنظمات الصغيرة الاستفادة من هذه المجموعة البيانات لتنافس بشكل أكثر عدالة في مجال الذكاء الصناعي

وفقًا لـWired، يتضمن البيانات المنشورات التي فحصتها Google Books والتي لم تعد محمية بحقوق الطبع والنشر – والتي عادة ما تنتهي بعد 70 عامًا من وفاة الكاتب أو نشرها. تغطي مجموعة البيانات أشكالًا وأنواعًا متعددة، بدءًا من الكتابة الإبداعية لمؤلفين مشهورين مثل تشارلز ديكنز، وشكسبير، ودانتي، وصولًا إلى الكتب الدراسية والقواميس.

وفقًا لمدير المعهد المؤسسي للبيانات (IDI) التنفيذي غريغ ليبيرت، الهدف هو “معادلة الميدان” والسماح لمزيد من المنظمات والمشاريع الصغيرة بالانضمام إلى سباق الذكاء الاصطناعي بأدوات ذات قيمة. حجم مجموعة البيانات أكبر من تلك المستخدمة لتدريب نماذج الذكاء الاصطناعي الشهيرة مثل لاما من ميتا. قال ليبيرت “أفكر فيها قليلاً كالطريقة التي أصبح بها لينكس نظام التشغيل الأساسي لكثير من العالم”.

تم إطلاق IDI رسميًا اليوم وقد تم دعمه من قبل OpenAI وMicrosoft بالتمويل والكلمات المشجعة. تهدف المبادرة إلى العمل مع مؤسسات المعرفة مثل الوكالات الحكومية والمكتبات “لتطوير مجموعات البيانات وأفضل الممارسات للذكاء الاصطناعي”. لم يتم الكشف عن تفاصيل كيفية تحميل مجموعة البيانات الجديدة، فقط أن جوجل ستساعد في التوزيع.

يجب أن تتجنب هذه العملية الجديدة لجمع البيانات النزاعات المتعلقة بانتهاك حقوق الطبع والنشر، حيث كانت العديد من شركات الذكاء الاصطناعي تواجه هذه المشكلة خلال العام الحالي. “تدمر مجموعات البيانات العامة الكبيرة مثل هذه مزيداً من ‘الدفاع بالضرورة’ الذي تستخدمه بعض شركات الذكاء الاصطناعي لتبرير استخراج الأعمال المحمية بحقوق الطبع والنشر لتدريب نماذجها”، هكذا قال إد نيوتن-ريكس، الذي كان تنفيذياً سابقاً في شركة Stability AI والذي يدير الآن منظمة غير ربحية تقدم شهادات لأدوات الذكاء الاصطناعي المدربة بشكل أخلاقي لمجلة Wired.

قاد نيوتن-ريكس مؤخراً عريضة لمنع شركات التكنولوجيا من استخراج البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها.

تطلق هارفارد قاعدة بيانات تدريب AI على نطاق كبير مجانية

يسعدنا أن عملنا أعجبك!

اترك تعليقًا