تدشين مؤسسة جائزة آرك للمعيار الجديد الصعب للذكاء العام الاصطناعي، والكشف عن ضعف الذكاء الاصطناعي

Photo by Igor Omilaev on Unsplash

تدشين مؤسسة جائزة آرك للمعيار الجديد الصعب للذكاء العام الاصطناعي، والكشف عن ضعف الذكاء الاصطناعي

وقت القراءة: 3 دقائق

أعلنت مؤسسة Arc Prize الغير ربحية عن معيار جديد، ARC-AGI-2، لتحدي نماذج الذكاء الاصطناعي الرائدة في التفكير والقدرات على مستوى الإنسان يوم الاثنين. كما أعلنت المنظمة عن مسابقة جديدة، ARC Prize 2025، التي ستقام من مارس إلى نوفمبر، وسيحصل الفائز على الجائزة الكبرى بقيمة 700,000 دولار.

في عجلة من أمرك؟ إليك الحقائق السريعة:

  • أطلقت مؤسسة Arc Prize معيارًا جديدًا يُدعى ARC-AGI-2 لاختبار نماذج الذكاء الاصطناعي على مهارات التفكير على مستوى الإنسان.
  • فشلت أفضل النماذج الحالية للذكاء الاصطناعي في الاختبار، حيث حصلت على درجات تتراوح بين 0.0% و 4%، بينما حصل البشر على درجات تصل حتى 100%.
  • أعلنت المنظمة غير الربحية أيضًا عن مسابقة ARC Prize 2025 للمعيار، وسيحصل الفائز على جائزة قدرها 700,000 دولار.

وفقاً للمعلومات التي قدمتها المنظمة، لم تتمكن النماذج الأكثر شعبية للذكاء الصناعي في السوق من تجاوز درجة 4% في الاختبار ARC-AGI-2، بينما يمكن للبشر حل الاختبار بسهولة.

“نحن متحمسون اليوم لإطلاق ARC-AGI-2 لتحدي الحدود الجديدة”، يذكر الإعلان. “ARC-AGI-2 هو أصعب بكثير بالنسبة للذكاء الاصطناعي (وبالأخص، أنظمة التفكير الاصطناعي)، بينما يحافظ على نفس السهولة النسبية بالنسبة للبشر.”

ARC-AGI-2 هو الإصدار الثاني من المعيار الذي وضعته المنظمة، ARC-AGI-1، الذي تم إطلاقه في عام 2019. في الاختبار السابق، فقط OpenAI’s o3 حقق نتيجة ناجحة بنسبة 85% في ديسمبر 2024.

تركز هذه النسخة الجديدة على المهام التي تكون سهلة للبشر وصعبة على نماذج الذكاء الاصطناعي – أو كانت مستحيلة حتى الآن. على عكس المعايير الأخرى، لا يعتبر ARC-AGI-2 مهارات الدكتوراه أو القدرات الخارقة للإنسان، بل يقيم المهام قدرة التكيف ومهارات حل المشكلات عن طريق تطبيق المعرفة الموجودة.

أوضح جائزة Arc أن كل مهمة في الاختبار تم حلها بواسطة البشر في أقل من محاولتين، ويجب أن تتوافق نماذج الذكاء الاصطناعي مع قواعد مماثلة، مع النظر في الأسعار الأدنى. يتضمن الاختبار تفسيرًا رمزيًا – يجب أن تفهم نماذج الذكاء الاصطناعي الرموز بما يتجاوز الأنماط البصرية – ، مع النظر في القواعد المتزامنة، والقواعد التي تتغير حسب السياق – شيء يفشل فيه معظم أنظمة التفكير الذكاء الاصطناعي.

قامت المنظمة بتجربة المعيار الجديد مع البشر ونماذج الذكاء الصناعي العامة. حققت اللجان البشرية نسبة 100% و 60% في حين حققت الأنظمة الرائدة الشعبية مثل R1 و R1-zero لـ DeepSeek نسبة 0.3%، وحققت النماذج النقية LLM و o3-mini-high لـ GPT-4.5 نسبة 0.0%. وصلت تقديرات o3-low لـ OpenAI باستخدام التفكير المتسلسل، والبحث، والتوليف إلى حوالي 4%، وذلك بتكلفة مرتفعة لكل مهمة.

أطلقت Arc Prize أيضًا أحدث مسابقة مفتوحة المصدر، ARC Prize 2025، التي استضافت بين شهري مارس ونوفمبر على منصة Kaggle الإلكترونية الشهيرة. سيحصل الفريق الأول الذي يصل إلى نتيجة أعلى من 85% – وكفاءة $2.5 / المهمة – على المعيار ARC-AGI-2 على الجائزة الكبرى بقيمة $700,000. سيكون هناك أيضًا جوائز للأوراق البحثية وجوائز أخرى للنتائج العليا.

قالت المؤسسة أنه سيتم تقديم مزيد من التفاصيل على الموقع الرسمي وفي الأيام القادمة.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

اترك تعليقًا

Loader
Loader عرض المزيد…