نجح o3 من OpenAI في تحقيق مستوى الذكاء البشري في اختبار المعيار الرئيسي

Image by Freepik

نجح o3 من OpenAI في تحقيق مستوى الذكاء البشري في اختبار المعيار الرئيسي

وقت القراءة: 4 دقائق

حققت الذكاء الاصطناعي اختراقاً حديثاً أقرب الباحثين إلى خلق الذكاء العام الاصطناعي (AGI)، وهو هدف طال انتظاره في المجال.

في عجلة من أمرك؟ هنا الحقائق السريعة!

  • حققت الذكاء الصناعي o3 من OpenAI نسبة ٨٥٪ في اختبار ARC-AGI للذكاء العام.
  • النتيجة تعادل أداء الإنسان العادي وتتجاوز رقم الذكاء الصناعي السابق البالغ ٥٥٪.
  • يقيس اختبار ARC-AGI كفاءة العينة والقدرة على التكيف مع المهام الجديدة.

حقق نظام الذكاء الاصطناعي الجديد لـ OpenAI، والمعروف بـ o3، نتيجة بلغت 85% في اختبار ARC-AGI – وهو اختبار مصمم لقياس قدرة الذكاء الاصطناعي على التكيف مع الحالات الجديدة، كما أفادت المحادثة.

تتجاوز هذه النتيجة أفضل أداء سابق للذكاء الاصطناعي بنسبة 55% وتتوافق مع الأداء البشري المتوسط، مما يشكل معلمًا هامًا في البحث عن الذكاء الاصطناعي. يقيم معيار ARC-AGI “كفاءة العينة” لنظام الذكاء الاصطناعي، والتي تشير إلى مدى قدرته على التعلم من الأمثلة المحدودة، كما ذكرت The Conversation.

بخلاف النماذج المستخدمة على نطاق واسع مثل ChatGPT، التي تعتمد على مجموعات بيانات ضخمة لتوليد النتائج، يظهر النموذج o3 القدرة على التعميم والتكيف مع المهام الجديدة ببيانات قليلة. يعتبر هذا القدرة أساسية لتحقيق الذكاء البشري، وفقًا لما أفادته The Conversation.

تم تطويره من قبل الباحث الفرنسي في الذكاء الاصطناعي فرانسوا شوليه، يتضمن اختبار ARC-AGI حل الألغاز المبنية على الشبكة عن طريق التعرف على النماذج.

النماذج التقليدية لـ LLM تعتمد على الحفظ والاسترجاع وتطبيق “البرامج المصغرة” المتعلمة مسبقاً، لكنها تواجه صعوبات في الذكاء السائل، كما يتضح من النتائج المنخفضة في معيار ARC-AGI. يقدم نموذج o3 آلية توليد برامج في وقت الاختبار، مما يمكنه من إنشاء وتنفيذ حلول جديدة، كما أوضح شوليه.

توضح شوليت أنه في جوهره، يقوم o3 بإجراء بحث برمجي بلغة طبيعية داخل مساحة الرمز، بتوجيه من نموذج المقيم. عند مواجهته بمهمة، يستكشف o3 الـ “سلاسل الأفكار” المحتملة (CoTs) – الحلول التي تم وصفها خطوة بخطوة باللغة الطبيعية.

يقوم بتقييم هذه الـ CoTs من حيث اللياقة، مع إعادة تجميع المعرفة في برامج متماسكة لمواجهة التحديات الجديدة بفعالية. تشير المحادثة إلى أن OpenAI لم تكشف عن الأساليب الدقيقة المستخدمة لتطوير o3، ولكن الباحثين يتوقعون أن النظام يستخدم عملية تشبه إلى حد ما AlphaGo التابعة لجوجل، التي هزمت بطل العالم في لعبة Go في عام 2016.

ومع ذلك، تشير توضيحات Chollet إلى أن العملية تحتاج إلى مجهود حوسبي كبير. قد تتضمن توليد الحلول استكشاف ملايين الطرق المحتملة في مجال البرنامج، مما يتسبب في تكاليف كبيرة من حيث الوقت والموارد. على عكس الأنظمة مثل AlphaZero، التي تكتسب القدرات بشكل مستقل من خلال التعلم التكراري، يعتمد o3 على بيانات CoT التي تم تصنيفها من قبل الخبراء، مما يحد من استقلاليته.

بالرغم من هذه النتائج المبشرة، لا تزال هناك أسئلة كبيرة معلقة. أصدرت OpenAI معلومات محدودة عن o3، وشاركت التفاصيل فقط مع بعض الباحثين والمؤسسات المختارة.

تشير المحادثة إلى أنه غير واضح ما إذا كانت قابلية النظام للتكيف تنبع من تحسينات أساسية في النماذج الأساسية أو من التحسينات المحددة للمهمة أثناء التدريب. ستكون الاختبارات الإضافية والشفافية حاسمة لفهم القدرات الحقيقية لـ o3.

وعلاوة على ذلك، يسلط الضوء على تكلفة هذه الذكاء: حل مهام ARC-AGI يكلف البشر 5 دولارات ولكنه يكلف o3 من 17 إلى 20 دولارًا في وضع الحساب المنخفض. ومع ذلك، يتوقعون تحسينات سريعة، مما يجعل o3 قادرًا على المنافسة مع الأداء البشري قريبًا.

يعيد هذا الإنجاز إشعال النقاشات حول الجدوى والآثار المحتملة للذكاء الصناعي العام (AG). بالنسبة لبعض الباحثين، يجعل نجاح o3 آفاق الذكاء الصناعي العام أكثر واقعية وإلحاحا. وهذا أمر بالغ الأهمية في ظل القلق من أمن المعلومات، حيث تتفادى الإصدارات الضارة التي تولدها الذكاء الصناعي اكتشافها بشكل متزايد.

ومع ذلك، يظل البعض حذرًا، مشددًا على ضرورة إجراء تقييمات قوية لتحديد ما إذا كانت قدرات o3 تتجاوز المعايير الخاصة. بينما ينتظر مجتمع الذكاء الصناعي الوصول الأوسع إلى o3، يشير الإنجاز إلى لحظة تحول في السعي نحو أنظمة ذكية قادرة على التفكير والتعلم مثل البشر.

هل أعجبك هذا المقال؟ امنحه تقييمًا!
كان سيئًا لم يعجبني كان معقولًا جيد إلى حد كبير! أحببته!

يسعدنا أن عملنا أعجبك!

نهتم برأيك لأنك من قرّائنا الذين نقدِّرهم، فهلّ يمكن أن تقيّمنا على Trustpilot؟ إنه إجراء سريع ويعني الكثير لنا. شكرًا لتعاونك القيّم!

قيِّمنا على Trustpilot
0 بتصويت 0 من المستخدمين
عنوان
تعليق
شكرًا على ملاحظاتك!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

اترك تعليقًا

Loader
Loader عرض المزيد…