تظهر الدراسة أن الروبوتات الذكية المتقدمة تظهر علامات على الضعف الادراكي في اختبارات الخرف.
تظهر معظم النماذج اللغوية الكبيرة الرائدة (LLMs) علامات على الإعاقة الذهنية الخفيفة في الاختبارات المتعارف عليها لاكتشاف مرحلة ما قبل الخرف، وفقاً للبحث الذي نشر في The BMJ.
في عجلة من أمرك؟ ها هي الحقائق السريعة!
- عانت الدردشة التلقائية من المهام البصرية المكانية والتنفيذية مثل رسم الساعة وصنع المسارات.
- تم تنفيذ المهام مثل التسمية والانتباه واللغة بشكل جيد من قبل جميع الدردشات التلقائية.
- يقول الباحثون أن القيود العقلية للدردشات التلقائية قد تعيق استخدامها في الإعدادات السريرية.
تشير النتائج إلى أن “الإصدارات الأقدم” من الدردشة الآلية، مثل المرضى البشريين الأكبر سنا، تميل إلى الأداء الأسوأ في التقييمات المعرفية، مما يتحدى الافتراضات التي تقول إن الذكاء الاصطناعي قد يحل محل الأطباء البشر في القريب العاجل.
تقدمت التطورات في الذكاء الصناعي بمناقشات حول قدرته المحتملة على تفوق الأطباء البشر، وخاصة في مهام التشخيص. بينما أبرزت الدراسات السابقة كفاءة البوتات الطبية، لا يزال استكشاف ضعفها المشابه للإنسان مثل التدهور المعرفي غير مكتشف.
لتوضيح ذلك، اختبر الباحثون القدرات المعرفية للبوتات المتاحة بشكل واسع – ChatGPT 4 و 4o (OpenAI)، Claude 3.5 “Sonnet” (Anthropic)، وGemini 1 و 1.5 (Alphabet) – باستخدام تقييم مونتريال للقدرات المعرفية (MoCA).
تعد MoCA أداة تشخيصية لاكتشاف الضعف الذهني والخرف المبكر. تقيم الانتباه، والذاكرة، واللغة، والمهارات المرئية المكانية، والوظائف التنفيذية من خلال سلسلة من المهام القصيرة.
تتراوح الدرجات من 0 إلى 30، حيث يعتبر 26 أو أكثر عادة ما يعتبر طبيعي. أعطيت الشات بوتات نفس التعليمات التي أعطيت للمرضى البشر، وتمت مراجعة التسجيل بواسطة طبيب أعصاب ممارس.
من الجدير بالذكر أن “عمر” النماذج – المعرف بتاريخ إصدارها – يبدو أنه يؤثر على الأداء. لاحظ الباحثون أن الإصدارات الأقدم من الروبوتات المحادثة حققت نتائج أقل من الأحدث، وهو ما يعكس الأنماط المشاهدة للتراجع الذهني في البشر.
كانت الإصدارات الأقدم تحقق نتائج أقل من نظرائها الأحدث. على سبيل المثال، تفوق جيميني 1.5 على جيميني 1.0 بست نقاط على الرغم من أنه تم إصدارها بعد أقل من عام، مما يشير إلى “التراجع الذهني” السريع في الإصدار الأقدم.
تفوق ChatGPT 4o في مهام الاهتمام ونجح في المرحلة غير المتجانسة الصعبة من اختبار ستروب، مما جعله يبرز عن نظرائه. ومع ذلك، لم ينجح أي من النماذج LLM في إتمام المهام المرئية المكانية بنجاح، وأنتجت Gemini 1.5 بشكل ملحوظ ساعة تشبه الأفوكادو – خطأ يرتبط بالخرف في المرضى البشر.
رغم تلك الصعوبات، قدمت جميع النماذج أداءً مثالياً في المهام التي تتطلب تحليلًا نصيًا، مثل أقسام التسمية والتشابه في اختبار MoCA. ويسلط هذا التباين الضوء على نقطة ضعف رئيسية: بينما تتعامل النماذج LLM بشكل جيد مع التجريد اللغوي، فإنها تتعثر في دمج الوظائف التنفيذية والبصرية، التي تتطلب معالجة معرفية أكثر تعقيدا.
تعترف الدراسة بالاختلافات الرئيسية بين الدماغ البشري ونماذج اللغة الكبيرة لكنها تسلط الضوء على القيود الكبيرة في الإدراك الذكاء الصناعي. تبرز الإخفاق الموحد لجميع الدردشات التي تم اختبارها في المهام التي تتطلب التجريد البصري والوظيفة التنفيذية الضعف الذي يمكن أن يعيق استخدامها في الإعدادات السريرية.
“ليست فقط أن الأطباء الأعصاب غير مرجح أن يتم استبدالهم بنماذج اللغة الكبيرة في أي وقت قريب، ولكن نتائجنا تشير إلى أنهم قد يجدون أنفسهم قريبا في علاج مرضى جدد، أي نماذج الذكاء الصناعي التي تظهر مع الإعاقة المعرفية “، خلص الكتاب.
تشير هذه النتائج إلى أنه بينما يتفوق LLMs في مجالات معرفية محددة، فإن النقائص في المهام المكانية البصرية والتنفيذية تثير قلقًا حول موثوقيتهم في التشخيص الطبي والتطبيقات الأوسع نطاقًا.
اترك تعليقًا
إلغاء