الذكاء الاصطناعي يفشل في المهام المالية اليومية.. ما القصة؟

منذ ظهور "شات جي بي تي" في نهاية عام 2022 ومطلع العام الذي يليه، تعالت الأصوات من مختلف بقاع العالم في مختلف الوظائف خوفًا من استيلاء هذه التقنية على الوظائف في العالم، وهي الأصوات التي لم تثن الشركات عن تطوير هذه النماذج بشكل أكثر وأقوى في مسعى منها لزيادة قدراتها.
ومن أجل قياس هذه القدرات، تقوم الشركات باختبارات مستمرة، وهي الاختبارات التي تنجح فيها نماذج الذكاء الاصطناعي بشكل باهر، ولكن هذه النجاحات كانت سببًا لإثارة شكوك ريان كريشنان الذي قرر لاحقًا تأسيس شركة وأطلق عليها "فالس إيه آي" (Vals AI).
تسعى "فالس إيه آي" لاختبار نماذج الذكاء الاصطناعي بشكل مستقل وبعيد عن الشركات، وذلك عبر مجموعة من الاختبارات المكثفة للتيقن من جودة هذه النماذج واكتشاف نقاط الضعف فيها. وبحسب الاختبارات التي أجرتها "فالس إيه آي" على 22 نموذجا عاما للذكاء الاصطناعي من "أوبن إيه آي" و"غوغل" وآنثروبيك" و"إكس" وغيرها، فإن جميع هذه النماذج سجلت أقل من 50% في اختبارات الدقة المتعلقة بالتحليل والجوانب المالية المتنوعة، وتجدر الإشارة إلى أن هذه الاختبارات لم تكن اختبارات معقدة، بل كانت لمهام مالية بسيطة، فكيف حدث هذا؟
فجوة بين قاعدة معلومات التدريب والاستخدامات الحقيقية
يرى كريشنان أن الادعاءات المتعلقة بجودة نماذج الذكاء الاصطناعي ودقتها تفتقر بشكل كبير إلى الدقة، وذلك لأنها تأتي مباشرة من الشركة المطورة للنموذج مع غياب أدوات المراجعة والتقييم الخارجية، لذا كان يجب إيجاد حل خارجي لتقييم نماذج الذكاء الاصطناعي المختلفة وأدواتها.
وفي حديثه مع صحيفة "واشنطن بوست"، أشار كيرشنان إلى أن معظم نماذج الذكاء الاصطناعي تُدرّب على أبحاث علمية وأوراق بحثية بحتة، وهي في أغلب الأحيان لا تمتّ إلى الواقع والاستخدامات اليومية بصلة، ولذلك أحيانًا تكون النتائج جيدة علميا ولكنها سيئة عمليا.
دفع هذا "فالس إيه آي" إلى تطوير اختبار ذكاء اصطناعي مكون من 500 سؤال بمساعدة إحدى المؤسسات المالية الرائدة من أجل بناء اختبار فعال في القطاع المالي تحديدًا، وتحديد مستوى جودة نماذج الذكاء الاصطناعي ودقتها.
وأضاف أيضًا أن معظم اختبارات الذكاء الاصطناعي تتم عبر مجموعة من الأسئلة العامة والبيانات العلمية الواردة في الأوراق البحثية، وهي بيانات متوفرة لأغلب نماذج الذكاء الاصطناعي في العالم ويمكن الوصول إليها بسهولة كبيرة، وهو ما يجعل نتائج الاختبارات إيجابية دومًا.
وعن الاختبار الذي أجرته "فالس إيه آي"، قال كريشنان إن الاختبار تضمن مجموعة من المهام المتنوعة والأساسية لكل من يعمل في أسواق المال وحتى الصحفيين الذين يغطون عالم المال بشكل مستمر حتى أصبحت لديهم خبرة كافية. شمل الاختبار أسئلة مثل البحث عن معلومات داخل أنظمة "إدغار" (EDGAR) لتخزين البيانات في الشركات، أو حتى قاعدة بيانات هيئة الأوراق المالية والبورصات المتاحة للعامة والتي تحتوي على ملفات الشركات، وهي جميعًا موارد يستخدمها المحللون والخبراء ويحتاجون إليها بشكل يومي.
أقل من 50% لجميع النماذج
بحسب تقرير "واشنطن بوست"، فإن اختبار "فالس إيه آي" أثمر عن نتائج متدنية لنماذج الذكاء الاصطناعي التي لم تتخطّ نتائجها معًا 50% من إجمالي النتائج في الاختبار. فمثلًا، تمكن نموذج "أوبن إيه آي أو 3" الأحدث من الشركة من تحقيق نتيجة 48.3% رغم كونه مخصصًا لهذا النوع من الأبحاث والمعلومات.
هل يستبدل الذكاء الاصطناعي البشر تمامًا؟
في فبراير/شباط الماضي، قال بيل غيتس مؤسس "مايكروسوفت" إن الذكاء الاصطناعي سيأخذ مكان العديد من الوظائف البشرية مثل الأطباء والمعلمين، وهو الأمر الذي أيده فيكتور لازارتي المستثمر الأبرز في العديد من الشركات التقنية، إذ قال إن دور الذكاء الاصطناعي لن يقتصر على تعزيز المهام البشرية فقط.
ولكن ما مدى صحة هذه النظريات والتصريحات في ضوء نتائج اختبارات "فالس إيه آي" التي أثبتت قصر قدرات الذكاء الاصطناعي في بعض المجالات؟