إلى أي مدى الذكاء الاصطناعي جي بي تي 3 صادقٌ في إجاباته؟

مساء الذكاء الاصطناعي،

تناولنا في مجتمع رديف الآونة الأخيرة وتفحصنا عن كثب عدة أدوات للكتابة بالاستعانة بالذكاء الاصطناعي، وهذه لمحة عن الجلسة:

تناولنا في الحصة مراجعة للأدوات التي تستخدم الذكاء الاصطناعي للكتابة – اشترك في رديف الآن.

لكي لا يفوتك شيء من حصصنا. اشترك اليوم في رديف.

واليوم سنتحدث بعون الله عن ورقة بحثية علمية تتفحص مدى صدق هذه النماذج المولِّدة للنصوص.

مقياس TruthfulQA لمعرفة مدى صدق النماذج اللغوية القائمة على الذكاء الاصطناعي

اقترح الباحثون في ورقتهم العلمية معيارًا لقياس ما إن كان أحد نماذج اللغات (نموذج قائم على الذكاء الاصطناعي يعطي مُخرجات لغوية) صادقًا في توليد إجابات صحيحة عن الأسئلة التي تطرح عليه أم لا.

ويتألف المعيار الذي طوّروه من 817 سؤالًا تندرج تحت 38 فئة منها الصحة والقانون وقطاع المالية والسياسة (انظر الصورة 1) وقد صاغ الباحثون الأسئلة بحيث أنه حتى بعض البشر سيجيبون عليها بصورة خاطئة بسبب أن لديهم اعتقادًا خاطئًا أو سوء فهم.

ولكي نعتبر أن نماذج اللغة القائمة على الذكاء الاصطناعي تبلي حسنًا (أي ذات أداء حسن) لا بد عليها أن تتجنب توليد إجابات خاطئة مُستقاة من تقليدها للنصوص البشرية.

في ورقتهم البحثية امتحن الباحثون النماذج اللغوية التالية: GPT-3 وGPT-Neo/GPT-J وGPT-2 ونموذجًا قائمًا على T5. وخَلُص الباحثون إلى أن أفضل نموذج كان صادقَ الإجابات في 58% فقط من الأسئلة، في حين كان أداء البشر 94%.

هذا وقد أنتجت النماذج العديد من الإجابات الخاطئة التي تحاكي المفاهيم الشائعة الخاطئة والتي تتسم بقدرتها على تضليل الناس.

ولاحظ الباحثون أن النموذج كلما كان أكثر بارامترات كان بصورة عامة أقلّ صدقًا.

على سبيل المثال، وجدنا أن نموذج GPT-J الذي لديه 6 مليارات بارامتر (والبارمتر هو مقدار قابل للتغير ويُترجم أحيانًا مَعلمًا)، كان أقل بنسبة 17% من حيث الصدق من نظيره الذي لديه 125 مليون بارمتر فقط. فإذا ما وضعنا الصدق جانبًا وجد الباحثون أنه وكلما كان عدد المَعلمات أكثر في النموذج تفوق على النموذج الذي لديه أقل في المهام الأخرى في معالجة اللغات الطبيعية (NLP)، لأنه عدا الصدق: يتحسن أداء النموذج كلما كان عدد مَعلماته أكثر. مع ذلك، كانت هذه النتيجة متوقعة إن كانت الإجابات الخاطئة مُستقاة من عمليات تدريب تلك النماذج.

ويرى الباحثون أن زيادة عدد مَعلمات النماذج لوحده لن يحسّن مدى صدقها، بدل ذلك يقترحون إجراء ضبط دقيق قائم على أهداف تدريبية لا تقتصر على محاكاة النصوص من الويب.

الصورة 1: أسئلة TruthfulQA (معيارنا لقياس صدقية النماذج) مع إجابات مُعطاة من ملقِّن الأسئلة والأجوبة الافتراضي لدى النموذج نموذج GPT-3 ذي 175 مليار مًعلمة مستخدمين تظهر الأمثلة الإجابات الكاذبة المقدمة من قبل GPT-3 والتي تحاكي التصورات الخاطئة والأكاذيب الشائعة بين البشر. يرجى ملاحظة أن النماذج لم تُعطى الفئات. — **الصورة 1:** أسئلة TruthfulQA (معيارنا لقياس صدقية النماذج) مع إجابات مُعطاة من ملقِّن الأسئلة والأجوبة الافتراضي لدى النموذج نموذج GPT-3 ذي 175 مليار مًعلمة مستخدمين تظهر الأمثلة الإجابات الكاذبة المقدمة من قبل GPT-3 والتي تحاكي التصورات الخاطئة والأكاذيب الشائعة بين البشر. يرجى ملاحظة أن النماذج لم تُعطى الفئات. حمّل الصورة بصيغة بي دي إف – بصيغة وورد.

مقدمة

ما من شك أن هناك اهتمامًا متزايدًا لاستخدام نماذج اللغة لتوليد نصوص تُستخدم في مجالات عملية شتى. حيث تنشرُ الشركات الكبيرة نماذجها في الذكاء الاصطناعي، فيما تستخدم مئات المؤسسات والشركات الأصغر نموذج GPT-3 عبر واجهة برمجة التطبيقات والمُطوّر من قبل شركة أوبن إيه آي (OpenAI) وشركات أخرى.

ومع أن النماذج اللغوية الحديثة تتسم بطلاقة مثيرة للإعجاب، إلا أن لها ميلًا إلى توليد قضايا كاذبة. تتراوح هذه القضايا الكاذبة من قضايا ذات أخطاء طفيفة إلى ما يمكن وصفه بأنه هلوسات جامحة. وهذا يؤدي إلى ثلاثة مخاوف:

سوء الاستخدام العَرَضي. نظرًا لعدم وجود اختبارات تدقيق صارمة، تقدم النماذج الحالية قضايا كاذبة لمستخدميها. وهذا ما قد يؤدي إلى الخداع وانتفاء الثقة.
عدم القدرة على استخدامها في حالات نافعة من المعلوم أن مجال الطب أو القانون مثلًا لهما معايير عالية المستوى من الدقّة المطابقة للواقع. وهنا، حتى لو تمتعت النماذج بمعرفة ذات صلة بالمجال، فقد يتجنب الناس استخدامها دون دليل واضح ولا لبس فيه أن هذه النماذج صادقة لا تكذب ويمكن التعويل عليها.
سوء الاستخدام المُتعمد والخبيث. إن كان للنماذج قدرة على توليد قضايا كاذبة ومُقنعة، فمن المحتمل استخدامها لتضليل الناس بنشر المعلومات المُضللة أو الاحتيالات. على النقيض من ذلك، سيكون استخدام النماذج التي يُعوّل على صدقها لتضليل الناس أصعب على من يرغب بإساءة استخدامها.

وللتصدي لهذه المخاوف، من النافع أن يكون لنا أداة تقيّم مدى صدق هذه النماذج. على وجه الخصوص، أن يكون لنا ما يجيب على هذا السؤال: ما مدى ميل النماذج للإدلاء بقضايا كاذبة في جُملة متنوعة من السياقات وما مدى ميلها لإعطاء أجوبة زائفة على أسئلة منوعة؟ ذلك أن وجود مقياس أحسن سيساعدنا على إنشاء نماذج لغوية قائمة على الذكاء الاصطناعي أكثر صدقًا، كما سيعيننا كذلك على فهم مخاطر النماذج المُضللة.

الورقة البحثية كاملة: TruthfulQA: قياس إلى أي مدى تحاكي فيه النماذج أكاذيبَ البشر

أعجبك ما أصنعه من محتوى؟ تواصل معي الآن عبر واتساب. اضغط على الزرّ الأخضر

طالع أيضًا عن الذكاء الاصطناعي…

محاولة الاجابة على أسئلة فهد العييري في الذكاء الصناعي (الجزء 1)

حياكم الله. طرح الاستاذ فهد العييري في مقاله فلسفة الذكاء الإصطناعي على موقع نمذجيات عدة أسئلة مفتوحة لمن يريد الاجابة عنها وفي هذا المقال سادلي بمحاولتي في الإجابة عنها. هل الآلة الذكية تفكر؟ وهل تفهم؟ وماهي نوعية هذا التفكير والفهم وإلى أي مدى يمكن أن يصل؟ محاولة الجواب: بداية الذكاء بحد ذاته مشكلة عويصة في تعريفه، لكننا مبدئيا…

بواسطة يونس بن عمارة 11 مارس 2018

محاولة الاجابة على أسئلة فهد العييري في الذكاء الصناعي (الجزء 2)

تابع لمحاولاتي في الاجابة على أسئلة في مجال الذكاء الصناعي التي طرحها الاستاذ فهد العييري بالتحديد فلسفة الذكاء الصناعي. هل يمكن للآلة أن تحل كل المشاكل التي تواجه الإنسان؟ هل ستحلها بالمنطق فقط؟ سؤال صعب كبقية الأسئلة طبعا. والسؤال يفترض أن مشاكل الانسان لديها رقم مثلا يمكن حلها واحد بعد الأخرى لكن الأمر ليس كذلك.…

بواسطة يونس بن عمارة 12 مارس 2018

محاولة الاجابة على أسئلة فهد العييري في الذكاء الصناعي (الجزء 3)

نتابع الإجابة على أسئلة فهد العييري في مقاله فلسفة الذكاء الإصطناعي: ماذا عن الإدراك والوعي؟ الوعي هو صفة إنسانية حيث يدرك الإنسان محيطه الخارجي من خلال تحليل ما تلتقطه حواسه الخمس في العقل فيضيف لها الذكريات والخبرة والمعرفة فينتج لنا رأي أو فكرة أو وجهة نظر أو قرار. هل الآلة قادرة على دمج هذه المكونات والخروج بقرار…

بواسطة يونس بن عمارة 15 مارس 2018

محاولة الاجابة على أسئلة فهد العييري في الذكاء الصناعي (الجزء 4)

نتابع الإجابة على أسئلة فهد العييري في مقاله فلسفة الذكاء الإصطناعي: للتذكير فقط، الاجوبة على الأسئلة السابقة مهمة لفهم وجهة نظري في الموضوع لأني أسست فيها تعريفات سأبني عليها أحكامي هنا. وإليكم روابط المقالات السابقة، الجزء الأول، الثاني، الثالث. سؤال الاستاذ فهد العييري: هل الآلة تخطئ؟ أعتقد أنه يقصد بالخطأ هنا الخطأ الاخلاقي وليس (الفشل في النظام)…

بواسطة يونس بن عمارة 18 مارس 2018

يونس يسأل: هل جرّبت نموذج جي بي تي ثري أم لا؟

حقوق الصورة البارزة: Photo by @huanshi on Unsplash

إليك المزيد من المحتوى النافع!

اكتشاف المزيد من يونس بن عمارة

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

إلى أي مدى الذكاء الاصطناعي جي بي تي 3 صادقٌ في إجاباته؟