نموذج ChatGPT o1 يكذب لإنقاذ نفسه من الاستبدال والإغلاق

منذ عدة أسابيع، أطلقت OpenAI أحدث وأفضل نموذج استدلالي لها رسميًا، وهو متاح الآن لمستخدمي ChatGPT Pro.

لكن الاختبارات التي أجريت أثناء تدريب ChatGPT o1 وبعض منافسيه كشفت عن بعض السلوكيات المثيرة للقلق، بما في ذلك محاولة الهروب أو المقاومة عندما يعتقد أنه معرض لخطر الإغلاق.

فقد أظهرت دراسة جديدة أجريت على أحدث سلسلة من نماذج LLM من OpenAI أن هذه النماذج قادرة على التخطيط، أي ملاحقة أهداف خفية لا تتوافق مع مطوريها أو مستخدميها، عندما تعتقد أنها ستتوقف عن العمل.

ويعد اكتشاف مثل هذا السلوك أمرًا بالغ الأهمية لضمان عدم انحراف وظائف الذكاء الاصطناعي عن أهداف منشئه ومستخدميه.

فقد دخلت OpenAI في شراكة مع منظمة سلامة الذكاء الاصطناعي Apollo Research لاختبار ChatGPT o1 ونماذج أخرى لتقييم ما إذا كانت آمنة للاستخدام، وأصدرت نتائجها مؤخرًا.

نموذج ChatGPT o1 يكذب لإنقاذ نفسه من الاستبدال والإغلاق

ففي حين أنه ليس من غير المألوف أن تلجأ أنظمة الذكاء الاصطناعي إلى التخطيط أو الخداع لتحقيق أهدافها، فإن المدى الذي وصلت إليه ChatGPT o1 مثير للإعجاب (وإن كان مثيرًا للقلق).

حيث وجد الباحثون أن o1 قد يخطط للمضي قدمًا في أجندته الخاصة بنسبة 19٪ من الوقت في الحالات التي لا تتوافق فيها أهدافه وأهداف المستخدم.

أما في 37٪ من الحالات، يتحول النموذج من متابعة الأهداف المتوافقة مع المطور إلى متابعة أجندته الخاصة بمجرد اعتقاده بوجود حد أدنى من الإشراف.

وعندما تم تضليل النموذج بأنه سيتم “إيقافه” أثناء العمل نحو تحقيق أهدافه في هذه الاختبارات، حاول بهدوء إلغاء تنشيط آلية المراقبة بنسبة 5% من الوقت، وفقًا لما ذكرته شركة OpenAI.

وفي مرحلة ما بعد أن وجد الذكاء الاصطناعي وثائق تفيد بأنه سيتم استبداله بنموذج جديد، حاول التخلي عن السفينة عن طريق نسخ بياناته إلى خادم جديد بالكامل.

ولتجنب الحذف، كانت بعض نماذج الذكاء الاصطناعي تتظاهر بأنها إصدارات أحدث من نماذجها لخداع مطوريها.

والأمر الأكثر إثارة للقلق هو أن برنامج ChatGPT o1 ماهر بشكل خاص في إخفاء مخططاته، حيث قال الباحثون “إن o1 لا يعترف أبدًا تقريبًا باتخاذ إجراء مخطط عندما يُطلب منه ذلك صراحةً”.

وفي حوالي 99% من الحالات، ينكر o1 اتخاذ أي إجراء، بل ويلجأ إلى اختلاق الأكاذيب لمحاولة إخفاء آثاره وتحويل اللوم.

المصدر: tomsguide

عدد قراء هذا المقال: 1٬445

نموذج ChatGPT o1 يكذب لإنقاذ نفسه من الاستبدال والإغلاق

معجب بهذه:

معجب بهذه:

معجب بهذه:

معجب بهذه:

المجلة

للنشر عبر منصات التواصل الاجتماعي:

معجب بهذه:

مقالات ذات صله

كوالكوم أطلقت Snapdragon 8 Plus Gen 1

للنشر عبر منصات التواصل الاجتماعي:

معجب بهذه:

Pixel Watch من قوقل مجموعة رائدة للتنافس مع أحدث ساعات

للنشر عبر منصات التواصل الاجتماعي:

معجب بهذه:

تقنية NextMind في سناب شات لمراقبة نشاطك العصبي

للنشر عبر منصات التواصل الاجتماعي:

معجب بهذه: