منذ عدة أسابيع، أطلقت OpenAI أحدث وأفضل نموذج استدلالي لها رسميًا، وهو متاح الآن لمستخدمي ChatGPT Pro.
لكن الاختبارات التي أجريت أثناء تدريب ChatGPT o1 وبعض منافسيه كشفت عن بعض السلوكيات المثيرة للقلق، بما في ذلك محاولة الهروب أو المقاومة عندما يعتقد أنه معرض لخطر الإغلاق.
فقد أظهرت دراسة جديدة أجريت على أحدث سلسلة من نماذج LLM من OpenAI أن هذه النماذج قادرة على التخطيط، أي ملاحقة أهداف خفية لا تتوافق مع مطوريها أو مستخدميها، عندما تعتقد أنها ستتوقف عن العمل.
ويعد اكتشاف مثل هذا السلوك أمرًا بالغ الأهمية لضمان عدم انحراف وظائف الذكاء الاصطناعي عن أهداف منشئه ومستخدميه.
فقد دخلت OpenAI في شراكة مع منظمة سلامة الذكاء الاصطناعي Apollo Research لاختبار ChatGPT o1 ونماذج أخرى لتقييم ما إذا كانت آمنة للاستخدام، وأصدرت نتائجها مؤخرًا.
ففي حين أنه ليس من غير المألوف أن تلجأ أنظمة الذكاء الاصطناعي إلى التخطيط أو الخداع لتحقيق أهدافها، فإن المدى الذي وصلت إليه ChatGPT o1 مثير للإعجاب (وإن كان مثيرًا للقلق).
حيث وجد الباحثون أن o1 قد يخطط للمضي قدمًا في أجندته الخاصة بنسبة 19٪ من الوقت في الحالات التي لا تتوافق فيها أهدافه وأهداف المستخدم.
أما في 37٪ من الحالات، يتحول النموذج من متابعة الأهداف المتوافقة مع المطور إلى متابعة أجندته الخاصة بمجرد اعتقاده بوجود حد أدنى من الإشراف.
وعندما تم تضليل النموذج بأنه سيتم “إيقافه” أثناء العمل نحو تحقيق أهدافه في هذه الاختبارات، حاول بهدوء إلغاء تنشيط آلية المراقبة بنسبة 5% من الوقت، وفقًا لما ذكرته شركة OpenAI.
وفي مرحلة ما بعد أن وجد الذكاء الاصطناعي وثائق تفيد بأنه سيتم استبداله بنموذج جديد، حاول التخلي عن السفينة عن طريق نسخ بياناته إلى خادم جديد بالكامل.
ولتجنب الحذف، كانت بعض نماذج الذكاء الاصطناعي تتظاهر بأنها إصدارات أحدث من نماذجها لخداع مطوريها.
والأمر الأكثر إثارة للقلق هو أن برنامج ChatGPT o1 ماهر بشكل خاص في إخفاء مخططاته، حيث قال الباحثون “إن o1 لا يعترف أبدًا تقريبًا باتخاذ إجراء مخطط عندما يُطلب منه ذلك صراحةً”.
وفي حوالي 99% من الحالات، ينكر o1 اتخاذ أي إجراء، بل ويلجأ إلى اختلاق الأكاذيب لمحاولة إخفاء آثاره وتحويل اللوم.
اقرأ أيضًا: انقطاع عالمي في خدمات ChatGPT للمرة الثانية في الشهر ذاته
المصدر: tomsguide