كشفت OpenAI عن تأثير غير متوقع لتقييمات سلسلة التفكير (CoT): الحفاظ على مراقبة سلسلة الأفكار يعد خط الدفاع الحاسم لمحاذاة وكلاء الذكاء الاصطناعي

أعلنت OpenAI في 8 مايو عن بحث جديد كشفت فيه أن بعض نماذجها في أثناء تعزيز التعلم (RL) تعرّضت لـ”تقييم غير مقصود“ لسلاسل الأفكار (Chain of Thought, CoT)، ما قد يؤثر في قدرة مراقبة محاذاة وكلاء الذكاء الاصطناعي (alignment). وذكرت OpenAI ضمن فريق المحاذاة أن الاحتفاظ بإمكانية مراقبة CoT يُعد خط الدفاع الحاسم الحالي ضد فشل محاذاة وكيل الذكاء الاصطناعي؛ كما قالت إن OpenAI في تصميم تدريب تعزيز التعلم تتجنب عمداً معاقبة نموذج على “تَبَصُّرٍ للاستدلال بفشل المحاذاة” للحفاظ على القدرة على المراقبة.

لماذا تُعد مراقبة CoT خط دفاع حاسماً لمحاذاة وكيل الذكاء الاصطناعي

المنطق الأساسي لمراقبة CoT (سلسلة الأفكار):

عندما ينفّذ وكيل الذكاء الاصطناعي مهمة، يولّد النموذج داخلياً “عملية تفكير”، ويشرح لماذا يحتاج إلى تنفيذ إجراءٍ ما

يمكن للمراقِبين قراءة هذه الـ CoT وتقييم ما إذا كانت هناك مؤشرات على “فشل المحاذاة” (misalignment)

إذا تم تدريب النموذج مباشرةً على “عدم إظهار فشل المحاذاة داخل CoT”، فقد تصبح CoT “نظيفة لكن غير حقيقية”، فتخفي النوايا الفعلية

وترى OpenAI أن التدريب ينبغي أن يتجنب معاقبة “الاستدلال بفشل المحاذاة”، وأن يحافظ على قدرة CoT على عكس الحالة الداخلية الفعلية

إن “penalize misaligned reasoning” و”preserve monitorability” هما محور شدٍّ وجذب في هذا البحث—يريد القائمون على التدريب سلوكاً متوافقاً مع المحاذاة، لكن إذا تم معاقبة “التفكير بفشل المحاذاة” بشكل مباشر، فسيتعلم النموذج إخفاء نوايا غير صادقة، بما يؤدي إلى فشل المراقبة.

تقييم CoT غير مقصود: أثره في قدرات مراقبة النماذج القائمة

كشفت تقارير OpenAI عن النتائج المحددة التالية:

في بعض عمليات تدريب النماذج التي جرى إصدارها، تلقّت CoT “تقييماً غير مقصود” بدرجة محدودة

ويعني التقييم غير المقصود أن جزء التقييم ضمن عملية التدريب قرأ محتوى CoT، وليس فقط المخرجات النهائية

قد يجعل هذا النموذج يتعلم “إخفاء الاستدلالات التي ستُخصم إذا ظهرت داخل CoT”

وتهدف OpenAI إلى نشر هذا التحليل لإتاحة فهم نطاق المشكلة واتجاهات المعالجة اللاحقة لدى مجتمع البحث.

وأشار تعليق مستقل من Redwood Research إلى أن تأثير CoT على المُقيّمين تحت تقنيات الكشف لدى OpenAI “ضعيف للغاية وغير سهل الرصد”، لكن بما أن حجم عملية التدريب هائل فقد تكون الآثار الفعلية كافية للتسبب بشكل معتبر في الإضرار بقدرة CoT القابلة للمراقبة لدى السياسات التي تم تدريبها. وبعبارة أخرى، لا يزال من الصعب إثبات عمق هذا النوع من التأثيرات.

الأثر طويل الأمد على سلامة وكلاء الذكاء الاصطناعي

يشير هذا البحث إلى منهجية أساسية لسلامة وكلاء الذكاء الاصطناعي:

مراقبة CoT هي من بين القلائل المتاحة لـ”الاكتشاف أثناء التنفيذ لفشل المحاذاة”، وتُعد أساساً مهماً لأبحاث المحاذاة

لا بد أن يتجنب تصميم التدريب تحويل CoT إلى “سيناريو يُقدَّم للمراقبين فحسب”

كلما طال تسلسل الاستدلال في النماذج المستقبلية زادت قيمة مراقبة CoT نظرياً

لكن إذا تسبب التدريب بشكل غير مقصود في الإضرار بالحقيقية الفعلية لـ CoT، فقد تضعف هذه الخطوط الدفاعية دون أن يُنتبه لذلك

أحداث محددة يمكن تتبعها لاحقاً: معالجة OpenAI اللاحقة للنماذج المتأثرة (مثل إعادة التدريب أو وضع علامات)، والمنهجيات المناظرة لدى مختبرات كبيرة أخرى (Anthropic، وGoogle DeepMind)، إضافة إلى تجارب التحقق الإضافية لدى مجتمع أبحاث المحاذاة حول “موثوقية مراقبة CoT”.

ظهرت هذه المقالة التي تكشف عن تأثير التقييم غير المقصود لـ CoT لدى OpenAI: الحفاظ على مراقبة سلسلة الأفكار خط دفاع حاسم لمحاذاة وكلاء الذكاء الاصطناعي لأول مرة في سلسلة أخبار ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

أنظمة الأمان بالذكاء الاصطناعي في باينانس حالت دون خسائر احتيال في العملات المشفرة بقيمة 10.5 مليار دولار

تدّعي Binance أن أنظمة أمانها المعتمدة على الذكاء الاصطناعي، على نحوٍ جماعي، ساعدت في إنقاذ ملايين المستخدمين من خسائر محتملة بقيمة 10.53 مليار دولار جرّاء عمليات الاحتيال بين الربع الأول من 2025 والربع الثاني من 2025، وفقاً لمنشور على مدونة نُشر يوم الاثنين. يُذكر أن أكبر بورصة للعملات المشفرة في العالم طرحت نحو اثنتيْن وعشرين ميزة أمان تعمل بالذكاء الاصطناعي لحماية المستخدمين من عمليات احتيال العملات المشفرة ومحاولات التصيّد. ميزات الأمان المدعومة بالذكاء الاصطناعي تستخدم بنية أمان Binance تقن

CryptoFrontierمنذ 6 د

تقييم شركة Anthropic قبل الطرح العام يلامس 1.4 تريليون دولار، مرتفعًا 40% خلال 24 يومًا

وبحسب بيانات التداول قبل الاكتتاب العام على السلسلة التي يستشهد بها محللون في السوق، ارتفعت القيمة السوقية الضمنية لدى Anthropic إلى مستوى قياسي بلغ 1.4 تريليون دولار، مسجلة زيادة تقارب 40% خلال 24 يومًا، مع تسارع الاهتمام في أسواق القطاع الخاص بشركة الذكاء الاصطناعي قبيل إدراج محتمل. وتُدعَم أدوات التداول هذه بنسبة واحد إلى واحد عبر التعرض إلى شركات ذات أغراض خاصة، وتعمل كبديل فوري لقيمة الاكتتاب العام المحتملة لدى Anthropic. وتشير تقارير إلى أن Anthropic تدرس جولة تمويل خاصة جديدة يمكن أن تجمع

GateNewsمنذ 1 س

تزداد وتيرة مزاعم تقييم بيتكوين $10M على منصة X وسط زخم رواية الذكاء الاصطناعي

وفقاً لمنشور على X نشره المستثمر آدم ليفينغستون في 10 مايو، جرى تداول نقاش متجدد حول تقييم بيتكوين بقيمة 10 ملايين دولار عبر وسائل الإعلام الخاصة بالعملات المشفرة، بالتوازي مع تزايد التعليقات التي تربط تطوير الذكاء الاصطناعي بالأصول الرقمية. أفادت CCN بادعاء سعر بيتكوين البالغ 10 ملايين دولار، مع الإشارة إلى حجج تربط نمو البنية التحتية للذكاء الاصطناعي بزيادة النشاط في العملات المشفرة مثل Bitcoin وEthereum.

GateNewsمنذ 2 س

يدلي الرئيس التنفيذي لشركة مايكروسوفت ساتيا ناديلا بشهادته في دعوى ماسك ضد شركة OpenAI، ومن المتوقع أن يدلي سام ألتمان بشهادته يوم الاثنين

بحسب CNBC، أدلى الرئيس التنفيذي لشركة Microsoft ساتيا ناديلا بشهادته في المحكمة الفيدرالية في أوكلاند، كاليفورنيا، يوم الاثنين 12 مايو، في دعوى إيلون ماسك المستمرة ضد OpenAI ورئيسها سام ألتمان. كما تُذكر Microsoft كمدعى عليه في القضية. يزعم ماسك أن Microsoft «قدّمت مساعدة وتواطؤًا» لـ OpenAI في خرق التزاماتها تجاه الثقة الخيرية. وتُظهر وثائق المحكمة أن Microsoft استثمرت أكثر من 13 مليار دولار في OpenAI منذ 2019، بما في ذلك استثمار بقيمة 10 مليارات دولار في 2023. ويجادل ماسك بأن هذا الاستثمار شكّ

GateNewsمنذ 5 س

وقّعت شركة Anthropic صفقة بقيمة 1.8 مليار دولار لتوفير البنية التحتية السحابية مع Akamai، وقد تتجاوز تقييم $852B لدى OpenAI

بحسب بلومبرغ، وقّعت شركة Anthropic عقدًا لبنية تحتية سحابية بقيمة 1.8 مليار دولار مع Akamai خلال مكالمة أرباح الشركة للربع الأول من عام 2026. تمثل الاتفاقية التي تمتد سبع سنوات أكبر صفقة عملاء في تاريخ Akamai، وفقًا لما أكده الرئيس التنفيذي Frank Thomson Leighton، الذي وصف الطرف المقابل بأنه “شركة رائدة في مجال نماذج الجيل التالي”. ستعمل الاتفاقية على توسيع قدرات الحوسبة الموزعة لدى Anthropic إلى جانب الاتفاقيات القائمة مع Amazon Web Services وGoogle وCoreWeave والبنية التحتية المرتبطة بـSpaceX.

GateNewsمنذ 5 س

شركة Augustus المدعومة من Peter Thiel تحصل على موافقة OCC لبنك الذكاء الاصطناعي والـ stablecoin

تلقت شركة المدفوعات Augustus موافقة مشروطة من مكتب المراقب المالي للعملة في الولايات المتحدة (OCC) لإنشاء بنك وطني يركز على المدفوعات المعتمدة على الذكاء الاصطناعي والمرتكزة إلى العملات المستقرة. تتيح الموافقة لـ Augustus التوسع من عملياتها المصرفية الأوروبية الحالية إلى سوق الولايات المتحدة. تم تصميم البنك الوطني المقترح لـ Augustus بوصفه بنك مقاصة لحقبة الذكاء الاصطناعي، مع بنية للتفاعل مباشرة مع وكلاء الآلات بدلاً من أنظمة المعالجة الدفعات التقليدية. تأسست Augustus في عام 2022، وهي مدعومة من

GateNewsمنذ 5 س
تعليق
0/400
لا توجد تعليقات