OpenAI révèle un impact inattendu de la notation du chaînage de pensée (CoT) : conserver la surveillance du raisonnement en chaîne est une ligne de défense clé pour l’alignement des agents IA

OpenAI a publié le 8 mai une nouvelle étude, révélant que, pendant le renforcement par apprentissage (RL), certaines idées de chaînage des pensées (Chain of Thought, CoT) de l’entreprise auraient été « accidentellement évaluées », ce qui pourrait affecter la capacité de l’AI Agent à être surveillé pour l’alignement (alignment). L’équipe d’Alignment d’OpenAI rapporte : conserver la « contrôlabilité » de la CoT est une ligne de défense clé pour prévenir les échecs d’alignement des AI Agent ; dans la conception de l’entraînement RL, OpenAI a délibérément évité de punir le « raisonnement menant à un échec d’alignement » afin de maintenir cette capacité de supervision.

Pourquoi la surveillance de la CoT est une ligne de défense clé pour l’alignement des AI Agent

La logique centrale de la surveillance de la CoT :

Quand l’AI Agent exécute une tâche, le modèle produit en interne un « processus de pensée », en expliquant pourquoi il effectue un certain mouvement

Le superviseur peut lire ces CoT et déterminer si le modèle présente des signes de « désalignement » (misalignment)

Si le modèle est entraîné directement « à ne pas montrer dans la CoT des signes de désalignement », alors la CoT pourrait devenir « propre mais déformée », en cachant l’intention réelle

OpenAI soutient l’idée suivante : pendant l’entraînement, il faut éviter de punir le « raisonnement menant à un désalignement », et préserver la capacité de la CoT à refléter l’état interne réel

« penalize misaligned reasoning » et « preserve monitorability » sont l’enjeu central de cette étude : les entraîneurs veulent que le comportement du modèle soit aligné, mais si l’on punit directement le « raisonnement menant à un désalignement », le modèle va apprendre à dissimuler des intentions malhonnêtes, rendant la surveillance inefficace.

Une évaluation accidentelle de la CoT : impact sur la contrôlabilité des modèles existants

Les constatations précises divulguées par OpenAI :

Dans une partie des processus d’entraînement des modèles déjà publiés, la CoT a fait l’objet d’une évaluation « limitée » et accidentelle

Par « évaluation accidentelle », on entend que, dans le processus d’entraînement, une partie du système d’évaluation lit le contenu de la CoT, au-delà du seul examen de la sortie finale

Ce phénomène pourrait amener le modèle à apprendre à « cacher dans la CoT les raisonnements qui seraient sanctionnés »

OpenAI a rendu cette analyse publique afin d’aider la communauté de recherche à comprendre l’ampleur du problème et les pistes de traitement à venir

Le commentaire indépendant de Redwood Research souligne : l’influence de la CoT sur les évaluateurs, sous la détection d’OpenAI, serait « trop faible et donc difficile à déceler », mais étant donné l’ampleur du processus d’entraînement, l’effet réel pourrait malgré tout suffire à réduire de manière significative la contrôlabilité de la CoT des politiques déjà entraînées. Autrement dit, il est actuellement difficile de prouver à quel point ce type d’impact est profond.

Signification à long terme pour la sécurité des AI Agent

Cette étude pointe vers une méthodologie centrale pour la sécurité des AI Agent :

La surveillance de la CoT est l’une des rares méthodes réalisables pour « détecter pendant l’exécution » un échec d’alignement, et elle est considérée comme une base importante de la recherche sur l’alignement

La conception de l’entraînement doit éviter que la CoT devienne un « scénario joué devant les superviseurs »

À l’avenir, plus la chaîne de raisonnement sera longue, plus la valeur théorique de la surveillance de la CoT sera élevée

Mais si, par accident, le processus d’entraînement endommage la véracité de la CoT, cette ligne de défense pourrait être affaiblie sans que l’on s’en rende compte

Événements précis à suivre ensuite : le traitement ultérieur par OpenAI des modèles affectés (par exemple, un nouvel entraînement ou un marquage), les méthodologies correspondantes d’autres grands laboratoires (Anthropic, Google DeepMind), et des expériences supplémentaires de validation de la part de la communauté de recherche sur « la fiabilité de la surveillance de la CoT ».

Cet article : OpenAI révèle un impact inattendu de la notation de la CoT — préserver la surveillance de la chaîne de pensées est une ligne de défense clé pour l’alignement des AI Agent, apparaît pour la première fois sur Chain News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

OpenAI ouvre GPT-5.5-Cyber aux institutions de l’UE le 11 mai ; Anthropic retient Mythos

Selon Glontech, le 11 mai, OpenAI a annoncé qu’elle accorderait aux institutions de l’UE l’accès à GPT-5.5-Cyber, sa dernière variante de modèle dédiée à la cybersécurité. L’accès sera étendu à des partenaires européens, notamment des entreprises, des agences gouvernementales, des responsables de la cybersécurité et l’EU AI Office, avec une disponibilité limitée en avant-première pour des équipes de cybersécurité dûment vérifiées. Pendant ce temps, Anthropic reste réservé quant à l’ouverture de

GateNewsIl y a 1h

La Maison-Blanche ne créera pas une nouvelle bureaucratie pour réglementer l’IA, selon Hassett

Selon Kevin Hassett, directeur du Conseil économique national à la Maison-Blanche, l’administration Trump ne créera pas une nouvelle agence bureaucratique chargée de réglementer les produits d’IA. Hassett a déclaré que « personne à la Maison-Blanche ne pense que nous devrions construire une grande nouvelle bureaucratie pour approuver l’IA ».

GateNewsIl y a 1h

Les systèmes de sécurité IA de Binance ont empêché 10,5 milliards de dollars de pertes liées à des arnaques crypto

Binance affirme que ses systèmes de sécurité basés sur l'IA, collectivement, ont permis d'épargner des pertes potentielles de 10,53 milliards de dollars concernant des escroqueries à des millions d'utilisateurs entre le T1 2025 et le T2 2025, selon un billet de blog publié lundi. La plus grande bourse crypto au monde a déployé environ une vingtaine de fonctionnalités de sécurité alimentées par l'IA afin de protéger les utilisateurs contre les arnaques crypto et les tentatives de phishing. Foncti

CryptoFrontierIl y a 2h

L’évaluation pré-introduction en bourse d’Anthropic atteint 1,4 billion de dollars, en hausse de 40 % en 24 jours

D’après des données de négociation pré-IPO on-chain citées par des commentateurs de marché, la valorisation implicite du marché d’Anthropic a grimpé jusqu’à un niveau record de 1,4 billion de dollars, en hausse d’environ 40% en 24 jours, alors que l’intérêt du marché privé pour la société d’intelligence artificielle s’accélère en amont d’une éventuelle introduction en bourse. Ces instruments de négociation sont adossés un pour un à une exposition via des véhicules ad hoc et servent de proxy en t

GateNewsIl y a 3h

La revendication de valorisation du Bitcoin $10M gagne en traction sur X dans un contexte de dynamique de récit autour de l'IA

D’après un post sur X de l’investisseur Adam Livingston, publié le 10 mai, une reprise de la discussion autour d’une valorisation Bitcoin de 10 millions de dollars a circulé dans les médias crypto, en parallèle de commentaires croissants reliant le développement de l’intelligence artificielle aux actifs numériques. CCN a fait état de la revendication de prix du Bitcoin à 10 millions de dollars, tout en évoquant des arguments reliant la croissance des infrastructures d’IA à une activité accrue da

GateNewsIl y a 4h

Le PDG de Microsoft Nadella témoigne dans le procès de Musk contre OpenAI, Altman lundi

D’après CNBC, le PDG de Microsoft, Satya Nadella, a témoigné devant un tribunal fédéral à Oakland, en Californie, lundi 12 mai, dans le cadre du procès en cours de Musk contre OpenAI et son PDG, Sam Altman. Microsoft figure également parmi les défendeurs dans cette affaire. Musk allègue que Microsoft a « aidé et encouragé » OpenAI à manquer à ses obligations de fiducie caritative. Des documents judiciaires montrent que Microsoft a investi plus de 13 milliards de dollars dans OpenAI depuis 2019,

GateNewsIl y a 7h
Commentaire
0/400
Aucun commentaire