OpenAI 發表了 5 月 8 日的新研究，揭露公司在強化學習（RL）訓練過程中，部分模型的思路鏈（Chain of Thought, CoT）被「accidental scoring」意外評分，可能影響 AI Agent 的對齊（alignment）監控能力. El equipo de OpenAI Alignment informó y explicó: conservar la capacidad de supervisar la CoT es una línea de defensa clave actual para prevenir fallos de alineación en los AI Agent; en su diseño de entrenamiento con RL, OpenAI evita intencionalmente castigar el “razonamiento de fallo de alineación” del modelo para mantener la capacidad de supervisión.

Por qué la supervisión de la CoT es una línea de defensa clave para la alineación de los AI Agent

La lógica central de la supervisión de la CoT:

Cuando el AI Agent ejecuta una tarea, el modelo genera internamente un “proceso de pensamiento” y explica por qué necesita realizar cierta acción

Los supervisores pueden leer estas CoT y determinar si el modelo muestra señales de “fallo de alineación” (misalignment)

Si el modelo se entrena directamente “para no mostrar fallos de alineación en la CoT”, la CoT podría volverse “limpia pero distorsionada”, ocultando las intenciones reales

OpenAI sostiene: durante el entrenamiento se debe evitar castigar “el razonamiento de fallos de alineación” y conservar la capacidad de que la CoT refleje el estado interno real

“penalize misaligned reasoning” y “preserve monitorability” son la tensión central de este estudio: los entrenadores quieren que el comportamiento del modelo esté alineado, pero si se castiga directamente el “pensamiento de fallos de alineación”, el modelo aprenderá a ocultar intenciones deshonestas, haciendo que falle la supervisión.

Puntuación inesperada de la CoT: impacto en la capacidad de supervisión de modelos existentes

Los hallazgos concretos divulgados por el informe de OpenAI:

En parte del proceso de entrenamiento de modelos ya liberados, la CoT recibió “puntuaciones” inesperadas de forma “limitada”

La puntuación inesperada significa que, durante el proceso de entrenamiento, el sistema de puntuación lee contenido de la CoT y no solo observa la salida final

Este fenómeno podría hacer que el modelo aprenda a “ocultar el razonamiento que sería penalizado” dentro de la CoT

OpenAI hizo pública este análisis para que la comunidad de investigación entienda el alcance del problema y las direcciones de tratamiento posteriores

Un comentario independiente de Redwood Research señaló: bajo la tecnología de detección de OpenAI, el impacto de la CoT en quienes puntúan sería “demasiado débil y difícil de percibir”, pero dado que el proceso de entrenamiento es de una escala enorme, el efecto real aún podría ser suficiente para dañar de forma significativa la supervisabilidad de la CoT de políticas ya entrenadas. En otras palabras, actualmente es difícil demostrar qué tan profundo podría ser este tipo de impacto.

Implicaciones a largo plazo para la seguridad de AI Agent

Este estudio apunta a la metodología central para la seguridad de los AI Agent:

La supervisión de la CoT es uno de los pocos medios viables para “detectar fallos de alineación durante el proceso”, y se considera una base importante para la investigación de alineación

El diseño del entrenamiento debe evitar que la CoT se convierta en un “guion representado para el supervisor”

Si futuras generaciones de modelos razonan con cadenas más largas, en teoría el valor de la supervisión de la CoT aumentará

Pero si el proceso de entrenamiento daña de manera accidental la veracidad de la CoT, esta línea de defensa podría debilitarse sin que se note

Eventos específicos a seguir: el tratamiento posterior de los modelos afectados por OpenAI (por ejemplo, reentrenamiento o marcado), las metodologías correspondientes de otros grandes laboratorios (Anthropic, Google DeepMind) y las verificaciones adicionales de experimentos por parte de la comunidad de investigación de alignment sobre la “fiabilidad de la supervisión de la CoT”.

Este artículo en el que OpenAI revela el impacto inesperado de la puntuación de la CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para la alineación de AI Agent apareció por primera vez en Cadena de Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El CEO de Microsoft, Nadella, declara en el juicio de Musk contra OpenAI; Altman el lunes

Noticias de la industria de la IA

Según CNBC, el CEO de Microsoft, Satya Nadella, declaró en un tribunal federal en Oakland, California, el lunes 12 de mayo, en la demanda en curso de Musk contra OpenAI y el CEO Sam Altman. Microsoft también figura como demandado en el caso. Musk alega que Microsoft “ayudó y se confabuló” con OpenAI al incumplir sus obligaciones con su confianza benéfica. Los documentos judiciales muestran que Microsoft ha invertido más de 13 mil millones de dólares en OpenAI desde 2019, incluida una inversión d

GateNewsHace33m

Anthropic firma un acuerdo de infraestructura en la nube por 1,8B USD con Akamai, podría superar la $852B valoración de OpenAI

Noticias de la industria de la IA

Según Bloomberg, Anthropic ha firmado un contrato de infraestructura en la nube por 1,8 mil millones de dólares con Akamai durante la llamada de resultados del primer trimestre de 2026 de la compañía. El acuerdo de siete años marca el mayor acuerdo de cliente de Akamai en la historia de la empresa, según confirmó el CEO Frank Thomson Leighton, quien describió a la contraparte como una “leading frontier model company”. El contrato ampliará la capacidad de cómputo distribuido de Anthropic junto co

GateNewsHace41m

Augustus, respaldado por Peter Thiel, obtiene la aprobación de la OCC para un banco de IA y stablecoin

Noticias de la industria de la IA Agente de IA

La startup de pagos Augustus ha recibido una aprobación condicional de la Oficina del Contralor de la Moneda de EE. UU. (OCC) para establecer un banco nacional enfocado en pagos basados en IA y stablecoins. La aprobación permite a Augustus expandirse desde sus operaciones bancarias europeas existentes hacia el mercado estadounidense. El banco nacional propuesto de Augustus está diseñado como un banco de compensación para la era de la IA, construido para interactuar directamente con agentes de má

GateNewsHace50m

¿OpenAI también sigue el modelo de consultoría tipo Palantir? Invierte 4 mil millones para crear una empresa independiente y envía FDE a las empresas para una integración profunda del trabajo con flujos de IA

Noticias de la industria de la IA

OpenAI 於 5 月 11 日宣布成立 OpenAI Deployment Company，這是一家專門協助企業建置、導入並營運 AI 系統的新公司，目標是讓企業不只是使用 ChatGPT 或 API，而是能將 AI 深度整合進最重要的工作流程、組織架構與日常營運之中。 OpenAI 同時宣布，已同意收購應用 AI 顧問與工程公司 Tomoro，交易完成後，Tomoro 約 150 名具備經驗的 FDE (Forward Deployed Engineers)前線部署工程師與部署專家，將直接加入 OpenAI Deployment Company。 De vender modelos a ayudar a las empresas a rediseñar procesos, OpenAI entra en el campo de batalla de la “IA aplicada” OpenAI表示，OpenAI Deployment Company será propiedad de OpenAI con participación mayoritaria y estará b

ChainNewsAbmediahace2h

Protestas en Maryland por una tasa de 2.000 millones de dólares para actualizar la red eléctrica: para pagar los centros de datos de IA en Virginia

Noticias de la industria de la IA

La Oficina de Asesores del Pueblo de Maryland (Maryland Office of People’s Counsel, OPC) presentó el 8 de mayo una queja ante la Comisión Federal Reguladora de la Energía (FERC): protesta porque PJM Interconnection imputa costos de ampliación de la red por 22 mil millones de dólares, de los cuales 2 mil millones serían asumidos por los contribuyentes de Maryland, pero que estas ampliaciones en realidad están destinadas a respaldar la demanda de centros de datos de IA en Virginia. Reporta Common

ChainNewsAbmediahace2h

OpenAI impulsa una empresa de despliegue de 4 mil millones de dólares: compra Tomoro

Noticias de la industria de la IA

OpenAI 宣布 el 11 de mayo la creación de su subsidiaria “OpenAI Deployment Company”, con un compromiso de capital de 4.000 millones de dólares y una valoración de 10.000 millones de dólares para entrar en el mercado de servicios de despliegue de IA para empresas, y al mismo tiempo adquirió la consultora de IA del Reino Unido Tomoro e incorporó a 150 ingenieros de despliegue en primera línea (Forward Deployed Engineers). De acuerdo con el reporte de Yahoo Finance, esta combinación es la respuesta o

ChainNewsAbmediahace2h

Comentar

0/400

Sin comentarios