OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。
为什么 CoT 监控是 AI Agent 对齐的关键防线
CoT(思路链)监控的核心逻辑:
当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作
监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆
若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图
OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力
“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。
意外的 CoT 评分:对既有模型监控能力的影响
OpenAI 报告披露的具体发现:
在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分
意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出
这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”
OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向
Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。
对 AI Agent 安全的长期意义
本次研究指向 AI Agent 安全的核心方法论:
CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础
训练设计必须避免让 CoT 变成“演给监控者看的剧本”
未来模型若推理链愈长、CoT 监控的价值理论上愈高
但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化
后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。
这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
OpenAI 于 5 月 11 日向欧盟机构开放 GPT-5.5-Cyber;Anthropic 暂缓 Mythos
据 Glontech 称,5 月 11 日,OpenAI 宣布它将向欧盟机构提供对其最新网络安全模型变体 GPT-5.5-Cyber 的访问权限。该访问权限将扩展至欧洲合作伙伴,包括企业、政府机构、网络安全官员以及欧盟 AI Office,并且仅对经审查的网络安全团队提供有限的预览可用性。与此同时,Anthropic 仍对向该地区开放其 Mythos 模型持保留态度。
GateNews20 分钟前
白宫不会设立新的官僚机构来监管 AI,哈塞特称
据白宫国家经济委员会主任 Kevin Hassett 称,特朗普政府不会成立一个新的官僚机构来监管 AI 产品。Hassett 表示:“白宫没有人认为我们应该建立一个庞大的新官僚机构来批准 AI。”
GateNews20 分钟前
币安 AI 安全系统阻止了价值 105 亿美元的加密诈骗损失
Binance 声称,其 AI 安全系统的协同作用帮助在 2025 年第一季度至 2025 年第二季度期间,挽救了数百万用户免于遭受来自骗局的潜在损失 105.3 亿美元,具体内容见周一发布的一篇博客文章。全球最大的加密货币交易所已推出大约两打(约 24 项)由 AI 驱动的安全功能,以保护用户免受加密骗局和钓鱼攻击。 由 AI 驱动的安全功能 Binance 的安全基础设施采用多种 AI 技术来识别并阻止欺诈。计算机视觉用于检测虚假的付款证明,而实时语言分析有助于在点对点交易中发现骗局模式。据 Binance 称,目前由 AI 驱动的决策系统已经为 57% 的欺诈控制提供动力,并使银行卡欺诈率相较行业基准降低了 60–70%。 在身份验证方面,Binance 的 KYC 系统已发展以应对日益复杂的深度伪造和合成身份,与 Binance 表示相比,在不使用 AI 的传统人工流程中,相关运营效率可提升高达 100 倍。 2026 年第一季度业绩指标 仅在 2026 年第一季度,Binance 就声称其已保护了 19.8 亿美元资金,免受 2290 万次骗局和钓鱼尝试的侵害。该交易所还帮助
Crypto Frontier1小时前
Anthropic 的 IPO 前估值达到 14 万亿美元,24 天内增长 40%
根据市场评论人士引用的链上 IPO 之前交易数据,Anthropic 的市场隐含估值已攀升至创纪录的 1.4 万亿美元,在可能公开上市之前,随着私募市场对这家人工智能公司的兴趣加速,其在 24 天内大约上涨了 40%。这些交易工具由特殊目的载体的敞口一对一支撑,并作为 Anthropic 潜在 IPO 价值的实时代理。报道称,Anthropic 正在权衡一轮新的私募融资,可能筹资高达 500 亿美元,并且可能的 IPO 时间表最早可在 2026 年 10 月,或为当年的第四季度。
GateNews2小时前
比特币 $10M 估值主张在 X 上获得关注,伴随 AI 叙事势头增强
根据 5 月 10 日投资者 Adam Livingston 在 X 上发布的一则帖子,有关 1,000 万美元比特币估值的讨论再度在加密媒体中传播,同时不断增长的评论将人工智能开发与数字资产联系起来。CCN 报道了 1,000 万美元比特币价格的说法,并在提及将 AI 基础设施增长与比特币和以太坊等加密货币中的活跃度提升联系起来的论点。
GateNews3小时前
微软 CEO 纳德拉周一在马斯克针对 OpenAI 的诉讼中作证,阿尔特曼在场
据 CNBC 报道,微软首席执行官 Satya Nadella 于 5 月 12 日周一在加利福尼亚州奥克兰的联邦法院出庭作证,时间点正值马斯克就其对 OpenAI 及首席执行官 Sam Altman 的持续诉讼。该案中微软也被列为被告。 马斯克指控微软“协助并教唆”OpenAI 违反其慈善信托义务。法院文件显示,微软自 2019 年以来已向 OpenAI 投资超过 130 亿美元,其中包括 2023 年的 100 亿美元投资。马斯克认为,这项投资标志着一个关键转折点,当 OpenAI 偏离其非营利使命时。OpenAI 的领导层已被指在追求商业路径的同时从慈善结构中获益。
GateNews6小时前