OpenAI 5 月 8 日發表新研究、揭露公司在強化學習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。
為什麼 CoT 監控是 AI Agent 對齊的關鍵防線
CoT(思路鏈)監控的核心邏輯:
當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作
監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆
若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖
OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力
「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。
意外的 CoT 評分:對既有模型監控能力的影響
OpenAI 報告披露的具體發現:
在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分
意外評分意指:訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出
這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」
OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向
Redwood Research 的獨立評論指出:CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。
對 AI Agent 安全的長期意義
本次研究指向 AI Agent 安全的核心方法論:
CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎
訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」
未來模型若推理鏈愈長、CoT 監控的價值理論上愈高
但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化
後續可追蹤的具體事件:OpenAI 對受影響模型的後續處理(例如重訓或標示)、其他大型實驗室(Anthropic、Google DeepMind)的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。
這篇文章 OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Anthropic 的上市前估值達到 1.4 萬億美元,24 天內成長 40%
根據市場評論人士引用的鏈上預 IPO 交易數據,Anthropic 的市場隱含估值已攀升至創紀錄的 1.4 萬億美元,隨著這家人工智慧公司在可能上市之前的私募市場需求加速,其在 24 天內上漲約 40%。這些交易工具由特殊目的載體的曝險一對一支撐,並作為 Anthropic 潛在 IPO 價值的即時代理。報導指出,Anthropic 正在評估一輪新的私募融資,可能籌資高達 500 億美元,且可能的 IPO 時程最早可至 2026 年 10 月,或為該年度第四季。
GateNews11分鐘前
比特幣 $10M 估值宣稱在 X 上獲得關注,隨著 AI 敘事動能持續升溫
根據投資人 Adam Livingston 在 5 月 10 日於 X 上的一則貼文,圍繞 1,000 萬美元的比特幣估值所展開的再度討論,已在加密媒體間流傳,並伴隨愈來愈多的評論,將人工智慧(AI)的發展與數位資產之間的關聯聯繫起來。CCN 在報導 1,000 萬美元的比特幣價格說法時,並提及了連結 AI 基礎設施成長與加密貨幣(例如 Bitcoin 與 Ethereum)中活動增加之間的論點。
GateNews1小時前
微軟執行長 Nadella 於週一在 Musk 對 OpenAI 的訴訟中作證,Altman 也在場
根據 CNBC,微軟(Microsoft)執行長 Satya Nadella 於 5 月 12 日(週一)在加州奧克蘭的聯邦法院出庭,出席的是馬斯克(Musk)針對 OpenAI 以及 CEO Sam Altman 進行的持續訴訟。微軟也在該案中被列為被告。 馬斯克指控微軟「協助並縱容」OpenAI 違反其慈善信託(charitable trust)義務。法院文件顯示,自 2019 年以來,微軟已向 OpenAI 投資超過 130 億美元,其中包含 2023 年的 100 億美元投資。馬斯克認為,這項投資是關鍵轉折點,當 OpenAI 偏離其非營利使命時便發生了變化。OpenAI 的管理層被指控在追求商業路線的同時,從慈善架構中獲取利益。
GateNews4小時前
Anthropic 與 Akamai 簽署 $18 億美元雲端基礎設施合作案,可能超越 OpenAI 的 $852B 評價
根據彭博(Bloomberg)報導,Anthropic 已在該公司 2026 年第一季財報電話會議期間,與 Akamai 簽署一份 18 億美元的雲端基礎設施合約。這份為期七年的協議,代表 Akamai 在公司歷史上最大的客戶交易;Akamai 執行長 Frank Thomson Leighton 也已證實,他將對手方描述為「領先的前沿模型公司」。該合約將在既有的與 Amazon Web Services、Google、CoreWeave 以及與 SpaceX 有關連的基礎設施協議之上,擴大 Anthropic 的分散式運算能力。 這筆交易凸顯了 Anthropic 在與 OpenAI 競爭時的快速擴張。據稱,該公司正尋求一輪新的融資,估值區間在 9,000 億美元至 1 兆美元之間;這可能會超過 OpenAI 於 2026 年 3 月被報導的 8,520 億美元估值。Anthropic 的估值已從 2025 年 3 月的 615 億美元,急速成長至 2025 年 9 月的 1,830 億美元,並在 2026 年 2 月達到 3,800 億美元。
GateNews4小時前
彼得·泰爾支持的 Augustus 獲得 OCC 核准,用於 AI 與穩定幣銀行
支付新創 Augustus 已獲得美國通貨監理署(OCC)的有條件核准,可設立一家聚焦 AI 與以穩定幣為基礎的支付之全國銀行。該核准允許 Augustus 從其既有的歐洲銀行業務擴展至美國市場。所提議的 Augustus 全國銀行被設計為面向 AI 時代的清算銀行,建立目的是直接與機器代理互動,而非傳統的批次處理系統。Augustus 於 2022 年成立,由 Peter Thiel 的 Valar Ventures 與 Creandum 支持,截至目前已籌得約 4000 萬美元。
GateNews4小時前
OpenAI 也走 Palantir 式顧問?砸 40 億成立獨立公司,派 FDE 進企業深度整合 AI 工作流
OpenAI 宣布成立 OpenAI Deployment Company,協助企業把 AI 應用落地至實際工作流程與營運,並收購 Tomoro,150 名 FDE 專家加入。此公司由 OpenAI 多數控股,獲得逾 40 億美元初始投資,重心由提供模型轉向設計、部署與治理生產級 AI 系統,核心在現場深度整合與工作流程再造。
鏈新聞abmedia6小時前