OpenAI revela impacto inesperado da pontuação CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no desenho do treinamento por RL, evitou deliberadamente punir a “raciocinação de falha de alinhamento” do modelo para preservar essa capacidade de monitoramento.

Por que o monitoramento da CoT é uma linha de defesa-chave para o alinhamento de IA Agent

A lógica central do monitoramento da CoT:

Quando um AI Agent executa uma tarefa, o modelo gera internamente um “processo de pensamento”, explicando por que precisa fazer um determinado movimento

Os monitores conseguem ler essas CoT e avaliar se há sinais de “falha de alinhamento” (misalignment)

Se o modelo for treinado diretamente para “não demonstrar falha de alinhamento na CoT”, a CoT pode se tornar “limpa, mas distorcida”, escondendo a intenção real

A OpenAI defende: no treinamento, é preciso evitar punir a “raciocinação de falha de alinhamento” e preservar a capacidade de a CoT refletir o estado interno real

“penalize misaligned reasoning” e “preserve monitorability” são o ponto central dessa disputa na pesquisa — os treinadores querem que o comportamento do modelo esteja alinhado, mas se punirem diretamente o “pensamento de falha de alinhamento”, o modelo pode aprender a ocultar intenções desonestas, fazendo com que o monitoramento falhe.

Avaliação inesperada da CoT: impacto na capacidade de monitoramento dos modelos existentes

A pesquisa divulgada pela OpenAI revela descobertas específicas:

Em parte dos processos de treinamento dos modelos já disponibilizados, houve uma “avaliação” inesperada da CoT, porém “limitada”

Por “avaliação inesperada”, entende-se que, durante o processo de treinamento, uma parte do sistema de pontuação leu o conteúdo da CoT, em vez de olhar apenas a saída final

Esse fenômeno pode levar o modelo a aprender a “esconder, na CoT, a justificativa que seria penalizada”

A OpenAI publicou essa análise para que a comunidade de pesquisa entenda a abrangência do problema e as direções de tratamento posteriores

O comentário independente da Redwood Research aponta que o impacto da CoT sobre quem avalia, sob a tecnologia de detecção da OpenAI, é “fraco demais e difícil de perceber”; porém, como o processo de treinamento é em escala muito grande, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorabilidade da CoT de políticas já treinadas. Em outras palavras, ainda é difícil provar o quão profundo poderia ser esse tipo de impacto.

Significado de longo prazo para a segurança de AI Agent

Esta pesquisa aponta para a metodologia central de segurança de AI Agent:

O monitoramento da CoT é um dos poucos métodos viáveis para “detectar falha de alinhamento em tempo real” e é visto como uma base importante para a pesquisa em alinhamento

O desenho do treinamento precisa evitar que a CoT vire um “roteiro encenado para o monitor”

No futuro, quanto maior a cadeia de raciocínio do modelo, maior, em teoria, o valor do monitoramento da CoT

Mas se o processo de treinamento, por acidente, danificar a veracidade da CoT, essa linha de defesa pode ser enfraquecida sem que se perceba

Eventos concretos a serem acompanhados: o tratamento posterior dos modelos afetados pela OpenAI (por exemplo, novo treinamento ou marcação), as metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e, por fim, experimentos adicionais de validação feitos pela comunidade de pesquisa de alignment sobre “a confiabilidade do monitoramento da CoT”.

Este artigo que a OpenAI revela sobre o impacto inesperado da avaliação da CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de AI Agent foi publicado pela primeira vez em Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O CEO da Microsoft, Nadella, testemunha no processo de Musk contra a OpenAI, com Altman na segunda-feira

De acordo com a CNBC, o CEO da Microsoft, Satya Nadella, prestou depoimento em um tribunal federal em Oakland, Califórnia, na segunda-feira, 12 de maio, no processo em andamento de Musk contra a OpenAI e seu CEO Sam Altman. A Microsoft também é citada como ré no caso. Musk alega que a Microsoft “ajudou e incentivou” a OpenAI a violar suas obrigações de confiança beneficente. Documentos do tribunal mostram que a Microsoft investiu mais de US$ 13 bilhões na OpenAI desde 2019, incluindo um investim

GateNews12m atrás

A Anthropic assina um acordo de infraestrutura em nuvem de US$ 1,8 bilhão com a Akamai e pode superar a avaliação $852B da OpenAI

De acordo com a Bloomberg, a Anthropic assinou um contrato de US$ 1,8 bilhão de infraestrutura de nuvem com a Akamai durante a teleconferência de resultados do primeiro trimestre de 2026 da empresa. O acordo de sete anos representa o maior negócio com cliente da história da Akamai, conforme confirmado pelo CEO Frank Thomson Leighton, que descreveu a contraparte como uma “empresa líder de modelo de fronteira”. O contrato vai ampliar a capacidade de computação distribuída da Anthropic junto com ac

GateNews19m atrás

Augustus, apoiado por Peter Thiel, recebe aprovação da OCC para banco de IA e stablecoin

A startup de pagamentos Augustus recebeu aprovação condicional do U.S. Office of the Comptroller of the Currency (OCC) para criar um banco nacional voltado para pagamentos baseados em IA e stablecoins. A aprovação permite que a Augustus expanda suas operações bancárias europeias existentes para o mercado dos EUA. O proposto Augustus National Bank foi projetado como um banco de compensação para a era da IA, preparado para interagir diretamente com agentes de máquina em vez de sistemas tradicionai

GateNews28m atrás

A OpenAI também segue o modelo de consultoria da Palantir? Investe US$ 4 bilhões para criar uma empresa independente e envia a FDE para realizar uma integração profunda do trabalho com IA nas empresas

A OpenAI anunciou em 11 de maio a criação da OpenAI Deployment Company, uma nova empresa especializada em ajudar companhias a construir, implementar e operar sistemas de IA. O objetivo é fazer com que as empresas não apenas utilizem o ChatGPT ou APIs, mas consigam integrar a IA de forma profunda aos fluxos de trabalho mais importantes, à estrutura organizacional e à operação diária. A OpenAI também anunciou que concordou em adquirir a consultoria e empresa de engenharia de IA Tomoro. Após a conc

ChainNewsAbmedia2h atrás

Protestos no estado de Maryland sobre a taxa de US$ 2 bilhões para atualização da rede elétrica: Virgínia paga a conta por data centers de IA

O Escritório do Contencioso do Contribuinte da Maryland (Maryland Office of People’s Counsel, OPC) entrou com uma reclamação perante a Comissão Federal de Regulação de Energia (FERC) em 8 de maio: protestando contra o PJM Interconnection por repassar aos usuários um custo de US$ 22 bilhões para upgrades da rede elétrica, sendo US$ 2 bilhões bancados por contribuintes de Maryland, mas que, na prática, essas melhorias servem para sustentar a demanda por centros de dados de IA do estado da Virgínia

ChainNewsAbmedia2h atrás

A OpenAI lança uma empresa de implantação de US$ 4 bilhões: incorpora a Tomoro

OpenAI em 11 de maio anunciou a criação de sua subsidiária “OpenAI Deployment Company”, com um compromisso de capital de US$ 4 bilhões e uma avaliação de US$ 10 bilhões para entrar no mercado de serviços de implantação de IA para empresas. A empresa também anunciou a aquisição da consultoria de IA do Reino Unido, Tomoro, e a contratação de 150 engenheiros de implantação em campo (“Forward Deployed Engineers”). Conforme reportagem do Yahoo Finance, essa combinação é a resposta oficial da OpenAI a

ChainNewsAbmedia2h atrás
Comentário
0/400
Sem comentários