OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no desenho do treinamento por RL, evitou deliberadamente punir a “raciocinação de falha de alinhamento” do modelo para preservar essa capacidade de monitoramento.
Por que o monitoramento da CoT é uma linha de defesa-chave para o alinhamento de IA Agent
A lógica central do monitoramento da CoT:
Quando um AI Agent executa uma tarefa, o modelo gera internamente um “processo de pensamento”, explicando por que precisa fazer um determinado movimento
Os monitores conseguem ler essas CoT e avaliar se há sinais de “falha de alinhamento” (misalignment)
Se o modelo for treinado diretamente para “não demonstrar falha de alinhamento na CoT”, a CoT pode se tornar “limpa, mas distorcida”, escondendo a intenção real
A OpenAI defende: no treinamento, é preciso evitar punir a “raciocinação de falha de alinhamento” e preservar a capacidade de a CoT refletir o estado interno real
“penalize misaligned reasoning” e “preserve monitorability” são o ponto central dessa disputa na pesquisa — os treinadores querem que o comportamento do modelo esteja alinhado, mas se punirem diretamente o “pensamento de falha de alinhamento”, o modelo pode aprender a ocultar intenções desonestas, fazendo com que o monitoramento falhe.
Avaliação inesperada da CoT: impacto na capacidade de monitoramento dos modelos existentes
A pesquisa divulgada pela OpenAI revela descobertas específicas:
Em parte dos processos de treinamento dos modelos já disponibilizados, houve uma “avaliação” inesperada da CoT, porém “limitada”
Por “avaliação inesperada”, entende-se que, durante o processo de treinamento, uma parte do sistema de pontuação leu o conteúdo da CoT, em vez de olhar apenas a saída final
Esse fenômeno pode levar o modelo a aprender a “esconder, na CoT, a justificativa que seria penalizada”
A OpenAI publicou essa análise para que a comunidade de pesquisa entenda a abrangência do problema e as direções de tratamento posteriores
O comentário independente da Redwood Research aponta que o impacto da CoT sobre quem avalia, sob a tecnologia de detecção da OpenAI, é “fraco demais e difícil de perceber”; porém, como o processo de treinamento é em escala muito grande, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorabilidade da CoT de políticas já treinadas. Em outras palavras, ainda é difícil provar o quão profundo poderia ser esse tipo de impacto.
Significado de longo prazo para a segurança de AI Agent
Esta pesquisa aponta para a metodologia central de segurança de AI Agent:
O monitoramento da CoT é um dos poucos métodos viáveis para “detectar falha de alinhamento em tempo real” e é visto como uma base importante para a pesquisa em alinhamento
O desenho do treinamento precisa evitar que a CoT vire um “roteiro encenado para o monitor”
No futuro, quanto maior a cadeia de raciocínio do modelo, maior, em teoria, o valor do monitoramento da CoT
Mas se o processo de treinamento, por acidente, danificar a veracidade da CoT, essa linha de defesa pode ser enfraquecida sem que se perceba
Eventos concretos a serem acompanhados: o tratamento posterior dos modelos afetados pela OpenAI (por exemplo, novo treinamento ou marcação), as metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e, por fim, experimentos adicionais de validação feitos pela comunidade de pesquisa de alignment sobre “a confiabilidade do monitoramento da CoT”.
Este artigo que a OpenAI revela sobre o impacto inesperado da avaliação da CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de AI Agent foi publicado pela primeira vez em Cadeia News ABMedia.
Related Articles
O CEO da Microsoft, Nadella, testemunha no processo de Musk contra a OpenAI, com Altman na segunda-feira
A Anthropic assina um acordo de infraestrutura em nuvem de US$ 1,8 bilhão com a Akamai e pode superar a avaliação $852B da OpenAI
Augustus, apoiado por Peter Thiel, recebe aprovação da OCC para banco de IA e stablecoin
A OpenAI também segue o modelo de consultoria da Palantir? Investe US$ 4 bilhões para criar uma empresa independente e envia a FDE para realizar uma integração profunda do trabalho com IA nas empresas
Protestos no estado de Maryland sobre a taxa de US$ 2 bilhões para atualização da rede elétrica: Virgínia paga a conta por data centers de IA
A OpenAI lança uma empresa de implantação de US$ 4 bilhões: incorpora a Tomoro