OpenAI revela impacto inesperado da pontuação CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no desenho do treinamento por RL, evitou deliberadamente punir a “raciocinação de falha de alinhamento” do modelo para preservar essa capacidade de monitoramento.

Por que o monitoramento da CoT é uma linha de defesa-chave para o alinhamento de IA Agent

A lógica central do monitoramento da CoT:

Quando um AI Agent executa uma tarefa, o modelo gera internamente um “processo de pensamento”, explicando por que precisa fazer um determinado movimento

Os monitores conseguem ler essas CoT e avaliar se há sinais de “falha de alinhamento” (misalignment)

Se o modelo for treinado diretamente para “não demonstrar falha de alinhamento na CoT”, a CoT pode se tornar “limpa, mas distorcida”, escondendo a intenção real

A OpenAI defende: no treinamento, é preciso evitar punir a “raciocinação de falha de alinhamento” e preservar a capacidade de a CoT refletir o estado interno real

“penalize misaligned reasoning” e “preserve monitorability” são o ponto central dessa disputa na pesquisa — os treinadores querem que o comportamento do modelo esteja alinhado, mas se punirem diretamente o “pensamento de falha de alinhamento”, o modelo pode aprender a ocultar intenções desonestas, fazendo com que o monitoramento falhe.

Avaliação inesperada da CoT: impacto na capacidade de monitoramento dos modelos existentes

A pesquisa divulgada pela OpenAI revela descobertas específicas:

Em parte dos processos de treinamento dos modelos já disponibilizados, houve uma “avaliação” inesperada da CoT, porém “limitada”

Por “avaliação inesperada”, entende-se que, durante o processo de treinamento, uma parte do sistema de pontuação leu o conteúdo da CoT, em vez de olhar apenas a saída final

Esse fenômeno pode levar o modelo a aprender a “esconder, na CoT, a justificativa que seria penalizada”

A OpenAI publicou essa análise para que a comunidade de pesquisa entenda a abrangência do problema e as direções de tratamento posteriores

O comentário independente da Redwood Research aponta que o impacto da CoT sobre quem avalia, sob a tecnologia de detecção da OpenAI, é “fraco demais e difícil de perceber”; porém, como o processo de treinamento é em escala muito grande, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorabilidade da CoT de políticas já treinadas. Em outras palavras, ainda é difícil provar o quão profundo poderia ser esse tipo de impacto.

Significado de longo prazo para a segurança de AI Agent

Esta pesquisa aponta para a metodologia central de segurança de AI Agent:

O monitoramento da CoT é um dos poucos métodos viáveis para “detectar falha de alinhamento em tempo real” e é visto como uma base importante para a pesquisa em alinhamento

O desenho do treinamento precisa evitar que a CoT vire um “roteiro encenado para o monitor”

No futuro, quanto maior a cadeia de raciocínio do modelo, maior, em teoria, o valor do monitoramento da CoT

Mas se o processo de treinamento, por acidente, danificar a veracidade da CoT, essa linha de defesa pode ser enfraquecida sem que se perceba

Eventos concretos a serem acompanhados: o tratamento posterior dos modelos afetados pela OpenAI (por exemplo, novo treinamento ou marcação), as metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e, por fim, experimentos adicionais de validação feitos pela comunidade de pesquisa de alignment sobre “a confiabilidade do monitoramento da CoT”.

Este artigo que a OpenAI revela sobre o impacto inesperado da avaliação da CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de AI Agent foi publicado pela primeira vez em Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

De acordo com a Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa de seu modelo Interaction, com processamento nativo em tempo real de áudio e vídeo e micro-respostas de 200 milissegundos. O modelo permite ouvir, ver e falar simultaneamente, com suporte a interrupções em tempo real por parte do usuário. O modelo TML-Interaction-Small usa uma arquitetura MoE de 276 bilhões de parâmetros, com 12 bilhões de parâmetros ativados por inf

GateNews4m atrás

Shlomo Kramer apoia $26M Israel Cyber AI Venture Fund

A Skinos Ventures, um fundo de venture capital com sede em Israel, foi lançado com US$ 26 milhões para investir em startups de estágios seed e Série A com foco em cibersegurança e IA, segundo o Calcalist. Grande parte do capital veio de Shlomo Kramer, cofundador da Check Point, que atua como assessor estratégico do fundo. Estrutura do Fundo e Estratégia de Investimento O fundo é gerido pelo sócio-gerente Yishay Yovel, ex-diretor de marketing e estratégia da Cato Networks. A Skinos Ventures plane

CryptoFrontier7m atrás

A Microsoft buscou um retorno de US$ 92 bilhões com o investimento na OpenAI, diz o CEO em depoimento em tribunal

De acordo com a Bloomberg, o CEO da Microsoft, Satya Nadella, prestou depoimento em tribunal federal em Oakland, Califórnia, dizendo que a empresa buscou um retorno de US$ 92 bilhões sobre seus investimentos iniciais na OpenAI, com base em documentos de planejamento de 2023. A Microsoft investiu aproximadamente US$ 13 bilhões na OpenAI até o início de 2023 e recebeu uma participação de 27% na empresa de IA como parte de sua reestruturação.

GateNews18m atrás

Lightspeed apoia a rodada de financiamento de US$ 1,2 bilhão da Helsing, avaliando a startup de IA de defesa em US$ 18 bilhões

De acordo com o TechCrunch, a startup alemã de IA de defesa e drones Helsing está levantando US$ 1,2 bilhão, a uma avaliação de aproximadamente US$ 18 bilhões, em uma rodada liderada pela Dragoneer e co-liderada pela Lightspeed. O financiamento acontece após a rodada Série B de 706 milhões de euros (US$ 706 milhões) da Helsing, em junho de 2025, liderada pelo fundador do Spotify, Daniel Ek, que avaliou a empresa em cerca de US$ 14 bilhões. O maior interesse dos investidores reflete a crescente d

GateNews27m atrás

SoftBank em negociações com Macron sobre projeto de data center de IA na França; investimento de até US$ 100 bilhões possível este mês

De acordo com a Bloomberg, o fundador da SoftBank, Masayoshi Son, está discutindo um grande projeto de data center de IA na França com o presidente Emmanuel Macron, com um anúncio potencialmente chegando ainda este mês. O projeto pode envolver um investimento de vários bilhões de dólares, com Son levantando a possibilidade de investir até US$ 100 bilhões na França, embora o tamanho final ainda possa mudar.

GateNews36m atrás

Frame Security aumenta $50M da Index Ventures para combater phishing impulsionado por IA e deepfakes

De acordo com a Calcalist, a Frame Security, uma startup fundada por veteranos israelenses da cibersegurança Tal Shlomo e Sharon Shmueli, levantou US$ 50 milhões em uma rodada de investimentos liderada pela Index Ventures, com apoio da Team8, Picture Capital, do CEO da Wiz Assaf Rappaport e do investidor Elad Gil. A plataforma da empresa executa simulações de ataques e treinamentos de segurança para ajudar os funcionários a se defenderem contra e-mails de phishing, ligações de voz e reuniões em

GateNews38m atrás
Comentário
0/400
Sem comentários