OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conceção do treino por RL, a OpenAI evita, de forma deliberada, penalizar a «raciocinação de falha de alinhamento» dos modelos, para preservar a monitorização.

Por que a monitorização de CoT é uma linha de defesa crucial para o alinhamento de agentes de IA

A lógica central da monitorização de CoT:

Quando um agente de IA executa uma tarefa, o modelo gera internamente um «processo de pensamento», explicando por que razão deve executar uma determinada ação

Os supervisores conseguem ler estas CoT e avaliar se há indícios de «falha de alinhamento» (misalignment)

Se o modelo for treinado diretamente para «não demonstrar falhas de alinhamento na CoT», a CoT pode tornar-se «limpa mas desfasada da realidade», ocultando intenções reais

A OpenAI defende: durante o treino, deve-se evitar penalizar a «raciocinação de falha de alinhamento» e manter a capacidade de a CoT refletir o estado interno real

«penalize misaligned reasoning» e «preserve monitorability» são a base da tensão central deste estudo — quem treina pretende alinhar o comportamento do modelo, mas se penalizar diretamente o «pensamento de falha de alinhamento», o modelo aprende a ocultar intenções não honestas, fazendo com que a monitorização falhe.

Avaliação acidental de CoT: impacto nas capacidades de monitorização de modelos existentes

As conclusões específicas divulgadas pela OpenAI:

Em parte dos processos de treino dos modelos já lançados, a CoT recebeu «avaliações acidentais» com «limite»

Avaliação acidental significa que, durante o processo de treino, um componente do sistema de avaliação leu o conteúdo da CoT, não se limitando a observar a saída final

Este fenómeno pode levar o modelo a aprender a «ocultar raciocínios que seriam penalizados na CoT»

A OpenAI publicou esta análise para ajudar a comunidade de investigação a compreender o alcance do problema e as direções de tratamento subsequentes

O comentário independente da Redwood Research salienta: o efeito da CoT sobre os avaliadores é «demasiado fraco para ser detetável» com a tecnologia de deteção da OpenAI, mas como a escala do processo de treino é enorme, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorizabilidade da CoT de políticas já treinadas. Por outras palavras, neste momento é difícil provar quão profundo pode ser esse impacto.

Significado a longo prazo para a segurança de agentes de IA

Este estudo aponta para a metodologia central da segurança de agentes de IA:

A monitorização da CoT é uma das poucas abordagens viáveis para «detetar falhas de alinhamento em tempo real (durante a execução)» e é vista como uma base importante para a investigação em alinhamento

O desenho do treino tem de evitar que a CoT se torne «um guião encenado para os supervisores»

Se a cadeia de raciocínio dos modelos futuros for cada vez maior, em teoria o valor da monitorização da CoT aumenta

Mas se o treino, de forma acidental, danificar a veracidade da CoT, esta linha de defesa pode ser enfraquecida sem que se dê por isso

Eventos concretos a seguir: o tratamento subsequente da OpenAI para os modelos afetados (por exemplo, novo treino ou marcação), metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e mais experiências de validação pela comunidade de investigação em alignment sobre a «fiabilidade da monitorização da CoT».

Este artigo em que a OpenAI revela o impacto acidental da avaliação de CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa-chave para o alinhamento de agentes de IA apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

O CEO da Microsoft, Nadella, presta depoimento no processo de Musk contra a OpenAI, Altman na segunda-feira

De acordo com a CNBC, o CEO da Microsoft, Satya Nadella, prestou declarações em tribunal federal em Oakland, Califórnia, na segunda-feira, 12 de maio, no processo em curso de Musk contra a OpenAI e o CEO Sam Altman. A Microsoft também é citada como arguida no caso. Musk alega que a Microsoft “prestou auxílio e cumplicidade” à OpenAI no incumprimento das suas obrigações perante a confiança de cariz solidário. Documentos do tribunal mostram que a Microsoft investiu mais de $13 mil milhões na OpenA

GateNews33m atrás

A Anthropic assina um acordo de 1,8 mil milhões de dólares de infraestruturas de cloud com a Akamai, podendo ultrapassar a avaliação de $852B da OpenAI

De acordo com a Bloomberg, a Anthropic assinou um contrato de 1,8 mil milhões de dólares de infraestruturas cloud com a Akamai durante a call de resultados do primeiro trimestre de 2026 da empresa. O acordo de sete anos assinala o maior negócio com um cliente da história da Akamai, conforme confirmado pelo CEO Frank Thomson Leighton, que descreveu a contraparte como uma “leading frontier model company”. O contrato vai expandir a capacidade de computação distribuída da Anthropic, ao mesmo tempo q

GateNews41m atrás

Augustus, apoiado por Peter Thiel, obtém aprovação da OCC para banco de IA e stablecoins

A startup de pagamentos Augustus recebeu aprovação condicional da Office of the Comptroller of the Currency (OCC) dos EUA para criar um banco nacional focado em pagamentos baseados em IA e stablecoins. A aprovação permite à Augustus expandir-se a partir das suas operações bancárias europeias existentes para o mercado norte-americano. O banco nacional proposto da Augustus foi concebido como banco de compensação para a era da IA, construído para interagir diretamente com agentes de máquina em vez

GateNews49m atrás

A OpenAI segue um modelo de consultoria à Palantir? Investe 4 mil milhões para criar uma empresa independente, enviando a FDE para uma integração profunda dos fluxos de trabalho de IA nas empresas

A 11 de maio, a OpenAI anunciou a criação da OpenAI Deployment Company, uma nova empresa especializada em ajudar as empresas a criar, implementar e operar sistemas de IA. O objetivo é permitir que as empresas não se limitem a usar o ChatGPT ou uma API, mas sim a integrar profundamente a IA nos fluxos de trabalho, na estrutura organizacional e na operação diária das suas atividades mais importantes. A OpenAI anunciou também que concordou em adquirir a consultora e empresa de engenharia de IA Tomo

ChainNewsAbmedia2h atrás

Protestos no estado de Maryland: taxa de 2 mil milhões de dólares para atualização da rede elétrica para pagar pelos centros de dados de IA na Virgínia

O Gabinete do Provedor dos Cidadãos (Maryland Office of People’s Counsel, OPC) do estado de Maryland apresentou, a 8 de maio, uma reclamação à Comissão Federal de Regulamentação da Energia (FERC): protesta contra o facto de a PJM Interconnection incluir, nos 22 mil milhões de dólares de custos de modernização da rede elétrica, 2 mil milhões de dólares a cargo dos contribuintes de Maryland. A queixa sustenta que essas atualizações, na prática, servem para dar resposta à procura dos centros de dad

ChainNewsAbmedia2h atrás

A OpenAI anuncia um investimento de 4 mil milhões de dólares na empresa de implementação: adquire a Tomoro

OpenAI a 11 de maio anunciou a criação da subsidiária «OpenAI Deployment Company», com um compromisso de capital de 4 mil milhões de dólares e uma avaliação de 10 mil milhões de dólares, para entrar no mercado de serviços de implementação de IA para empresas, e também adquiriu em simultâneo a consultora de IA britânica Tomoro, trazendo 150 engenheiros de implementação em linha («Forward Deployed Engineers»). De acordo com a Yahoo Finance, esta combinação é a resposta oficial da OpenAI à investid

ChainNewsAbmedia2h atrás
Comentar
0/400
Nenhum comentário