DeepMind Lança Assistente de Pesquisa em Matemática com IA: Estrutura Multi-Agente Supera GPT-5.5 Pro e Resolve Problemas Antes Insolúveis

De acordo com o monitoramento da Dongcha Beating, o Google DeepMind lançou um co-matemático de IA, uma plataforma de pesquisa interativa para matemáticos que utiliza uma arquitetura multiagente. O sistema atingiu uma taxa de precisão de 47,9% no benchmark de matemática de nível de pesquisa mais desafiador atualmente, o FrontierMath Tier 4 (resolvendo 23 de 48 problemas), superando diretamente o recorde anterior de 39,6% estabelecido pelo GPT-5.5 Pro. Este sistema não utilizou um modelo de base de próxima geração, mas sim o Gemini 3.1 Pro. O próprio modelo alcançou apenas 19% de precisão no Tier 4, mas com a adição da estrutura de agentes, seu desempenho mais que dobrou. A DeepMind equipou-o com uma arquitetura em múltiplas camadas: no nível superior, um ‘coordenador de projeto’ divide tarefas de pesquisa em múltiplos fluxos de trabalho, que são então distribuídos para subagentes responsáveis por recuperação de literatura, codificação e raciocínio. As provas geradas devem passar por um processo de revisão por múltiplos ‘agentes de revisão’ antes de serem submetidas. Essa estrutura robusta demonstra que as capacidades incrementais extraídas através da orquestração podem potencialmente superar aquelas obtidas apenas com a atualização de modelos em raciocínio matemático de alto nível. O teste às cegas foi conduzido pela Epoch AI, e para evitar trapaças, a equipe do DeepMind não viu as perguntas durante todo o processo, sendo que cada questão tinha um limite de 48 horas para execução. Os resultados não só lideraram a classificação, como também resolveram três problemas que anteriormente tinham frustrado todos os modelos. Embora seja referido como um assistente, ele funciona mais como um colega criativo. O especialista em teoria de grupos Marc Lackenby usou-o em uma pesquisa real para resolver uma conjectura pública do caderno Kourovka. Curiosamente, a estratégia inicial proposta pelo sistema foi marcada como ‘falha’ pelo próprio agente de revisão, mas Lackenby reconheceu a ideia inteligente escondida na proposta rejeitada, preencheu as lacunas ele mesmo e, por fim, completou a prova. Atualmente, o co-matemático de IA está disponível apenas para testes internos por um número limitado de matemáticos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar