OpenAI lança EVMbench para caçar falhas críticas em contratos do Ethereum
OpenAI lança o EVMbench, benchmark para medir como agentes de IA detectam, exploram e corrigem falhas em contratos EVM, com foco em pagamentos via stablecoins e parceria com a Paradigm.
Parceria com a Paradigm mede como agentes de IA detectam, exploram e corrigem vulnerabilidades em smart contracts EVM, com ênfase em pagamentos via stablecoins
A OpenAI anunciou na quarta-feira (18) o EVMbench, um novo benchmark voltado a avaliar a capacidade de agentes de IA em detectar, explorar e corrigir vulnerabilidades de alta gravidade em contratos inteligentes compatíveis com a EVM. A iniciativa, desenvolvida em parceria com a Paradigm, mira diretamente o ecossistema do Ethereum, onde a padronização técnica e o volume de capital tornam o impacto de falhas particularmente relevante. Em termos práticos, a proposta busca aproximar a pesquisa em IA do trabalho cotidiano de auditoria on-chain, oferecendo um cenário mensurável e reproduzível para comparar abordagens. Trata-se, portanto, de um movimento que tenta transformar a identificação de bugs em um processo mais objetivo e comparável, reduzindo o ruído típico de testes ad hoc.
Para calibrar as avaliações, o EVMbench reúne 120 vulnerabilidades documentadas em 40 auditorias, a partir de códigos usados em competições abertas entre desenvolvedores. O conjunto cria um campo de prova com falhas reais, evitando o viés de exemplos artificiais que muitas vezes não espelham o risco de produção. Além disso, a OpenAI descreve uma estrutura construída em Rust capaz de implantar contratos, reproduzir transações de forma determinística e restringir métodos RPC inseguros. O objetivo é isolar variáveis e assegurar que diferentes agentes de IA sejam comparados sob as mesmas condições técnicas.
Stablecoins e agentes: o novo vetor de risco
O recorte inicial do benchmark enfatiza contratos que processam pagamentos com stablecoins por agentes autônomos, um uso que ganhou tração com a popularização de automatizações que operam carteiras em nome de usuários. Nesse arranjo, pequenos deslizes de lógica podem gerar perdas materiais, já que ativos estáveis funcionam como “moeda operacional” do agente. Ao testar exploração e correção, a proposta cobre o ciclo completo do incidente, do achado à mitigação, o que é raro em benchmarks de segurança. Em um ambiente onde a velocidade das interações on-chain cresce, colocar a IA para medir, antes de tudo, onde ela acerta e erra, não é detalhe — é requisito básico.
Defesa e ataque: o efeito duplo dos LLMs
Segundo Alpin Yukseloglu, sócio da Paradigm, o GPT-5.3-Codex já apresentou ganhos expressivos, identificando mais de 70% das vulnerabilidades do conjunto. Ele ressalta que há mais de US$100 bilhões alocados em contratos de criptomoedas de código aberto, o que amplia a urgência por ferramentas de monitoramento mais eficazes. Há, contudo, um efeito colateral inevitável: à medida que LLMs ficam melhores em encontrar falhas, adversários também podem se beneficiar do mesmo avanço. Daí a ênfase em visibilidade e influência sobre riscos, ancorada em um benchmark público e reproduzível.
Implicações para o Ethereum — e para seus competidores
O EVMbench fortalece um ponto central do Ethereum: a compatibilidade EVM cria um terreno comum para ferramentas, auditorias e padrões de segurança que, quando evoluem, beneficiam todo o ecossistema compatível. Blockchains que se posicionam como alternativas ao Ethereum — os chamados “Ethereum Killers” — frequentemente argumentam ganhos de desempenho e custo, porém precisam enfrentar o desafio de construir, do zero, um arsenal de verificação e testes com o mesmo grau de maturidade. Nesse sentido, um benchmark de referência para a EVM pressiona concorrentes a criar equivalentes sólidos se quiserem absorver fluxos sensíveis, como pagamentos automatizados por agentes. Ao mesmo tempo, redes com taxas menores podem atrair parte dessas operações, mas só consolidam essa vantagem se entregarem modelos de segurança com padronização comparável. Em mercados onde a liquidez segue o menor atrito, a confiança técnica acaba sendo o diferencial que destrava volume sustentável.
O pano de fundo é claro: IA e cripto caminham para uma economia em que agentes transacionam em nome de pessoas e aplicativos, exigindo padrões de segurança auditáveis e replicáveis. Para quem deseja compreender melhor como a disputa entre o Ethereum e outras redes se organiza em torno de custo, desempenho e, sobretudo, segurança, o BlockTrends oferece o curso Investindo em ‘Ethereum Killers’, que explora as escolhas de desenho dessas plataformas e seus impactos práticos. Em um cenário de agentes on-chain, entender onde a tecnologia brilha — e onde costuma falhar — deixa de ser opcional.