O mundo da segurança digital nunca mais será o mesmo. Enquanto muitos ainda discutem se a inteligência artificial vai roubar empregos ou causar o apocalipse robótico, o modelo o3 do ChatGPT acabou de escrever um capítulo inédito na história da segurança cibernética: descobriu sozinho uma vulnerabilidade crítica no kernel Linux que humanos haviam deixado passar. E não foi qualquer falha – estamos falando de um zeroday remoto no código SMB, batizado como CVE-2025-37899, que poderia permitir a execução remota de código no coração dos sistemas Linux.
O pesquisador Sean Heelan, que conduziu os testes, inicialmente só queria comparar o desempenho do o3 com modelos anteriores. Mas o que começou como um simples benchmark terminou com a descoberta acidental de uma falha séria na implementação do protocolo SMB3 no módulo ksmbd do kernel Linux. A ironia? Heelan estava usando vulnerabilidades que ele mesmo havia encontrado manualmente como parâmetro de comparação, e o o3 não só identificou essas falhas conhecidas como descobriu uma completamente nova.
O X da questão
A vulnerabilidade encontrada pelo o3 é do tipo use-after-free, uma classe particularmente traiçoeira de bugs que ocorre quando um programa continua usando uma região de memória após tê-la liberado. No caso específico do CVE-2025-37899, o problema estava no manipulador do comando SMB ‘logoff’, onde um objeto poderia ser liberado por uma thread enquanto outra ainda poderia acessá-lo.
O que torna essa descoberta impressionante é a complexidade do cenário necessário para explorar a falha. O o3 precisou entender não só o fluxo de código envolvido no logoff, mas também como múltiplas conexões SMB podem compartilhar objetos de sessão e como a falta de sincronização entre threads poderia levar à corrupção de memória.
Como o o3 superou os concorrentes
Os experimentos de Heelan revelaram que o o3 não é apenas incrementalmente melhor que seus predecessores – ele representa um salto qualitativo na capacidade de análise de código. Enquanto o Claude Sonnet 3.7 encontrou a vulnerabilidade de referência em apenas 3 de 100 tentativas, o o3 acertou em 8 execuções. Mais importante ainda, os relatórios gerados pelo o3 eram estruturados mais próximos de análises humanas – concisos, focados e com explicações lógicas, embora às vezes sacrificando detalhes técnicos.
Quando o escopo do teste foi ampliado para incluir todos os manipuladores de comandos SMB (cerca de 12.000 linhas de código), o desempenho do o3 caiu, como esperado, mas ainda assim o modelo conseguiu identificar não só a vulnerabilidade original como descobriu a nova falha no logoff. Essa capacidade de encontrar agulhas em palheiros de código é o que diferencia o o3 de ferramentas tradicionais de análise estática.
Um dos momentos mais reveladores da pesquisa ocorreu quando Heelan percebeu que sua correção proposta para outra vulnerabilidade similar era insuficiente – e que o o3 havia identificado esse fato em alguns de seus relatórios.
Essa percepção mostra como a IA pode complementar o trabalho humano na segurança cibernética. Enquanto pesquisadores experientes trazem intuição e conhecimento, os modelos como o o3 oferecem uma capacidade incomparável de cruzar dados e identificar padrões em grandes volumes de código.A descoberta do CVE-2025-37899 pelo o3 marca um ponto de virada na segurança da informação. Pela primeira vez, temos evidências concretas de que modelos de linguagem podem efetivamente auxiliar no processo de descoberta de vulnerabilidades em sistemas complexos e críticos como o kernel Linux, em vez de apenas gerar lixo de IA.




