Novo apagão atinge a Cloudflare
Notícias

Novo apagão atinge a Cloudflare

Acesse nossos conteúdos exclusivos!

A Cloudflare sofreu mais uma interrupção em sua infraestrutura na manhã de 5 de dezembro de 2025, a segunda em poucas semanas. O incidente aconteceu durante uma manutenção programada em data centers nos Estados Unidos e acabou derrubando serviços essenciais da empresa, como o dashboard, a API e a entrega de conteúdo para uma parcela significativa da web.

Por volta de 05:47h começou a instabilidade, que foi totalmente resolvida às 06:12h no horário de Brasília, resultando em cerca de 25 minutos de impacto. De acordo com a própria Cloudflare, aproximadamente 28% do tráfego HTTP servido pela empresa foi afetado no período. Sites ao redor do mundo exibiram mensagens genéricas de erro, como o clássico “500 Internal Server Error”, incluindo grandes varejistas e serviços corporativos.

O que provocou a falha

O problema não foi causado por ataque externo ou ação maliciosa, mas por uma alteração de configuração implementada para proteger clientes contra a falha crítica do React Server Components (CVE-2025-55182), divulgada poucos dias antes.

A equipe da Cloudflare estava aumentando o tamanho do buffer de análise do Web Application Firewall (WAF) de 128 KB para 1 MB, limite normalmente aceito por aplicações Next.js, o que permitiria maior inspeção de conteúdo HTTP para bloquear requisições exploratórias ligadas à vulnerabilidade.

Durante o processo de implantação gradual dessa mudança, os engenheiros perceberam que uma ferramenta interna de testes do WAF não era compatível com o novo buffer. Para evitar conflitos, decidiram desativar esse sistema de testes por meio do sistema global de configuração, um mecanismo que, diferentemente do rollout gradual, propaga alterações em segundos para toda a rede mundial da empresa.

Foi aí que o problema surgiu: em versões do proxy FL1, a combinação entre a desativação da ferramenta de testes e um trecho antigo do código responsável por avaliar regras do WAF causou falhas no processamento de requisições e o retorno imediato do código HTTP 500 a milhões de acessos.

Sendo assim, a interrupção atingiu clientes que estavam sendo servidos pelo proxy FL1 e utilizavam o Cloudflare Managed Ruleset no WAF. Usuários fora dessa combinação específica não foram afetados.

Mesmo assim, o alcance foi grande o suficiente para gerar uma enxurrada de reclamações em serviços como o DownDetector e redes sociais, com usuários relatando lentidão ou completa indisponibilidade de sites.

Resposta e recuperação

Pouco após a detecção das falhas, a empresa reverteu a mudança de configuração às 06:11h. A restauração completa do tráfego ocorreu um minuto depois, encerrando oficialmente o incidente. A Cloudflare reconheceu publicamente a falha e pediu desculpas aos clientes e à comunidade.

Segundo a empresa, o erro específico estava há anos sem ser detectado, não surgindo antes simplesmente porque a combinação de eventos necessária para acionar o bug nunca havia ocorrido. O novo proxy FL2, desenvolvido em Rust, já não apresenta essa vulnerabilidade.

Uma sequência preocupante

O episódio lembra um apagão em 18 de novembro de 2025, também decretado por uma alteração interna que se propagou rapidamente pela rede e acabou derrubando milhares de sites. Dois eventos semelhantes em tão pouco tempo levantam questionamentos sobre os processos de rollout e validação da Cloudflare, especialmente em mudanças que afetam todo o plano de dados.

A empresa afirma já estar trabalhando em diversas iniciativas para evitar novos incidentes, incluindo:

  • Implantação gradual também para mudanças de configuração, com validação de saúde e rollback rápido;
  • Ferramentas aprimoradas de emergência (“break glass”) para acesso ao controle da rede durante falhas;
  • Estratégias de “fail-open”, onde erros de configuração não derrubem o tráfego, mas retornem o sistema a um estado conhecido e seguro.

Enquanto esses projetos são implementados, a Cloudflare decidiu congelar novas mudanças globalmente, reforçando controles internos antes de novos rollouts.

A empresa costuma afirmar que protege cerca de 20% de toda a web. Embora isso reforce a dimensão de sua infraestrutura, também evidencia o tamanho do impacto gerado quando algo dá errado. Cada instabilidade amplia o debate sobre dependência de fornecedores únicos e a necessidade de arquiteturas mais tolerantes a falhas no ecossistema da internet.

Fique por dentro das principais novidades da semana sobre tecnologia e Linux: receba nossa newsletter!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!