Relatório da Cloudflare indica que a Perplexity desrespeita restrições de sites
Notícias

Relatório da Cloudflare indica que a Perplexity desrespeita restrições de sites

Acesse nossos conteúdos exclusivos!

A internet está cheia de brigas épicas: Epic Games vs. Apple, Governo dos EUA vs. Google, e agora… Cloudflare vs. Perplexity. A discussão é sobre o limite ético sobre até onde é válido raspar dados da web, com a Perplexity acusada de ignorar regras básicas de, digamos, etiqueta digital.

Cloudflare acusa, Perplexity reage

A Cloudflare, empresa que protege metade da internet contra ataques DDoS e bots maliciosos, soltou um relatório bombástico alegando que a Perplexity, uma IA especializada em respostas precisas, está ignorando deliberadamente restrições de sites. Pior: estaria usando técnicas de disfarce para continuar coletando dados mesmo quando explicitamente bloqueada.

A acusação é grave. Segundo a Cloudflare, a Perplexity não só ignora arquivos robots.txt (aquela listinha de “não mexa aqui” que todo site pode ter) como também usa user agents falsos, fingindo ser um navegador comum para escapar de bloqueios.

Para provar suas alegações, a Cloudflare criou domínios novos, nunca indexados por mecanismos de busca, e configurou regras rígidas: robots.txt bloqueando tudo e firewalls impedindo acesso. Mesmo assim, a Perplexity conseguiu responder perguntas específicas sobre o conteúdo desses sites.

Como? Usando dois métodos:

  1. Crawlers declarados (identificados como PerplexityBot) que, quando bloqueados, simplesmente…
  2. Deram lugar a crawlers disfarçados de navegador Chrome em um Mac.

Ou seja: se o porteiro (Cloudflare) fecha a porta na cara do visitante (PerplexityBot), ele volta com um bigode postiço e um chapéu (Chrome no macOS).

É claro que a Perplexity não ficou quieta. A empresa rebateu dizendo que não faz crawling tradicional como o Google ou Bing. Em vez disso, afirma que só visita sites quando um usuário pergunta algo específico, diferenciando bots de agentes, e que o conteúdo nunca é armazenado ou usado para treinamento.

Além disso, culpou um terceiro, o Browserbase, sugerindo que a Cloudflare confundiu tráfego legítimo com atividade maliciosa. Será?

O cerne da questão não é só técnico, mas ético. Muitos criadores de conteúdo já estão cansados de IAs raspando seus sites sem permissão. Alguns argumentam “Se eu boto um robots.txt, é para ser respeitado!” ou podem ir além “Se um humano visita meu site, pode ver anúncios ou comprar algo. Um bot não me traz nenhum benefício.”

Outros, porém, acham que a Cloudflare está exagerando. Afinal, se a Perplexity só busca informações sob demanda, qual o problema?

Como tudo é marketing e para cada problema tem alguém vendendo a solução, para quem administra sites e quer evitar raspagem indesejada, a Cloudflare aproveita para dizer que oferece:

  • Regras de firewall para bloquear crawlers não autorizados;
  • Desafios que só humanos devem conseguir passar;
  • Atualizações automáticas para detectar agentes disfarçados.

Ou seja: se a Perplexity (ou qualquer outra IA) tentar entrar sorrateiramente, dá para barrar na porta.

A briga entre Cloudflare e Perplexity é só o começo. Com a ascensão das IAs, os conflitos sobre consentimento, propriedade de dados e fair use só vão aumentar. 

Fique por dentro das principais notícias da semana sobre tecnologia e Linux sem depender de algoritmos: receba nossa newsletter!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!