TutoriaisVídeo

Proteja seu site de rastreadores de IA com o robots.txt

As inteligências artificiais generativas de texto estão em alta, com gigantes como Microsoft, OpenAI, Google e até Apple entrando na onda. Para que essas IAs funcionem bem, elas precisam coletar uma enorme quantidade de dados disponíveis na internet, incluindo blogs pessoais e sites de notícias. No entanto, os rastreadores de IA funcionam frequentemente sem o consentimento prévio dos donos dos sites, o que pode incomodar muitos criadores de conteúdo.

Se você se sente desconfortável com a ideia de que seu conteúdo seja utilizado por IAs sem que você receba algo em troca, há uma maneira simples de barrar esses rastreadores: usando o arquivo robots.txt. Aprenda a configurar o robots.txt para impedir que bots de IA acessem seu site.

Configurando o robots.txt para barrar rastreadores de IA

O robots.txt é um arquivo de texto simples que você coloca na raiz do seu site. Ele serve para informar aos rastreadores da web quais páginas eles podem ou não observar. No caso de um site em WordPress, por exemplo, você pode utilizar o robots.txt para apontar quais páginas são referentes ao painel de administração ou links de busca, evitando que o Google e outros rastreadores sobrecarreguem seu site com solicitações.

Como Proteger seu Site de Rastreadores de IA com robots.txt 2
Instruções para bloquear o acesso de todas as IAs ao painel de administração de um site.

Para impedir que os bots de IA acessem seu site, você precisará adicionar algumas linhas específicas no seu arquivo robots.txt. As principais IAs têm rastreadores dedicados: o bot da OpenAI é o GPTBot, o do Google, responsável pelo Gemini, é o Google-Extended, e o da Apple, responsável pela Apple Intelligence, é o AppleBot. Todos eles respeitam as instruções contidas no robots.txt. 

O arquivo deve estar localizado na raiz do seu site. Se ele não existir, crie um novo arquivo de texto e nomeie-o como robots.txt. Insira as seguintes linhas com as regras para impedir que os principais bots de IA acessem seu site:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: GBTBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Sitemap: https://coloque.aqui.seu.site/sitemap_index.xml

Se você quiser permitir ver uma parte do seu site, após Disallow: /, insira o termo correspondente, por exemplo, blog.

Salve e faça upload do arquivo robots.txt: Certifique-se de que o arquivo está na raiz do seu site.

Use com sabedoria

É importante notar que bloquear alguns bots, como o Google-Extended, pode afetar a visibilidade do seu site nos resultados de busca do Google. Portanto, você deve avaliar cuidadosamente quais bots deseja bloquear. Se você quiser permitir que apenas algumas partes do seu site sejam acessadas, pode especificar o caminho. 

Também existem alternativas, serviços como Cloudflare, oferecem opções no painel de controle que permitem bloquear bots de IA por uma interface amigável. Essa pode ser uma solução mais conveniente para alguns usuários.

E IA realmente preocupa?

Proteger o conteúdo do seu site de ser utilizado por IAs sem o seu consentimento é uma preocupação válida e crescente. Usando o robots.txt, você tem um controle simples e eficaz sobre quais partes do seu site são acessadas por rastreadores de IA. Essa prática não apenas protege seu conteúdo, mas também pode ajudar a manter um desempenho eficiente no seu site.

Por outro lado, IAs que redirecionam à fonte podem favorecer um tráfego positivo. Cada decisão deve ser pensada e poderá ser revisitada posteriormente.

Mas será que toda essa preocupação com as IAs é justificada? A gente já desmistificou essa lenda para você!

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!