Introdução
Quer que os assistentes de IA citem as suas páginas. Muitos crawlers de IA não vêem o seu conteúdo. Ignoram JavaScript, interpretam regras robots de forma diferente e chegam de IPs que o seu firewall bloqueia.
Se as suas páginas não entregam HTML útil com sinais claros, perde visibilidade nas respostas de IA. A solução é simples de explicar e exigente na execução. Entregue conteúdo que o crawler lê, defina a política de acesso certa e monitorize o tráfego real.
Aqui aprende a abrir o acesso ao conteúdo correto, a controlar o uso e a provar impacto com logs e citações. Isto importa porque as respostas de IA influenciam a descoberta, mesmo sem clique no resultado.
Para uma estratégia completa de conteúdo, entidades e medição, veja o nosso Pilar: AI Search Optimization: The Complete Step-by-Step Guide.
Checklist resumida
- Renderize o conteúdo essencial em HTML sem depender de JS no cliente
- Títulos, intertítulos e dados estruturados claros
- Sitemaps por idioma e hreflang corretos
- Regras robots.txt por agente e X‑Robots‑Tag para controlar treino
- Verificação de bots por reverse DNS e gamas de IP publicadas
- Registe todas as requisições e ative alertas para usurpação
- Decida onde abrir, limitar, monetizar ou bloquear
- Acompanhe citações e quota entre fontes
O que os crawlers de IA fazem e não fazem, vs Googlebot
| Capacidade | Googlebot | Muitos crawlers de IA |
|---|---|---|
| Executar JS no cliente | Frequentemente | Raro |
| Seguir sitemaps | Sim | Às vezes |
| Respeitar robots.txt | Sim | Variável |
| Controlo Google‑Extended | Não se aplica | Específico de alguns |
| Verificação por reverse DNS | Sim | Às vezes |
| Orçamento de crawl | Estável | Pode ter picos |
Fontes: Introdução ao robots.txt Google, Cloudflare AI Crawl Control, PerplexityBot docs.
Recomendações práticas
- Não dependa de rendering no cliente. Envie HTML útil no primeiro carregamento.
- Regras robots explícitas por agente.
- Planeie para picos. Limite taxas de origens desconhecidas.
- Registe detalhes suficientes para verificar a origem.
Testes rápidos para fazer hoje
Sem JS
Carregue a página sem JavaScript. Se o corpo estiver vazio, os crawlers de IA falham. Corrija o HTML inicial.Cabeçalhos e diretivas
Verifique comcurl -I. Confirme cache, canonical eX‑Robots‑Tag. Replique as regras de uso de IA.Validação de schema
Article, Product, FAQ, Organization. Campos simples. Valide no Rich Results Test.Amostra de logs
Filtre agentes conhecidos. Veja códigos, hits de robots e loops de crawl.Alcance do sitemap
Abra/sitemap.xmle sitemaps por idioma. Verifiquelastmod, links limpos e HTML sem JS.
Corrigir visibilidade em JS e SPA
Estratégias de rendering
SSR ou ISR
Garanta HTML útil na primeira resposta. Next.js, Nuxt e SvelteKit suportam. Ative streaming quando possível.Prérenderizar percursos críticos
Para conteúdo estável, prérender na build ou on‑demand. Sirva a mesma versão a bots e pessoas.Rendering no edge
Se a latência pesa, renderize no edge com funções do CDN.Reforço de SPA
Se mantiver CSR, forneça um snapshot HTML com títulos, texto, links e schema nas rotas chave.
Notas por framework
Next.js
Use ISR em catálogos grandes. Evite fetch no cliente para conteúdo principal.Nuxt
Usenitroe geração estática nos caminhos estáveis. Retirenoindexdas páginas não erro.Astro
Mantenha conteúdo em HTML e hidrate só onde necessário.
Exemplo: middleware Next.js para travar um caminho sensível a bots
// middleware.ts
import { NextResponse } from 'next/server'
const blockedAgents = ['GPTBot', 'ChatGPT-User', 'ClaudeBot']
export function middleware(req) {
const ua = req.headers.get('user-agent') || ''
const isBlocked = blockedAgents.some(a => ua.includes(a))
if (isBlocked && req.nextUrl.pathname.startsWith('/premium')) {
return new NextResponse('Blocked for this path', { status: 403 })
}
return NextResponse.next()
}
robots.txt, X‑Robots‑Tag e cabeçalhos para copiar
Exemplos de robots.txt
Permitir PerplexityBot e ClaudeBot. Bloquear GPTBot. Permitir restantes.
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Allow: /
Bloquear caminho premium para crawlers de IA mas não para Googlebot.
User-agent: *Bot
Disallow: /premium/
User-agent: Googlebot
Allow: /
Cabeçalhos HTTP
X-Robots-Tag: noai
X-Robots-Tag: noimageai
Exemplo NGINX
location /images/ {
add_header X-Robots-Tag "noimageai";
}
location /premium/ {
add_header X-Robots-Tag "noai";
return 403;
}
Meta tags de reforço
<meta name="robots" content="index,follow">
<meta name="googlebot" content="index,follow">
<meta name="ai-usage" content="noai">
Quais bots permitir, bloquear ou monetizar
| Bot | Função | Ação padrão | Verificação |
|---|---|---|---|
| Googlebot | Indexação | Permitir | Reverse DNS googlebot |
| Google‑Extended | Treino de IA | Avaliar por caminho | Controlo separado |
| PerplexityBot | Motor de respostas | Permitir em público | Gamas IP e docs |
| GPTBot | Treino e respostas | Avaliar por caminho | UA e IP oficiais |
| ClaudeBot | Assistente IA | Avaliar por caminho | Docs do fornecedor |
| Meta External Agent | Investigação IA | Avaliar por caminho | Atenção a falsificação |
| Desconhecidos | Desconhecido | Limitar ou bloquear | Monitorizar e decidir |
Se vai monetizar o acesso, veja Cloudflare AI Crawl Control.
Monitorização e alertas
- Logs com timestamp, IP, UA, caminho, estado, referrer, tempo de resposta
- Grep e contagens por UA para anomalias
- Reverse DNS e gamas IP para validar bots
- WAF: rate limiting, challenge e allowlist de IPs verificados
Governação: abrir, limitar, monetizar ou bloquear
Defina política por valor e risco. Documente por diretório e reveja trimestralmente.
Multilingue e dados estruturados (EN, FR, PT)
- Pastas
/fr/e/pt-pt/ - hreflang correto e sitemaps por idioma
- HTML renderizado em cada idioma sem depender de JS
- Schema localizado consistente
Exemplos e medição
- Media: ISR nas páginas chave, sitemaps por idioma, permitir PerplexityBot e bloquear GPTBot em arquivos premium.
- Docs SaaS: SSR nas rotas de docs, remover bloqueio genérico, X‑Robots‑Tag para treino em exemplos de código, sitemap dedicado.
Métricas: velocidade de citação, quota de fontes, sucesso de fetch, rácios 200/304 vs 4xx, TTFB e conteúdo útil no primeiro carregamento.
Para a estratégia alargada, consulte o Pilar: AI Search Optimization: The Complete Step-by-Step Guide.
Como a AISO Hub pode ajudar
- AISO Audit: auditoria de acesso, logs e política, prioridades claras
- AISO Foundation: base técnica, SSR/ISR, sitemaps, schema e robots
- AISO Optimize: otimização de rendering, navegação e linking interno
- AISO Monitor: alertas, dashboards e testes sintéticos
Conclusão
As respostas de IA moldam a descoberta. Se os crawlers de IA não lêem o seu conteúdo, perde visibilidade e crédito. Entregue HTML útil, defina regras claras, verifique bots e monitorize tráfego.
Abra, limite, monetize ou bloqueie consoante o valor. Meça citações e quota de fontes para mostrar impacto. Comece pela checklist, veja os logs hoje e corrija os bloqueios.

