Introdução

Quer que os assistentes de IA citem as suas páginas. Muitos crawlers de IA não vêem o seu conteúdo. Ignoram JavaScript, interpretam regras robots de forma diferente e chegam de IPs que o seu firewall bloqueia.

Se as suas páginas não entregam HTML útil com sinais claros, perde visibilidade nas respostas de IA. A solução é simples de explicar e exigente na execução. Entregue conteúdo que o crawler lê, defina a política de acesso certa e monitorize o tráfego real.

Aqui aprende a abrir o acesso ao conteúdo correto, a controlar o uso e a provar impacto com logs e citações. Isto importa porque as respostas de IA influenciam a descoberta, mesmo sem clique no resultado.

Para uma estratégia completa de conteúdo, entidades e medição, veja o nosso Pilar: AI Search Optimization: The Complete Step-by-Step Guide.

Checklist resumida

  • Renderize o conteúdo essencial em HTML sem depender de JS no cliente
  • Títulos, intertítulos e dados estruturados claros
  • Sitemaps por idioma e hreflang corretos
  • Regras robots.txt por agente e X‑Robots‑Tag para controlar treino
  • Verificação de bots por reverse DNS e gamas de IP publicadas
  • Registe todas as requisições e ative alertas para usurpação
  • Decida onde abrir, limitar, monetizar ou bloquear
  • Acompanhe citações e quota entre fontes

O que os crawlers de IA fazem e não fazem, vs Googlebot

CapacidadeGooglebotMuitos crawlers de IA
Executar JS no clienteFrequentementeRaro
Seguir sitemapsSimÀs vezes
Respeitar robots.txtSimVariável
Controlo Google‑ExtendedNão se aplicaEspecífico de alguns
Verificação por reverse DNSSimÀs vezes
Orçamento de crawlEstávelPode ter picos

Fontes: Introdução ao robots.txt Google, Cloudflare AI Crawl Control, PerplexityBot docs.

Recomendações práticas

  • Não dependa de rendering no cliente. Envie HTML útil no primeiro carregamento.
  • Regras robots explícitas por agente.
  • Planeie para picos. Limite taxas de origens desconhecidas.
  • Registe detalhes suficientes para verificar a origem.

Testes rápidos para fazer hoje

  1. Sem JS
    Carregue a página sem JavaScript. Se o corpo estiver vazio, os crawlers de IA falham. Corrija o HTML inicial.

  2. Cabeçalhos e diretivas
    Verifique com curl -I. Confirme cache, canonical e X‑Robots‑Tag. Replique as regras de uso de IA.

  3. Validação de schema
    Article, Product, FAQ, Organization. Campos simples. Valide no Rich Results Test.

  4. Amostra de logs
    Filtre agentes conhecidos. Veja códigos, hits de robots e loops de crawl.

  5. Alcance do sitemap
    Abra /sitemap.xml e sitemaps por idioma. Verifique lastmod, links limpos e HTML sem JS.

Corrigir visibilidade em JS e SPA

Estratégias de rendering

  • SSR ou ISR
    Garanta HTML útil na primeira resposta. Next.js, Nuxt e SvelteKit suportam. Ative streaming quando possível.

  • Prérenderizar percursos críticos
    Para conteúdo estável, prérender na build ou on‑demand. Sirva a mesma versão a bots e pessoas.

  • Rendering no edge
    Se a latência pesa, renderize no edge com funções do CDN.

  • Reforço de SPA
    Se mantiver CSR, forneça um snapshot HTML com títulos, texto, links e schema nas rotas chave.

Notas por framework

  • Next.js
    Use ISR em catálogos grandes. Evite fetch no cliente para conteúdo principal.

  • Nuxt
    Use nitro e geração estática nos caminhos estáveis. Retire noindex das páginas não erro.

  • Astro
    Mantenha conteúdo em HTML e hidrate só onde necessário.

Exemplo: middleware Next.js para travar um caminho sensível a bots

// middleware.ts
import { NextResponse } from 'next/server'

const blockedAgents = ['GPTBot', 'ChatGPT-User', 'ClaudeBot']

export function middleware(req) {
  const ua = req.headers.get('user-agent') || ''
  const isBlocked = blockedAgents.some(a => ua.includes(a))

  if (isBlocked && req.nextUrl.pathname.startsWith('/premium')) {
    return new NextResponse('Blocked for this path', { status: 403 })
  }

  return NextResponse.next()
}

robots.txt, X‑Robots‑Tag e cabeçalhos para copiar

Exemplos de robots.txt

Permitir PerplexityBot e ClaudeBot. Bloquear GPTBot. Permitir restantes.

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

Bloquear caminho premium para crawlers de IA mas não para Googlebot.

User-agent: *Bot
Disallow: /premium/

User-agent: Googlebot
Allow: /

Cabeçalhos HTTP

X-Robots-Tag: noai
X-Robots-Tag: noimageai

Exemplo NGINX

location /images/ {
  add_header X-Robots-Tag "noimageai";
}

location /premium/ {
  add_header X-Robots-Tag "noai";
  return 403;
}

Meta tags de reforço

<meta name="robots" content="index,follow">
<meta name="googlebot" content="index,follow">
<meta name="ai-usage" content="noai">

Quais bots permitir, bloquear ou monetizar

BotFunçãoAção padrãoVerificação
GooglebotIndexaçãoPermitirReverse DNS googlebot
Google‑ExtendedTreino de IAAvaliar por caminhoControlo separado
PerplexityBotMotor de respostasPermitir em públicoGamas IP e docs
GPTBotTreino e respostasAvaliar por caminhoUA e IP oficiais
ClaudeBotAssistente IAAvaliar por caminhoDocs do fornecedor
Meta External AgentInvestigação IAAvaliar por caminhoAtenção a falsificação
DesconhecidosDesconhecidoLimitar ou bloquearMonitorizar e decidir

Se vai monetizar o acesso, veja Cloudflare AI Crawl Control.

Monitorização e alertas

  • Logs com timestamp, IP, UA, caminho, estado, referrer, tempo de resposta
  • Grep e contagens por UA para anomalias
  • Reverse DNS e gamas IP para validar bots
  • WAF: rate limiting, challenge e allowlist de IPs verificados

Governação: abrir, limitar, monetizar ou bloquear

Defina política por valor e risco. Documente por diretório e reveja trimestralmente.

Multilingue e dados estruturados (EN, FR, PT)

  • Pastas /fr/ e /pt-pt/
  • hreflang correto e sitemaps por idioma
  • HTML renderizado em cada idioma sem depender de JS
  • Schema localizado consistente

Exemplos e medição

  • Media: ISR nas páginas chave, sitemaps por idioma, permitir PerplexityBot e bloquear GPTBot em arquivos premium.
  • Docs SaaS: SSR nas rotas de docs, remover bloqueio genérico, X‑Robots‑Tag para treino em exemplos de código, sitemap dedicado.

Métricas: velocidade de citação, quota de fontes, sucesso de fetch, rácios 200/304 vs 4xx, TTFB e conteúdo útil no primeiro carregamento.

Para a estratégia alargada, consulte o Pilar: AI Search Optimization: The Complete Step-by-Step Guide.

Como a AISO Hub pode ajudar

  • AISO Audit: auditoria de acesso, logs e política, prioridades claras
  • AISO Foundation: base técnica, SSR/ISR, sitemaps, schema e robots
  • AISO Optimize: otimização de rendering, navegação e linking interno
  • AISO Monitor: alertas, dashboards e testes sintéticos

Conclusão

As respostas de IA moldam a descoberta. Se os crawlers de IA não lêem o seu conteúdo, perde visibilidade e crédito. Entregue HTML útil, defina regras claras, verifique bots e monitorize tráfego.

Abra, limite, monetize ou bloqueie consoante o valor. Meça citações e quota de fontes para mostrar impacto. Comece pela checklist, veja os logs hoje e corrija os bloqueios.