O que é o robots.txt
O robots.txt é um arquivo de texto na raiz do site que orienta os robôs de busca sobre quais partes eles podem ou não rastrear. Disallow pede para não rastrear um caminho; Allow abre exceções dentro de um bloqueio. É uma recomendação — robôs legítimos (Google, Bing) respeitam, mas ele não é um mecanismo de segurança.
Perguntas frequentes
Bloquear no robots.txt tira a página do Google?
Não diretamente. Bloquear o rastreamento pode até deixar a URL indexada sem descrição. Para remover do índice, use a meta tag noindex na página (que precisa ser rastreável).
Preciso informar o sitemap aqui?
Não é obrigatório, mas é recomendado: a linha Sitemap: ajuda os buscadores a descobrir todas as suas URLs mais rápido.