A importância do Robots.txt

Robots.txt é um pequeno arquivo de texto colocado na raiz do site e sua função é informar aos motores de busca o que deve e o que não deve ser indexado no momento em que eles visitam nosso site.

Nos sites, nem todas as páginas devem ser catalogadas pelos robots, nome atribuído às máquinas que varrem a web a procura de novos sites, novas páginas e modificações existentes nelas. A razão é simples: uma pesquisa mal intencionada a respeito de nosso site, por alguém que saiba utilizar as máquinas de busca, pode resultar em páginas de login, de administração sendo exibidas nos resultados, além de páginas duplicadas inseridas no catálogo, tendo como conseqüência a penalização por conteúdo duplicado.

Como a função deste arquivo de texto é criar uma política de acesso ao conteúdo do nosso site, existem sintaxes que ajudam a criar as regras. Vamos a elas:

User-agent

Esta sintaxe define quais robots devem obrigatoriamente seguir as regras estabelecidas no arquivo de texto:

• Google: User-agent: Googlebot
• Yahoo: User-agent: Slurp
• MSN: User-agent: msnbot.
Todos os mecanismos: User-agent: *.

Disallow

O comando Disallow informa aos motores de busca os diretórios ou páginas não devem ser rastreados, indexados. Exemplo:

• Disallow: /admin O conteúdo da pasta Admin não deve ser rastreado
• Disallow: login.html A página login.html não deve ser indexada pelos motores de busca.

Allow

Este comando informa quais diretórios ou páginas devem ter seu conteúdo indexado. Aparentemente é um comando no mínimo estranho, tendo em vista que naturalmente todos os diretórios e páginas são livres para serem indexados, não tendo a necessidade de serem informados, listados. Este comando vale para os casos onde o webmaster bloqueou uma pasta, mas que deseja que um subdiretório ou página deve ser indexada.
Analisemos a seguinte estrutura de um site fictício:

Notícias
/admin
/recentes

Supondo que o webmaster queira bloquear o acesso dos robots ao conteúdo da pasta Noticias por haver uma pasta de administração do site, mas que a pasta recentes esteja liberada para a indexação, o que fazer?

Disallow: /noticias
Allow: /noticias / recentes

Caso haja necessidade de outras subpastas serem liberadas para indexação, basta repetir a segunda linha informando quais pastas devem seguir a regra.

Exemplo real de robots.txt:

User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/
Disallow: /category/
Disallow: /page/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*category*
Disallow: /*tag*
Disallow: /*page*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap

Este é o robots.txt que utilizamos aqui em nosso blog, que utiliza o WordPress como plataforma.
Note que logo no início do arquivo, bloqueamos o acesso a alguns diretórios por julgarmos que não sejam interessantes para a listagem nos motores de busca.
Para quem não estiver ainda familiarizado com este assunto, disponibilizamos duas opções online para que seu arquivo seja gerado sem grandes dificuldades:

http://www.marketingdebusca.com.br/robots-txt/

Gerador de Robots.txt no MestreSeo:

http://www.mestreseo.com.br/ferramentas-seo/gerador-robots-txt/

Related Posts with Thumbnails

Popularity: 2% [?]

Posts relacionados:

Receba nossos artigos por email



You can leave a response, or trackback from your own site.

One Response to “A importância do Robots.txt”

Leave a Reply

Powered by WordPress | Compare Credit Card Deals at iApplyForCreditCards.com | Thanks to BestInCreditCards.com, Video Game Music and Get Six Pack Abs
Copy Protected by Chetan's WP-CopyProtect.