Acceso clientes Español Qué es y como utilizar el robots.txt

Qué es el robots.txt?

El archivo se encarga de gestionar los robots de los buscadores para limitarles el acceso. Este archivo se ubica siempre en la raíz de tu alojamiento (http://www.tudominio.com/robots.txt).

Comandos

Entre los comandos mas utilizados para controlar los robots, se encuentran estos:

  • user-agent: se utiliza para indicar a que robot le van a afectar las reglas que vamos a configurar.
  • disallow: lo usaremos para indicar si queremos deshabilitar el acceso a ciertas carpetas o a todo el site.
  • sitemap: con este comando podemos indicarle al robot donde se encuentra el sitemap del site.
  • crawl-delay: este comando es muy útil para indicar el tiempo (segundos) que el robot va a esperar entre las páginas que está revisando de nuestro site.

Ejemplos

Bloquear todos los robots al site entero:

User-agent: *
Disallow: /

Bloquear el acceso a un solo robot:

User-agent: Baiduspider
Disallow: /

Bloquear el acceso a carpetas/archivos, como por ejemplo de un WordPress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Ralentizar un bot:

User-agent: Slurp
Crawl-delay: 20

No rastrear las búsquedas en un wordpress:

User-agent: *
Disallow: /?s=
Disallow: /search/

Se pueden combinar estas reglas para que afecte a todos los robots o para cada uno de ellos en el mismo archivo robots.txt

Enlaces útiles