Acceso clientes Español Qué es y como utilizar el robots.txt
Qué es el robots.txt?
El archivo se encarga de gestionar los robots de los buscadores para limitarles el acceso. Este archivo se ubica siempre en la raíz de tu alojamiento (http://www.tudominio.com/robots.txt).
Comandos
Entre los comandos mas utilizados para controlar los robots, se encuentran estos:
- user-agent: se utiliza para indicar a que robot le van a afectar las reglas que vamos a configurar.
- disallow: lo usaremos para indicar si queremos deshabilitar el acceso a ciertas carpetas o a todo el site.
- sitemap: con este comando podemos indicarle al robot donde se encuentra el sitemap del site.
- crawl-delay: este comando es muy útil para indicar el tiempo (segundos) que el robot va a esperar entre las páginas que está revisando de nuestro site.
Ejemplos
Bloquear todos los robots al site entero:
User-agent: * Disallow: /
Bloquear el acceso a un solo robot:
User-agent: Baiduspider Disallow: /
Bloquear el acceso a carpetas/archivos, como por ejemplo de un WordPress:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php
Ralentizar un bot:
User-agent: Slurp Crawl-delay: 20
No rastrear las búsquedas en un wordpress:
User-agent: * Disallow: /?s= Disallow: /search/
Se pueden combinar estas reglas para que afecte a todos los robots o para cada uno de ellos en el mismo archivo robots.txt
Enlaces útiles
- Os puede ir muy bien el probador de robots de Google para verificar que no haya errores de definición.
- Una base de datos extensa de robots de buscadores.
- Otra lista de robots.
Etiquetado robots robots.txt indexacion