¿Qué es? ¿Para que sirve? ¿Cómo se crea?
A continuación intentaré dar unas pautas para que podáis entender el uso del archivo robots.txt y seáis capaces de crear uno que satisfaga vuestras necesidades personales.
El archivo robots.txt un archivo que indica a los motores de búsqueda que páginas de tu sitio web quieres que se indexen.
Si quieres permitir todo, si quieres denegar el acceso a todo o si concedes el acceso a ciertas carpetas y/o archivo pero a otras no.
También puedes indicar diferentes instrucciones según los diferentes motores de búsqueda.
Los motores de búsqueda como Google o Yahoo intentarán indexar todo el contenido posible a menos que se indique lo contrario. Por ello si deseamos que no se indexe algún archivo debemos crear el famoso archivo robots.txt
Este archivo debe ir el carpeta raíz donde está alojada la página web. De esta forma sera rápidamente localizado por los motores de búsqueda.
Muchas veces, aunque se bloquee un archivo mediante robots.txt la URL seguirá siendo visible para la mayoría de los buscadores, pudiendo aparecer en los resultados de búsqueda. Si queremos evitar que se muestren estos elementos en el diseño web, deberemos usar la etiqueta noindex en la cabecera de cada página.
El código a insertar sería así:
Es importante que tu sitio web contenga un archivo robots.txt. La estructura del diseño web y su correcta indexación depende de ello. De no ser así, cada vez que se busque por este archivo estará devolviendo un error 404. Una solución sencilla para dejar de recibir estos problemas es subir un archivo vacío llamado robots.txt.
A continuación veremos algunos ejemplos de archivos robots.txt:
Archivo 1: Permite a todos los buscadores indexar todo el contenido.
User-agent: *
Disallow:
Archivo 2: No permite a ningún buscador indexar nada que se encuentre en la carpeta raíz
User-agent: *
Disallow: /
Archivo 3: No permite a ningún buscador indexar lo que este dentro de la carpeta específica.
User-agent: *
Disallow: /carpeta/
Archivo 4: No permite a Google indexar ninguna archivo de la carpeta salvo el archivo especificado.
User-agent: Googlebot
Disallow: /carpeta/
Allow: /carpeta/archivo.html
Archivo 5: No permite indexar todos los archivos que se llamen contraseñas
User-agent: *
Disallow: contraseñas*.txt
Vemos que el uso del asterisco (*) ha tomado carácter de comodín.