Mejores prácticas de Robots.txt

Aunque los especialistas en SEO ponen la mayor parte de su esfuerzo en mejorar la visibilidad de las páginas para sus correspondientes palabras clave, en algunos casos es necesario ocultar ciertas páginas de los motores de búsqueda.

Conozcamos un poco más sobre este tema.


¿Qué es un archivo robots.txt?

Robots.txt es un archivo que contiene las áreas de un sitio web que los robots de los motores de búsqueda tienen prohibido rastrear. Enumera las URL que el webmaster no quiere que Google o cualquier motor de búsqueda indexe y les impide visitar y rastrear las páginas seleccionadas.

Cuando un bot encuentra un sitio web en Internet, lo primero que hace es comprobar el archivo robots.txt para saber qué puede explorar y qué debe ignorar durante el rastreo.

Para darle un ejemplo de robots.txt, esta es su sintaxis:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Qué es robots.txt en SEO

Estas etiquetas son necesarias para guiar a los robots de Google en la búsqueda de una nueva página. Son necesarios porque:

  • Ayudan a optimizar el presupuesto de rastreo, ya que la araña sólo visitará lo que es realmente relevante y aprovechará mejor su tiempo rastreando una página. Un ejemplo de una página que no querrías que Google encontrara es una "página de agradecimiento".
  • El archivo Robots.txt es una buena forma de forzar la indexación de las páginas, señalándolas.
  • Los archivos Robots.txt controlan el acceso de los rastreadores a ciertas áreas de su sitio.
  • Pueden mantener seguras secciones enteras de un sitio web, ya que se pueden crear archivos robots.txt separados por dominios raíz. Un buen ejemplo es, por supuesto, la página de detalles de pago.
  • También puede bloquear las páginas de resultados de búsqueda interna para que no aparezcan en las SERP.
  • Robots.txt puede ocultar archivos que no deben ser indexados, como PDFs o ciertas imágenes.

Dónde encontrar robots.txt

Los archivos Robots.txt son públicos. Simplemente escriba un dominio raíz y añada /robots.txt al final de la URL y verá el archivo....si lo hay!

Advertencia: evite incluir información privada en este archivo.

Puede encontrar y editar el archivo en el directorio raíz de su hosting, comprobando los archivos admin o el FTP del sitio web.

 

Cómo editar robots.txt

Puedes hacerlo tú mismo

  • Crear o editar el archivo con un editor de texto plano
  •  Nombre el archivo "robots.txt", sin ninguna variación como el uso de mayúsculas.

Debería tener este aspecto si desea que el sitio se rastree:


User-agent: *
Disallow:

Observe que hemos dejado "Disallow" vacío, lo que indica que no hay nada que no pueda ser rastreado.

En caso de que desee bloquear una página, añádala (utilizando el ejemplo de la página "Página de agradecimiento"):


User-agent: *
Disallow: /thank-you/

  • Utilice un archivo robots.txt distinto para cada subdominio.
  • Coloque el archivo en el directorio de nivel superior del sitio web.
  • Puede probar los archivos robots.txt con las Herramientas para webmasters de Google antes de subirlos a su directorio raíz.
  • Tenga en cuenta que FandangoSEO es el comprobador definitivo de robots.txt. ¡Utilízalo para monitorizarlos!

Vea que no es tan difícil configurar su archivo robots.txt y editarlo en cualquier momento. Sólo ten en cuenta que todo lo que realmente quieres de esta acción es aprovechar al máximo las visitas de los robots. Al impedir que vean páginas irrelevantes, se asegurará de que el tiempo que pasan en el sitio web sea mucho más rentable.

Por último, recuerde que la mejor práctica de SEO para robots.txt es asegurarse de que todo el contenido relevante sea indexable y esté listo para ser rastreado! Se puede ver el porcentaje de páginas indexables y no indexables entre el total de páginas de un sitio usando el crawl de FandangoSEO, así como las páginas bloqueadas por el archivo robots.txt.


Casos de uso de Robots.txt

El archivo robots.txt controla el acceso del rastreador a algunas áreas del sitio web. Esto a veces puede ser arriesgado, especialmente si accidentalmente no se permite al GoogleBot rastrear todo el sitio, pero hay situaciones en las que un archivo robots.txt puede ser útil.

robots.txt

Algunos de los casos en los que es aconsejable utilizar robots.txt son los siguientes

  • Cuando se quiere mantener la privacidad de algunas secciones de un sitio web, por ejemplo, porque se trata de una página de prueba.
  • Para evitar que el contenido duplicado aparezca en la página de resultados de Google, aunque los meta-bots son una opción aún más deseable para este propósito.
  • Cuando no se desea que las páginas de resultados de la búsqueda interna aparezcan en una página de resultados pública.
  • Para especificar la ubicación de los mapas del sitio.
  • Para evitar que los motores de búsqueda indexen determinados archivos del sitio web.
  • Indicar un retraso en el rastreo para evitar la sobrecarga del servidor cuando los rastreadores cargan varias piezas de contenido a la vez.

Si no hay áreas en el sitio en las que quiera controlar el acceso del agente de usuario, puede que no necesite un archivo robots-txt.


Robots.txt Mejores prácticas de SEO

Siga estos consejos para gestionar correctamente los archivos robots.txt:

No bloquees el contenido que quieres que se rastree

Tampoco debe bloquear las secciones del sitio web que deben ser rastreadas.

Tenga en cuenta que los bots no seguirán los enlaces de las páginas bloqueadas por robots.txt

A menos que también estén enlazados desde otras páginas a las que los motores de búsqueda pueden acceder porque no han sido bloqueados, los recursos enlazados no serán rastreados y pueden no ser indexados.

Además, no se puede pasar ningún valor de enlace desde la página bloqueada al destino del enlace. Si tiene páginas a las que quiere dar autoridad, debe utilizar un mecanismo de bloqueo distinto de robots.txt.

No utilizar robots.txt para evitar mostrar datos confidenciales en la página de resultados del buscador

Otras páginas pueden enlazar directamente con la página que contiene la información confidencial (evitando así las directrices de robots.txt en su dominio raíz o página de inicio), por lo que puede seguir siendo indexada.

Para evitar que la página aparezca en los resultados de búsqueda de Google, debe utilizar un método diferente, como la protección con contraseña o la etiqueta meta noindex.

Recuerde que algunos motores de búsqueda tienen varios agentes de usuario

Google, por ejemplo, utiliza GoogleBot para la búsqueda orgánica y GoogleBot-Image para la búsqueda de imágenes.

La mayoría de los agentes de usuario del mismo motor de búsqueda siguen las mismas reglas, por lo que no es necesario especificar las directrices para cada rastreador del motor de búsqueda, pero hacerlo le permite controlar cómo se rastreará el contenido del sitio.

El motor de búsqueda almacena en caché el contenido del robots.txt, pero suele actualizar los datos almacenados en caché diariamente

Si cambias el archivo y quieres actualizarlo más rápido, puedes enviar la URL de robots.txt a Google.


bot

Limitaciones del archivo Robots.txt

Por último, vamos a ver cuáles son los aspectos que limitan la función del archivo robots.txt:

Las páginas seguirán apareciendo en los resultados de búsqueda

Las páginas que son inaccesibles para los motores de búsqueda debido al archivo robots.txt pero que tienen enlaces a ellas pueden seguir apareciendo en los resultados de búsqueda desde una página rastreable.

Sólo contiene directivas

Google respeta mucho el archivo robots.txt, pero sigue siendo una directiva y no un mandato.

Tamaño del archivo

Google admite un límite de 521 kilobytes para los archivos robots.txt, y si el contenido supera este tamaño máximo, puede ignorarlo. No sabemos si otros motores de búsqueda también establecen un límite para estos archivos.

El robot txt. se almacena en caché 24 horas

Según Google, el archivo robots.txt suele almacenarse en la caché durante un máximo de 24 horas. Algo que hay que tener en cuenta al realizar cambios en el archivo.

No está del todo claro cómo manejan los demás motores de búsqueda el archivo en caché, pero es mejor evitar el almacenamiento en caché de su robots.txt para que los motores de búsqueda no tarden más en detectar los cambios.



Errores del servidor 5xx Etiqueta Meta Robots

¿Ha añadido ya un archivo robots.txt?

Comprueba tus Robots con FandangoSEO

Pruébalo gratis durante 14 días

Acceso completo a todas las funciones. Sin ningún tipo de obligación.

Empieza

Arrow-up

Antes de que te vayas...

Si no quieres perderte ningún consejo o actualización de FandangoSEO, suscríbete a nuestra newsletter.

+5000 SEO confía en nosotros, únete a la comunidad