Crawl budget: qué es y cómo optimizarlo

¿Qué es el crawl budget o presupuesto de rastreo? El crawl budget es el número de urls que Google rastrea e indexa en un periodo de tiempo determinado. El número de páginas rastreadas por los robot de Google en un dominio se mantienen casi siempre constantes en un número determinado, de manera que se pueda rastrear el sitio web sin sobrecargar el servidor. No obstante, de un dominio a otro el número de páginas rastreadas puede variar considerablemente, puesto que esto depende del Page Rank de la página. Es decir, cuanto mayor sea el Domain Authority (DA) de una página mayor será crawl budget que se le asigna.

¿Por qué Google asigna un crawl budget determinado?

Esto se debe a que Google no tiene recursos ilimitados, y los que tiene necesita repartirlos entre los millones de dominios que hay en la web. Para asignar un presupuesto determinado se tienen en cuenta 2 factores:

Tasa límite de rastreo

Los robot de Google necesitan rastrear e indexar la información que hay en un sitio web, pero también buscan no colapsar el servidor por exceso de peticiones, por ello, se establece un límite de rastreo. Este límite variará en función de dos factores:

Velocidad de carga: si un sitio web responde rápidamente, entonces las arañas de Google pueden rastrear mayor número de páginas en un mismo número de peticiones al servidor.
Límite establecido en Google Search Console: El webmaster de un sitio web podrá reducir el límite de páginas rastreadas. No obstante, aumentar el límite no garantiza el incremento de páginas rastreadas ya que hay otros factores en juego como la demanda de rastreo.

Demanda de rastreo

La actividad de las arañas de Google dependen del freshness de tu web. Es decir, cuanto más contenidos se creen y actualicen, más se incrementará la demanda de rastreo. Se puede dar el caso en el que la demanda de indexación sea baja y esto suponga que no se llegue al límite de rastreo establecido.

PRESUPUESTO DE RASTREO= TASA LÍMITE DE RASTREO + DEMANDA DE RASTREO

¿Qué tipo de documentos se rastrean?

Además de rastrear PÁGINAS, las arañas de Google rastrean otros documentos a su paso y que consumen crawl budget. Estos documentos son:

Páginas AMP
Hreflang
Archivos CSS
Archivos Javascript
Archivos PDF

¿Por qué el presupuesto de rastreo es importante para el SEO?

Cuando creamos nuevas páginas o actualizamos el contenido existente, necesitamos que Google las rastree e indexe rápidamente para comenzar a conseguir rendimiento de estas páginas lo antes posible.

¡Esta puntualización es muy importante! –> El presupuesto de rastreo es únicamente una preocupación cuando tenemos un sitio web con decenas de miles de páginas. Por ejemplo, una tienda online. En el caso de webs de tamaño reducido, no es un problema ya que los crawlers pueden llevar a cabo un rastreo eficiente.

Cuando tenemos webs de gran tamaño, entonces debemos preocuparnos de que el presupuesto de rastreo no sea malgastado, y así los motores de búsqueda puedan rastrear toda la web en el menor tiempo posible. Si las arañas de Google pierden el tiempo rastreando páginas de poca importancia, entonces se dejan de rastrear otras partes de la web de mayor importancia. Esto tiene como consecuencia su no indexación y la pérdida de tráfico orgánico que habrían traido.

El crawl budget NO es un factor que suponga la mejora del posicionamiento en buscadores, tan solo es un requisito que debemos tener en cuenta para poder sacar todo el partido de un site en Google.

¿Cómo y dónde consultar mi Crawl Budget?

Si quieres verificar si tu web puede incurrir en un presupuesto de rastreo insuficiente, entonces deberás seguir el siguiente proceso de verificación:

Consultamos el número de páginas totales que estamos diciendo a Google que indexe mediante el Sitemap XML.
Consultamos el número de páginas promedio rastreadas en Google Search Console > Estadísticas de rastreo
Dividimos el número de páginas que aparecen en el sitemap XML entre el promedio de páginas rastreadas al dia. Si el resultado fuera superior a 10, entonces definitivamente tu web necesita ser optimizada para mejorar la eficiencia del presupuesto de rastreo.

¿Cómo optimizar el presupuesto de rastreo de una web?

Para conseguir sacar el mayor partido al crawl budget o presupuesto de rastreo que disponemos, hay ciertas acciones que podemos poner en marcha:

Mejorar la velocidad de carga. Como hemos comentado más arriba, una buena velocidad de carga incide muy positivamente en el incremento del límite de rastreo. Así los robots de Google podrán rastrear mayor número de páginas en un mismo número de peticiones.
Enlazado interno: como ya sabemos, los crawlers siguen los enlaces internos de una web. Pues bien, para favorecer el rastreo de las principales páginas de un sitio web, una técnica muy acertada sería enlazar esas páginas desde aquellas páginas que reciben mayor número de backlinks. Una de estas páginas casi siempre es la home, por ello, las páginas con mayor relevancia deberán estar cerca de la raíz del dominio.
XML Sitemap: usando un sitemap facilitamos el rastreo a las arañas de Google, ya que mediante este archivo, le decimos a Google qué páginas del sitio web queremos indexar. Será necesario mantenerlo actualizado.
Excluimos páginas de poca relevancia del index de Google. Mediante el archivo Robots.txt excluimos todas aquellas páginas cuya indexación no aporte valor al usuario. Páginas tales como páginas log-in de acceso al cms, urls con parámetros u otras secciones que no aporten valor. Si las páginas que excluimos son urls parametrizadas (ej: filtros en páginas de producto), entonces deberán indicar su url canónica para evitar su indexación y suponga por tanto un problema de contenido duplicado. En el caso de que se excluyan otro tipo de páginas, como pueden ser los tags, se deberá colocar una etiqueta noindex en estas páginas y evitar así su indexación por completo.
Evitar contenido duplicado. El rastreo de páginas con un contenido idéntico supone un malgasto del presupuesto de rastreo, evitando por tanto que otras páginas de más importancia sean rastreadas. Por ejemplo: un error grande sería no canonicalizar urls parametrizadas.
Arquitectura web de poca profundidad. Una arquitectura web en la que las páginas más importantes sean accesibles en tan solo unos pocos clics tiene beneficios tanto para el usuario como para los robots. Los usuarios porque estos acceden a la información rápidamente y los robots porque llegan rápidamente a las páginas principales facilitando su indexación. Además, para no dejarte ninguna página importante atrás, es importante que todas las páginas formen parte de la arquitectura web. Es decir, deben estar enlazadas internamente para evitar la aparición de páginas huérfanas.
Eliminar errores 4XX y 5XX. Este tipo de errores, además de suponer una muy mala experiencia para usuarios, consumen presupuesto de rastreo inútilmente. Por lo tanto arreglando estos errores conseguimos un beneficio doble.
Eliminar redirecciones en cadena y en bucle. En sitios web de gran tamaño, las redirecciones llegan a ser casi inevitables, pero en la medida de lo posible debemos evitar que haya cadenas de redirecciones o redirecciones en bucle. Las redirecciones en cadena consumen presupuesto de rastreo, ya que los robots acceden a urls redirigidas que no aportan nada. Así, las redirecciones deberán apuntar a la urls final.

Igual también te interesa

Siguiente Frente al Coronavirus, ¡aquí estamos! »

Previo « Canibalización de palabras clave: qué es, detección, solución y cómo evitarlo.

Ver comentarios

Oranda Style dice:

15 marzo, 2020 en 3:50

En las siguientes lineas aprenderas que es el Crawl Budget, como monitorizarlo, los beneficios que tiene optimizarlo y que pasos debes seguir para poder tenerlo bajo control, ?empezamos!
Victor dice:

5 mayo, 2022 en 0:50

Muy interesante. ¿Siempre ha existido o se implantó en un determinado momento?

Un saludo,

Dejar un comentario

Publicado por

César Rigabert

4 años .