Crawl Budget en SEO: qué es y cómo optimizarlo

El crawl budget o presupuesto de rastreo, es uno de esos conceptos que se repiten mucho en foros de SEO y que la mayoría de la gente aplica donde no toca. Lo he visto en auditorías: un negocio local con 40 páginas preocupado por optimizar el crawl budget mientras tiene las metas de conversión sin configurar.

Así que antes de entrar en materia: si tienes una web pequeña, con menos de 500 URLs y sin estructuras complejas, esto probablemente no te afecta. Puedes leerlo para entenderlo, pero no es tu prioridad ahora mismo.

Dicho eso, si gestionas un ecommerce con miles de productos, un portal de contenido con filtros y categorías, o cualquier web donde Google indexa cosas que no debería y se olvida de las que sí importan… entonces sí tienes un problema de crawl budget. Y este artículo es para ti.

Qué es el crawl budget (explicado sin rodeos)

El crawl budget es, básicamente, el número de URLs que Googlebot está dispuesto a rastrear en tu web durante un periodo de tiempo determinado. No es un número fijo ni una métrica que puedas ver directamente, pero existe y tiene consecuencias reales.

Piénsalo así: Google no tiene tiempo infinito para tu web. Tiene miles de millones de URLs que rastrear en todo internet. A cada dominio le asigna una capacidad de rastreo en función de varios factores. Si tu web tiene 50.000 URLs y Google solo rastrea 2.000 al día, hay 48.000 páginas que en ese día no se actualizan en el índice. Dependiendo de cuáles sean esas páginas, eso puede ser un problema grande o ningún problema.

Cómo funciona el crawl budget en Google

Crawl rate limit

Es la velocidad máxima a la que Googlebot puede rastrear tu web sin saturar el servidor. Si tu web responde lento o con errores, Google reduce la frecuencia de rastreo para no tumbarte. Esto no es benevolencia de Google, es que a ellos también les interesa que el rastreo sea limpio.

Lo que significa en la práctica: una web lenta o con un hosting malo tiene un crawl rate limit bajo. Google rastrea menos. Y si rastrea menos, tarda más en descubrir cambios, en indexar contenido nuevo, en procesar redirecciones.

Crawl demand

Esto es el interés real que tiene Google en tu web. No todas las webs interesan igual. Si publicas contenido nuevo con frecuencia, si tienes autoridad de dominio, si tu contenido recibe enlaces… Google querrá volver más. Si llevas meses sin actualizar nada y tu web tiene poca autoridad, el interés de Googlebot baja.

La combinación de crawl rate limit y crawl demand determina cuánto presupuesto de rastreo tienes disponible. No puedes controlarlo directamente, pero sí puedes optimizar ambos factores. La propia documentación oficial de Google Search Central lo deja claro: el crawl budget no es algo que la mayoría de webs tenga que gestionar activamente. Solo entra en juego cuando el sitio es grande, se actualiza con frecuencia o arrastra problemas técnicos acumulados.

Cuándo debes preocuparte por el crawl budget

Hay una pregunta fácil para saber si esto va contigo:

¿Tienes páginas importantes que Google no está indexando aunque lleven semanas publicadas?

Si la respuesta es sí, el crawl budget puede ser parte del problema. Pero no el único.

Estos son los casos donde el crawl budget empieza a importar de verdad:

Ecommerce con más de 5.000 URLs (productos, categorías, filtros, variantes)
Webs con paginación profunda o navegación facetada sin controlar
Portales de contenido con taxonomías complejas (etiquetas, archivos, categorías anidadas)
Sitios con muchas URLs generadas por parámetros (sesiones, ordenaciones, filtros)
Webs que han migrado mal y arrastran miles de redirects en cadena
Proyectos donde los logs muestran que Googlebot pierde el tiempo en páginas sin valor

Si tienes una web corporativa con 80 páginas, un blog con 120 posts y todo bien enlazado… no es tu problema. Céntrate en mejorar el E-E-A-T y en publicar buen contenido.

Cómo saber si tienes problemas de crawl budget

Google Search Console

En GSC, dentro de Configuración > Estadísticas de rastreo, puedes ver cuántas páginas rastrea Google al día en tu web y cuál es la tendencia. Si hay una caída brusca sin causa técnica aparente, es una señal a investigar.

También fíjate en la diferencia entre páginas descubiertas y páginas indexadas en el Informe de cobertura. Una brecha grande entre ambas puede indicar que Google está descubriendo URLs pero decidiendo no indexarlas. Eso puede ser intencional (si las tienes en noindex) o un problema.

Análisis de logs

Esto ya es nivel avanzado, pero es la fuente de información más honesta que existe sobre qué hace Googlebot en tu web. Los logs del servidor te dicen exactamente qué URLs rastrea Google, con qué frecuencia y qué código de respuesta obtiene.

Lo que buscas en los logs: ¿está Googlebot perdiendo tiempo en URLs sin valor? ¿Rastrea páginas con parámetros raros? ¿Está pasando por redirects que podrías eliminar? Si la respuesta a alguna de estas es sí, estás desperdiciando presupuesto de rastreo.

Señales claras de que algo falla

Más allá de las herramientas, hay situaciones que son señales de alerta evidentes:

Publicas contenido nuevo y tarda semanas en aparecer en Google
Tienes páginas importantes en «Descubiertas, aún no indexadas» desde hace meses
Google indexa páginas de filtros o parámetros que nunca deberían aparecer en resultados
Hay miles de URLs en el sitemap que no aportan nada

Problemas que destruyen tu crawl budget

Aquí es donde la mayoría de los problemas reales ocurren. No es magia ni configuración rara. Son errores técnicos concretos que se repiten en casi todas las auditorías que hago.

URLs inútiles indexables

Parámetros de sesión, URLs con filtros de precio, ordenaciones de productos, versiones de páginas con ?ref= o ?utm_source=… Todo esto genera URLs únicas que Google puede rastrear e indexar. Multiplica eso por un ecommerce con miles de productos y el problema escala rápido.

En muchos casos, el 60-70% de las URLs que Google rastrea no tienen ningún valor para el negocio. Y ese rastreo viene a costa de las páginas que sí importan.

Faceted navigation mal gestionada

Es el caso más clásico en ecommerce. Un usuario puede combinar filtros de talla, color, precio y marca. Cada combinación genera una URL nueva. Sin control, eso puede suponer decenas de miles de páginas indexables que no van a posicionar nada y que le roban tiempo a Googlebot.

La solución pasa por decidir qué combinaciones de filtros tienen valor SEO real y gestionar el resto con noindex, canonical o directamente bloqueando el rastreo en robots.txt.

Enlazado interno caótico

Si tus páginas más importantes están a 6 clics del home y las de menos valor están enlazadas desde todas partes, Google va a rastrear las menos importantes con más frecuencia. El enlazado interno mal distribuido es uno de los problemas más fáciles de corregir y de los que más impacto tienen en la eficiencia del rastreo.

Redirecciones en cadena

Una redirección 301 está bien. Tres redirecciones seguidas para llegar a la URL final es un problema. Googlebot sigue redirects, pero cada salto consume recursos y a partir de cierto punto puede abandonar la cadena. En webs con muchas migraciones acumuladas es muy común encontrar cadenas de 3, 4 o más redirects.

Errores 404 y soft 404

Los 404 duros consumen presupuesto de rastreo sin aportar nada. Los soft 404 son peores porque parecen páginas válidas pero no tienen contenido real. Google tiene que procesar ambos, y si tienes cientos o miles de ellos, estás malgastando rastreo.

Esto lo veo mucho en webs que han borrado productos o posts sin gestionar las URLs antiguas ni redirigirlas correctamente. Una auditoría básica con Screaming Frog o Ahrefs los detecta en minutos.

Thin content masivo

Páginas de categoría vacías, páginas de etiqueta con uno o dos posts, páginas de archivo de fechas que nadie busca… Todo eso es contenido delgado que Google puede rastrear pero que no le aporta valor. Y cuantas más páginas así tenga tu web, más se diluye el presupuesto de rastreo entre cosas que no importan.

Google lo tiene documentado: tener un volumen alto de URLs de poco valor puede afectar negativamente al rastreo e indexación del sitio completo. No es solo que esas páginas no posicionen, es que perjudican al conjunto.

JavaScript pesado o mal renderizado

Si tu web carga el contenido principal mediante JavaScript y Googlebot tiene que renderizarlo para acceder a él, el coste de rastreo sube. Google puede renderizar JavaScript, pero es un proceso más costoso que procesar HTML estático. Si además el renderizado falla o es incompleto, puedes tener páginas que Googlebot visita pero no procesa correctamente.

Los Core Web Vitals están relacionados con esto, aunque son métricas de experiencia de usuario y no directamente de crawl budget.

Cómo optimizar el crawl budget (de verdad)

Limpia la indexación

Primer paso: decide qué páginas quieres que Google indexe y cuáles no. No es una decisión que debas tomar a la ligera, pero tampoco la compliques más de lo necesario.

Las páginas sin valor SEO deben tener noindex o estar bloqueadas en robots.txt según el caso. El canonical es útil para señalar la versión preferida cuando tienes contenido duplicado o cuasi-duplicado.

Regla general: si una página no va a posicionar por nada relevante, no tiene valor comercial para el usuario y no ayuda al enlazado interno, considera sacarla del índice.

Controla parámetros y filtros

En Google Search Console puedes configurar cómo quieres que Google trate los parámetros de URL. Para los parámetros que no cambian el contenido (ordenaciones, referencias de tracking, etc.), puedes indicarle a Google que los ignore.

Para la navegación facetada, evalúa cada tipo de filtro: ¿hay búsquedas reales para «zapatillas rojas talla 42 Nike baratas»? Si la hay y el volumen lo justifica, esa URL tiene sentido. Si no, noindex o canonical hacia la categoría principal.

Mejora el enlazado interno

Las páginas que quieres que Google rastree con más frecuencia deben estar bien enlazadas desde el home, desde las categorías principales, desde el menú de navegación. No las entierres en páginas que nadie visita.

Piensa en el enlazado interno como un sistema de priorización. Google sigue los enlaces y da más importancia a los destinos más enlazados. Si quieres que indexe y rastree tus páginas de producto más importantes, asegúrate de que estén bien conectadas con el resto del sitio. Aquí entra también la lógica de los topic clusters: una arquitectura bien planificada distribuye el rastreo de forma natural hacia las páginas que importan.

Optimiza velocidad y servidor

Un servidor rápido = Googlebot puede rastrear más páginas en el mismo tiempo. No es complicado. Si tu TTFB (Time To First Byte) está por encima de 600-800ms de forma consistente, eso está afectando a tu crawl rate limit. Google confirma en su documentación que si el sitio responde rápido durante un periodo sostenido, el límite de rastreo sube; si el servidor va lento o devuelve errores, baja.

Hosting malo, plugins mal optimizados en WordPress, imágenes sin comprimir, falta de caché… Todo suma. Y todo tiene solución.

Reduce URLs innecesarias

Borra o consolida páginas de poco valor. Gestiona las paginaciones. Elimina los archivos por fecha si no aportan nada. Revisa si tus etiquetas de WordPress están generando decenas de páginas indexables sin tráfico ni valor.

La lógica es simple: menos URLs inútiles = más presupuesto disponible para las que sí importan.

Cómo aumentar el crawl budget

Optimizar el crawl budget es, en parte, una operación de limpieza. Pero también puedes hacer que Google quiera rastrear más tu web.

Publicar contenido nuevo con regularidad hace que Googlebot vuelva con más frecuencia. Actualizar contenido existente también funciona. Conseguir enlaces de calidad aumenta la autoridad del dominio, y eso aumenta el interés de Google en rastrearte.

No hay atajos aquí. Es SEO de base: web rápida, contenido de valor, link building coherente. Todo lo que ya sabes que funciona también funciona para el crawl budget.

Checklist rápido de optimización

Checklist de crawl budget
✔ Revisar en GSC cuántas URLs rastrea Google al día y detectar tendencias
✔ Identificar páginas sin valor que están indexadas (filtros, parámetros, thin content)
✔ Aplicar noindex o canonical donde corresponda
✔ Revisar robots.txt y bloquear lo que no debe rastrearse
✔ Corregir redirecciones en cadena
✔ Eliminar o redirigir errores 404 relevantes
✔ Auditar el enlazado interno y priorizar páginas importantes
✔ Medir TTFB y velocidad del servidor
✔ Analizar logs si tienes acceso (o pedir que los analicen)
✔ Limpiar el sitemap: que solo incluya URLs indexables y con valor

¿Y si tengo una web pequeña?

Ya lo he dicho antes, pero lo repito porque es importante: si tienes menos de 500-1.000 URLs bien estructuradas, no tienes un problema de crawl budget. Google va a rastrear tu web entera sin problema.

Lo que sí puedes aplicar es la lógica general: no generes URLs inútiles, mantén el enlazado interno limpio, publica con cierta regularidad. Eso ya está bien.

Donde el crawl budget se convierte en prioridad real es en sitios grandes, con muchas URLs dinámicas o con historial de mala gestión técnica. Si eres consultor SEO en Asturias trabajando con un cliente de ecommerce que lleva años acumulando deuda técnica, ahí sí merece una sesión dedicada.

En el resto de casos, céntrate primero en lo que mueve la aguja de verdad: investigación de keywords bien hecha, contenido que responde intenciones reales y una arquitectura de información que tenga sentido. El crawl budget es una pieza del puzzle, no el puzzle entero.

SEO + IA

¿Tu web está preparada para la IA?

Reviso tu web, identifico qué señales le faltan para los LLMs y te doy un plan claro. Sin humo.

Hablamos

Qué es el Crawl Budget y cómo se optimiza

Qué es el crawl budget (explicado sin rodeos)