En SEO, una de las necesidades más importante para obtener una buena visibilidad orgánica y un buen posicionamiento web es tener indexadas todas las URLs que son necesarias que lo estén. Es decir, todas las que sean necesarias porque no todas deberían de estarlo…
En este artículo veremos cómo indexar todas las páginas de nuestra web que justo sean necesarias (y no más), y cómo dirimir cuáles deberían estarlo y cómo evitar que se indexen las que, en realidad, no debería estar indexadas en Google.
Indexación vs Rastreo
Para empezar, debemos saber diferenciar entre rastreo e indexación. Todas las URLs que se han indexados anteriormente se han rastreado, pero no todas las URLs que se rastrean necesariamente van a ser indexadas o deben ser indexadas.
Por tanto, existen parámetros que nos permiten evitar tanto que se rastreen URLs como para que se indexen en Google:
- La araña rastrea (si no se lo impedimos).
- Después la araña indexa (si no se lo impedimos).
¿Qué URLs deben ser indexadas?
Para tomar este tipo de decisiones, tan sólo debemos tener en cuenta una secuencia lógica:
¿El contenido de esa página resuelve una demanda del usuario?
Google funciona de la siguiente manera; los usuarios usamos los buscadores para encontrar información, resolver dudas, comprar un producto o contratar un servicio. Por lo tanto, debemos entender qué estamos para responder con información relevante y oportuna, así como con un servicio o un producto concreto.
¿Y por qué no indexar una URL en Google?
Existe un concepto en SEO llamado ‘Crawler Budget' o presupuesto de rastreo. Google nos otorga un presupuesto de rastreo en función del número de URLs de nuestro sitio web y de la relevancia de nuestro sitio web (eso lo decide él).
URLs que a priori NO deberían indexarse
- Páginas de contacto (a no ser que seas un personaje famoso o una marca importante)
- Contenido duplicado
- Políticas de privacidad y de cookies
- Avisos legales
- Variables de productos
- Categorías
- Etiquetas
Esto es tan sólo una propuesta genérica. Tú, con la secuencia lógica de la que hablamos antes, sabrás mejor que nadie qué URL debe estar indexada y cuál no.
¿Cómo indexar una URL o página web?
En principio, no debemos hacer nada para indexar una URL, ya que si no lo evitamos con ningún comando como el que expondremos más adelante, Google rastreará todas las páginas web de tu sitio y las indexará.
Si tu web está desarrollada en un CMS como WordPress, asegúrate que en el apartado ‘Ajustes' > ‘Lectura' no esté marcada la casilla ‘Disuadir a los motores de búsqueda de indexar este sitio'. En el caso de que lo esté, deberás desmarcarla para que tu contenido se indexe.
Ahora bien, si lo que estamos intentando es que ciertas URLs no se indexen, tenemos que incluir la meta etiqueta robots:
<meta name=”robots” content=”noindex”>
Introduciendo esta meta etiqueta, evitaremos que la URL en concreto se indexe.
Si utilizas alguno de los plugins WordPress como SEO by Yoast, podrás hacerlo de manera muy sencilla.
Ahora que ya sabemos cómo evitar que ciertas URLs se indexen, veremos otro concepto más a tener en cuenta.
¿Qué es la Saturación?
La saturación ideal es igual a 0. Pongamos un ejemplo:
- Nuestra web tiene 500 URLs en total.
- Hemos decidido por la secuencia lógica que sólo deben indexarse 300.
- Hemos verificado que nuestra web tiene indexada en Google 300 URLs.
Por lo tanto, la saturación de indexación de nuestra web es 0.
- En el caso de tener más URLs de que la debiera, sería Saturación +X.
- En el caso de tener menos URLs de la que debiera, sería Saturación –X.
Pero tener una buena saturación no evita consumir crawler budget innecesariamente. Para eso, debemos limitar el rastreo por parte de los bots en nuestro sitio web. ¡Veamos cómo!
¿Cómo tener un rastreo óptimo en tu sitio web?
Como hemos comentado antes, hay que saber diferenciar entre rastreo e indexación. No todas las URLs que se rastrean tienen porque estar indexadas.
Y si no queremos que estén indexadas, ¿para qué vamos a dejar que Google la rastree?
Por lo tanto, sólo nos queda evitar que Google rastree ese contenido que no queremos indexar para evitar un consumo de presupuesto de rastreo innecesario.
Ahora veamos cómo, por qué tenemos varias maneras:
1) A través del robots.txt
El robots.txt es un archivo en texto plano que sirve para dar directrices a los motores de búsquedas. Entre los principales se encuentra el “Disallow” que sirve para evitar que Google rastree una URL o directorio desde su raíz.
El comando completo es el siguiente:
Disallow: /url-o-carpeta-que-no-queremos-que-rastree/
Pero hay un problema con eso, y es que como hemos comentado, impide que rastree esa URL o carpeta desde su raíz.
El caso es que Google puede rastrearla a través de enlaces externos, internos y otras rutas. Por lo tanto, debemos de asegurarnos. Pero ¿cómo?
2) A través de meta-etiquetas
De nuevo debemos utilizar la misma meta etiqueta que antes:
<meta name=”robots” content=”nofollow”>
Pero, esta vez en vez de introducir “nindex”, introducimos “nofollow”.
Si además no queremos que se indexe, debemos introducir los dos comandos a la vez:
<meta name=”robots” content=”noindex, nofollow”>
Con esto evitaremos que sea rastreada y que se indexe esa URL.
Si haces todo lo que se recomienda en este artículo, no sólo estarás indexado todos los contenidos relevante de tu web, cosa primordial, sino que además estarás evitando indexar contenido no relevante y optimizando el rastreo de tu sitio.
Suscríbete y recibe en tu mail:
500 ideas para crear posts que llevarán tu blog a otro nivel. Suscríbete y recíbela en tu correo.
500 ideas para crear posts que llevarán tu blog a otro nivel. Suscríbete y recíbela en tu correo.
4 comentarios en “Cómo saber si tu página web está correctamente indexada en Google”
Me encantó! claro y objetivo.
Nos alegra saberlo Blanca 🙂
He buscado y buscado y me ha parecido la mejor explicación que he podido encontrar, muchas gracias.
¡Gracias José!