Cómo limpiar errores SEO de una web para que mejore su ranking + auditoría SEO en PDF

Limpiar los errores SEO de una web puede aumentar su tráfico. Algo que estamos empezando a constatar en el caso práctico de Hosting Saurio, que estoy contando por abierto en el blog.

Hoy te lo contamos con más detalle para que puedas replicar nuestros pasos al 100%

Hola a todos lectores y lectoras de Blogger3cero, Marco de nuevo por aquí.

Espero que en estos tiempos que vivimos estéis todos bien dentro de lo posible. Esta situación está afectando a nivel global nuestra forma de vivir, y si puedo sacar algo positivo es que se ha puesto de relieve la importancia de las competencias digitales, es una purga en muchos sentidos y solo los más adaptables sobrevivirán.

Cualquier rama digital (en especial el SEO para mí) tendrá más importancia en un futuro cercano.

Ya hemos visto cómo muchas empresas se han tenido que digitalizar y expandir en la parte digital de sus negocios en muy poco tiempo, no siempre de la forma más acertada.

Creo que toda esta locura va a hacer pensar a mucha gente y el entorno online va a sufrir un nuevo auge que nos guiará hacia un nuevo paradigma social y laboral donde el negocio local ponga su esfuerzo en la venta online, donde el mejor escaparate sea el de los buscadores o donde las oficinas y la parte «presencial» del trabajo pasen a ser conceptos obsoletos que  quedarán relegados a un segundo plano, favoreciendo el teletrabajo y los horarios flexibles.

En resumen, quizá soy demasiado soñador, pero no hay duda de que es el momento para formarse y desde Blogger3cero esperamos poder contribuir a tu formación y a tu futuro digital a través de las publicaciones de este blog, o por lo menos poner a tu disposición contenido que te haga más amena esta cuarentena 😉

No me enrollo más, que hoy me he puesto filosófico 😇

Ahora sí, vamos a por el post de esta semana.

Una vez más, será un contenido de SEO totalmente práctico basado en una caso real.

Te voy a contar mi implicación a nivel SEO dentro del proyecto hostingsaurio que está llevando a cabo Dean y mostrarlo en abierto en el blog, como ya hizo en esta vídeo píldora o en esta otra.

Esta web tiene un potencial tremendo, pero hasta ahora prácticamente no la habíamos trabajado, ya sabéis que siempre estamos con proyectos nuevos y mil webs, y al final el tiempo es limitado.

Ahora ha llegado el momento de darle caña y tratarla con el cariño que se merece y lo vamos a ir compartiendo aquí, en Blogger3cero.

En el post de hoy vamos una lista de errores SEO que hemos limpiado dentro de esta web en modo lista, para que tú puedas aplicar los mismos pasos dentro de tus webs y además daremos un regalito en formato PDF al final 😉

Antes de ver estas acciones concretas, vamos a hacer un repaso relámpago de algunos conceptos necesarios para entender mejor de qué va esto del rastreo y la indexación, o los errores SEO en general.

Vamos a construir un post que pueda entender todo el mundo. Esa es la base de cómo nos gusta trabajar.

¿Qué es el rastreo?

Los motores de búsqueda, siendo Google el protagonista indiscutible, tienen unos rastreadores o arañas que se encargan de encontrar todas las URLs que pueda tener tu web con el propósito de encontrar contenido nuevo que mostrar en sus índices de búsqueda.

Estos rastreadores examinan las URLs que ya conocen de tu web buscando cambios en dichas páginas y, siguiendo los enlaces internos de las páginas conocidas, examinan también si se han producido nuevas publicaciones.

En esencia, siguen los enlaces internos de la misma forma en que lo hace un scrapper cualquiera, como puede ser el caso de Screaming Frog o DinoRANK (en la foto estructura de enlazado interno de una web, por DinoRANK).

¿Con qué frecuencia rastrea Google mi web?

En la herramienta Search Console podemos encontrar unas gráficas con las estadísticas de rastreo de los últimos tres meses.

Esta gráficas nos ofrecen una serie de datos como las páginas rastreadas por día, los Kilobytes diarios descargados o el tiempo de descarga de una página.

 No hay un presupuesto de rastreo bueno o malo de manera estándar.  Nuestra labor aquí es crear una línea base sobre la que comparar en el futuro si nuestro presupuesto de rastreo aumenta o disminuye.

Lógicamente, a mayor presupuesto de rastreo, más posibilidades de que el crawler conozca todas las páginas de nuestra web y las visite más a menudo, lo que conlleva potencialmente una mayor captación de tráfico.

¿Qué es la indexación?

El contenido encontrado durante el rastreo pasa a la fase de indexación.

En esta fase es donde toda la información recopilada anteriormente toma forma. En la indexación se determina qué páginas pueden ser guardadas en el índice y por tanto ser visibles en los resultados del buscador.

Nuestra misión es asegurarnos de que nuestro sitio web es fácilmente rastreable y que este rastreo se lleva a cabo en las páginas que tienen nuestro mejor contenido, que son las que realmente queremos mostrar (=indexar).

Hay que dejar claro que una URL indexada no es una URL posicionada. Tu web puede estar dentro del índice de Google, pero no aparecer en los primeros resultados. Tener los contenidos indexados es requisito necesario, pero no suficiente.

Archivo robots.txt

Este archivo, que debe estar instalado en la raíz de tu dominio, es el archivo en el que indicaremos las reglas básicas para los rastreadores, llamadas directivas.

Lo normal es que los rastreadores al llegar a nuestra web revisen si hay un archivo robots.txt y lo “lean” para saber a qué partes de la misma pueden acceder y a cuáles no.

Si bloqueamos el paso de los rastreadores en ciertas URLs, el indexador nunca será capaz de analizar los contenidos y estos contenidos no tendrán opción de aparecer en las SERPs.

Bueno, esto no es del todo cierto 😉

 Si tenemos URLs bloqueadas por robots, es posible que se lleguen a indexar si están enlazadas desde URLs externas. 

Os dejo por aquí un enlace a la ayuda de Search Console donde hay más información al respecto.

Vamos a ver más detenidamente en qué se basa este archivo.

Sintaxis del robots.txt

User-agent: Es el DNI del rastreador, la forma de nombrarlo e identificarlo. Sirve para definir a qué rastreadores van a afectar las reglas que especifiquemos a continuación.

Disallow: Es la directiva que indica a los rastreadores donde NO deben acceder.

Allow: Al contrario que la anterior, la directiva allow especifica dónde se puede acceder. Es muy útil para especificar excepciones.

Sitemap: Esta directiva debe ir seguida de la URL del sitemap de nuestra web (https://tuweb.com/sitemap_index.xml). Nos sirve simplemente para decirle al rastreador donde está el sitemap de nuestra página.

Crawl-delay: Esta directiva sirve para pararle los pies a los rastreadores y que no sean «muy pesados» (aunque en realidad muchos bots no hacen caso). Podemos especificarle a las arañas el tiempo que deben esperar entre cada acceso.

Aquí tienes una guía de ayuda con las especificaciones del archivo robots.txt 

Si queréis profundizar, tenéis que leer el artículo de Álvaro Fontela de Raiola Networks sobre este tema en el que comparte un modelo de robots.txt que yo suelo utilizar con pequeñas modificaciones: podéis encontrar el artículo en este enlace.

Para comprobar si nuestra versión de robots.txt tiene algún fallo, Google pone a nuestra disposición la herramienta “Probador de robots.txt”. Además de confirmar que nuestro robots no tiene errores de sintaxis, también podemos pedir que lo actualice en caso de que hagamos alguna modificación.

Échale un vistazo a la herramienta pinchando aquí.

Etiqueta Noindex

Con esta etiqueta nos aseguramos de que la URL no aparezca en los resultados de búsqueda.

Cuando añadimos esta etiqueta, debemos asegurarnos de no tener bloqueada la URL por robots.txt, ya que  para que los rastreadores puedan leer la URL debe ser accesible y rastreable. 

La diferencia entre la etiqueta Noindex y la directiva Disallow que hemos visto anteriormente, es que con Disallow los rastreadores no tienen permiso para acceder a las URLs indicadas. Sin embargo, con la etiqueta Noindex las arañas pueden acceder, pero las URLs no serán indexadas.

Un ejemplo clásico donde queremos que el rastreador acceda pero que no indexe son las paginaciones.

Es decir, queremos que el rastreador acceda a estas páginas para que siga los enlaces y tenga en cuenta para la indexación los posts que hay en estas paginaciones, pero, por el contrario, no quiero que indexe este tipo de URLs (no quiero que formen parte del índice de resultados de Google):

Para solucionar esto y decirle a Google que estas URLs son paginaciones, nos aseguraremos de tener las etiquetas rel=»prev» y rel=»next».

Y añadimos también la etiqueta follow para que el rastreador siga los enlaces, pero combinada con noindex para que la URL no sea indexada.

Sitemap XML

El sitemap de un sitio web es una lista de todas las URLs de dicho sitio, donde además se informa a las arañas de las relaciones que hay entre esas URLs y de cualquier cambio, actualización o novedad en ellas.

Este archivo es útil para los rastreadores, ya que lo utilizan para entender mejor la estructura de la web y lo toman como un listado general del contenido disponible.

 Es necesario aclarar que tener un sitemap en tu web no es garantía de que tus URLs se incluyan en el índice de Google. 

Tener este archivo en tu web no es obligatorio, pero sí es recomendable.

Sobre todo, te recomiendo que crees un sitemap cuando publiques una web nueva para ayudar a que Google y el resto de buscadores empiecen a rastrearlo.

Si quieres profundizar un poco más en el tema puedes leer este artículo de Human Level.

Paginas Huérfanas

Las paginas huérfanas de una web son aquellas que no tienen enlaces internos apuntando hacia ellas.

Estas URLs se quedan en el limbo sin ningún camino accesible por los rastreadores para llegar hasta ellas. Si no le damos a los rastreadores un enlace que puedan seguir hasta estas páginas, no podrán rastrearlas ni indexarlas.

Vamos, que el contenido de esas paginas no llegará a tus lectores o clientes y estarás perdiendo oportunidades.

 

Visto todo esto, vamos a pasar a las acciones concretas que os decía más arriba.

Vais a ver cómo con unas acciones rápidas y muy concretas, mejoramos bastante la salud de nuestra web y con ello el potencial tráfico captado.

Acciones de rastreo e indexación en Hosting Saurio

Bien, ahora con los conceptos claros, vamos a solucionar estos errores y a explicarle a los buscadores qué partes de nuestra web queremos que encuentren y que indexen, es decir, nuestras preferencias de rastreo.

Vamos por partes:

Análisis de URLs indexadas

Hace referencia al número de páginas (URLs) de tu web que aparecen en Google. Es importante controlarlo y solo indexar en los resultados de Google aquellas páginas que nos puedan interesar.

En el caso de Hosting Saurio fue así:

  • URLs indexadas en Google (comando site:): Arroja 38 resultados
  • URLs indexadas en Search Console: 44 URLs
  • URLs Crawleadas en Screaming Frog: 41 URLs HTML

Entonces, URLs en HTML indexables 41, 38 resultados en el buscador y 44 URLs en el índice de cobertura de Search Console.

Vamos, que algo no cuadra, así que nos toca ver qué falla.

Haciendo una comparación rápida, enseguida sacamos cosas.

En Screaming aparecen como indexables las URLs de las paginaciones y la de “quienes somos”que son las mismas que aparecen como indexadas no enviadas en sitemap dentro del informe de cobertura de Search Console, más la página de Contacto.

Con un análisis muy sencillito, ya sacamos cosas que debemos arreglar.

Lo primero que vamos a hacer es pedir la retirada de URLs en Search Console.

Y, además, aplicaremos la etiqueta noindex que hemos visto anteriormente.

Hecho esto, volveré a hacer un estudio completo de URLs de la web (todavía baila una URL) hasta que las URLs indexadas sean exactamente las que yo quiero que estén indexadas.



Acciones ejecutadas en Robots.txt

  1. Vamos a bloquear las partes de la web que consideramos que no es necesario rastrear
  2. Bloqueamos los bots o rastreadores que no queremos que pasen por nuestra web
  3. Añadimos nuestro archivo Sitemap

Comparto por aquí el robots modelo que solemos usar, aunque adaptado.

De forma visual, pasamos de este archivo robots…

A este otro que puedes ver en la imagen:

Podéis hacer esto con mucha facilidad en WordPress a través de Yoast.

Accedéis a la opción Herramientas > Editor de archivos y editamos directamente el archivo Robots.txt.

Podéis hacer esto con mucha facilidad en WordPress a través de Yoast.

Accedéis a la opción Herramientas > Editor de archivos y editamos directamente el archivo Robots.txt.

Os dejo el sitemap de Blogger3cero por si lo queréis usar. Es más sencillo que el anterior, pero es más que suficiente para una web tipo Blog.

User-agent: *

Disallow: /wp-login

Disallow: /wp-admin

Disallow: /*/feed/

Disallow: /*/trackback/

Disallow: /*/attachment/

Disallow: /author/

Disallow: *?replytocom

Disallow: /tag/*/page/

Disallow: /tag/*/feed/

Disallow: /comments/

Disallow: /administrar-suscripciones/

Disallow: /xmlrpc.php

Disallow: /*?s=

Disallow: /*/*/*/feed.xml

Disallow: /cdn-cgi/

Disallow: /?attachment_id*

Sitemap: https://tuweb/sitemapindex.xml

Acciones ejecutadas en Sitemap

El sitemap enviado a Search Console daba error.

Simplemente hemos creado un nuevo sitemap también en Yoast y lo hemos mandado nuevamente a SC mediante los siguientes pasos:

Yoast > General > Características > Mapas del sitio XML y marcar la opción Activo.

Pinchamos en la opción ver el mapa del sitio XML y se nos abrirá una nueva pestaña en el navegador.

Esa URL es la que tenemos que enviar a nuestro Search Console.

En SC seleccionamos la opción Sitemaps, añadimos sitemap_index.xml y pulsamos el botón enviar.

Puedes ver que nos marca «Estado: Correcto».

Acciones ejecutadas en las paginas huérfanas

He encontrado 247 páginas huérfanas en el reporte de Screaming Frog pero esto es debido, principalmente, a enlaces a secciones de página o post creados por el plugin table of content plus.

Estas URLs no representan un problema de cara al SEO de la web ya que no son realmente paginas huérfanas, así que aquí lo he tenido fácil

Acciones ejecutadas en las URLs espejo

A través de DinoRANK he encontrado unas cuantas URLs espejo, aunque no son muchas.

Si quieres profundizar en el concepto de las URLs espejo aquí tienes un post donde Dean lo toca a fondo.

En esencia (y por resumir) voy a decir que se producen cuando tenemos 2 versiones de una misma url (con y sin slash al final).

Las he encontrado en tres ubicaciones:

  1. Dentro del texto en enlaces internos
  2. En los comentarios
  3. En unos botones que había en la Home hacia la página «quiénes somos»
Después de comprobar que las versiones sin slash (/) no tienen enlaces externos apuntando hacia ellas, simplemente he arreglado los enlaces añadiendo la barrita (el slash) y los enlaces que había en los botones de la Home ya no existen, simplemente han desaparecido los botones con sus respectivos enlaces.
Y lo último será supervisar las gráficas de rastreo de Search Console para marcar una línea base de rastreo para que así en la próxima revisión que hagamos, sepamos si nuestro presupuesto de rastreo ha variado.

Os mando a todos y a todas un abrazo fuerte desde aquí y mucho ánimo. Queda un día menos para retomar el pulso de nuestras vidas y abrazar de nuevo a nuestros seres queridos, que al final es lo verdaderamente importante.

Marco Leiva, CEO de la división nichera de Blogger3cero.

LucusHost, el mejor hosting

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: