Saltar a contenido

Spider Links Checker

El servicio de Spider Links Checker permite comprobar si existen enlaces rotos (o inaccesibles) en una página web, teniendo en cuenta varias consideraciones en este aspecto.

Definición básica del servicio

  • Se entiende por página web toda aquella que sea accesible desde Internet por un usuario anónimo.
  • La URL que se quiere revisar debe tener un acceso libre que no requiera de un login ni autenticación previo, ya sea a través de la propia página o mediante una plataforma externa (Azure, Cisco, etc).
  • Cuando hablamos de webs públicas nos referimos a todas aquellas páginas cuya finalidad es la de transmitir información. Es decir, que contenga información útil o relevante para un cliente (o potencial cliente), como por ejemplo los servicios que se ofrecen o la política de privacidad.
  • Cualquier web donde su uso sea realizar acciones concretas (portales de intranet, mails, estados de cuentas, petición de servicios o incidencias, formularios, etc.) será considerada a estos efectos como una Web App, por lo que el servicio de Spider Links Checker no sería aplicable. En ese caso se debería optar por otra solución (Selenium, por ejemplo).

Ejemplos

A continuación hay algunos ejemplos de qué páginas podrían ser analizadas con Spider Links Checker y cuáles no:

* Puede haber alguna excepción en este tipo de url, pero deben revisarse detenidamente con el equipo de desarrollo.

Objetivo del servicio

Este servicio se ha planteado, de base, como un servicio del estilo “Accesibilidad”, es decir, se lanzan ejecuciones bajo demanda y se presenta al cliente el resultado de dicha ejecución.

El resultado de la ejecución ofrece, de momento, la siguiente información:

Tipo Descripción
Enlaces analizados Nº total de enlaces analizados
Enlaces pasados Nº total de enlaces pasados (200 OK)
Enlaces fallados Nº total de enlaces fallados (diferente de 200 OK)
Detalles de los enlaces
element Elemento que contiene el enlace que ha fallado (para poderlo encontrar rápidamente dentro del html)
link Enlace que ha fallado
non_https Indica si la url NO tiene https
redirect Indica si la url ha sido redirigida a otro sitio
redirections Lista de urls a las que ha sido resirigido el link
parent Página donde se ha encontrado dicho enlace
status_code Código de respuesta del servidor
status_message Mensaje de respuesta del servidor

El objetivo es poder ofrecer al cliente un resumen del “estado de salud” de su página web y evitar así malas impresiones por parte de sus usuarios (y/o potenciales nuevos clientes), como por ejemplo un enlace de contratación de servicio que no funcione o un documento de información importante que no pueda ser descargado.

El alcance de comprobación se limita únicamente a enlaces pertenecientes al dominio en cuestión, y se basa en niveles de profundidad. De esta manera, el nivel de profundidad 0 comprueba que sean accesibles únicamente los enlaces encontrados en la página inicial; el nivel de profundidad 1 analiza los enlaces de la página inicial y los encontrados en cada uno de ellos, y así sucesivamente.

Nota

Se recomienda empezar con el nivel 0, e ir incrementando gradualmente.

Niveles

Aun así, también es capaz de detectar si un enlace externo (a un único salto de distancia) es accesible. Por ejemplo, si en la web de sogeti.es tenemos un enlace al perfil de LinkedIn, se comprobará que dicho enlace también es accesible, pero no analizará los enlaces que contiene LinkedIn.

Opciones de presentación

La forma de presentar los resultados puede ser de varias maneras, ya que el servicio extrae dicho resultado en formato JSON (ver Spider Links Checker - Documentación técnica), por lo que cualquier herramienta de visualización capaz de leer este tipo de ficheros podría ser usada.

A continuación vemos algunos ejemplos usando la herramienta PowerBI

SpiderLinksChecker1

SpiderLinksChecker2

Recomendaciones

Se recomienda realizar los análisis de manera gradual (aumentar progresivamente los niveles de profundidad) e ir revisando los análisis de nuevas webs para poder detectar falsos positivos o anomalías en el funcionamiento.

Lanzar un análisis de una nueva web en su totalidad puede provocar errores que pueden ser difíciles de detectar debido a la gran cantidad de enlaces que puede haber.