Spider Links Checker¶
El servicio de Spider Links Checker permite comprobar si existen enlaces rotos (o inaccesibles) en una página web, teniendo en cuenta varias consideraciones en este aspecto.
Definición básica del servicio¶
- Se entiende por página web toda aquella que sea accesible desde Internet por un usuario anónimo.
- La URL que se quiere revisar debe tener un acceso libre que no requiera de un login ni autenticación previo, ya sea a través de la propia página o mediante una plataforma externa (Azure, Cisco, etc).
- Cuando hablamos de webs públicas nos referimos a todas aquellas páginas cuya finalidad es la de transmitir información. Es decir, que contenga información útil o relevante para un cliente (o potencial cliente), como por ejemplo los servicios que se ofrecen o la política de privacidad.
- Cualquier web donde su uso sea realizar acciones concretas (portales de intranet, mails, estados de cuentas, petición de servicios o incidencias, formularios, etc.) será considerada a estos efectos como una Web App, por lo que el servicio de Spider Links Checker no sería aplicable. En ese caso se debería optar por otra solución (Selenium, por ejemplo).
Ejemplos¶
A continuación hay algunos ejemplos de qué páginas podrían ser analizadas con Spider Links Checker y cuáles no:
Webs pensadas para usar con Spider Links Checker¶
- https://sogeti.es
- https://capgemini.com
- https://zurich.com
- https://bancosantander.es
- https://www.ecoembes.com
Webs NO pensadas para usar con Spider Links Checker *¶
- https://mail.google.com
- https://particulares.bancosantander.es/login/
- https://facebook.com
- https://gfs.capgemini.com
- https://www.ecoembes.com/portal
* Puede haber alguna excepción en este tipo de url, pero deben revisarse detenidamente con el equipo de desarrollo.
Objetivo del servicio¶
Este servicio se ha planteado, de base, como un servicio del estilo “Accesibilidad”, es decir, se lanzan ejecuciones bajo demanda y se presenta al cliente el resultado de dicha ejecución.
El resultado de la ejecución ofrece, de momento, la siguiente información:
Tipo | Descripción |
---|---|
Enlaces analizados | Nº total de enlaces analizados |
Enlaces pasados | Nº total de enlaces pasados (200 OK) |
Enlaces fallados | Nº total de enlaces fallados (diferente de 200 OK) |
Detalles de los enlaces | |
element | Elemento que contiene el enlace que ha fallado (para poderlo encontrar rápidamente dentro del html) |
link | Enlace que ha fallado |
non_https | Indica si la url NO tiene https |
redirect | Indica si la url ha sido redirigida a otro sitio |
redirections | Lista de urls a las que ha sido resirigido el link |
parent | Página donde se ha encontrado dicho enlace |
status_code | Código de respuesta del servidor |
status_message | Mensaje de respuesta del servidor |
El objetivo es poder ofrecer al cliente un resumen del “estado de salud” de su página web y evitar así malas impresiones por parte de sus usuarios (y/o potenciales nuevos clientes), como por ejemplo un enlace de contratación de servicio que no funcione o un documento de información importante que no pueda ser descargado.
El alcance de comprobación se limita únicamente a enlaces pertenecientes al dominio en cuestión, y se basa en niveles de profundidad. De esta manera, el nivel de profundidad 0 comprueba que sean accesibles únicamente los enlaces encontrados en la página inicial; el nivel de profundidad 1 analiza los enlaces de la página inicial y los encontrados en cada uno de ellos, y así sucesivamente.
Nota
Se recomienda empezar con el nivel 0, e ir incrementando gradualmente.
Aun así, también es capaz de detectar si un enlace externo (a un único salto de distancia) es accesible. Por ejemplo, si en la web de sogeti.es tenemos un enlace al perfil de LinkedIn, se comprobará que dicho enlace también es accesible, pero no analizará los enlaces que contiene LinkedIn.
Opciones de presentación¶
La forma de presentar los resultados puede ser de varias maneras, ya que el servicio extrae dicho resultado en formato JSON (ver Spider Links Checker - Documentación técnica), por lo que cualquier herramienta de visualización capaz de leer este tipo de ficheros podría ser usada.
A continuación vemos algunos ejemplos usando la herramienta PowerBI
Recomendaciones¶
Se recomienda realizar los análisis de manera gradual (aumentar progresivamente los niveles de profundidad) e ir revisando los análisis de nuevas webs para poder detectar falsos positivos o anomalías en el funcionamiento.
Lanzar un análisis de una nueva web en su totalidad puede provocar errores que pueden ser difíciles de detectar debido a la gran cantidad de enlaces que puede haber.