Análisis de la distribución de las interacciones en la web

  1. GÓMEZ ZOTANO, MANUEL JESÚS
Dirigida por:
  1. Juan Luis Pavón Mestras Director
  2. Jorge Jesús Gómez Sanz Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 22 de mayo de 2017

Tribunal:
  1. Gonzalo Pajares Presidente
  2. Rubén Fuentes Fernández Secretario
  3. Pere Vila Fumas Vocal
  4. Jesús Angel Velázquez Iturbide Vocal
  5. Francisco Gonzalez Vidal Vocal
Departamento:
  1. Ingeniería del Software e Inteligencia Artificial

Tipo: Tesis

Resumen

Esta tesis gira alrededor de la distribución Zipf en el dominio de la web y se cuestiona si dicha distribución sigue modelando las interacciones de los usuarios, y en caso de ser así, cuáles son las consecuencias de que exista y qué factores condicionan dicho comportamiento. Para ello se ha dividido en tres partes: el estudio de la Zipf en el servidor, el estudio de la Zipf en el cliente y la relación entre el comportamiento entre cliente y servidor. Para el estudio en servidor se han seleccionado 16 trazas de sitios variados. Tras su análisis, la distribución Zipf aparece en todos ellos presentando un cambio respecto a la bibliografía: la distribución tiene más sesgo en las trazas actuales que en las de estudios anteriores. Así, en los sitios web actuales la popularidad de los objetos está distribuida de una forma más abrupta, con algunos objetos presentando una frecuencia altísima, y una inmensa mayoría de ellos con frecuencias muy bajas. Esto ocurre con independencia del sector, de la tecnología o del propósito del sitio. El estudio en el servidor se ha complementado con un análisis más exhaustivo del sito de RTVE, en el cuál se ha podido comprobar que la división de un log por horas o por tipos de contenidos da como resultado distribuciones basadas en la Zipf. La tesis analiza las consecuencias de la presencia de una Zipf con tanto sesgo en servidor: por un lado concluye que se pueden construir caches súper eficientes utilizando la popularidad como factor de caché, pudiéndose alcanzar un hit ratio muy alto con un volumen muy reducido de recursos; por otro lado, se desarrollan las ecuaciones que permiten estimar el máximo rendimiento teórico de una configuración de cachés bajo estas condiciones. Hay una relación entre lo que ocurre en el cliente y lo que se aprecia en el servidor. Una página que se pide por un navegador provoca la petición de recursos adicionales tales como imágenes, hojas de estilos, etc. Por ello se ha analizado la capa de cliente de un sitio, RTVE. Se ha encontrado que las peticiones que se hacen desde cliente a páginas web siguen distribuciones basadas en Zipf. Dichas distribuciones muestran un sesgo enorme entre las páginas, y como en el caso del servidor, hay objetos que son muy demandados frente a otros que apenas lo son. Este resultado verifica que en el sitio bajo estudio se da el comportamiento del long tail, donde la inmensa mayoría de las páginas son pedidas de forma anecdótica, y una porción muy pequeña de contenidos concentra el grueso de la atención de los usuarios del sitio. Finalmente, la tesis ha abordado la relación entre lo que se puede ver en el cliente y cómo se manifiesta en el servidor, en términos de qué tipo de función de distribución se da en el servidor. La hipótesis es que en www.rtve.es se ha encontrado una Zipf en el servidor, porque las páginas en el cliente siguen una Zipf. Para demostrar si es cierto se ha hecho una simulación con www.rtve.es, donde se utilizan como entrada conjuntos de páginas web que siguen distribuciones aleatorias, Zipf, uniformes y normales. El resultado es que en todos los casos se da una Zipf con independencia de cuál sea el comportamiento del usuario. Esto nos lleva a concluir que un sitio web transforma una distribución de páginas en cliente, en una distribución de recursos web que siguen una Zipf en el servidor, y por tanto, el comportamiento del usuario únicamente varía la pendiente de la Zipf del servidor. El análisis anterior se ha hecho también con el sitio web www.wikipedia.org, un sitio con una tecnología y un propósito diferente a www.rtve.es. Sin embargo, a pesar de esta diferencia, el resultado ha sido el mismo. De nuevo, con independencia del comportamiento del usuario en el cliente, en el servidor siempre se de una Zipf. La conclusión a la que se llega es que el comportamiento de Zipf en el servidor se debe esencialmente a elementos estructurales del protocolo HTTP y de cómo se conciben las páginas HTML.