Representación autocontenida de documentos HTMLuna propuesta basada en combinaciones heurísticas de criterios

  1. Fresno Fernández, Víctor
Dirigida por:
  1. Ángela Riveiro Seijas Director/a
  2. Raquel Martínez Unanue Director/a

Universidad de defensa: Universidad Rey Juan Carlos

Fecha de defensa: 16 de mayo de 2006

Tribunal:
  1. Manuel Palomar Sanz Presidente/a
  2. Holger Billhardt Secretario/a
  3. Julio Gonzalo Arroyo Vocal
  4. Horacio Rodríguez Hontoria Vocal
  5. Manuel de Buenaga Rodríguez Vocal

Tipo: Tesis

Teseo: 134984 DIALNET

Resumen

En esta Tesis doctoral se representa una propuesta de representación autocontenida de páginas web basada en combinaciones heurísticas de criterios, Se proponen dos funciones de ponderación de rasgos como parte de la definición general de un modelo de representación de documentos. Con estas funciones se pretende determinar el peso que tiene un rasgo en el contenido de un documento HTML; para ello se establece un marco teórico general apoyado en una hipótesis fundamental; la lectura supone un proceso activo donde tanto el autor de un documento, como el lector del mismo, aportan su experiencia y conocimiento previo al procesos informativo documental. Se parte con el objetivo principal de desarrollar representaciones basadas únicamente en el contenido textual de los documentos HTLM. El ámbito de aplicación será la calificación automática y el clustering de páginas web. Estos procesos pueden utilizarse en la creación de directorios web temáticos o aplicarse sobre los resultados devueltos tras una consulta a un motor de búsqueda en un análisis de la estructura del hipergrafo que forma en sí mismo la Web, así como en un estudio del contenido del texto de la propia página web. Las funciones propuestas tratan de mejorar las representaciones basadas en contenido encontradas en la literatura, y podrán emplearse como representaciones autocontenidas o bien formando parte de representaciones de tipo mixto. Una de las funciones propuestas en esta tesis, llamada ACCC (Analytical Combination of Criteria), se basa en una combinación lineal de criterios heurísticos extraídos de los procesos de lectura y escritura de textos. La otra, FCC (Fuzzy Combination of Criteria), se construye a partir de una combinación borrosa, o fuzzy, de esos mismos criterios. Una de las ventajas que ofrecen ACC y FCC es que permiten representar un documento HTML sin necesidad de analizar previamente ninguna colección de referencia. No será necesario extraer información re