Automatización de tesauros documentales para la web semántica

  1. Perez Aguera, Jose Ramon
Supervised by:
  1. Alfonso López Yepes Director

Defence university: Universidad Complutense de Madrid

Fecha de defensa: 29 October 2007

Committee:
  1. Félix del Valle Gastaminza Chair
  2. Rodrigo Sánchez-Jiménez Secretary
  3. Antonio García Jiménez Committee member
  4. Eva María Méndez Rodríguez Committee member
  5. Francisco Javier García Marco Committee member
Department:
  1. Biblioteconomía y Documentación

Type: Thesis

Teseo: 145474 DIALNET

Abstract

La presente tesis doctoral tienen como objetivo fundamental solucionar el problema de la automatización de tesauros documentales en entornos distribuidos de recuperación de información como la Web Semántica. Este trabajo se divide en tres bloques interconectados pero claramente diferenciados. Cada uno de los cuales define un subproblema dentro de la automatización de tesauros y ofrece una solución al mismo que contribuya a la solución final del problema planteado en esta tesis doctoral. En el primer bloque nos proponemos abordar el proceso de la generación automática de tesauros partiendo de lenguajes documentales ya generados manualmente para un dominio determinado, que pueden combinarse y enriquecerse con nuevas relaciones entre términos que no estaban relacionados o no aparecían en los tesauros de inicio, lo que constituye una contribución original. La selección de estos nuevos términos relacionados se realiza aplicando métodos estadísticos a la colección para la cual se genera el tesauro. Una vez que las nuevas relaciones han sido determinadas, es necesario establecer a qué tipo corresponden: equivalencia, jerarquía o asociatividad. Una vez hemos generado el nuevo tesauro, se pasa al segundo bloque de esta tesis, donde afrontamos la adaptación del tesauro generado a un entorno automatizado de recuperación de información, presentamos un lenguaje de marcado llamado SKOS Core adaptado a las necesidades de la Web semántica. El objetivo en este segundo bloque es el de ofrecer un lenguaje de marcado que garantice la interoperabilidad del tesauro en distintos entornos y su uso distribuido sin que ello suponga una pérdida de representatividad de la estructura del tesauro que hemos generado en el bloque anterior. Finalmente en el tercer bloque definimos un marco de desarrollo basado en el paradigma software y proponemos una arquitectura que haga uso del tesauro y marcado en los bloques anteriores en un entorno distribuido de...