Automatización de tesauros documentales para la web semántica

Perez Aguera, Jose Ramon

Automatización de tesauros documentales para la web semántica

Perez Aguera, Jose Ramon

Dirigida por:

Alfonso López Yepes Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 29 de octubre de 2007

Tribunal:

Félix del Valle Gastaminza Presidente
Rodrigo Sánchez-Jiménez Secretario
Antonio García Jiménez Vocal
Eva María Méndez Rodríguez Vocal
Francisco Javier García Marco Vocal

Departamento:

Biblioteconomía y Documentación

Tipo: Tesis

Teseo: 145474 DIALNET

Resumen

La presente tesis doctoral tienen como objetivo fundamental solucionar el problema de la automatización de tesauros documentales en entornos distribuidos de recuperación de información como la Web Semántica. Este trabajo se divide en tres bloques interconectados pero claramente diferenciados. Cada uno de los cuales define un subproblema dentro de la automatización de tesauros y ofrece una solución al mismo que contribuya a la solución final del problema planteado en esta tesis doctoral. En el primer bloque nos proponemos abordar el proceso de la generación automática de tesauros partiendo de lenguajes documentales ya generados manualmente para un dominio determinado, que pueden combinarse y enriquecerse con nuevas relaciones entre términos que no estaban relacionados o no aparecían en los tesauros de inicio, lo que constituye una contribución original. La selección de estos nuevos términos relacionados se realiza aplicando métodos estadísticos a la colección para la cual se genera el tesauro. Una vez que las nuevas relaciones han sido determinadas, es necesario establecer a qué tipo corresponden: equivalencia, jerarquía o asociatividad. Una vez hemos generado el nuevo tesauro, se pasa al segundo bloque de esta tesis, donde afrontamos la adaptación del tesauro generado a un entorno automatizado de recuperación de información, presentamos un lenguaje de marcado llamado SKOS Core adaptado a las necesidades de la Web semántica. El objetivo en este segundo bloque es el de ofrecer un lenguaje de marcado que garantice la interoperabilidad del tesauro en distintos entornos y su uso distribuido sin que ello suponga una pérdida de representatividad de la estructura del tesauro que hemos generado en el bloque anterior. Finalmente en el tercer bloque definimos un marco de desarrollo basado en el paradigma software y proponemos una arquitectura que haga uso del tesauro y marcado en los bloques anteriores en un entorno distribuido de...