Web semántica y aprendizaje automatizado en internetaplicación a un robot guía
- LEON SANZ, RAFAEL
- Ramón Galán López Director/a
Universidad de defensa: Universidad Politécnica de Madrid
Fecha de defensa: 14 de diciembre de 2010
- Fernando Matía Espada Presidente/a
- Ernestina Menasalvas Secretario/a
- Óscar Reinoso García Vocal
- Juan María Pérez Oria Vocal
- Matilde Santos Peñas Vocal
Tipo: Tesis
Resumen
Esta tesis doctoral afronta el difícil campo del aprendizaje desde Internet. En ella se desarrolla una metodología para que un robot guía autónomo que se dedica a la presentación de museos y ferias a usuarios remotos y presenciales, pueda enriquecer su conocimiento de una manera automatizada y eficiente. Las áreas de investigación abarcan dos aspectos fundamentales: cómo encontrar y filtrar el conocimiento, determinando el grado de confiabilidad de la información encontrada. Por otro lado, se analiza el estado de la Web Semántica y su futura evolución, para poder incorporar al sistema una estructuración y contexto en los datos, que permita un desarrollo del tratamiento del conocimiento más rápido y eficaz. Se propone la ejecución de los procedimientos de mining de datos sobre una infraestructura formada por un grid de ordenadores. La paralelización de los procesos consigue una mejora considerable en el rendimiento y la posibilidad de utilizar elementos de computación de bajo coste. En primer lugar se hace una profunda revisión de las técnicas de Mining y en particular de las técnicas de Web Mining, analizando las principales estrategias y su peculiar aproximación para el Mining en la Web: aprendizaje supervisado y no supervisado, Frequent Item Mining, Clustering, Support Vector Machine, etc., son estudiados así como un problema clave para el aprendizaje cómo es la confiabilidad de la fuente tanto de reputación cómo de la certeza sobre la identidad del servidor. A continuación se realiza una propuesta de metodología para que el repositorio de conocimiento de un robot autónomo se alimente de la manera más automatizada posible. Se ha desarrollado una metodología novedosa y reconocida por la comunidad científica mediante la aceptación de artículos y posters en congresos, en la que se ha diseñado un entorno de test para poder verificar aplicaciones en Internet. Este entorno ha sido aplicado a Clasificadores de Páginas Web consiguiendo evaluarlos, mejorarlos y compararlos, logrando ir un paso más adelante gracias a la modificación de características de la muestra, pudiendo comprobar sus efectos sobre los resultados obtenidos con los clasificadores y minimizando la intervención humana.