Integración de bases de datos léxicas y colecciones de entrenamiento en la categorización automática de documentos.

Gómez Hidalgo, José María

Integración de bases de datos léxicas y colecciones de entrenamiento en la categorización automática de documentos.

Gómez Hidalgo, José María

Dirigida por:

Manuel de Buenaga Rodríguez Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 29 de marzo de 2005

Tribunal:

Antonio Vaquero Sánchez Presidente
Julia Lavid López Secretaria
Manuel Palomar Sanz Vocal
María Felisa Verdejo Maíllo Vocal
Ana M. García Serrano Vocal

Tipo: Tesis

Teseo: 124903 DIALNET

Resumen

Con la creciente cantidad de información disponible en formato electrónico en la moderna Sociedad de la Información, es importante proporcionar a los usuarios medios efectivos para evitar la sobrecarga de información,En muchos entornos (Internet,bibliotecas, empresas y muchos más), La información sigue estando disponible mayoritariamente en forma de texto.Por tanto,la efectividad en diversas tareas de clasificación de texto, como la Recuperación y Filtrado de Información, y otras , es crítica para el éxito en la educación y los negocios, e incluso en las aficiones o los viajes. La Categorización Automática de Texto (CAT) la asignación automática de documentos a clase predefinidas juega un papel clave en este contexto de Acceso a la Información.La CAT se utiliza para ayudar a los catalogadores(o para reemplazarles)en la tarea de clasificar apropiadamente libros en bibliotecas, páginas Web en directorios, o para proporcionar una estructura de directorio a la información disponible en los portales e intranets corporativas. En último términos, los usuarios de las bibliotecas y de Internet, o los clientes y los empleados , hacen uso de estos vocabularios controlados y estructuras de directorio para lograr un acceso más efectivo a la información disponible en dichos entornos. En la actualidad, existe un modelo consolidado para la construcción de sistemas de CAT.El modelo consiste en la utilización de técnicas de Recuperación de la Información y del Aprendizaje Automático para representar los documentos manualmente clasificados (la colección de entrenamiento).Especialmente en los entornos con categorías temáticas , este modelo se ha demostrado tan efectivo como el uso de catalogadores humanos expertos, siempre que se disponga de suficientes documentos de entrenamiento.Sin embargo , aún hay oportunidades para mejorar su efectividad, debido a varios problemas que incluyen la escasez de datos, la dimensionalidad