Análisis y optimización del recurso UMLS en la recuperación de información biomédica mediante métricas de similitud semántica

  1. Alonso Martínez, Israel
Dirigida por:
  1. David Contreras Bárcena Director/a

Universidad de defensa: Universidad Pontificia Comillas

Fecha de defensa: 20 de enero de 2016

Tribunal:
  1. Francisco Javier Montero de Juan Presidente
  2. Mario Castro Ponce Secretario/a
  3. Lourdes Araujo Vocal
  4. José Ángel Olivas Varela Vocal
  5. Rafael Palacios Hielscher Vocal

Tipo: Tesis

Resumen

La recuperación de documentos médicos a través del procesamiento del lenguaje natural, es lo suficientemente importante y complejo como para dedicarle una atención especial a esta área de investigación. Es por ello, que muchos trabajos publicados abordan el asunto de las métricas de similitud semántica en un contexto teórico (formado por pares de conceptos independientes y cerrados), mediante el apoyo de algunos recursos contenidos en el Metatesauro UMLS. Sin embargo, ninguno de estos trabajos, centra su estudio en un contexto real de recuperación de información biomédica. Por esta razón, en esta tesis, se propone un nuevo estudio experimental para la evaluación del comportamiento de las métricas Intrinsic IC-Path y Path en un entorno real de documentación médica (TREC Medical Records Track 2011), empleando como soporte el recurso UMLS. Para poder realizar este novedoso trabajo experimental de evaluación, surge la necesidad de crear un método específico de recuperación de información basado en la parametrización del Metatesauro UMLS que agregue las similitudes de ambos elementos (matriz de similitud) en un único resultado final (Relevancia/No Relevancia) que se enfrentará con los juicios de relevancia de los expertos del TREC para evaluar el rendimiento de cada una de las métricas. La implementación de este sistema ad-hoc ha provocado que se haya realizado, en la primera parte del trabajo, un estudio exhaustivo y parametrización del recurso UMLS con el objetivo de obtener una óptima cobertura en los resultados ofrecidos por las distintas métricas de similitud semántica. En consecuencia, surge la necesidad de proponer un novedoso sistema de recuperación de información que integre el uso óptimo de la infraestructura UMLS en la aplicación de las métricas de similitud semántica sobre un contexto real de documentación biomédica (basado en el repositorio del TREC). Este sistema permitirá valorar el alcance real de las principales métricas (Path e Intrinsic IC-Path) sobre un marco único y confiable. Por último, se propone un sistema de generación automática de resúmenes de documentos médicos, como paso a dos nuevos planteamientos. El primero de ellos, surge como necesidad para validar la utilidad de la representación basada en conceptos de un documento médico presentada en esta tesis, en otros contextos o aplicaciones. El segundo planteamiento, surge como un paso previo a posibles futuras mejoras del sistema de recuperación de información definido y evaluado en el desarrollo de esta tesis.