Análisis y mejora de los métodos de expansión de consultas en recuperación de información

  1. Pérez Agüera, José Ramón
Supervised by:
  1. Lourdes Araujo Director

Defence university: Universidad Complutense de Madrid

Fecha de defensa: 09 December 2008

Committee:
  1. Antonio Vaquero Sánchez Chair
  2. Juan Luis Pavón Mestras Secretary
  3. Hugo Zaragoza Ballester Committee member
  4. Anselmo Peñas Padilla Committee member
  5. María Felisa Verdejo Maíllo Committee member

Type: Thesis

Teseo: 110677 DIALNET

Abstract

Uno de los primeros problemas que fueron identificados en el campo de la Recuperación de Información fue la dificultad de identificar la necesidad de información del usuario en función de las expresiones de búsqueda que este introducía en el sistema de recuperación, Más allá de la capacidad del propio usuario de expresar con claridad que es lo que está búscando, problemas como la polisemia o la sinonimia, consustanciales al propio lenguaje natural, han supuesto desde los inicios uno de los princ ipales handicaps a la hora de recuperar información relevante a partir de una colección de documentos. Con el objetivo de superar estas barreras, desde un principio se han elaborado técnicas de modificación de consultas destinadas a mejorar los resu ltados que los motores de búsqueda son capaces de ofrecer al usuario. La mayoría de modelos para QE encuentran su base en los modelos clásicos de IR, por este motivo, antes de adentarnos en los entresijos de la QE repasaremos cual es a día de hoy el estado del arte en este área con el objetivo de delimitar el marco epistemológico y metodológico de nuestra investigación. En esta tesis doctoral nos plateamos abordar el problema de la expansión de consultas (QE) en entornos de recuperación de in formación (IR). La expansión de consultas es un proceso mediante el cual la consulta inicial de un usuario es modificada con el objetivo de mejorar su capacidad de recuperación de información relevante que satisfaga las necesidades informativas del u suario. Para la resolución de este problema se han aplicado enfoques muy distintos, ya sea basados en recursos lingüísticos como tesauros y/o ontologías o centrados en el uso de técnicas estadísticas. Por otro lado podemos encontrar aproximaciones que utilizan información solicitada al usuario con el objetivo de precisar su necesidad de información, donde destaca la Retroalimentación por Relevancia o Relevance Feedback (RF), frente a enfoques totalmente automáticos como la Retroalimentación p or Pseudo-Relevancia o Pseudo-Relevance Feedback (PRF). En este trabajo hemos obtado por explorar los enfoques estadísticos totalmente automatizados, ya que como se puede ver en la literatura aportan un alto porcentaje de éxito con un coste computac ional aceptable y una alta independencia de la actuación del usuario.