Text summarisation based on human language technologies and its applications

Lloret Pastor, Elena

Text summarisation based on human language technologies and its applications

Lloret Pastor, Elena

Dirigida por:

Manuel Palomar Sanz Director/a

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 20 de junio de 2011

Tribunal:

Isidro Ramos Salavert Presidente/a
Paloma Moreda Pozo Secretario/a
Pablo Gervás Gómez-Navarro Vocal
Rafael Muñoz Guillena Vocal
Ruslan Mitkov Vocal

Tipo: Tesis

Teseo: 309793 DIALNET

Resumen

La información juega un papel muy importante en la sociedad actual, puesto que si se procesa y maneja correctamente, proporciona grandes ventajas a los usuarios. Sin embargo, debido al crecimiento exponencial de la misma, los usuarios son incapaces de procesar toda esta información, y por tanto, las Tecnologías del Lenguaje Humano (TLH) son fundamentales para manejar dicha información de manera eficiente y efectiva, siendo de gran ayuda para los usuarios. La generación automática de resúmenes es un área de las TLH, cuyo objetivo es procesar, sintetizar y presentar al usuario la información de manera condensada, de tal manera que evita a los usuarios tener que leer multitud de documentos y extraer lo más importante de cada uno. El trabajo de investigación que se ha desarrollado en esta tesis doctoral se centra en este área; en concreto, en la generación automática de resúmenes, demostrando que los resúmenes automáticos son beneficiosos tanto para los usuarios, como para otras aplicaciones de TLH. Después de realizar un análisis exhaustivo del estado de la cuestión tanto en enfoques para la generación de resúmenes como para su evaluación, se propone la herramienta de resúmenes COMPENDIUM. Esta herramienta sigue un enfoque cognitivo, que se basa en las teorías de (Van Dijk, 1980), (Van Dijk & Kintsch, 1983), que explican cómo generan resúmenes los humanos, pero también aporta una componente computacional (Hovy, 2005) que permite su automatización. COMPENDIUM es capaz de generar distintos tipos de resúmenes de texto en inglés. La longitud de dichos resúmenes se determina en función de un número fijo de palabras o una tasa de compresión. Además, en lo que respecta a la entrada de la herramienta, se pueden generar resúmenes a partir de uno o de varios documentos (mono- o multi-documento, respectivamente). Como salida, los resúmenes siguen un paradigma extractivo (extractos) u orientado a abstractos. Finalmente, en cuanto a su finalidad, éstos pueden ser resúmenes genéricos, orientados a un tópico, o resúmenes subjetivos, y en todos los casos, se pretende que puedan servir como sustituto del documento original, siendo informativos. La arquitectura propuesta para COMPENDIUM se divide en dos tipos de etapas: las que forman el núcleo central de la herramienta, cuyo resultado son extractos genéricos y una serie de etapas adicionales, que sirven para generar tipos de resúmenes específicos: resúmenes orientados a un tópico, resúmenes subjetivos y resúmenes orientados a abstractos. Por un lado, las etapas que forman el núcleo de COMPENDIUM son: i) análisis lingüístico; ii) detección de redundancia; iii) identificación del tópico; iv) detección de relevancia; y v) generación del resumen. Por otro lado, las que etapas adicionales son: i) similitud con la pregunta; ii) detección de información subjetiva; y iii) compresión y fusión de información. Además, algunas de las etapas anteriormente citadas se basan en métodos y enfoques novedosos. En concreto, el uso del reconocimiento de la implicación textual como método para detectar y eliminar la redundancia de un documento, mientras que el principio de la cantidad de codificación se propone, junto con la frecuencia de las palabras, para identificar qué frases contienen la información más relevante. También se propone un método basado en grafos de palabras que permite combinar informaci\'on extractiva y abstractiva, y que produce como resultado, resúmenes orientados a abstractos. COMPENDIUM se ha evaluado de manera intrínseca y extrínseca. En lo que respecta a la evaluación intrínseca, se han usado distintos tipos de textos pertenecientes a diversos dominios: noticias periodísticas, descripciones de imágenes, blogs y artículos científicos del dominio médico. Para su evaluación extrínseca, COMPENDIUM se ha integrado en: minería de opiniones, búsqueda de respuestas y clasificación de textos. El objetivo de integrar COMPENDIUM en la primera de estas aplicaciones es mejorar la generación de resúmenes subjetivos con respecto a los enfoques que no tienen en cuenta técnicas de generación de resúmenes. Para la segunda aplicación, se han utilizado resúmenes orientados a un tópico, en vez de los snippets que devuelven los motores de búsqueda, para que un sistema de búsqueda de respuestas encuente de manera más eficaz las respuestas a preguntas factuales. Finalmente, en en la tercera, COMPENDIUM se ha usado para generar resúmenes que ayuden a predecir la puntuación asociada a un reseña, en lugar de procesar la reseña completa. Por lo tanto, de todo ello se demuestra que los resúmenes automáticos generados con COMPENDIUM son adecuados para que se usen de manera individual o para que se integren en otra aplicaciones de TLH, con la finalidad de mejorar su rendimiento.