Modelo computacional de lectura cognitiva para la representación automática de textos
- Serrano Moreno, José Ignacio
- María Dolores Castillo Sobrino Director/a
Universidad de defensa: Universidad Complutense de Madrid
Fecha de defensa: 22 de octubre de 2007
- Antonio Vaquero Sánchez Presidente
- Pablo Gervás Gómez-Navarro Secretario
- Lourdes Araujo Vocal
- Ricardo Sanz Bravo Vocal
- Luis Jenaro Barrios Bravo Vocal
Tipo: Tesis
Resumen
La lectura es un proceso secuencial de percepción en el tiempo, durante el cual los mecanismos mentales construyen imágenes e inferencias que se van reforzando, actualizando o descartando hasta la conclusión de la lectura del texto, momento en el que la imagen mental generada permite a los seres humanos resumir o clasificar el texto, recuperar documentos similares o simplemente expresar opiniones sobre el mismo. Esta es la filosofía que subyace en el sistema presentado en esta tesis, denominado SILC. Lo que se propone en este trabajo de tesis doctoral es un modelo computacional de lectura que construye una representación de la semántica de un texto como resultado de un proceso en el tiempo. Dicha representación posee una estructura que posibilita la descripción de las relaciones entre los conceptos leídos y su nivel de significación en cada momento del proceso de lectura. El modelo que implementa SILC intenta simular, en parte, procesos cognitivos de alto nivel que operan en el tiempo. Primero, el sistema construye una red de asociación conceptual como una memoria lingüística base a partir de una colección de textos que representan el espacio de conocimiento semántico. A continuación, el modelo genera representaciones de los textos de entrada como redes de conceptos con niveles de activación, que recogen el nivel de significación semántica de los mismos. Para ello, el modelo utiliza el conocimiento semántico lingüístico previamente construido realizando inferencias sobre el mismo mediante la propagación por la red de la activación de los conceptos leídos en orden secuencial. La representación generada se usa posteriormente para indexar documentos con el fin de clasificarlos automáticamente. Se han realizado experimentos para comparar el modelo con sujetos humanos, tanto durante la lectura, mediante la predicción o inferencia de conceptos, como al final de la misma, mediante la comparación con resúmenes generados por los sujetos. Los resultados muestran que el sistema es adecuado para modelar de manera aproximada el proceder humano en la lectura y sustentan la hipótesis de partida de SILC: cuanto más se asemeje el sistema a los seres humanos, mejor realizará las tareas prácticas del lenguaje. Los resultados también demuestran que el sistema es adecuado como marco experimental de validación de hipótesis relacionadas con aspectos cognitivos de la lectura. Otros experimentos de aplicación práctica han mostrado que, una vez que los parámetros del modelo han sido optimizados, el modelo de lectura implementado hace a SILC apropiado para su aplicación a tareas reales de procesamiento de lenguaje natural. (Abstract) Human reading is a process of sequential perception over time, during which the mind builds mental images and inferences which are reinforced, updated or discarded until the end of the text. At that moment, this mental image allows humans to summarize and classify the text, to retrieve similar texts or simply to talk about the text by expressing opinions. The latter dynamic is the one in which the system presented in this thesis relies. This system, called SILC (Sistema de Indexación por Lectura Cognitiva), alternatively called CRIM (Cognitive Reading Indexing Model), is inspired by the ICAN connectionist approach, where words and texts do not share the same structure of representation unlike the systems mentioned above. What is proposed in the PhD work is to build text representations as a result of a process over time, with a structure that makes it possible to indirectly describe the salience and relations of words at every instant during the reading process. The CRIM tries to simulate in part the high-level cognitive processes in human mind over time. First, the system builds a conceptual association net from a collection of texts representing the semantic knowledge space, as a linguistic base memory. Then the model generates a representation of the input text as a net of concepts, and each concept has an activation value referring to its salience in the text. This representation is then used to index documents in order to automatically categorize them by a supervised learning algorithm. Some experiments were carried out to compare the model with humans, either during the reading process by concept prediction, or at the end of the reading process by summary comparison. The results showed that the system is suitable to model human reading process and proved the base hypothesis in which CRIM relies: the closer the system is to human being procedures, the better it performances in natural language processing tasks. Results also make the system suitable as an experimental framework to test hypothesis about other cognitive aspects of reading. Other applied experiments show that, once the model parameters have been optimized, the representation obtained is an improvement on traditional indexing techniques, hence making CRIM suitable to be applied in real text categorization and information retrieval tasks.