SSG: simplified Spanish grammaruna gramática del español de tipo HPSG de coste computacional reducido

  1. Ramirez González, Benjamin José
Dirigida por:
  1. Fernando Sánchez León Director/a

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 24 de febrero de 2014

Tribunal:
  1. Cristina Sánchez López Presidenta
  2. José Lázaro Rodrigo Mateos Secretario
  3. Montserrat Marimon Felipe Vocal
  4. Guadalupe Aguado de Cea Vocal
  5. Olga Fernández Soriano Vocal

Tipo: Tesis

Resumen

La presente tesis documenta la implementación de una gramática computacional de tipo HPSG para el español: SSG Simplified Spanish Grammar. SSG cubre aquellos fenómenos del español que resultan centrales para describir las relaciones posibles entre los predicados verbales y sus argumentos. Los análisis de SSG, sencillos y lingüísticamente motivados, suponen una reducción drástica del número de reglas habitual en estas gramáticas, y una reducción de coste computacional y tiempos de análisis.En primer lugar, en SSG se han implementado las alternancias de diátesis centrales en los verbos del español. SSG da cuenta de estos usos mediante nueve reglas léxicas. Gracias a estas reglas, los argumentos presentes en un determinado uso verbal están caracterizados en cuanto a caso abstracto. Esta caracterización es crucial, pues establece cuáles son las marcas formales que permiten identificar en la oración al sintagma que cubre cada posición argumental. En la tesis se defiende que este análisis de las alternancias de diátesis del español es significativamente más sencillo que los análisis de las gramáticas computacionales previas, lo cual permite reducir significativamente los tiempos de análisis habituales en el uso aplicado de gramáticas computacionales de tipo HPSG. En segundo lugar, en SSG se ha implementado un análisis novedoso de los clíticos del español. Los análisis previos de este tipo de fenómenos en HPSG usaban reglas léxicas de clitización. En esta tesis se demuestra que es posible prescindir de tales reglas, con la consecuente reducción de coste computacional. En SSG, los clíticos se entienden como marcas morfológicas que aparecen en el verbo cuando un determinado tipo de complemento las huellas de ciertos desplazamientos y determinados pronombres con o sin realización fonética se coloca en una determinada posición argumental. En tales casos, las estructuras de rasgos de los verbos implicados se especifican de un modo solo compatible con la presencia de los clíticos oportunos. El sistema de clíticos de SSG también permite dar cuenta, de modo coherente con esta idea, de los clíticos propios de la pasiva refleja y de los verbos pronominales, así como del fenómeno de salto de clíticos. En tercer lugar, se han implementado en SSG ciertas cuestiones centrales relativas al orden de palabras del español. Este orden es relativamente libre, lo cual aumenta las posibilidades de realización de los verbos. En las gramáticas previas, se ha dado cuenta de estas posibilidades por medio de reglas ad hoc que acarreaban un coste computacional añadido. Buena parte de estas reglas se han eliminado en SSG. Por un lado, en SSG todos los sujetos son, en principio, posverbales y toda anteposición al verbo se modela como un caso más de desplazamiento a la izquierda. Este modelado cuya viabilidad teórica se defiende en la tesis permite prescindir de la regla de inversión de sujeto tradicional en las gramáticas previas. Por otro lado, tras el verbo, los complementos pueden ordenarse de diversos modos. En SSG estas alternancias se han modelado, de acuerdo con la Teoría de la Linealización clásica en HPSG, haciendo un uso crucial del concepto de constituyente discontinuo. Esta solución necesita un algoritmo de análisis que admita la unión de constituyentes no adyacentes. En la tesis se prueba que el coste añadido de este algoritmo es sensiblemente menor del generado por los análisis previos basados en reglas.Como parte de esta tesis también se ha implementado en Perl SGP Simplified Grammars Parser un entorno de análisis con segmentador, tokenizador, chunker, parser, etc. SGP se ha utilizado para probar empíricamente que SSG tiene la cobertura que se le supone y permite reducir drásticamente los tiempos de análisis de las gramáticas previas. Para ello, se ha analizado una test-suite con los fenómenos pertinentes, de acuerdo con SSG y con una gramática tradicional. Y se ha observado que SSG obtiene tiempos de análisis sensiblemente menores.