Modality in spoken spanish and japanesea corpus-based study and automatic annotation.

  1. Herrero Zorita, Carlos
Dirigida por:
  1. Antonio Moreno Sandoval Director/a

Universidad de defensa: Universidad Autónoma de Madrid

Fecha de defensa: 11 de mayo de 2017

Tribunal:
  1. Kayoko Takagi Presidente/a
  2. Mick O'Donnell Secretario/a
  3. Doaa Samy Vocal
  4. Paul Rayson Vocal
  5. Hiroto Ueda Vocal

Tipo: Tesis

Resumen

El objetivo principal de esta tesis es la búsqueda y clasificación automática de elementos modales en oraciones en español y japonés, usando para ello información teórica y empírica. En un intento de crear un estudio multidisciplinar entre tipología, lógica y lingüística de corpus y computacional, pretendemos responder a tres preguntas fundamentales: (1) ¿Cuál es la mejor definición y clasificación de la modalidad para un trabajo contrastivo computacional? (2) ¿Cuál es la frecuencia de uso en el español y japonés oral, y cómo el discurso modifica los elementos modales? y (3) ¿Cómo podemos formalizar esta información en un programa que pueda anotar automáticamente los marcadores modales en textos nuevos? Consideramos la modalidad según la perspectiva lógica como un aspecto semántico que añade significados de necesidad o posibilidad al núcleo verbal. Se representa en ambos idiomas a través de una serie de auxiliares, adverbios, adjetivos y modos gramaticales. Los corpus nos dirán cómo estos elementos son afectados por la negación, la elipsis, la separación sintáctica y la ambigüedad, información que posteriormente será convertida en reglas a la hora de diseñar el programa y así aumentar su precisión y cobertura. Los corpus también nos dan información acerca del uso y frecuencia de la modalidad en situaciones reales. Los resultados muestran que es un elemento de la lengua íntegramente relacionado con el tipo de comunicación, probablemente unido a las restricciones sociales. Los monólogos presentan unos resultados parecidos en ambas lenguas, pero cuando entra en juego una interacción, la diferencia es notable. En diálogos, la necesidad es el valor predominante en español, mientras que los hablantes japoneses usan casi de igual manera valores de necesidad y posibilidad. El resultado final de la tesis es un programa basado en reglas que produce un archivo XML con los marcadores modales anotados y clasificados de la misma manera para ambos idiomas. El programa se usará en estudios futuros con datos diferentes y más extensos con el objetivo de confirmar los resultados obtenidos. Asimismo, estará disponible de forma online para su uso libre en http://elvira .lllf.uam.es/modtag/mainmodtagger.html, albergada en la página web del Laboratorio de Lingüística Computacional de la Universidad Autónoma de Madrid.