Multimodal perception of acoustic prominence in Spanish

JIMÉNEZ-BRAVO BONILLA, MIGUEL JIMÉNEZ-BRAVO

Multimodal perception of acoustic prominence in Spanish

JIMÉNEZ-BRAVO BONILLA, MIGUEL JIMÉNEZ-BRAVO

Dirigida por:

Victoria Marrero Aguiar Director/a

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 28 de junio de 2019

Tribunal:

María Victoria Escandell Vidal Presidenta
Marieke Hoetjes Secretario/a
Pilar Prieto Vives Vocal

Tipo: Tesis

Teseo: 598153 DIALNET e-spacio editor

Resumen

Percepción multimodal de la prominencia acústica en español Miguel Jiménez-Bravo y Victoria Marrero Aguiar UNED La prominencia ha sido definida como el énfasis percibido en determinadas partes de la señal de habla en función de sus características fónicas, gramaticales, textuales o pragmáticas (Estebas-Vilaplana & Prieto, 2010). Tradicionalmente se ha correlacionado con parámetros acústicos como la frecuencia fundamental (Vogel et al., 2016), la amplitud o la duración (Ortega-Llebaria & Prieto, 2011). Desde un punto de vista multimodal, se han establecido correlatos visuales de la prominencia como gestos manuales, movimientos de cabeza, o elevación de cejas (Al Moubayed et al., 2011; Dohen & Loevenbruck, 2009; Krahmer & Swerts, 2007; Prieto et al., 2011). No obstante, la mayoría de los estudios realizados hasta la fecha en el estudio de la prosodia audiovisual se han llevado a cabo en entornos experimentales muy controlados y poco espontáneos. Por un lado, se han empleado animaciones tridimensionales para estudiar la contribución de determinados gestos, como la elevación de las cejas y los movimientos de la cabeza, a la percepción de la prominencia acústica (Al Moubayed et al., 2011; Krahmer et al., 2002; Prieto et al., 2011). Por otro, se han generado estímulos que combinaban la producción conjunta de gesto y de habla de forma controlada en el laboratorio para ser usados posteriormente en estudios perceptivos; para ello se contaba bien con actores bien con participantes a los que se daban instrucciones precisas sobre cómo gesticular (Dohen & Loevenbruck, 2009; Foxton et al., 2010; Krahmer & Swerts, 2007). Las líneas metodológicas empleadas hasta ahora en el estudio de la prosodia audiovisual, y concretamente en el estudio de la percepción de la prominencia, adolecen de una serie de inconvenientes y presentan limitaciones en su potencial explicativo. En primer lugar, hasta la fecha no ha sido posible estudiar la prosodia audiovisual de manera conjunta, sino que los paradigmas metodológicos se han limitado a analizar la contribución de diferentes articuladores gestuales por separado. Por razones similares, ningún estudio ha dado cuenta de cómo se relacionan de forma global los distintos correlatos acústicos de la prominencia con los correlatos gestuales. Si bien es cierto que se ha observado cómo los gestos manuales contribuyen a percibir cambios de intensidad, pero no de tono (Foxton et al., 2010), no existen estudios para estudiar cómo esta relación entre gesto y habla puede influir en la percepción de la prominencia. De la misma manera, existen muy pocos estudios que exploren la relación entre la prominencia acústica y la prominencia gestual en español. La mayor parte de las investigaciones tienen al inglés (Loehr, 2004), al sueco (Al Moubayed et al., 2011), al holandés (e.g. Krahmer & Swerts, 2007) y al francés (Dohen & Loevenbruck, 2009) como lenguas de estudio. Nuestro objetivo es desarrollar una nueva propuesta metodológica que, frente a las metodologías empleadas hasta la fecha, nos permita establecer medidas fiables de percepción de la prominencia lingüística mediante el uso de estímulos naturales en una combinación espontánea (o cuasi-espontánea) de gesto y habla y por tanto plantear preguntas de investigación que no se han hecho hasta ahora. Por tanto, las cuestiones que este estudio pretende abordar son: 1. ¿Cómo interactúan los diferentes correlatos acústicos entre sí y con los gestos en la percepción de la prominenciaa 2. ¿Cuál es el papel que tienen los gestos en este procesoa Esto se ha llevado a cabo en dos experimentos sucesivos. En un primer experimento piloto se valoró la idoneidad de la metodología, para lo que se analizaron 30 fragmentos del reality show Operación Triunfo (1.ª edición), un recurso cuya validez externa se ha mostrado en estudios de distinto tipo (e.g. Sonderegger, 2012). Los estímulos muestran un solo hablante –de entre 10 locutores diferentes– emitiendo un mensaje oral al mismo tiempo que realiza un gesto. Los fragmentos sonoros fueron manipulados con el fin de neutralizar las claves acústicas de prominencia: frecuencia fundamental, amplitud y duración, en tres condiciones experimentales diferentes: en la primera se suprimían las claves frecuenciales, manteniendo amplitud y duración; en la segunda se eliminaba la amplitud y se mantenían f0 y duración, y en la tercera solo se mantenía la duración. Los mismos estímulos se administraron tanto en la modalidad auditiva como en la modalidad audiovisual a 12 participantes madrileños sin formación musical (6 hombres y 6 mujeres jóvenes) para valorar la percepción de la prominencia acústica. Sus resultados fueron comparados con las marcas de prominencia dadas por 2 jueces expertos. En el segundo estudio, se llevó a cabo un experimento entre sujetos con el fin de poder analizar en detalle cada una de las condiciones experimentales. Para ello, se analizaron únicamente 4 frases de este corpus inicial de la misma manera que en el experimento piloto Según nuestros resultados, los participantes dieron respuestas coherentes y la metodología permitió evaluar sus respuestas estadísticamente. Mediante la realización de regresión logística usando modelos mixtos, se observó que frente a la modalidad auditiva, donde las claves acústicas de f0 y duración resultaron fundamentales para detectar la prominencia, en la modalidad audiovisual estas no necesitaron alcanzar valores tan altos para detectar la prominencia. En su caso, la información visual contribuyó a determinar la prominencia acústica. Por otro lado, los participantes lograron determinar la prominencia cuando disponían únicamente de la duración como clave acústica. Además, la fase de lanzamiento del gesto (stroke), y no tanto la de la culminación (apex), parece haber tenido un gran peso perceptivo en la marca de la prominencia cuando las claves visuales estaban disponibles. En este sentido, es posible concluir que el aspecto temporal común al correlato acústico de la duración y a la fase lanzamiento del gesto puede desempeñar un papel fundamental en la percepción multimodal de la prominencia en comparación con otra información perceptivamente relevante. Finalmente, se analizaron también las variables de formación musical y sexo de los participantes y se observó un efecto principal en ambos casos: un entrenamiento del oído puede influir en la detección de mínimas variaciones de tono; y las mujeres mostraron una mayor tendencia a marcar más palabras prominentes que los hombres. Referencias bibliográficas: Al Moubayed, S., Beskow, J., Granström, B., & House, D. (2011). Audio-Visual Prosody: Perception, Detection, and Synthesis of Prominence (pp. 55–71). Dohen, M., & Loevenbruck, H. (2009). Interaction of audition and vision for the perception of prosodic contrastive focus. Language and Speech, 52(2-3), 177–206. Estebas-Vilaplana, E., & Prieto, P. (2010). Castilian Spanish intonation. In P. Prieto & P. Roseano (Eds.), Transcription of Intonation of the Spanish Language. Lincom Europa, München, pp. 17--48. (pp. 17–48). München: Lincom Europa. Foxton, J. M., Riviere, L.-D., & Barone, P. (2010). Cross-modal facilitation in speech prosody. Cognition, 115(1), 71–78. Krahmer, E., Ruttkay, Z., Swerts, M., & Wesselink, W. (2002a). Pitch, eyebrows and the perception of focus. In Proceedings of the 1st International Conference on Speech Prosody (SP2002), (pp. 443–446). Aix-en-Provence, France. Krahmer, E., & Swerts, M. (2007). The effects of visual beats on prosodic prominence: Acoustic analyses, auditory perception and visual perception. Journal of Memory and Language, 57(3), 396–414. Loehr, D. P. (2004). Gesture and Intonation. Ph.D. thesis, Georgetown University. Ortega-Llebaria, M., & Prieto, P. (2011). Acoustic Correlates of Stress in Central Catalan and Castilian Spanish. Language and Speech, 54(1), 73–97. Prieto, P., Puglesi, C., Borràs-Comes, J., Arroyo, E., & Blat, J. (2015). Exploring the contribution of prosody and gesture to the perception of focus using an animated agent. Journal of Phonetics, 49, 41–54. Sonderegger, M. (2012). Phonetic and phonological dynamics on reality television. Ph.D. thesis, University of Chicago. Vogel, I., Athanasopoulou, A., & Pincus, N. (2016). Prominence, Contrast and the Functional Load Hypothesis: an acoustic investigation. In J. Heinz, R. Goedemans, & H. v. d. Hulst (Eds.) Dimensions of Phonological Stress, (pp. 123–167). Cambridge: Cambridge University Press.