Bayesian and echoic log-surprise for auditory saliency detection

  1. Rodríguez Hidalgo, Antonio
Dirigida por:
  1. Carmen Peláez Moreno Director/a
  2. Ascensión Gallardo Antolín Director/a

Universidad de defensa: Universidad Carlos III de Madrid

Fecha de defensa: 25 de noviembre de 2019

Tribunal:
  1. Fernando Díaz de María Presidente/a
  2. Rubén Solera Ureña Secretario/a
  3. José Luis Pérez Córdoba Vocal

Tipo: Tesis

Resumen

RESUMEN TÉCNICO La atención se define como el mecanismo del cerebro que se encarga de categorizar la información percibida mediante los sentidos y actuar conforme a la misma dependiendo del contexto y de los recursos disponibles. La hipótesis de partida es que el cerebro humano es un órgano cuya capacidad de procesado es inmensa, y sin embargo existen escenarios donde al realizar varias tareas al mismo tiempo este es incapaz de realizar una gestión eficiente de sus recursos internos. Por ejemplo, tareas tan habituales como la conducción requieren una gran cantidad de recursos atencionales, y una tarea aparentemente tan simple como leer un mensaje de texto al volante puede derivar en un accidente de tráfico. Otro ejemplo ocurre cuando tratamos de escuchar a dos personas que están emitiendo su discurso al mismo tiempo, lo cual deriva en la frustración de notar que somos incapaces de recordar los mensajes completos emitidos por ninguno de los dos oradores. Por otra parte, podemos realizar sin dificultad tareas tan simples como ver una pelı́cula, donde se perciben imágenes en movimiento y sonidos al mismo tiempo. Por lo tanto, se puede observar que en función de la naturaleza de las tareas que se pretenden realizar de forma simultánea nuestro cerebro será más o menos eficiente al gestionar sus recursos. Existen diversas formas de clasificar la atención, si bien prestaremos atención exclusivamente a una de ellas que distingue entre las dos siguientes categorı́as: top-down y bottom-up. La atención top-down se define como aquella que va asociada a una determinada tarea que se trata de resolver, e implica que se posee un determinado conocimiento previo sobre la misma. En resumidas cuentas, lleva asociada una determinada intención. Por el contrario, la atención bottom-up depende exclusivamente de las caracterı́sticas de la señal percibida y el entorno donde se ha adquirido. En contrapartida con la modalidad top-down, la atención bottom-up es automática y algunos autores la definen como un mecanismo del cerebro que garantiza nuestra supervivencia, dado que permite reaccionar de forma rápida frente a estı́mulos que pueden suponer una amenaza. Existen múltiples ejemplos de ambas modalidades de atención. Un caso de modalidad top-down se observa cuando una persona busca un objeto, por ejemplo un lápiz, en el caos de su escritorio. También podemos referirnos a atención top-down cuando un individuo trata de localizar un sonido muy molesto que escucha desde su despacho, pero es incapaz de determinar qué es exactamente ni de dónde procede. Por otra parte, un ejemplo de atención bottom-up se observa cuando en una calle muy transitada por vehı́culos a motor se escucha repentinamente el sonido de una ambulancia, debido a que la sirena de la misma contrasta fuertemente con el contexto acústico del oyente. Otro ejemplo de saliencia bottom-up se puede observar cuando en un texto escrito por ordenador se percibe una sección marcada en rojo, cuyo color contrasta fuertemente con el blanco y negro del resto del documento. La atención bottom-up es habitualmente conocida como saliencia, y se puede definir como una caracterı́stica de las señales que percibimos a través de nuestros sentidos, la cual representa la prominencia de la información que se ha adquirido del entorno. Ası́, para el ejemplo anteriormente expuesto sobre la ambulancia, el contexto acústico estarı́a plagado por los sonidos de tráfico tan habituales en las ciudades. Sin embargo, el sonido de una sirena serı́a prominente al contrastar fuertemente con el tráfico de fondo. Este trabajo está relacionado con el concepto de saliencia y su detección automática mediante algoritmos. En los últimos años se han producido grandes avances en la detección de saliencia visual, la cual pretende determinar qué objetos de una determinada escena captan la atención de un espectador. Este progreso se debe a dos grandes grupos de contribuciones: por una parte, gracias a nuevos algoritmos que proporcionan mapas cuyas detecciones se asemejan cada vez más a las de espectadores humanos, y por otra gracias a las numerosas bases de datos existentes para entrenar dichos modelos. Dichas bases de datos se adquieren mediante un dispositivo denominado eye-tracker. Tal y como su nombre indica, este dispositivo se encarga de medir la trayectoria seguida por los ojos de un participante humano mientras este visualiza un determinado vı́deo o imagen. Los datos extraı́dos a partir de múltiples participantes permiten generar un gran volumen de información, la cual puede utilizarse para entrenar modelos de atención visual de gran calidad. Sin embargo, los avances en otras modalidades de saliencia han resultado ser menos fructı́feros. Tal es el caso de la saliencia auditiva, donde si bien es cierto que existen algunos algoritmos que se encargan de realizar su detección, no queda claro cuál de los mismos produce los resultados más fidedignos. Esto se debe a la total ausencia de bases de datos etiquetadas con dicha información. Es habitual que los investigadores produzcan sus propias bases de datos utilizando a un determinado número de participantes, cuyo comportamiento tratan de emular los algoritmos propuestos. Sin embargo, no existe un dispositivo similar al eye-tracker que permita determinar de forma precisa qué elementos de una escena acústica son más prominentes. CONTRIBUCIONES DEL TRABAJO En este trabajo proponemos dos modelos para la detección de la saliencia auditiva. Tal y como acabamos de exponer, uno de los principales obstáculos que deben afrontar este tipo de algoritmos está relacionado con la carencia total de datos para realizar las mediciones pertinentes de rendimiento. En consecuencia, se debe establecer una metodologı́a que permita determinar si un modelo de saliencia auditiva se comporta mejor que otras alternativas del estado del arte. Para ello, planteamos una hipótesis de partida que tiene que ver con la capacidad del ser humano para detectar la aparición y desaparición de sonidos en un determinado entorno o contexto acústico. Existen numerosos estudios previos que han determinado que los seres humanos son más sensibles a la aparición de eventos acústicos, si bien esta ocurrencia no se replica con tal magnitud para la desaparición de los mismos. En consecuencia, la hipótesis de partida de este trabajo consiste en aceptar que aquellos eventos acústicos que aparecen repentinamente poseen la etiqueta de salientes frente al entorno acústico. La principal ventaja de dicha hipótesis radica en el hecho de que existen múltiples bases de datos diseñadas especı́ficamente para la detección y clasificación de eventos acústicos. Esto es, están formadas por sonidos que aparecen espontáneamente, de los cuales se conocen sus instantes de aparición y desaparición, ası́ como los sonidos que representan. Por lo tanto, evaluaremos nuestros sistemas de detección de saliencia y otros pertenecientes al ámbito utilizando dichas bases de datos, y estableceremos que el instante de aparición de un evento acústico, conocido técnicamente como onset, determinará la ocurrencia de un evento saliente. Una vez se ha establecido el procedimiento objetivo para comparar las capacidades de diversos sistemas de detección de saliencia auditiva, se procederá a diseñar múltiples experimentos que permitan determinar cómo se comportan en las situaciones más adversas posibles. La comparativa se realiza con respecto a otras técnicas de saliencia auditiva previamente implementadas: los modelos de Kayser y Kalinli, respectivamente. Al mismo tiempo, proponemos la utilización de técnicas empleadas para la detección automática de habla en tramos de señal acústica, por lo que incluimos el Voice Activity Detector (VAD) propuesto por [Sohn et al.,1999] ası́ como un detector basado en un umbral energético, que denominamos Energy. Por último, proponemos utilizar técnicas de detección de onsets en señales musicales, entre las cuales destacamos NWPD, WPD, SF y CD. Al mismo tiempo, planteamos la utilización de tres bases de datos de detección y clasificación de eventos acústicos ampliamente conocidas en el estado del arte: DCASE 2016 (Task 2), MIVIA road audio events y UPC-TALP, contando ası́ con más de 3400 eventos acústicos etiquetados. Nuestro primer algoritmo se inspira en una implementación previa denominada Bayesian Surprise, aplicable tanto para la detección de saliencia visual como auditiva. Para el caso auditivo, dicha metodologı́a mide la saliencia modelando la información de instantes consecutivos de tiempo mediante distribuciones Normales de probabilidad, las cuales se comparan mediante la utilización de la divergencia de Kullback-Leibler. Dicha divergencia proporciona un valor de disimilitud, donde aquellos valores supuestamente más distantes son los que representarı́an una prominencia o valor saliente en la señal acústica. Esto es, al medirse la divergencia entre instantes consecutivos lo que se consigue es determinar si ha aparecido algún tipo de patrón acústico anómalo en comparación con el entorno conocido hasta el momento. La señal de saliencia de salida es umbralizada mediante un algoritmo estático, que producirá una señal binaria indicando si los eventos son salientes o no. Tal y como se ha indicado previamente, se modela el contenido acústico de la señal mediante sendas distribuciones Normales, las cuales representan respectivamente la información pasada (probabilidad a priori ) y la información actual (probabilidad a posteriori ), cuyas medias y varianzas se determinan utilizando ventanas (o buffers) de una determinada longitud N . Ventanas de mayor longitud implicarı́an predicciones más suaves donde las prominencias podrı́an llegar a pasar desapercibidas, mientras que ventanas menores producirı́an señales de saliencia más ruidosas, pero al mismo tiempo más sensibles y capaces de detectar anomalı́as con una mayor precisión temporal. Sin embargo, en uno de nuestros trabajos previos determinamos que Bayesian Surprise produce señales de saliencia con niveles de compresión inaceptables entre los distintos picos salientes. Esto es, los eventos más salientes poseen una magnitud tan grande que impiden la visualización y detección de aquellos eventos salientes de menor magnitud. Nuestra primera propuesta consiste en aplicar el operador logarı́tmico para provocar que eventos salientes con mayor y menor magnitud pasen a tener valores similares, de forma similar a como operan la A-law y la μ-law propuestas en ITU-T G.711. Denominamos esta técnica Bayesian Log-surprise. Los resultados muestran que al comparar Log-surprise frente a Surprise y al resto de técnicas de detección que planteamos para este trabajo, Log-surprise es capaz de producir las mejores puntuaciones de detección. Sin embargo, detectamos que para una de las bases de datos su rendimiento queda ensombrecido por Energy. En consecuencia, proponemos un nuevo algoritmo inspirado en dicha técnica, el cual calcula un número dth de señales utilizando Bayesian Log-surprise con buffers de distinta longitud N_z . Esto es, se calculan varias señales mediante Bayesian Log-surprise utilizando buffers con longitudes [N_1 , N_2, ..., N_dth], lo que equivale a contar con diversas escalas temporales de saliencia auditiva. Seguidamente se estiman sus distribuciones mediante sendos histogramas, los cuales son fusionados utilizando divergencias estadı́sticas. Denominamos a esta técnica Echoic Log-surprise. Las señales producidas están caracterizadas por una serie de ventajas: * Deja de observarse el ruido de fondo caracterı́stico de las señales de Bayesian Log-surprise, ya que queda caracterizado por los histogramas y atenuado por las divergencias. * El sistema detecta las prominencias de las señales acústicas en distintas escalas, lo cual favorece su detección. * Las puntuaciones de rendimiento muestran mejorı́as muy significativas al aplicar este nuevo algoritmo. Sin embargo, también detectamos una serie de inconvenientes: * Dado que trabajamos con un modelo multi-escala es necesario fijar un mecanismo que facilite la validación del tamaño del buffer de cada una de las escalas, ası́ como el número de las mismas. * El algoritmo para umbralizar que se utiliza sigue siendo estático, lo cual impide medir la saliencia online. Es por ello que planteamos una serie de mejoras, incluyendo una nueva estrategia de fusión, nuevas divergencias estadı́sticas y la implementación de un umbralizador dinámico, siendo esta última modificación la que produjo la mejora más significativa en los resultados. Finalizamos este trabajo replicando los experimentos anteriores tras contaminar las señales disponibles en las tres bases de datos utilizando ruido de diversa ı́ndole: estacionario, donde consideramos el ruido blanco Gaussiano, y no estacionario, donde contaminamos las señales acústicas mediante audios grabados en entornos acústicos diversos, tales como estaciones de tren, cafeterı́as, parques, etc. Contaminamos las señales utilizando seis valores de SNR, desde -5 dB hasta 20 dB, parámetro que compara la magnitud de la señal original frente a la magnitud de la señal de ruido. Los resultados obtenidos nos permiten determinar la robustez frente al ruido de todas las técnicas que se han evaluado en este trabajo, tanto aquellas de detección de habla u onsets musicales como los distintos algoritmos de saliencia auditiva. Tal y como era previsible, las puntuaciones son diversas en función de la naturaleza de cada uno de los algoritmos. Sin embargo, con respecto a Bayesian Log-surprise determinamos que es más robusta que VAD, Energy y Kalinli. Por otra parte, a nivel global observamos que Echoic Log-surprise es más robusta frente a ruido que cualquiera de los algoritmos estudiados en este trabajo, ya que produce las mejores puntuaciones de detección para todas las posibles configuraciones de ruido. CONCLUSIONES Esta tesis se dedica al estudio de las técnicas de detección de saliencia acústica, siendo esta una propiedad de los eventos u objetos acústicos que los hace prominentes en un determinado contexto. Contribuimos con dos algoritmos que denominamos Bayesian Log-surprise y Echoic Log-surprise, ambos inspirados en la noción de Bayesian Surprise. Esta metodologı́a modela la saliencia mediante un buffer circular a partir del cual detecta anomalı́as estadı́sticas, las cuales son interpretadas como eventos salientes. A partir de la misma desarrollamos nuestra primera propuesta, denominada Bayesian Log-surprise, dado que nuestros análisis determinaron que Surprise poseı́a algunos inconvenientes destacables. Las mejoras introducidas en Bayesian Log-surprise son, primero, la utilización del cocleograma como representación espectro-temporal de la señal acústica, dado que de esta forma la información espectral contenida incluye un procesamiento por bandas de frecuencia similar al del sistema auditivo humano (HAS). La segunda mejora consiste en utilizar el operador logarı́tmico para comprimir las bandas de frecuencia de la señal de saliencia obtenida al aplicar Bayesian Surprise. Nuestros análisis demostraron que dichas modificaciones mejoraron significativamente las capacidades de detección del sistema respecto al resto de algoritmos de detección que forman parte del benchmark. En nuestra segunda propuesta, denominada Echoic Log-surprise, fusionamos múltiples señales de saliencia obtenidas a partir de Bayesian Log-surprise considerando diferentes tamaños de memoria. Los resultados sugieren que el sistema es capaz de producir mejores detecciones que el resto de técnicas clásicas de saliencia y detección. Además, las cuatro divergencias estadı́sticas empleadas en la etapa de fusión mostraron resultados muy similares. Decidimos incluir algunas modificaciones en nuestro esquema: añadimos cuatro divergencias estadı́sticas adicionales para llevar a cabo el proceso de fusión. Además, incluimos una nueva metodologı́a para llevar a cabo dicha labor de forma global, la cual denominamos mixture fusion. Sin embargo, la mejora más significativa es un algoritmo de umbralización dinámico obtenido mediante una media móvil, el cual permite a Echoic Log-surprise operar online. Dicho umbralizador redujo la dispersión en Precision y Recall para las regiones óptimas de funcionamiento, a la par que el algoritmo mantuvo un rendimiento adecuado y superior al del resto de propuestas de detección. Al mismo tiempo, facilitó la elección de los parámetros de control del sistema. El resto de mejoras propuestas no supuso ninguna variación significativa respecto a la versión inicial del algoritmo. En el último análisis que propusimos verificamos si los resultados anteriores se mantenı́an en entornos acústicos ruidosos, contaminados con señales entre las cuales incluimos ruido blanco y grabaciones de escenarios reales, tales como cafeterı́as, estaciones de metro, etc. El análisis mostró que los mejores resultados para las técnicas clásicas fueron producidos por VAD, mientras que Energy mostró una gran sensibilidad frente al ruido. También observamos que las técnicas de MIR se comportaron de forma similar. Respecto a Echoic Log-surprise, obtenido utilizando el umbralizador dinámico, los resultados mostraron que a nivel global e individual dicha metodologı́a resultó ser la más robusta para la detección de eventos salientes, dado que produjo los mejores F-scores para cualquier valor de SNR, sugiriendo que nuestra propuesta es la más insensible frente a los efectos perjudiciales del ruido. Ası́, concluimos que la segunda propuesta para la detección de saliencia que realizamos en este trabajo, Echoic Log-surprise, mostró un rendimiento superior al resto de técnicas analizadas considerando tres bases de datos representativas. Al mismo tiempo, nuestro análisis de robustez mostró que dicha metodologı́a también resultó ser la menos sensible a la influencia del ruido. Por lo tanto, confirmamos que los objetivos iniciales propuestos para esta tesis doctoral quedan satisfactoriamente cumplidos. LÍNEAS FUTURAS DE TRABAJO Existen múltiples lı́neas en las cuales se puede trabajar para mejorar este proyecto. El área del aprendizaje máquina ha avanzado enormemente en los últimos años, y especialmente la utilización y desarrollo de redes neuronales artificiales. Estos algoritmos se encuentran en nuestro dı́a a dı́a en tareas como el reconocimiento automático del habla, la conducción autónoma, la detección de objetos, etc. Pensamos que la saliencia auditiva puede aprovechar algunos de estos avances, dado que algunos autores han demostrado que dichas estructuras pueden emplearse a modo de extractores de caracterı́sticas. En consecuencia, una lı́nea inmediata de investigación consistirı́a en entrenar modelos para la tarea de clasificación de eventos acústicos, y emplearlos a modo de extractores de caracterı́sticas. Estas serı́an introducidas en modelos de detección de saliencia acústica, los cuales consideramos que podrı́an aprovechar dicha información para mejorar la detección de eventos prominentes. Por otra parte, uno de los desafı́os que afronta la detección de saliencia auditiva tiene que ver con la carencia de bases de datos especı́ficas etiquetadas para tal labor. Algunos autores sugieren que existe una relación entre el movimiento micro-sacádico de los ojos y la saliencia acústica, por lo que pretendemos utilizar eye-trackers para generar nuevas bases de datos que permitan desarrollar mejores algoritmos de detección automática. Por último, otra lı́nea de investigación que proponemos consiste en desarrollar un modelo de saliencia audiovisual, con el cual pretendemos mejorar la realización de tareas tales y como son la sumarización de vı́deos, videovigilancia y asistencia durante la conducción.