Development and validation of data analysis automation methods using pattern recognition

  1. Pardo Sánchez, Esteban
Dirigida por:
  1. Norberto Antonio Malpica Gonzalez Director/a

Universidad de defensa: Universidad Rey Juan Carlos

Fecha de defensa: 06 de marzo de 2020

Tribunal:
  1. Carlos Ortiz de Solórzano Aurusa Presidente/a
  2. Juan José Pantrigo Fernández Secretario/a
  3. Vicenta María Elisa Buforn Peiró Vocal

Tipo: Tesis

Teseo: 620197 DIALNET lock_openTESEO editor

Resumen

Antecedentes. La automatización del análisis de datos es un área en auge debido a la creciente necesidad de procesar grandes volúmenes de datos de manera rápida, la gran cantidad de datos etiquetados generados de manera colectiva, y los recientes avances tecnológicos que han permitido la adopción de procesamiento paralelo. Por una parte, la popularización de las redes sociales y la difusión de contenido en línea ha permitido la recolección masiva de datos. Estos datos se encuentran anotados en muchas ocasiones, lo que facilita el entrenamiento y evaluación de algoritmos supervisados. Además de repositorios de contenido generalista, esta práctica ha llegado también a sectores especializados como el de análisis de señales sísmicas, donde existen repositorios con cientos de miles de señales sísmicas anotadas a mano. Por otra parte, debido a la popularización de los videojuegos, el hardware de consumo dedicado a la computación paralela ha experimentado un rápido crecimiento. En concreto, las tarjetas gráficas o GPUs han pasado de efectuar unos 345.6 millones de operaciones por segundo en 2006, a unos 13450 millones en 2018. Esto ha facilitado el entrenamiento de algoritmos supervisados que requieren gran cantidad de parámetros y se benefician de la computación paralela. Estas últimas dos situaciones han propiciado la creación de algoritmos cada vez más costosos computacionalmente, que explotan la gran cantidad de datos disponibles haciendo un uso eficiente de los recursos hardware disponibles. Una de las familias de algoritmos que más se han beneficiado son las redes convolucionales. En esta técnica, el paradigma de desarrollo pasa de estar basado en la creación y clasificación de descriptores, a la ingeniería de arquitecturas que clasifican directamente información no estructurada. Esta tesis continúa la tendencia en el desarrollo de algoritmos para la automatización del análisis de datos. Primero se incluye la validación de un método no supervisado para el análisis de imágenes de microscopía de baja magnificación. A partir de este punto se continúa el desarrollo de aplicaciones de redes convolucionales, fijándonos en problemas en los que las redes convolucionales podrían aportar una mejora significativa, y creando arquitecturas específicas para esos problemas. Objetivos. El objetivo principal de esta tesis es la creación de métodos basados en análisis de datos para la automatización de procesos manuales que son de difícil aplicación a grandes volúmenes de datos. Esta tesis explora principalmente tres áreas en las que la automatización del análisis de datos ha resultado ser esencial. En primer lugar se aborda el campo de la astronomía celular. La astronomía celular es un tipo de citometría de imagen con baja magnificación. Consiste en el análisis de muestras fluorescentes que presentan objetos que ocupan solo un par de pixels de radio. A pesar de aumentar el campo de visión y abaratar el análisis de miles de células, la astronomía celular también introduce una serie de retos como son la detección de puntos brillantes con baja relación señal/ruído, la estimación del diámetro celular teniendo en cuenta efectos de volumen parcial, y la estimación precisa de la intensidad de cada célula teniendo en cuenta la intensidad de fondo. En este caso, el objetivo principal del software de análisis es la estimación precisa de la fluorescencia y diámetro celular, lo que permite separar diferentes poblaciones celulares con un hardware accesible. En segundo lugar exploramos la identificación automática de cromosomas mediante imagen. Las imágenes de cromosomas pueden capturarse usando una técnica llamada hibridación fluorescente multicolor, que consiste en la tinción de cromosomas con al menos cinco sondas diferentes, y la adquisición de imágenes multiespectrales. A pesar de los avances en la tinción de cromosomas, el análisis de las imágenes resultantes sigue siendo un proceso manual o semiautomático que tiene en cuenta tanto características espaciales como espectrales. El objetivo de este parte de la Tesis es la creación de un software totalmente automático que alcance o supere los resultados obtenidos con los métodos semiautomáticos del estado del arte. En tercer lugar investigamos la detección automática de fases sísmicas. Esta tarea consiste en la identificación del tiempo de llegada de diferentes ondas sísmicas, y se suele realizar de manera manual o semiautomática. A pesar de que existen numerosos algoritmos publicados que resuelven esta tarea, en muchas ocasiones son algoritmos antiguos y no ofrecen el rendimiento necesario para realizar un análisis completamente automático. Por otro lado, a pesar de que se han propuesto redes convolucionales para el análisis de fases sísmicas, a lo largo de esta tesis se muestran algunos problemas que surgen cuando se aplican directamente redes de regresión o segmentación. El objetivo de este apartado es la creación de redes convolucionales que solventen los problemas detectados en arquitecturas previas, alcanzando un mayor rendimiento. Finalmente se incluye un capítulo con otras contribuciones. Se plantea un sistema para automatizar la predicción de la calidad del aire en Madrid y se estudia la conductividad de madera utilizando cortes de xilema con el fin de reducir la necesidad de pre- y post-procesos manuales. Metodología. Para el problema de análisis de imágenes celulares adquiridas con baja magnificación se ha utilizado un ajuste de distribuciones heterogéneas. Cada mezcla que se ajusta a una célula está compuesta por una distribución gaussiana, que modela la forma de la célula, y por una distribución uniforme que modela la intensidad local del fondo. Con esto se consigue estimar posición, brillo, y tamaño de cada célula de manera simultánea, evitando que la intensidad del fondo entorpezca el ajuste. La segmentación de cromosomas se ha abordado con una interpretación de la arquitectura DeepLab, utilizando un extractor de caracterísiticas tipo VGG para reducir el número de parámetros adaptándonos a la poca cantidad de muestra disponible. Por una parte, el extractor de características calcula una serie de indicadores locales basados en información espectral puntual y textura local, mientras que las convoluciones dilatadas propuestas por la arquitectura DeepLab permiten incorporar a la segmentación información de un rango mayor. La localización de fases sísmicas se ha tratado con una aproximación en cascada. El método propuesto consiste en generar una primera segmentación aproximada de la localización de la fase, y refinarla utilizando una segunda red convolucional que calcula un mapa de distancias. La primera segmentación aproximada se calcula sobre una región de 10.24 segundos, y detecta una fase dentro de un rango de 0.1 segundos. La segunda red se ejecuta sobre una ventana de 0.64 segundos centrada en la zona con mayor activación de de la primera segmentación aproximada. Los resultados de las dos redes convolucionales se combinan utilizando una interpretación de la transformada de Hough que pondera cada elemento del mapa de distancias utilizando el valor devuelvo por la primera red para cada punto. Finalmente, la posición con más votos representará la localización de la fase. En cuanto a las dos últimas contribuciones, el algoritmo de predicción de calidad del aire utiliza una secuencia de dos unidades long short-term memory, y dos capas completamente conectadas para efectuar una regresión del valor de $NO_2$ para las 8, 16, o 24 horas siguientes. Por otra parte, el análisis de conductividad de madera se realiza segmentando los conductos y anillos utilizando la arquitectura DeepLab V3+ con un protocolo de entrenamiento específico que incluye pasos de preprocesamiento como el dilatado de las máscaras de anillos. Resultados. El algoritmo desarrollado para la estimación de biomarcadores celulares ha superado a algoritmos del estado del arte como DAOSTORM para la estimación de la fluorescencia celular. Para demostrar esta afirmación se ha estimado manualmente el brillo de un conjunto de células, y se han comparado los resultados del método propuesto y DAOSTORM, observando que en general DAOSTORM infraestima el brillo. Para realizar el cariotipado automático se ha comparado la aplicación de HOSVD para la segmentación semiautomática de cromosomas con la arquitectura convolucional propuesta para la segmentación automática. Comparando el ratio de píxeles clasificados correctamente en un conjunto independiente de test no usado durante el entrenamiento, se ha observado que el método propuesto mejora el resultado en un 27%. La arquitectura para la detección de fases sísmicas fue validada utilizando anotaciones manuales de 60067 fases P, y 17392 fases S. El algoritmo propuesto fue comparado con las redes convolucionales del estado del arte para la identificación de fases, alcanzando un error absoluto medio menor que ellas. Para la evaluación de la red de predicción de calidad del aire se realizó una comparación con CALIOPE, un sistema basado en simulación que predice la calidad del aire sobre una rejilla de 4 x 4 km. Al comparar el error cuadrático medio de las predicciones en las tres estaciones de medición en las que más veces se superó el umbral de 200 mu g / m^3, se observa que el método propuesto alcanza un error menor. Por otra parte, el algoritmo para el estudio de conductividad de madera fue comparado con otra red convolucional propuesta con anterioridad. Pese a que esta red anterior solo había sido probada para la tarea de segmentación de conductos, y no para la segmentación de anillos, se realizó una adaptación intentando conseguir el mayor rendimiento posible para las dos tareas modificando lo mínimo posible la metodología. Al comparar ambos métodos para la tarea de segmentación de conductos y segmentación de anillos, observamos que nuestro método alcanza mejor valor para la métrica DICE, sobre todo en la segmentación de anillos de brezos donde supera al estado del arte en más de un 12%. Conclusiones. Como consecuencia de la investigación desarrollada, se concluye que las metodologías creadas contribuyen positivamente a la automatización del análisis de datos en las áreas de citometría de baja magnificación, cariotipado digital, localización de fases sísmicas, predicción de la calidad del aire, y análisis de cortes de xilema. El software desarrollado en cada una de estas áreas ha sido validado con pruebas realistas, alcanzando mejores resultados que otras técnicas de procesado preexistentes.