Deep learning for information extraction in the biomedical domain

Suárez Paniagua, Víctor

Deep learning for information extraction in the biomedical domain

Suárez Paniagua, Víctor

Dirigida por:

Isabel Segura Bedmar Director/a

Universidad de defensa: Universidad Carlos III de Madrid

Fecha de defensa: 05 de julio de 2019

Tribunal:

Ricardo Aler Mur Presidente/a
Alberto Díaz Esteban Secretario
María Herrero Zazo Vocal

Tipo: Tesis

Teseo: 587618 DIALNET

Resumen

La principal hipótesis de esta tesis doctoral es que los novedosos algoritmos de aprendizaje profundo pueden superar a los clásicos métodos de aprendizaje automático para la extracción de información en textos de dominio biomédico. A diferencia de los sistemas clásicos, los modelos de aprendizaje profundo pueden representar las partes más relevantes de los datos automáticamente sin el conocimiento concreto de un experto en el dominio. De esta manera, se evita la costosa y lenta tarea de definir a mano características que representen los datos. Una interacción entre fármacos, que es un subconjunto de una reacción farmacológica adversa, representa la alteración en los efectos de fármacos que fueron tomados simultáneamente. El reconocimiento de estas interacciones farmacológicas supone un proceso vital para prevenir serios problemas de salud que puede conllevar la muerte, en los peores casos. Los profesionales de la salud e investigadores en este dominio encuentran muy díficil la tarea de detectar información sobre estos incidentes debido al gran número de documentos de farmacovigilancia. Por esta razón, varias tareas y conjuntos de datos se han desarrollado para resolver este problema mediante sistemas de anotación automática con la capacidad de extraer dicha información. Para validar la hipótesis de la tesis doctoral, el corpus DDI, que es un conjunto de datos sobre interacciones entre fármacos, es usado con arquitecturas de aprendizaje profundo sin ninguna información externa para las tareas de reconocimiento de entidades nombradas y extracción de sus relaciones. Además, algunos otros conjuntos de datos son probados para evidenciar los resultados de estos sistemas en el dominio biomédico. A modo de resumen, los resultados sugieren que los métodos más comunes de aprendizaje profundo, como las redes neuronales convolucionales y las redes neuronales recurrentes, superan los algoritmos tradicionales concluyendo que el aprendizaje automático es una alternativa real para la tarea de extracción de información en el dominio biomédico, que es extremadamente compleja debido a su especificidad. Como objetivo final, una arquitectura completa, que abarca las dos tareas, es desarrollada para extraer la información de las entidades nombradas y sus relaciones en textos farmacológicos en bruto sin ninguna estructura.