Mejorando la extracción automática de relaciones biomédicas usando diferentes características lingüísticas de los textos

BOKHARAEIAN, BEHROUZ

Mejorando la extracción automática de relaciones biomédicas usando diferentes características lingüísticas de los textos

BOKHARAEIAN, BEHROUZ

Dirigida por:

Alberto Díaz Esteban Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 08 de junio de 2017

Tribunal:

Pablo Gervás Gómez-Navarro Presidente
Raquel Hervás Ballesteros Secretario/a
Ana M. García Serrano Vocal
Manuel de Buenaga Rodríguez Vocal
Isabel Segura Bedmar Vocal

Departamento:

Ingeniería del Software e Inteligencia Artificial

Tipo: Tesis

Teseo: 144706 DIALNET Docta Complutense editor

Resumen

La extracción de relaciones entre entidades es una tarea muy importante dentro del procesamiento de textos biomédicos. Cada vez hay más información sobre este tipo de interacciones almacenada en bases de datos, pero sin embargo la mayor cantidad de información relacionada con el tema está presente en artículos científicos o en recursos donde la información se almacena en formato textual. Las interacciones entre fármacos son, en particular, una preocupación generalizada en medicina, por esa razón la extracción automática de este tipo de relaciones es una tarea muy demandada en el procesamiento de textos biomédicos. Una interacción entre 2 fármacos normalmente se produce cuando un fármaco altera el nivel de actividad de otro fármaco. De acuerdo a los informes presentados por la Administración Nacional de Alimentos y Fármacos de Estados Unidos y otros estudios reconocidos, cada año se producen más de 2 millones de interacciones mortales entre fármacos. Muchos investigadores y compañías farmacéuticas han desarrollado bases de datos donde estas interacciones son almacenadas. Sin embargo, la información más actualizada y valiosa sigue apareciendo sólo en documentos no estructurados en formato textual, incluyendo publicaciones científicas e informes técnicos. En esta tesis se estudian 3 conjuntos de características lingüísticas de los textos: negación, dependencia clausal y candidatos neutros. El objetivo final de la investigación es mejorar el rendimiento de la tarea de extracción de interacciones entre fármacos considerando las combinaciones de las características lingüísticas extraídas de los textos con métodos de aprendizaje basados en kernel. Nuestros experimentos indican que las características propuestas mejoran la tarea de extracción de relaciones de manera significativa. También se han caracterizado la contribución de cada una de las características por separado, lo que ha llevado a la conclusión de que los candidatos neutros juegan el papel más importante dentro de las 3 categorías. Otra relación biomédica que ha sido estudiada es la asociación entre Polimorfismos de Nucleótido Simple (SNP) y Fenotipos (SNPPhenA). Los SNPs son considerados como los cambios genéticos más significativos que contribuyen a enfermedades comunes. Un SNP es una variación en la secuencia de ADN que afecta un nucleótido simple ¿ A, T, C o G ¿ de una secuencia del genoma y que varía dentro de una población significativa entre miembros de una especie biológica. El elevado número de asociaciones entre SNPs y fenotipos implica la necesidad del desarrollo de una herramienta de extracción automática de estas asociaciones. En esta tesis se ha desarrollado un corpus para la extracción de asociaciones entre SNPs y fenotipos. Es el primer corpus anotado con el grado de confianza de la relación. El proceso de generación del corpus (formatos xml y standoff para BRAT) incluye la recopilación de resúmenes de artículos, reconocimiento de entidades, anotación de la asociación con su grado de confianza, así como anotación de negaciones y marcadores modales. La anotación del grado de confianza de las asociaciones positivas ha sido realizada en 3 niveles: fuerte, moderada y débil. También se ha habilitado un sitio web con toda la información relevante. Por último, se ha desarrollado un método supervisado para la extracción de asociaciones entre SNPs y Fenotipos que utiliza la información asociada a la detección de la negación y la presencia de candidatos neutros. Los experimentos han mostrado que la detección de la negación y la detección de candidatos neutros pueden ser utilizadas para desarrollar un método mejor que los basados en kernel tradicionales. Estos resultados son debidos, principalmente, a la polaridad intrínseca de la mayoría de las sentencias del corpus, así como al pequeño número de sentencias complejas. Además, se ha implementado un método supervisado basado en modalidad para identificar el nivel de confianza de las asociaciones extraídas.