Diseño y generación semi-automática de patrones adaptables para el reconocimiento de entidades
- Marrero Llinares, Mónica
- Jorge Morato Lara Directeur/trice
- Sonia Sánchez Cuadrado Directrice
Université de défendre: Universidad Carlos III de Madrid
Fecha de defensa: 21 mai 2013
- Juan Lloréns Morillo President
- Rafael Valencia García Secrétaire
- Roberto Carniel Rapporteur
Type: Thèses
Résumé
La tarea de Reconocimiento de Entidades Nombradas (NER) facilita la gestión de información y tiene utilidad en otras áreas, como Anotación Semántica, Sistemas de Búsqueda de Respuesta, Población de Ontologías y Minería de Opiniones. Pero de acuerdo a los resultados de algunos foros, el área de NER podría considerarse resuelta. La tesis profundiza en la evaluación del área y muestra que parece haberse estancado en el reconocimiento de entidades típicas, para las que habitualmente existen recursos anotados. Esto contrasta con la diversidad de tipos de entidad y dominios de aplicación actuales. Este trabajo contribuye con el diseño de un método para el reconocimiento de entidades más consecuente con el problema de no disponer de corpus anotados para cualquier tipo de entidad requerida y sobre cualquier dominio. El método diseñado integra los siguientes aspectos: Transparencia: patrones legibles y con alto grado de estandarización. Flexibilidad: posibilidad de incorporar diferentes tipos de atributos capaces de describir las entidades o su contexto. Potencia: reconocimiento de diferentes estructuras del lenguaje en los documentos. Coste: uso de un pequeño conjunto de entidades como semillas iniciales y técnicas de aprendizaje activo para guiar al usuario en el proceso de anotación. Efectividad: tasas de efectividad competitivas en relación al estado del arte, medidas en términos de precisión y exhaustividad. Los resultados obtenidos son evaluados mediante el uso de corpus públicos anotados con diferentes tipos de entidades, y comparados con otros trabajos relacionados en la literatura científica.