Construcción de un corpus escrito y una ontología de errores ortográficos del chabacano zamboangueño

  1. Marcelo Yuji Himoro 1
  2. Antonio Pareja-Lora 2
  1. 1 ATLAS, Universidad Nacional de Educación a Distancia
  2. 2 Universidad de Alcalá
    info

    Universidad de Alcalá

    Alcalá de Henares, España

    ROR https://ror.org/04pmn0e78

Revista:
Revista española de lingüística aplicada

ISSN: 0213-2028

Año de publicación: 2023

Volumen: 36

Número: 1

Páginas: 234-269

Tipo: Artículo

DOI: 10.1075/RESLA.20052.HIM DIALNET GOOGLE SCHOLAR

Otras publicaciones en: Revista española de lingüística aplicada

Resumen

El chabacano zamboangueño es una lengua criolla filipina, de base española, hablada como lengua materna por más de 400.000 personas (datos de 2010). No obstante, su grafía normalizada es relativamente reciente (de 2014). Este artículo presenta una investigación destinada a la identificación y anotación semiautomática de los errores cometidos por sus hablantes al escribir, según la ortografía normativa. En primer lugar, detallamos los criterios aplicados en la construcción de un corpus de más de 8 millones de palabras del zamboangueño escrito y los géneros que lo componen, así como los formatos utilizados para codificarlo. En segundo lugar, describimos el proceso seguido para (1) el estudio de los errores y problemas ortográficos presentes en este corpus; (2) el desarrollo de una taxonomía elaborada para su mejor representación y clasificación; y (3) su formalización mediante una ontología. Por último, discutimos el resultado principal de este trabajo: un corpus de zamboangueño escrito, con sus errores ortográficos clasificados y anotados semiautomáticamente con enlaces a la ontología y sus formas corregidas correspondientes. Estas anotaciones nos permitirán a corto plazo analizar de manera más sistemática y profunda las faltas de ortografía cometidas por los usuarios del zamboangueño.