El corpus paralelo español-náhuatl recopila fuentes de gran variedad, por ejemplo, textos históricos, didácticos, cuentos, recetarios, musicales, entre otros. Los textos que forman el corpus presentan variación dialectal y diacrónica, es decir, no todos los libros pertenecen a la misma variante de náhuatl ni fueron escritos en el mismo periodo.

Hasta el momento hemos recopilado 38 libros cuyos títulos se listan en la sección Documentos del corpus

La mayor parte del material contenido en el corpus proviene de textos que no estaban disponibles de manera digital, es decir, se recolectó material bibliográfico de diversas bibliotecas y posteriormente se utilizó un escáner para digitalizar las secciones con texto paralelo de cada libro. Asimismo, fue necesaria una corrección manual de los textos digitalizados, pues el software de reconocimiento automático de caracteres (OCR) cometió diversos errores al enfrentarse al reconocimiento del náhuatl.

PUBLICACIONES
Articulos y ponencias

  • Gutierrez-Vasques, Ximena. "Bilingual lexicon extraction for a distant language pair using a small parallel corpus." NAACL-HLT 2015 Student Research Workshop (SRW). 2015.


  • Ximena Gutiérrez-Vasques, Elena Carolina Vilchis Vargas, Cerbón Ynclán Rocío. "Recopilación de un corpus paralelo electrónico para una lengua minoritoria: el caso del nahuatl-español". Primer Congreso Internacional el Patrimonio Cultural y las Nuevas Tecnologías. INAH 2015
  • [PDF]

  • Ximena Gutiérrez, Alfonso Medina Urrea, Gerardo Sierra Martínez. "Creación de un corpus paralelo español-náhuatl y su utilización en el desarrollo de tecnologías del lenguaje". Encuentro Internacional de Lingüística en el Noroeste. Universidad de Sonora. Ponencia

  • Términos de uso | ¿Cómo citar AXOLOTL?
    2015 México, D.F.