3. Anotación de corpus
3.1 Bases para la anotación de corpus
Mayor información sobre los principios de anotación de corpus textuales en:
- Geoffrey Leech, Capítulo 1.-
Introducing Corpus Annotation. En Roger Garside et al, Corpus Annotation.
- Peter Kahrel, Ruthana Barnett y Geoffrey Leech,
Capítulo 6.- Towards Croos-Linguistic Standards
or Guidelines for the Annotation of Corpora. En Roger Garside et al, Corpus Annotation.
- 2.3.3 Codificación (anotación y etiquetado) de los córpora,
de Pérez Hernández, M.Ch. (2002) "Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el
conocimiento". Estudios de Lingüística Española (ELiEs), Vol. 18.
- Arrarte, G. (1999) "Normas y estándares para la codificación de textos y para la ingeniería lingüística".
En J.M. Blecua et al (Eds.), Filología e informática: Nuevas tecnologías en los estudios filológicos. Barcelona:
Editorial Milenio y Universidad Autónoma de Barcelona.
- Sección 4.4 de la parte I del libro de Javier Pérez Guerra (1998), Introducción a la lingüística de corpus. Un ejercicio con
herramientas informáticas aplicadas al análisis textual. Santiago de Compostela: Torculo Edicións.
3.1.1 Principios sobre la anotación en corpus
Geoffrey Leech, en la sección 1.3 de su capítulo menciona los siguientes principios
que deben cumplirse en cuanto a la anotación de corpus:
- Debe ser posible remover la anotación de un corpus y convertirlo en corpus no anotado.
- Debe ser posible extraer las anotaciones de un corpus y ser salvadas de manera independiente.
- Las etiquetas deben estar basadas en documentación disponible para el usuario, que incluya el
esquema de anotación; e incluso dar información
sobre la confiabilidad y consistencia de la anotación seguida.
- Debe dejarse claro cómo y por quién fue realizada la anotación.
- Debe darse información sobre la confiabilidad y consistencia de la anotación seguida.
El usuario final debe estar conciente que la anotación de un corpus no es infalible,
sino simplemente una herramienta poderosa.
- Los esquemas de anotación deben estar basados en principios ampliamente definidos, de preferencia en consenso,
y en teorías neutrales.
- No deben considerarse los esquemas de anotación como una estándar, ya que tienden a variar por razones
prácticas.
3.1.2 Tipos de anotación
Si bien se van a ver adelante algunos tipos de anotación que puede hacerse a un corpus,
aquí se presenta una visión general sobre los diferentes tipos de anotación.
- Textual. La información metalingüística.
- Ortográfica. Errores y variantes ortográficas.
- Fonética y fonológica.
- Prosódica. Las señales tonales
- Gramatical. Las categorías morfosintácticas, constituidas por las partes de la oración.
- Sintáctica. Las estructuras sintácticas.
- Semántica. La clasificación léxica de las palabras.
- Discursiva. Las conexiones referenciales.
- Pragmática y estilística. Marcas de uso.
3.1.3 Hacia la estandarización en la anotación
Los distintos grupos y asociaciones de ingeniería lingüística han buscado normalizar la codificación de corpus.
Entre estos grupos cabe destacar:
- El Linguistic Data Consortium de la Universidad de Pensilvania, que ha llevado el proyecto del
Penn Treebank.
- La European Commission's Expert Advisory Group on Language Engineering Standards (EAGLES) que comprende varios
grupos trabajando en estandarizar corpus, lexicones, formalismos y evaluación.
- El British National Corpus (BNC), consorcio integrado
por la universidad de Oxford, de Lancaster y la Librería Británica.
- El Centre National de la Recherche Scientifique (CNRS),
organismo público francés de investigación básica.
3.1.4 Historia de la anotación de textos
- GML (General Markup Language). Nace en 1969 como un lenguaje de IBM por la necesidad de almacenar
grandes cantidades de información de temas diversos y poder clasificarlo.
- SGML (Standard Generalised Markup Language). Por el año 1986 se crea el estándar ISO 8879 de GML,
capaz de adaptarse a un gran abanico de problemas. Sin embargo, tiene una sintaxis compleja y diferente según los modelos
e instancias. SGML permite anotar documentos de una forma altamente estructurada, mediante un conjunto de etiquetas
definibles por el propio usuario.
- TEI (Text Encoding Initiative). En 1987 se crea TEI con el fin de establecer recomendaciones comunes para el etiquetado de textos
pensando en el intercambio y reutilización de recursos.
Descripción detallada del TEI en inglés.
- HTML (HyperText Markup Language). Por el año 1989, para el ámbito de la red Internet, Tim Berners-Lee creó este lenguaje de marcado específico que
contiene un conjunto de elementos y atributos fijos. Fue adoptado rápidamente por la comunidad y por varias organizaciones
comerciales que crearon sus propios visores de HTML y riñeron entre ellos para hacer el visor más avanzado,
inventándose etiquetas como su propia voluntad les decía.
Por ello, el HTML creció de una manera descontrolada y no cumplió todos los problemas que planteaba la sociedad global de Internet.
- XML (eXtensible Markup Language). Desde 1996, es un metalenguaje desarrollado por el World Wide Web Consortium
que define las reglas para la creación de lenguajes de marcas para codificar documentos particulares o tipos de mensajes.
Pone en orden el HTML y establecer sus reglas y etiquetas para que sea un estándar. Este lenguaje tiene el poder de SGML pero
de manera simplificada y venciendo las limitaciones de HTML.
3.1.5 EAGLES
EAGLES es una iniciativa de la Comisión Europea (1993-1996) que busca acelerar la normalización en:
- Recursos lingüísticos de gran escala (por ejemplo, corpus textuales, lexicones computacionales y corpus orales).
- Sistemas de tecnología lingüística, como los medios para manipular conocimiento lingüístico, etiquetamiento de los lenguajes
y varias herramientas computacionales.
- Medios de evaluar los recursos, herramientas y productos.
Para llevarlo a cabo, se crearon cinco grupos de trabajo:
- Corpus textuales
- Lexicones computacionales
- Formalismos gramaticales
- Evaluación
- Lenguaje hablado
3.1.6 Conceptos básicos de XML
Mayor información sobre XML en:
- Tim Bray et al (2004), Extensible Markup Language (XML) 1.0 (Third Edition)
Objetivos de XML
- XML se debe utilizar en Internet.
- XML debe admitir una gran variedad de aplicaciones.
- XML debe ser compatible con SGML.
- Debe ser fácil crear programas que procesen documentos XML.
- El número de funcionalidades opcionales de XML deberá mantenerse en un mínimo absoluto.
- Los documentos XML deberán ser inteligibles para los humanos y razonablemente claros
- El diseño de XML deberá prepararse rápidamente.
- El diseño de XML deberá ser formal y conciso.
- Los documentos XML deberán ser fáciles de generar.
- La concisión en las etiquetas XML tiene una importancia mínima.
Características de XML
- Es un metalenguaje con el que se pueden definir otros lenguajes de etiquetado.
- Es un lenguaje interpretable tanto por los humanos como por las máquinas.
- Es un lenguaje que define semánticamente la información.
- Separa el contenido de su presentación.
- De XML se creó el lenguaje HTML.