Anotación morfosintáctica de corpus

3.3 Anotación morfosintáctica

Partimos de la definición de sintaxis dada por el Diccionario de Lingüística de Elizabeth Luna (no publicado):

Rama de la lingüística que estudia la construcción de la oración y el funcionamiento de sus elementos constitutivos,
es decir, el modo de enlazar unas palabras con otras para formar la oración
y analiza las relaciones que se dan entre las palabras para formar unidades significativas más amplias.

El analisis de la oración y de sus elementos constitutivos requiere identificar las categorías con las cuales se clasifican las palabras de la oración de acuerdo con su naturaleza, su forma y/o su función; esto es, se requiere identificar las clases de las palabras o las partes de la oración. La identificación de las partes de la oración y su consecuente anotación en corpus, también conocido como etiquetado morfosintáctico, es un tema que es tratado a profundidad, antes de llegar al análisis de la oración y de los constituyentes, con su correspondiente anotación en corpus, que constituye un tema aparte.

3.3.1 Bases del etiquetado morfosintáctico

Mayor referencia en:

Geoffrey Leech (1997) "Grammatical Tagging". En Garside, R., Leech, G. & McEnery, A. (Eds.), Corpus Annotation: Linguistic Information from Computer Text Corpora. New York: Addison Wesley Longman.
Sección 2.2.2.3 Linguistic annotations del libro de Tony McEnery & Andrew Wilson (1996) Corpus linguistics. Edinburgh: Edinburgh University Press.
Aurora Martín de Santa Olalla Sánchez (1999) "Una propuesta de codificación morfosintáctica para corpus de referencia en lengua española". Estudios de Lingüística Española (ELiEs), Vol. 3.

Entenderemos por etiquetado morofintáctico a la anotación de la categoría a la que pertenecen las palabras en un corpus. Llamaremos indistintamente a las clases de palabras como partes de la oración, aunque daremos preferencia a esta última. En cuanto a su etiquetado, tendremos en cuenta las siglas usadas para el inglés como POST = Part-Of-Speech Tagging. Hay que considerar que en la mayoría de los casos que se habla de Tagging en inglés se tiene más una connotación específica sobre el etiquetado de las partes de la oración, más que a cualquier otro tipo de etiquetado (sintáctico, semántico, etc.)

Existen cuantro puntos secuenciales a considerar para obtener el etiquetado de las partes de la oración:

Identificación de las palabras o unidades léxicas a etiquetar.
Definición de las clases de palabras, desde el punto de vista gramatical, que quiere realizarse.
Definición de las etiquetas con las que se van a anotar las clases de palabras.
Procedimiento con el que se va a etiquetar el corpus.

3.3.2 Identificación de palabras

Al hablar del etiquetado de las partes de la oración, es decir, de las palabras, parece evidente que "palabra" sea un concepto primitivo. Sin embargo, la realidad es que no resulta del todo trivial. No podemos decir que una palabra es el conjunto de caracteres entre espacios vacíos, pues entonces salta la presencia de los signos de puntuación (puntos, comas, paréntesis, guiones cortos y largos, etc.) que van unidos a las "palabras". Una respuesta inmediata sería exluir los signos de puntuación, pero tampoco es siempre posible. Geoffrey Leech en su capítulo Grammatical Tagging, considera tres posibilidades que van más allá de la correspondencia uno a uno entre la palabra ortográfica (aquella entre espacios vacios) y la palabra morfosintáctica (aquella de la que vamos a analizar su categoría gramatical):

Multipalabras o unidades léxicas. Aquí existe una correspondencia de más de una palabra ortográfica con una palabra morfosintáctica. Esto es, existen unidades léxicas o conjunto secuencial de palabras que pueden y deben ser consideradas como una sola unidad, ya que el sentido de dicha unidad es diferente a la suma de los sentidos de las palabras que la componen. Entre las multipalabras cabe mencionar las locuciones: por favor (prep. + sust.) y sin embargo (prep. + sust.). Dentro de las multipalabras hay que señalar:
- La anotación de las multipalabras permite llegar a análisis más confiables y precisos. Por ejemplo, mientras en un conteo de palabras en un corpus conviene considerar cada palabra por separado, en un conteo de palabras significativas hay que considerar las unidades léxicas.
- Los nombres propios, incluyendo el título nobiliario, como Lic. Ezequiel Servando Urbina de la Tejera y Asociación Mexicana de Procesamiento de Lenguaje Natural, normalemente son considerados y anotados como una unidad léxica en muchos corpus. La identificación y categorización automática de nombres propios (nombres de personas, lugar, instituciones y empresas) es un tema de interés que sigue estudiándose.
- Las fechas (tres de diciembre de 1974, 03.12.74, 3/Dic/1974, 3-XII-74), las horas (17:30 hs., 5.30 PM, 1730 horas) y los números (317,645.25) tienen patrones más regulares y son anotados explícitamente.
- Los términos, como unidades significativas en su contexto, de caracter denominativo y valor referencial, llegan a estar combinados con números y otros signos; en ocasiones llegan a estar formados por siete u ocho palabras (unidad de distribución de energía del subsistema de propulsión (PPDU)). Véase el libro de Ana María Cardero (2003), Terminología y Procesamiento, UNAM.
- Para anotar una unidad léxica como un solo elemento Leech sugiere lo que denomina como ditto tags: se asigna la misma parte de la oración a cada palabra de la unidad y se señala el número de elemento que la conforman y el número en la secuencia que le corresponde a cada uno; por ejemplo, de_prep31 esta_adj32 manera_sust33.
Acortamiento. Con este término utilizado por Ana María Cardero proponemos al equivalente mergers de Leech. Se trata cuando existe una correspondencia de una palabra ortográfica a más de una palabra morfosintáctica. Esto es, cuando en una secuencia de letras, algunas veces con signos ortográficos o signos de puntuación, se juntan dos o más palabras.
- Los clíticos son un caso de acortamiento señalado por Leech. Para el español, son las formas que la suceden (proclítico) o la preceden (enclítico) a una palabra determinada, como es el caso de los pronombre átonos. Así, cometelo = come+te+lo está dado por el imperativo segunda persona del verbo comer, más el dativo del pronombre personal de la segunda persona, más el acustaivo del pronombre personal de la tercera persona. Se tiene una forma ortográfica para tres partes de la oración.
- Las contracciones gramaticales son un tipo de acortamiento en donde se tiene una forma ortográfica para más de una parte de la oración. Por ejemplo, del = de(Prep.) + el(art.). En el caso del inglés se tienen casos en donde una forma ortográfica corresponde a tres palabras, como dunno = do + not + know.
- Las contracciones idiomáticas separadas con apóstrofes es más común en ele inglés, pero también se dan casos en el español, sobre todo en transcripciones de lengua hablada coloquial. Ejemplos del inglés: don't que puede separarse en las dos formas do not, pero todavía más complejo está el caso de los posesivos, en donde incluso cambia el orden de las palabras, como en Zapata's head = head of Zapata. Como ejemplo en español: p'al = para el.
- Las siglas son un ejemplo de acortamientos, en donde se tiene una forma ortográfica para refereirse a más de una palabra. Es común etiquetar las siglas, aunque normalmente no se le da ningún valor gramatical, el cual debiera anotarse para poder llevar un adecuado análisis sintáctico del contexto.
- Si bien las abreviaturas no encuadran estrictamente en esta división dada por Leech por la correspondencia entre palabras ortográficas y morfosintácticas, ya que una abreviatura, en general, es una forma ortográfica a una morfosintáctica, nosotros las incluimos aquí por ser acortamientos; no obstante, cabe señalar que existen abreviaturas de multipalabras, como V.gr. o R.S.V.P.. Si bien es relativamente fácil identificar una abreviatura por el punto que la antecede, no siempre llevan el punto y pueden estar formadas por mayúsculas, minúsculas y/o números, como dB = decibel, a = amperio, A = amperaje, H₂O = agua. Es común anotar las abreviaturas como tales; sin embargo, hay que observar que éstas tienen un valor gramatical, que puede ser sustantivo o adjetivo.
- Una sugerencia para etiquetar las contracciones y los clíticos utilizada en Lancaster es usar los picoparéntesis para mostrar la interdependencia de las palabras. Por ejemplo: come_vb> te_pp< lo_pp<. Otra alternativa propuesta por Leech es dar la palabra junta y las etiquetas unidas a cada parte: come_vbte_pplo_pp.
Composición. La composición (compounds) consiste en la combinación de palabras completas para dar origen a nuevas formas. Leech la considera como la correspondencia de una o más palabras ortográficas con una o más palabras morfosintácticas. La razón de que sea una o más palabras ortográficas es que, por un lado, puede escribirse de diferentes formas (por ejemplo, eye strain, como dos palabras; eyestrain, como una palabra; o eye-strain, como dos palabras separadas por un guión) y, por el otro, la composición llega a fosilizarse y perderse el sentido de unión de dos palabras, como el caso de peliagudo. Si bien se ha resuelto que la composición dada por la fusión de dos o más palabras, como pelirrojo que es resultado de la unión de pelo y rojo, sea considerada una sola palabra con su correspondiente parte de la oración, en el caso de los compuestos dados por dos palabras separadas con guión hombre-rana se llega a etiquetar cada parte por separado. En este último caso, cuando se realiza un etiquetado automático, hay que tener cuidado con los guines que separan a dos palabras distintas, como en el caso de San Luis Potosí-Puerto Vallarta.

3.3.3 Clases de palabras

La categorización de las partes de la oración es un tema que aún entre los mismos gramáticos no se ponen de acuerdo. La definición y presición o detalle de las partes de la oración depende del objetivo particular para el que se está haciendo un corpus lingüístico. Se pueden definir desde unas cuantas, las más elementales con la información sintáctica elemental, hasta varias centenas, con una estructura más detallada que contemple los distintos aspectos morfológicos, las características de los verbos, etc. Sin embargo, cuando se busca construir un corpus multipropósito, es conveniente pensar en que las clases y subclases definidas lleguen a mayor detalle.

EAGLES proporciona una serie de recomendaciones para reconocer las partes de la oración en tres niveles:

Características obligatorias. Son aquellas partes de la oración básicas que deben ser anotadas en cualquier etiquetado de las partes de la oración. EAGLES reconoce las siguientes principales: sustantivo, verbo, adjetivo, pronombre/determinante, artículo, adverbio, aposición, conjunción, numeral, interjección, único (partícula negativa not y marcador de infinitivo to para el inglés), residual (por ejemplo, palabras extranjeras y símbolos matemáticos) y puntuación.
Características recomendadas. Aquellas categorías gramaticales ampliamente reconocidas y que deben ser anotadas de ser posible. Por ejemplo, para el sustantivo: número, género, caso y tipo (común o propio, por ejemplo)
Características opcionales. Aquellas que pueden ser usadas para propósitos específicos, pero que no son lo suficientemente importantes para ser consideradas obligatorias o recomendadas. Pueden ser de dos tipos:
- Características genéricas: las que son aplicables a la mayoría de los lenguajes (oficiales de la Comunidad Europea). Por ejemplo, la subcategorización de sustantivos en contables, concretos, abstractos, colectivos, etc.
- Características específicas del lenguaje: las que aplican a una o pocas lenguas.

3.3.4 Etiquetas morfosintácticas

Una vez definido el nivel al que se quiere llegar en la categorización de las partes de la oración, el siguiente paso es asignar las etiquetas correpondientes. Leech sugiere que las etiquetas sean escogidas con base en tres criterios:

Concisión. Los nombres de las etiquetas deben ser breves, en preferencia a las etiquetas largas, aunque estas últimas sean más completas en cuanto a la descripción.
Perspicuidad. En el sentido de claras y transparentes, las etiquetas deben ser fácilmente recordadas e interpretadas.
Analizables. Esto es, en los nombres de las etiquetas deberán ser distinguidas y separadas las partes lógicas y gramaticales que las componen.

3.3.5 Ejemplos de etiquetas morfosintácticas

Aurora Martín de Santa Olalla Sánchez (1999) "Una propuesta de codificación morfosintáctica para corpus de referencia en lengua española". Estudios de Lingüística Española (ELiEs), Vol. 3.
Etiquetas usadas en el Penn Treebank corpus
Etiquetas para el español conforme a EAGLES
Marta Pino y María Paula Santalla (1996) "Codificación de la anotación morfosintáctica de corpus en lenguaje SGML". Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural, 19, 101-117.
Etiquetario morfosintáctico empleado en el Proyecto Corpus del IULA.

3.3.6 Métodos para etiquetar las partes de la oración

Con el fin de resolver las ambigüedades léxicas, el etiquetado de las partes de la oración (POST) puede realizarse con dos tipos básicos de algoritmos y uno híbrido:

Etiquetado basado en reglas. Usan una base de datos grande con reglas de desambiguación que indican, por ejemplo, que una palabra ambigua es sustantivo, en lugar de verbo, cuando va después de un determinante.

El método basado en reglas consta de dos etapas. En la primera etapa, se corre un programa para identificar las posibles partes de la oración de cada palabra, a partir de un lexicón en donde a cada palabra le corresponde su o sus partes de la oración. En la segunda etapa, se corre un programa con un conjunto de reglas (1,100 para el inglés, aprox.) aplicadas a las palabras ambiguas.
Etiquetado estocástico. Usan un corpus entrenado para calcular la probabilidad de que una palabra tenga cierta etiqueta dado un contexto determinado.

El fundamento de los métodos estadísticos está dado por una generalización de “escoja la etiqueta más probable de esta palabra”, basada en el enfoque Bayesiano. Para una oración o secuencia de palabras dadas, los algoritmos basados en las cadenas de Marcov seleccionan la secuencia de etiquetas que maximice la siguiente fórmula:

P (palabra | etiqueta) * P (etiqueta | n etiquetas previas)

Los modelos basados en las cadenas de Marcov seleccionan una secuencia de etiquetas para una oración completa, más que para una palabra sola.
Etiquetado basado en transformación. El más conocido es el Brill tagger, que comparte características de los dos algoritmos anteriores. Se basa en reglas para determinar cuando una palabra ambigua debe tener cierta etiqueta, y a la vez tiene un componente de aprendizaje, en donde las reglas son automáticamente inducidas de un corpus entrenado previamente.

3.3.7 Herramientas de etiquetado morfosintáctico

3.3.8 Lematización

La lematización es un proceso muy cercano al de la identificación de las partes de la oración y consiste en la reducción de las palabras de un corpus a la constituida por su propio lexema, esto es, a su forma canónica o a la que aparece normalmente como entrada en un diccionario. Por ejemplo, la forma ser es la forma canónica de las flexiones soy, eres, fuiste, serás; en tanto, la forma canónica tigre es para los sustantivos tigresa y tigres.

Ejemplo de corpus lematizado está el del IULA (Descripción del proyecto y muestra), para el español.
Una herramienta disponible en Interenet es el Flexionador y lematizador de palabras del español, elaborado por el Grupo de Estructuras de Datos y Lingüística Computacional de Las Palmas de Gran Canaria, en http://www.gedlc.ulpgc.es/investigacion/scogeme02/lematiza.htm