3.3 Anotación morfosintáctica

Presentación

Partimos de la definición de sintaxis dada por el Diccionario de Lingüística de Elizabeth Luna (no publicado):

Rama de la lingüística que estudia la construcción de la oración y el funcionamiento de sus elementos constitutivos,
es decir, el modo de enlazar unas palabras con otras para formar la oración
y analiza las relaciones que se dan entre las palabras para formar unidades significativas más amplias.

El analisis de la oración y de sus elementos constitutivos requiere identificar las categorías con las cuales se clasifican las palabras de la oración de acuerdo con su naturaleza, su forma y/o su función; esto es, se requiere identificar las clases de las palabras o las partes de la oración. La identificación de las partes de la oración y su consecuente anotación en corpus, también conocido como etiquetado morfosintáctico, es un tema que es tratado a profundidad, antes de llegar al análisis de la oración y de los constituyentes, con su correspondiente anotación en corpus, que constituye un tema aparte.

3.3.1 Bases del etiquetado morfosintáctico

Mayor referencia en:

Entenderemos por etiquetado morofintáctico a la anotación de la categoría a la que pertenecen las palabras en un corpus. Llamaremos indistintamente a las clases de palabras como partes de la oración, aunque daremos preferencia a esta última. En cuanto a su etiquetado, tendremos en cuenta las siglas usadas para el inglés como POST = Part-Of-Speech Tagging. Hay que considerar que en la mayoría de los casos que se habla de Tagging en inglés se tiene más una connotación específica sobre el etiquetado de las partes de la oración, más que a cualquier otro tipo de etiquetado (sintáctico, semántico, etc.)

Existen cuantro puntos secuenciales a considerar para obtener el etiquetado de las partes de la oración:

3.3.2 Identificación de palabras

Al hablar del etiquetado de las partes de la oración, es decir, de las palabras, parece evidente que "palabra" sea un concepto primitivo. Sin embargo, la realidad es que no resulta del todo trivial. No podemos decir que una palabra es el conjunto de caracteres entre espacios vacíos, pues entonces salta la presencia de los signos de puntuación (puntos, comas, paréntesis, guiones cortos y largos, etc.) que van unidos a las "palabras". Una respuesta inmediata sería exluir los signos de puntuación, pero tampoco es siempre posible. Geoffrey Leech en su capítulo Grammatical Tagging, considera tres posibilidades que van más allá de la correspondencia uno a uno entre la palabra ortográfica (aquella entre espacios vacios) y la palabra morfosintáctica (aquella de la que vamos a analizar su categoría gramatical):

3.3.3 Clases de palabras

La categorización de las partes de la oración es un tema que aún entre los mismos gramáticos no se ponen de acuerdo. La definición y presición o detalle de las partes de la oración depende del objetivo particular para el que se está haciendo un corpus lingüístico. Se pueden definir desde unas cuantas, las más elementales con la información sintáctica elemental, hasta varias centenas, con una estructura más detallada que contemple los distintos aspectos morfológicos, las características de los verbos, etc. Sin embargo, cuando se busca construir un corpus multipropósito, es conveniente pensar en que las clases y subclases definidas lleguen a mayor detalle.

EAGLES proporciona una serie de recomendaciones para reconocer las partes de la oración en tres niveles:

3.3.4 Etiquetas morfosintácticas

Una vez definido el nivel al que se quiere llegar en la categorización de las partes de la oración, el siguiente paso es asignar las etiquetas correpondientes. Leech sugiere que las etiquetas sean escogidas con base en tres criterios:

3.3.5 Ejemplos de etiquetas morfosintácticas

3.3.6 Métodos para etiquetar las partes de la oración

Con el fin de resolver las ambigüedades léxicas, el etiquetado de las partes de la oración (POST) puede realizarse con dos tipos básicos de algoritmos y uno híbrido:

3.3.7 Herramientas de etiquetado morfosintáctico

3.3.8 Lematización

La lematización es un proceso muy cercano al de la identificación de las partes de la oración y consiste en la reducción de las palabras de un corpus a la constituida por su propio lexema, esto es, a su forma canónica o a la que aparece normalmente como entrada en un diccionario. Por ejemplo, la forma ser es la forma canónica de las flexiones soy, eres, fuiste, serás; en tanto, la forma canónica tigre es para los sustantivos tigresa y tigres.