3.4 Anotación semántica de corpus

Para mayor información, consúltese:

3.4.1 Relaciones léxicas

La homonimia es la relación que existe entre palabras que tienen la misma forma, pero con significados no relacionados. Los elementos que tienen este tipo de relación se llaman homónimos. Por ejemplo, banco ($ vs. río). Los homónimos que tienen diferentes partes de la oración no son problemáticos a la lingüística computacional, pues un tagger distinguiría, con base en sus elementos sintácticos, el significado correspondiente a cada homónimo.

Polisemia es el fenómeno de múltiples significados relacionados para un mismo lexema. Se puede llegar a confundir con homonimia, pero aquí se trata de lexemas que comparten mismos semas, como banco ($, ojos).

Homófonos son los distintos lexemas que se escriben diferentes pero tienen la misma pronunciación. Los homófonos presentan dificultades en diferentes aplicaciones de la ingeniería lingüística, como corrección de escritura, reconocimiento de voz y sistemas de recuperación de información.

Sinonimia se define como los diferentes lexemas con el mismo significado. Desde nuestro punto de vista, dos lexemas significan la misma cosa si estos pueden ser sustituidos uno por el otro en una oración sin cambiar el significado o la aceptabilidad de la oración. El adecuado uso de una palabra en función de la noción de identidad de significado es importante para la extracción y recuperación de información.

Hiponimia se refiere a pares de lexemas donde uno denota una subclase del otro. Por ejemplo, la relación entre cánido y perro es del tipo hiponímico. Al no ser una relación simétrica, se usa el término hipónimo a lexema más general, e hiperónimo al lexema más específico.

Meronimia es una relación semántica entre un lexema que denota una parte correspondiente a un todo, en tanto holonimia el la relación entre un lexema que denota el todo correspondiente a una parte. Al primer tipo se le conoce como relación hasa (tiene una).

3.4.2 WordNet

WordNet es un sistema de representación léxica que intenta desarrollar un lexicón multipropósito en forma de aplicación informática. Es un sistema electrónico de referencia léxica, desarrollado en forma de bases de datos léxica, cuyo diseño está en consonancia con teorías psicolingüísticas relativas a la organización de la información léxica en la mente del hablante. Constituye un intento de reflejar el modelo de memoria léxica basado en redes semánticas.

WordNet ha sido financiado por el Departamento de Investigación Naval, la Fundación James S. McDonnell y la U. de Princeton. Está disponible gratuitamente en línea a través de Internet:

El lexicón se divide en cinco categorías: nombres, verbos, adjetivos, adverbios y elementos funcionales. Por ello, hay información redundante que no aparecería en un diccionario tradicional, pero facilita el análisis de las diferencias de organización semántica que existe entre estas cinco categorías. Al no forzar las diferentes categorías en un mismo esquema representacional, se busca la forma más adecuada para cada una de ellas por separado.

Las relaciones léxicas de WordNet son la sinonimia, antonimia, superordinación (hiperonimia), subordinación (hiponimia), meronimia y relaciones morfológicas.

WordNet tiene unas 57,000 formas nominales (sustantivos) organizadas en unos 48,000 significados (synsets). Las definiciones de los sustantivos están organizadas en jerarquías semánticas, construidas con base en los superordinados que aparecen en las definiciones de los sustantivos, junto con los rasgos distintivos que diferencian un sustantivo de su hiperónimo. La profundidad de la jerarquía no contiene, en la mayoría de los casos, más de doce niveles de organización.

3.4.3 Novell ConceptNet

3.4.4 EuroWordNet

3.4.5 La anotación semántica

Se pueden tener varios objetivos de anotación semántica, entre ellos:

3.4 Anotación referencial en corpus

Anotación referencial en Contextos Definitorios.