4.3 Colocaciones y otras medidas de asociación

Mayor información en:

4.3.1 Colocaciones

En un texto, las palabras vienen acompañadas, y normalmente ocurren en conjuntos. Una colocación se define como la ocurrencia de dos o más palabras que se encuentran cercanas en un texto y que tienden a ocurrir cercanas en ciertos contextos. En este sentido, se considera una colocación como la combinación frecuente de palabras, así como la combinación en la que una palabra requiere la presencia de otra para expresar un sentido dado. Esto último ha correspondido a los diccionarios explicativos y combinatorios.

Elementos de una colocación

Ejemplos de colocaciones

USED73200device544768
CONSISTING03100device222168
ELECTRICAL339327device00322
MECHANICAL215435device01522
PERSON50064device00110
CALLED69600device02000
SIMILAR111335device00300
COMPUTER68951device00221
ELECTRONIC016231device02101
MACHINE141122device11232
USUALLY10100device152142
CIRCUIT112103device25020
STORAGE121028device20101
PART06110device14330
SEE41100device40212
SYSTEM01313device55122
WATER15102device00400
MEASURING01203device018141
NAME22000device01040
SOMETHING20010device00432
CURRENT10000device00152
HAVING10110device151001
AIR13000device01421
INFORMATION05010device00423

Conteo de colocaciones

4.3.2 El criterio de costos en colocaciones

K. Kita y colegas, en su artículo "Automatic Extracting Collocations from Corpora for Language Learning" (1994), establecieron el criterio de costos (cost criterion) para extraer colocaciones de corpus. Considera que no se puede determinar una colocación únicamente por su frecuencia absoluta, pues a pesar tendrá una frecuencia mayor que a pesar de, siendo esta última la colocación. Por ello, además de utilizar la frecuencia absoluta, también considera el número de palabras en la colocación. La fórmula que utiliza es:


K(a) = (/a/ - 1) x (f(a) - f(b))


Donde a es la colocación candidata, /a/ es la longitud de la colocación a o su número de palabras, f(a) es la frecuencia de ocurrencia de la colocación a, y f(b) es la frecuencia de la colocación siguiente en cuanto al número de palabras. La de mayor costo será la colocación. Por ejemplo, si "a number" ocurre 102 veces en un corpus, "a number of" ocurre 51 veces, y "a number of times" ocurre 20 veces, entonces:

Ejercicio

En el CREA se buscó el número de veces que ocurre cada una de las cadenas, de una a nueve palabras, conforme se muestra en la siguiente tabla. Determine la más probable colocación con base en el criterio de costos.

PALABRASSECUENCIAFRECUENCIA
1fuentes8410
1principales7842
2principales fuentes65
3principales fuentes de50
3las principales fuentes45
3fuentes de ingresos33
4las principales fuentes de37
4de las principales fuentes29
4principales fuentes de ingresos7
5de las principales fuentes de26
5una de las principales fuentes26
5en una de las principales22
5las principales fuentes de ingresos6
6una de las principales fuentes de25
6en una de las principales fuentes7
6de las principales fuentes de ingresos5
7en una de las principales fuentes de7
7una de las principales fuentes de ingresos5
8en una de las principales fuentes de ingresos3
8una de las principales fuentes de ingresos para2
9en una de las principales fuentes de ingresos para1

4.3.3 Información Mutua

La información mutua es una medida de gran importancia en la teoría de la información, que consiste en la información aportada por una variable aleatoria sobre la otra. En el estudio de colocaciones, la información mutua mide la fuerza de asociación entre dos palabras. Es una medida estaística que determina la cantidad de información que la aparición de una palabra nos da sobre la aparición de otra. Para ello, calcula la probabilidad de que dos palabras aparezcan juntas, y la compara con la probabilidad de que dichas palabras aparezcan por separado. A mayor valor se tendrá que existe una asociación fuerte, de forma que la probabilidad de que aparezcan juntas deberá ser mucho mayor que la de que aparezcan de forma independiente. En caso de que los dos valores de frecuencia sean muy similares, la concurrencia de las dos palabras no suele considerarse muy significativa