4.3 Colocaciones y otras medidas de asociación
Mayor información en:
4.3.1 Colocaciones
En un texto, las palabras vienen acompañadas, y normalmente ocurren en conjuntos. Una colocación se define como la ocurrencia de dos o más palabras que se encuentran cercanas en un texto y que tienden a ocurrir cercanas en ciertos contextos. En este sentido, se considera una colocación como la combinación frecuente de palabras, así como la combinación en la que una palabra requiere la presencia de otra para expresar un sentido dado. Esto último ha correspondido a los diccionarios explicativos y combinatorios.
Elementos de una colocación
Ejemplos de colocaciones
USED | 7 | 3 | 2 | 0 | 0 | device | 54 | 4 | 7 | 6 | 8 |
CONSISTING | 0 | 3 | 1 | 0 | 0 | device | 22 | 2 | 1 | 6 | 8 |
ELECTRICAL | 3 | 3 | 9 | 3 | 27 | device | 0 | 0 | 3 | 2 | 2 |
MECHANICAL | 2 | 1 | 5 | 4 | 35 | device | 0 | 1 | 5 | 2 | 2 |
PERSON | 5 | 0 | 0 | 6 | 4 | device | 0 | 0 | 1 | 1 | 0 |
CALLED | 6 | 9 | 6 | 0 | 0 | device | 0 | 2 | 0 | 0 | 0 |
SIMILAR | 1 | 1 | 1 | 3 | 35 | device | 0 | 0 | 3 | 0 | 0 |
COMPUTER | 6 | 8 | 9 | 5 | 1 | device | 0 | 0 | 2 | 2 | 1 |
ELECTRONIC | 0 | 1 | 6 | 2 | 31 | device | 0 | 2 | 1 | 0 | 1 |
MACHINE | 1 | 4 | 1 | 12 | 2 | device | 1 | 1 | 2 | 3 | 2 |
USUALLY | 1 | 0 | 1 | 0 | 0 | device | 15 | 2 | 1 | 4 | 2 |
CIRCUIT | 1 | 1 | 2 | 10 | 3 | device | 2 | 5 | 0 | 2 | 0 |
STORAGE | 1 | 2 | 1 | 0 | 28 | device | 2 | 0 | 1 | 0 | 1 |
PART | 0 | 6 | 1 | 1 | 0 | device | 1 | 4 | 3 | 3 | 0 |
SEE | 4 | 1 | 1 | 0 | 0 | device | 4 | 0 | 2 | 1 | 2 |
SYSTEM | 0 | 1 | 3 | 1 | 3 | device | 5 | 5 | 1 | 2 | 2 |
WATER | 1 | 5 | 1 | 0 | 2 | device | 0 | 0 | 4 | 0 | 0 |
MEASURING | 0 | 1 | 2 | 0 | 3 | device | 0 | 18 | 1 | 4 | 1 |
NAME | 2 | 2 | 0 | 0 | 0 | device | 0 | 1 | 0 | 4 | 0 |
SOMETHING | 2 | 0 | 0 | 1 | 0 | device | 0 | 0 | 4 | 3 | 2 |
CURRENT | 1 | 0 | 0 | 0 | 0 | device | 0 | 0 | 1 | 5 | 2 |
HAVING | 1 | 0 | 1 | 1 | 0 | device | 15 | 1 | 0 | 0 | 1 |
AIR | 1 | 3 | 0 | 0 | 0 | device | 0 | 1 | 4 | 2 | 1 |
INFORMATION | 0 | 5 | 0 | 1 | 0 | device | 0 | 0 | 4 | 2 | 3 |
Conteo de colocaciones
4.3.2 El criterio de costos en colocaciones
K. Kita y colegas, en su artículo "Automatic Extracting Collocations from Corpora for Language Learning" (1994), establecieron el criterio de costos (cost criterion) para extraer colocaciones de corpus. Considera que no se puede determinar una colocación únicamente por su frecuencia absoluta, pues a pesar tendrá una frecuencia mayor que a pesar de, siendo esta última la colocación. Por ello, además de utilizar la frecuencia absoluta, también considera el número de palabras en la colocación. La fórmula que utiliza es:
K(a) = (/a/ - 1) x (f(a) - f(b))
Donde a es la colocación candidata, /a/ es la longitud de la colocación a o su número de palabras, f(a) es la frecuencia de ocurrencia de la colocación a, y f(b) es la frecuencia de la colocación siguiente en cuanto al número de palabras. La de mayor costo será la colocación. Por ejemplo, si "a number" ocurre 102 veces en un corpus, "a number of" ocurre 51 veces, y "a number of times" ocurre 20 veces, entonces:
Ejercicio
En el CREA se buscó el número de veces que ocurre cada una de las cadenas, de una a nueve palabras, conforme se muestra en la siguiente tabla. Determine la más probable colocación con base en el criterio de costos.
PALABRAS | SECUENCIA | FRECUENCIA |
1 | fuentes | 8410 |
1 | principales | 7842 |
2 | principales fuentes | 65 |
3 | principales fuentes de | 50 |
3 | las principales fuentes | 45 |
3 | fuentes de ingresos | 33 |
4 | las principales fuentes de | 37 |
4 | de las principales fuentes | 29 |
4 | principales fuentes de ingresos | 7 |
5 | de las principales fuentes de | 26 |
5 | una de las principales fuentes | 26 |
5 | en una de las principales | 22 |
5 | las principales fuentes de ingresos | 6 |
6 | una de las principales fuentes de | 25 |
6 | en una de las principales fuentes | 7 |
6 | de las principales fuentes de ingresos | 5 |
7 | en una de las principales fuentes de | 7 |
7 | una de las principales fuentes de ingresos | 5 |
8 | en una de las principales fuentes de ingresos | 3 |
8 | una de las principales fuentes de ingresos para | 2 |
9 | en una de las principales fuentes de ingresos para | 1 |
4.3.3 Información Mutua
La información mutua es una medida de gran importancia en la teoría de la información, que consiste en la información aportada por una variable aleatoria sobre la otra. En el estudio de colocaciones, la información mutua mide la fuerza de asociación entre dos palabras. Es una medida estaística que determina la cantidad de información que la aparición de una palabra nos da sobre la aparición de otra. Para ello, calcula la probabilidad de que dos palabras aparezcan juntas, y la compara con la probabilidad de que dichas palabras aparezcan por separado. A mayor valor se tendrá que existe una asociación fuerte, de forma que la probabilidad de que aparezcan juntas deberá ser mucho mayor que la de que aparezcan de forma independiente. En caso de que los dos valores de frecuencia sean muy similares, la concurrencia de las dos palabras no suele considerarse muy significativa