4. Herramientas y técnicas
4.1 Conteo de palabras
Preguntas (Tareas)
Mayor información en:
- Capítulo 3, "Examining the catch: the use of frequency list", del libro de Geoff
Barnbrook, Language and Computers.
4.1.1 Listas de palabras
Diferencia entre token y type
- Token es cada una de las formas que aparecen en el texto, sin importar cuántas
veces ocurra cada una. El número total de tokens definirá el tamaño del corpus.
- Type se refiere a cada una de las formas o palabras diferentes que aparecen en
un texto. Se acostumbra indicar la frecuencia absoluta de cada una de los types.
- La suma de las frecuencias de todos los types será la suma de todos los tokens de un corpus.
Lista de palabras
- Definiremos lista de palabras al listado de los types o formas que se escriben
diferente en el corpus.
- A cada palabra le acompaña al menos su frecuencia absoluta, esto es, el número de veces
que se repite dicha palabra en el corpus.
- Adicionalmente se puede acompañar de la frecuencia relativa, que es el número de veces
que ocurre la palabra en relación con el total de palabras en el corpus. Su valor es igual
a la frecuencia absoluta entre el número total de tokens (o la suma de las frecuencias
absolutas).
- En el caso de corpus anotados con partes de la oración, se puede acompañar a cada type
la categoría gramatical que le corresponde. Palabras homónimas con distinta categoría gramatical se
presentarán en diferentes líneas.
Diferentes listas de palabras
- Lista de palabras simple. Esta es la lista más común de todas. Aquí en cada línea
se presenta un type diferente, normalmente acompañado de su frecuencia en el corpus. Sus
aplicaciones son muy diversas.
- Lista de formas canónicas. Esta lista está ordenada alfabéticamente por cada uno de las
formas canónicas o entradas de un diccionario, y a cada línea le suceden las palabras que le
corresponden a dicha forma canónica. Como ejemplo, el trabajo de Juan López Chávez y Marina Arjona
de Lexicometría y fonometría del Primero Sueño de Sor Juana Inés de la Cruz.
- Lista de lemas. Aquí, de manera parecida a la lista de formas canónicas, se encuentra
ordenada por lemas o raíces, sin importar la parte de la oración de la que se trate la palabra.
Por ejemplo, ante el lema nación se pueden agrupar naciones, nacionales, nacionalizar,
nacionalmente y nacionalización.
- Listas de dos o más palabras. En estas listas no se presentan palabras simples, sino
pares, tercetas, etc. de palabras que ocurren contiguamente. De igual manera, cada una se
acompaña de su frecuencia. Su importancia radica en la localización de unidades multiléxicas.
- Lista de partes de la oración. Si bien en las anteriores listas, excepto en la de
dos o más palabras, se puede indicar la categoría gramatical a la que pertenece cada unidad,
se puede tener una lista que nada más traiga las distintas partes de la oración, con el fin
de tener una referencia de las catergorías gramaticales para fines estadísticos.
Orden de la lista de palabras
- Orden alfabético. La lista de palabras ordenadas de manera alfabética, normalmente
ascendente, resulta útil, en primera instancia, para localizar más fácilmente las palabras
de la lista. Además, se puede visualizar las palabras que empiezan con la misma raíz y, de
esa manera, agrupar palabras que contengan la misma raíz.
- Orden por frecuencias. En este apartado, las palabras de la lista se encuentra en
orden decreciente, generalmente, de acuerdo con la frecuencia absoluta de cada una las
palabras.
- Esta presentación permite conocer las palabras más frecuentes de un texto y
comparar las palabras con otras listas.
- En corpus de referencia, equilibrados y balanceados, se puede observar las palabras más
frecuentes. Su aplicación es muy diversa; por ejemplo, en el terreno de la lexicografía
(Diccionario Básico del Español de México y Longman), la enseñanza de idiomas, el desarrollo
de prototipos (traducción automática, sistemas de búsqueda de información, etc.).
- A menos que se ocupe una stoplist como filtro, las palabras más frecuentes serán
palabras funcionales.
- Con el empleo de una stoplist, aplicado a un corpus técnico, se puede conocer la
terminología mediante la comparación de las palabras de contenido de ese corpus contra las
de un corpus de otro tema ajeno.
- Orden alfabético inverso. Este orden alafabético a partir de la primera letra del
lado derecho puede sercir para el análisis de las flexiones de una lengua o como un diccionario
de rimas.
- Orden de aparición. Aquí se ordenan las palabras según van apareciendo en el texto.
Esto es diferente al texto mismo, pues solo se muestra una sola vez cada palabra, acompañada
con el valor de su frecuencia. Sirve para conocer la distribución y organización de las
palabras en el texto. Por ejemplo, las palabras que ocurren con frecuencia similar, pero que
aparecen por primera vez en diferentes lugares del texto, indican un cambio del tema o del
tipo de vocabulario empleado.
- Orden por longitud de las palabras. Aquí las palabras van ordenadas de manera
ascendente según el número de caracteres de cada palabra, de manera que en primer lugar
aparecen las palabras de una letra, después de las de dos letras y así consecutivamente hasta
llegar a la más larga. Cada grupo se ordenará además en orden alfabético.
- Orden por categoría gramatical. Aquí se presenta la lista de palabras ordenadas
según las diferentes partes de la oración. Para cada categoría se pueden presentar las
palabras ordenadas alfabéticamente o por frecuencias.
Las listas de palabras, cualesquiera que sea su tipo o su orden, no nos permitirá identificar
los diferentes sentidos de las palabras. Para hacer este trabajo, normalmente recurrimos a las
concordancias, que es nuestro siguiente objetivo.
4.1.2 Problemas en las listas de palabras
Se presentan los siguientes problemas en las listas de palabras:
- Identificación de los tokens. Si bien en la sección 3.3.2 ya se habló de la
identificación de palabras para el etiquetado morfosintáctico, conviene retomar los principales
puntos, pues no necesariamente se tendrá un etiquetado morfosintáctico en nuestro corpus.
En una lista de palabras pueden aparecer los siguientes errores al respecto:
- Los guiones (cortos o largos) son normalmente eliminados del conteo de palabras, por
lo que las palabras separadas con guiones a fin de línea son consideradas dos palabras
erróneamente.
- En general, los signos de puntuación son eliminados. Por ello, en las listas llegan
a aparecer letras sueltas o sin ningún sentido que pertenecen a otras palabras o que
son partes de contracciones (por ejemplo, don y t en don't).
- Los números grandes separados por comas y puntos se convertiran en dos o más
palabras a contarse.
- Al perderse los signos de puntuación, se llega a confundirse el significados de
las palabras (por ejemplo, la letra s de Gerardo's, s.s.s., y m/s).
- Eliminación de cifras. Es común que las cifras sean eliminadas del conteo de palabras,
pues al menos no se consideran palabras como tales; no aparecen en la lista, pues no
proporcionan información relevante.
- De esta forma, se eliminan no solo los números que indican los capítulos y secciones,
sino otras cifras que pueden ser significativas, como las fechas.
- Por otro lado, hay que considerar que no acostumbran eliminarse los números cuando aparecen
escritos, lo cual es contradictorio.
- Los números escritos de varias palabras acostumbran contarse cada una por separado (por
ejemplo, cuarenta y tres mil setecientos sesenta y tres.
- Eliminación de mayúsculas. En la mayoría de la lista de palabras se acostumbra convertir
todas las letras a minúsculas, a fin de no contar como diferentes types a dos palabras
iguales, pero de las cuales una es incial de párrafo o después de punto, y la otra no.
Sin embargo, hay que tener ciertas consideraciones:
- Muchas siglas que normalmente van con todas sus letras en mayúsculas, al ser cambiadas
llegan a ser confundidas o desconocidas.
- Hay palabras que tienen diferente significado cuando van con inicial mayúscula, como el
caso de Papa y papa.
Entre las soluciones a los problemas:
- Pre-procesamiento del corpus. Entre las etapas de digitalización del texto y de
etiquetado se tiene una etapa de preproceso.
- En el preproceso se pueden diferenciar las partes del texto que quieren hacerse
distinguir de las demás, como son los nombres propios, números, fechas, siglas,
abreviaturas, etc., mediante etiquetas especiales, las cuales podrán ser
tratadas de manera especial por los programas de conteo y lista de palabras.
- De igual forma se pueden transformar las palabras, en particular los acortamientos,
en las unidades significativas que las componen (como el caso de don't). Para ello,
hay que marcar en el texto tanto la palabra original como las transformadas, e indicar
al programa si se consideran las primeras o las segundas.
- Se puede hacer uso de expresiones regulares para realizar el preproceso de manera
automática.
- Versatilidad del programa. Cuando no se desea o no se puede cambiar el corpus
por alguna razón, así como para los casos en que se quiere diseñar una herramienta para hacer
conteos y listas de palabras de diferentes corpus, entonces se puede pensar en diseñar
un programa versatil, adaptable a diferentes circunstancias.
- Así, el programa podrá contar o no los números, y en el primer caso considerará las
cifras como una sola unidad (275,376.25); podrá conservar las mayúsculas en
nombres propios y siglas, etc.
- El programa puede ofrecer la serie de opciones que puede realizar, para que el
investigador decida las que mejor se ajustan a sus análisis.
- Se pueden utilizar expresiones regulares para que se haga una especie de preproceso
automático al corpus antes de correr el programa.
- Se puede seleccionar y correr los programas que, como subrutinas, realicen los cambios
requeridos.