Ayuda SAUTEE

Pantalla: Seleccionar Documentos
  1. Pestañas para desplazarse entre las características de SAUTEE.
  2. Se debe seleccionar un proyecto. Al hacer click en él, se desplegarán los documentos en 5. En caso de no tener proyectos disponibles, se deberá crear uno en GECO
  3. Aquí se seleccionan los documentos a los cuales se les desea realizar el estudio estilométrico. Al seleccionar la casilla superior se seleccionan todos los documentos, pero también se puede seleccionar documento por documento.
  4. Para la visualización y búsqueda de los documentos existentes en el proyecto, se pueden seleccionar varios filtros, entre ellos está filtrar por id del texto, por nombre del archivo, por nombre del autor, por género del texto y por título.
  5. En esta sección se visualizan los documentos.
Pantalla: Seleccionar marcadores estilométricos
  1. Una vez elegidos los documentos, se deberán seleccionar los marcadores estilométricos con los cuales se va a realizar el análisis. Se puede seleccionar uno por uno o al seleccionar la casilla superior se seleccionan todos.
  2. Se debe elegir una lista de paro.
  3. Al pasar el cursor sobre el nombre del marcador estilométrico, aquí se mostrará una ayuda con el nombre del marcador estilométrico, el código asignado y la descripción del marcador.
Pantalla: Seleccionar método
  1. Ya que se eligieron los marcadores estilométricos que se van a calcular, se debe elegir el método mediante el cual se obtienen las distancias entre los documentos.
  2. Aquí se muestra una descripción del método elegido.
  3. Una vez elegidos los documentos, los marcadores estilométricos y el método para obtener la distancia, se hace click en botón procesar para ver los resultados.
Pantalla: Resultados
  1. En la pantalla de resultados se muestra una gráfica en la cual cada punto representa un documento. Para facilitar su visualización, se pueden agrupar y etiquetar los puntos por id del texto, por nombre del archivo, por nombre del autor, por género del texto y por título.
  2. Valores y significado de las etiquetas.
  3. En esta sección se muestra la gráfica con los resultados obtenidos.
  4. Ya con los datos calculados, se pueden obtener dos archivos CSV haciendo click en el respectivo botón. Uno representa las frecuencias de cada marcador estilométrico por documento y otro representa las distancias entre los documentos.

Documento de frecuencias

El archivo de frecuencias es un archivo separado por comas (CSV), el cual contiene una matriz en donde cada fila representa un archivo y cada columna representa un marcador estilométrico.
Los marcadores estilométricos están representados de la siguiente forma: código_características
En la siguiente tabla se puede ver cada marcador estilométrico con su código, características y un ejemplo.

Marcador estilométrico Código Características [1] [2] [3] Ejemplo
Signos de puntuación PUNCT Etiqueta EAGLES del signo de puntuación analizado. PUNCT_fat : signos de puntuación (!).
Distribución de longitud de oraciones y palabras LEX sl - sentence length o longitud de oración
wl - Word length o longitud de palabra
ttr - type token ratio es la relación entre el número de palabras diferentes y el total de palabras.
hapax - hápax legómenon es la relación entre el número de palabras que solo tienen una repetición con el total de palabras.
LEX_sl_21-30 : longitud de oración de 21 a 30 palabras.
Categoría gramatical al inicio de la oración POSBEG <s> que representa el inicio de la oración, seguido por la etiqueta EAGLES de la categoría gramatical encontrada. POSBEG_<s>::z : la oración inicia con un numeral.
Categoría gramatical al final de la oración POSEND La etiqueta EAGLES de la categoría gramatical con que inicia la oración, seguida de </s>. POSEND_p::</s> : la oración finaliza con un pronombre.
Unigramas de palabras funcionales FUNC1 Palabra funcional. FUNC1_ser : unigrama de la palabra ser.
Bigramas de palabras funcionales FUNC2 Grupo de dos palabras funcionales. FUNC2_ser::quien : bigrama de las palabras ser y quien.
Trigramas de palabras funcionales FUNC3 Grupo de tres palabras funcionales. FUNC3_ser::quien::tener : trigrama de las palabras ser, quien y tener.
Bigramas de palabras funcionales con hasta 2 huecos FUNC2G Grupo de dos palabras funcionales con hasta dos huecos entre ellas. FUNC2G_uno::<stop/>::sin : bigrama de las palabras uno y sin con un hueco entre ellas.
Trigramas de palabras funcionales con hasta 2 huecos FUNC3G Grupo de tres palabras funcionales con hasta dos huecos entre ellas. FUNC3G_para::<stop/>::<stop/>::lo::<stop/>::en : trigrama de las palabras para, lo y en con dos huecos entre para y lo y un hueco entre lo y en.
Unigramas de etiquetas POS POS1 Palabra con su etiqueta EAGLES de parte de la oración. POS1_pp3cpd00 : unigrama de pronombre personal tercera persona género común plural dativo
Bigramas de etiquetas POS POS2 Grupo de dos palabras con su etiqueta EAGLES de parte de la oración. POS2_vmis3s0::di0ms0 : bigrama de verbo principal indicativo pasado tercera persona singular sin género y determinante indefinido no posesivo masculino singular referente a tercera persona
Trigramas de etiquetas POS POS3 Grupo de tres palabras con su etiqueta EAGLES de parte de la oración. POS3_vmn0000::dp3cp0::ncmp000 : trigrama de verbo principal infinitivo, determinante posesivo tercera persona común plural y nombre común masculino plural
Unigramas de etiquetas POS no fino POSSH1 Palabra con su etiqueta EAGLES de categoría. POSSH1_n : unigrama de nombre
BIgramas de etiquetas POS no fino POSSH2 Grupo de dos palabras con su etiqueta EAGLES de categoría. POSSH2_s::p : bigrama de preposición y pronombre
Trigramas de etiquetas POS no fino POSSH3 Grupo de tres palabras con su etiqueta EAGLES de categoría. POSSH3_p::s::v : trigrama de pronombre, preposición y verbo
Bigramas de caracteres CHAR2 Grupo de dos caracteres. CHAR2_eb : bigrama de los caracteres e y b
Trigramas de caracteres CHAR3 Grupo de tres caracteres. CHAR3_leo : trigrama de los caracteres l, e y o

Los valores numéricos representan el porcentaje de frecuencia de apariciones de tokens entre el total de tokens en su categoría.

Documento de distancias

Este documento contiene una matriz simétrica que representa la distancia que existe entre cada par de textos.
Dependiendo del número de archivos seleccionados N, es el tamaño de la matriz (NxN).


[1] La documentación sobre etiquetas EAGLES se puede encontrar en: Documentación EAGLES

[2] El separador entre dos características es doble dos puntos (::)

[3] Los huecos se representan con <stop/>