Patrocinador:
CONACyT

Detección y medición automática de similitud textual

Hipótesis

Es factible realizar automáticamente las tareas de búsqueda, detección y medición de similitud textual en documentos provenientes de diversos estilos, autores, dominios, temáticas y géneros. Combinando tres métodos:

  • Método de DST basado en los postulados del análisis del discurso usando la Rhetorical Structure Theory (RST).
  • Medición de la energía textual contenida en los documentos a analizar, usando el algoritmo Enertex.
  • Métodos estilométricos tales como medición y comparación estadística de marcadores estilísticos.

Objetivos

Objetivo General

Contribuir en el desarrollo de las metodologías existentes para búsqueda, detección y medición de similitud textual

Objetivos Particulares

  • Contribuir en el desarrollo de las metodologías existentes para búsqueda, detección y medición de similitud textual
  • Delimitar y formular un modelo teórico sobre la LF, la similitud textual, la detección de similitud textual, plagio y paráfrasis, la determinación y atribución de autoría, y la relación de los anteriores con el PLN.
  • Generar corpus lingüísticos informatizados en español para propósitos específicos relacionados con similitud textual.
  • Delimitar y formular un modelo teórico sobre la utilización de la estilometría comométodo para realizar DST situándolo en el marco del PLN.
  • Delimitar y formular un modelo teórico sobre la utilización de la Energía textual como método para realizar DST situándolo en el marco del PLN.
  • Profundizar y ampliar el estudio de relaciones discursivas y su uso en sistemas de DST.
  • Profundizar y ampliar el estudio de marcadores estilísticos y su uso en sistemas de DST.
  • Proponer una lista de, al menos, 20 marcadores estilísticos que presenten ventajas de precisión y representatividad del estilo de los autores.
  • Analizar y describir cada uno de los marcadores estilísticos y las relaciones discursivas existentes para identificar los que mayor ventaja presenten para su uso en DST.
  • Precisar e identificar las características de los marcadores estilísticos y de las relaciones discursivas para ponderar su utilización en sistemas de DST.
  • Crear sistemas y algoritmos computacionales que permitan el análisis automático de marcadores estilísticos y de relaciones discursivas para su posterior comparación y procesado en busca de similitud textual.
  • Diseñar un sistema de DST que utilice los tres métodos propuestos (RST y cálculo de similitud semántica, Estilometría y Energía textual) para buscar, detectar y medir similitud textual.
  • Evaluar el sistema antes descrito mediante procedimientos y métricas aceptados por la comunidad científica, con el fin de comprobar objetivamente su nivel de eficacia en la DST.
  • Estudiar diferentes casos de aplicación de la DST en sistemas de ingeniería lingüística.
  • Formar estudiantes de alto nivel, especializados en distintas tareas de PLN, para la DST y su aplicación a diversas tareas, como la LF

Patrocinios
CONACyT
Temas de investigación
  • Atribución de autoría
  • Detección de similitud textual