Freeling (v. 4.0) es una suite de herramientas para análisis del lenguaje desarrollada en la Universitat Politècnica de Catalunya. En este sitio el Grupo de Ingeniería Lingüística de la UNAM pone a disposición un API para usar dicha herramienta via web.
Ponte en contacto para problemas, dudas y comentarios
En ocasiones cuando enviamos un documento a Freeling, el programa parece no hacer nada, simplemente regresa una pagina en blanco. Es posible que el problema esté en la codificación del documento que tiene que estar forzosamente en UTF-8, en este documento encontrarás un simple truco para verificar (y en su caso convertir) que un documento tipo texto está codificado correctamente en UTF-8 y que Freeling puede procesarlo correctamente.
Endpoint: http://www.corpus.unam.mx/servicio-freeling/analyze.php
Parámetro | Valores |
---|---|
file | Archivo a procesar |
outf | Tipo de análisis a realizar
|
lang | Idioma
|
format | Formato de la respuesta
|
Los archivos deben estar en texto plano (.txt) y codificados en UTF-8
Por el momento en fránces sólo está disponible análisis de etiquetado (tagged)
curl -F file=@ruta_archivo.txt "http://www.corpus.unam.mx/servicio-freeling/analyze.php?outf=tagged&format=plain"
#-*- coding: utf-8 -*-
import requests
#Archivo a ser enviado
files = {'file': open('ruta_de_archivo.txt', 'rb')}
#Parámetros
params = {'outf': 'tagged', 'format': 'json'}
#Enviar petición
url = "http://www.corpus.unam.mx/servicio-freeling/analyze.php"
r = requests.post(url, files=files, params=params)
#Convertir de formato json
obj = r.json()
#Ejemplo, obtener todos los lemas
for sentence in obj:
for word in sentence:
print word["lemma"]