Usługa konwertująca plik zawierajacy tekst (np. doc, docx, xlsx) na tekst. Wykorzystuje pakiet Apache Tika.
any2txt
Plik zawierający tekst, np. : doc, docx, xlsx, txt
Plik tekstowy w kodowaniu UTF-8. Ograniczony do 1 GB (opcja max_length w config.ini)
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn="any2txt")
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL, Contact: webserwisy(at)clarin-pl.eu