Narzędzie służące do oczyszczania plików tekstowych z fragmentów, nie będących tekstem (np. tabele, kod itp.). Najczęściej tego typu artefakty pojawają się przy konwersji PDF-ów / Docx do plików txt przy pomocy narzędzia any2txt.
any2txt|textcleaner
Plik tekstowy. Podział na zdania jest przeprowadzany automatycznie przez usługe
Przykład:
Metryka MOTA pozwala nam ocenić jak dobrze algorytm radzi sobie z wy-
krywaniem i śledzeniem obiektów. Nie bierze natomiast pod uwagę, z jaką
precyzją określana jest ich lokalizacja. Metrykę tą można opisać następują-
cym wzorem:
MOTA = 1−
∑
t(mt + fpt +mmet)∑
t gt
(1)
gdzie
• t - numer klatki
• mt - liczba obiektów niewykrytych w klatce t
• fpt - liczba obiektów fałszywie wykrytych w klatce t
• mmet - liczba obiektów w klatce t, które miały przypisany inny iden-
tyfikator w klatce t− 1
Plik tekstowy. Podział na zdania jest przeprowadzany automatycznie przez usługe
Przykład:
Metryka MOTA pozwala nam ocenić jak dobrze algorytm radzi sobie z wy-
krywaniem i śledzeniem obiektów. Nie bierze natomiast pod uwagę, z jaką
precyzją określana jest ich lokalizacja. Metrykę tą można opisać następują-
cym wzorem:
gdzie
• t - numer klatki
• mt - liczba obiektów niewykrytych w klatce t
• fpt - liczba obiektów fałszywie wykrytych w klatce t
• mmet - liczba obiektów w klatce t, które miały przypisany inny iden-
tyfikator w klatce t− 1
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|textcleaner')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL