Symspell to usługa pozwalająca naprawiać błędy białych znaków, powstających podczas używania narzędzi OCR. Do tego celu użyte jest narzędzie symspell https://github.com/wolfgarbe/SymSpell. Słownik częstoliwości, stanowiący bazę przetwarzania został wygenerowany ze zbioru KGR10.
LPMN: any2txt|symspell
Wejście:
do ubieganiasię o przywódz-
twowPlatformie Obywatel-
skiej. GrzegorzSchetyna
oświadczył, że nie będzie się
ubiegało reelekcję i zareko-
mendowałna tostanowisko
TomaszaSiemoniaka.
Wyjście:
do ubiegania się o przywództwo w Platformie
Obywatelskiej.
Grzegorz Schetyna
oświadczył, że nie będzie się
ubiegało reelekcję i zarekomendował na
to stanowisko
Tomasza Siemoniaka.
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|symspell')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL