Usługa rozdziela input na zdania znakiem nowej lini, nakłada transformacje z opcji na zdania.
any2txt|tokenizer
Plik tekstowy zakodowany w UTF8.
Plik tekstowy zakodowany w UTF8 w którym każde zdanie zaczyna się od nowej lini.
tokenizer({"punctuation":"remove","listings":"remove","emails":"remove","links":"remove","mentions":"remove","case":"leave","rm_add_char":"special","mistyped_listings":"leave","letter_emoticons":"leave","repeating_punctuation":"remove"})
punctuation
może przyjmować następujące wartości (domyślna pogrubiona):listings
może przyjmować następujące wartości (domyślna pogrubiona):emails
może przyjmować następujące wartości (domyślna pogrubiona):links
może przyjmować następujące wartości (domyślna pogrubiona):mentions
może przyjmować następujące wartości (domyślna pogrubiona):case
może przyjmować następujące wartości (domyślna pogrubiona):rm_add_char
może przyjmować następujące wartości (domyślna pogrubiona):mistyped_listings
może przyjmować następujące wartości (domyślna pogrubiona):letter_emoticons
może przyjmować następujące wartości (domyślna pogrubiona):repeating_punctuation
może przyjmować następujące wartości (domyślna pogrubiona):{"punctuation":"remove","listings":"remove","emails":"remove","links":"remove","mentions":"remove","case":"leave","rm_add_char":"special","mistyped_listings":"leave","letter_emoticons":"leave","repeating_punctuation":"remove"}
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|tokenizer({"punctuation":"remove"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL