Usługa służąca do usunięcia wrażliwych danych z tekstu. Dokładny sposób zmieniania wrażliwych danych jest opisany w "Wytycznych ręcznej anonymizacji".
Usługa jest dostępna dla 3 języków:
Dla języka polskiego korzysta z taggera WCRFT oraz Linera2, a dla języka angielskiego i rosyjskiego korzysta z taggera i NERA zaimplementowanego w spaCy.
any2txt|wcrft2|liner2({"model":"5nam"})|anonymizer
W przypadku języka angielskiego:
any2txt|spacy({"method":"ner","lang":"en"})|anonymizer({"lang": "en"})
W przypadku języka rosyjskiego:
any2txt|spacy({"method":"ner","lang":"ru"})|anonymizer({"lang": "ru"})
Plik o formacie CCL z NERa Liner2 lub spaCy.
Plik zanonimizowany tekstowy.
anonymizer({"method":"pseudo"})
method
może przyjmować następujące wartości (domyślna pogrubiona):from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|wcrft2|liner2({"model":"5nam"})|anonymizer({"method":"pseudo"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL