Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa do automatycznej anonimizacji nieustrukturyzowanych dokumentów tekstowych usuwająca lub zamieniająca w tekście dane wrażliwe np.:
Anonimizacja polega na przekształceniu danych wrażliwych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do obiektów.
Może być przydatna w badaniach na danych wrażliwych (np. medycyna, sądownictwo).
Dokładny sposób działania jest opisany w Wytycznych ręcznej anonimizacji.
Przykładowe dane wejściowe:
Nazywam się Jan Kowalski i mieszkam w we Wrocławiu.
Tryby anonimizacji:
Nazywam się i mieszkam w .
Nazywam się [OSOBA] [OSOBA] i mieszkam w [MIEJSCE].
Nazywam się Janek Stolarczyk i mieszkam w Krakowie.
Usługa jest dostępna dla 3 języków:
Dla języka polskiego korzysta z taggera Morphodita oraz WiNER, a dla języka angielskiego i rosyjskiego z taggera i NERa zaimplementowanego w spaCy.
Anonimizer można uruchomić:
Anonimizer można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt', {'postagger':{'method':'ner'}},'anonymizer']
[['']]
- dane wejściowe w postaci folderu skompresowanego (.zip)
lang
pozwala zdefiniować język:
['any2txt',{'spacy':{'method':'ner','lang':'en'}},{'anonymizer':{'lang':'en'}}]
['any2txt',{'spacy':{'method':'ner','lang':'ru'}},{'anonymizer':{'lang':'ru'}}
method
pozwala zdefiniować sposób anonimizacji; przyjmuje następujące wartości:
{'anonymizer':{'method':'tag'}}
{'anonymizer':{'method':'pseudo'}}
Plik w formacie JSON
z NERa, lub spaCy.
Zanonimizowany plik tekstowy.
W Colabie: jest tylko ze starymi usługami w lpmn, jak będą nowe, to podmienię i wrzucę tu
lpmn - inne usługi
(C) CLARIN-PL