Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa do automatycznej anonimizacji nieustrukturyzowanych dokumentów tekstowych usuwająca lub zamieniająca w tekście dane wrażliwe np.:
Jest dostępna dla języka polskiego.
Anonimizacja polega na przekształceniu danych wrażliwych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do obiektów.
Usługa wykorzystuje WiNERa czyli narzędzie NER (Named Entity Recognition) służące do rozpoznawania jednostek nazwanych.
Dodatkowe informacje są dostępne w Wytycznych ręcznej anonimizacji. Wytyczne opisują, w jaki sposób powinien działać Anonymizer i skupiają się na pseudonimizacji.
Dane wrażliwe zostaną domyślnie zastąpione następującymi tagami:
[OSOBA]
- imię, nazwisko, pseudonim składający się z imienia i nazwiska; dotyczy też postaci fikcyjnych[MIEJSCE]
- dane adresowe, ulica, droga, autostrada, miasto, państwo, inna nazwa miejscowa[ORGANIZACJA]
- organizacja (np. instytucja, stowarzyszenie, komisja, sojusz polityczny)[NAZWA WŁASNA]
- inna nazwa własna[TYTUŁ]
- tytuł dzieła (np. filmu, książki)[CYFRY]
- rok, numer telefonu, numer TIN, numer KRS, inny ciąg cyfr[NAZWA WODNA]
- nazwa zbiorników wodnych (np. rzeki, jeziora)[WWW]
- adres strony internetowej@[USER]
- nazwa użytkownika[MAIL]
- adres email[DATA]
- pełna data[NUMER IDENTYFIKACYJNY]
- np. numer seryjnyLista tagów powstała na bazie anotacji do NERa w KPWr.
Przykładowe dane wejściowe:
Nazywam się Jan Kowalski i mieszkam w we Wrocławiu.
Tryby anonimizacji:
Nazywam się i mieszkam w .
Nazywam się [OSOBA] [OSOBA] i mieszkam w [MIEJSCE].
Nazywam się Janek Stolarczyk i mieszkam w Krakowie.
Usługa może być przydatna w badaniach prowadzonych na danych wrażliwych, np. w medycynie czy sądownictwie, wymagających zachowania anonimowości osób, których dotyczą wykorzystane dane.
Anonymizer można uruchomić:
Anonymizer można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt',{'postagger':{'method':'ner'}},'anonymizer']
.
[['any2txt',{'postagger':{'method':'ner'}},'anonymizer']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'postagger':{'method':'ner'}},{'anonymizer':{'method':'tag'}}]
- dane wrażliwe zmienione na tagi odpowiadające kategoriom danych['any2txt',{'postagger':{'method':'ner'}},{'anonymizer':{'method':'pseudo'}}]
- dane wrażliwe zastąpione innymi losowo wybranymi słowami z odpowiedniej kategoriimethod
- pozwala zdefiniować sposób anonimizacji:
tag
- zmienia wrażliwe dane na tagi odpowiadające kategoriom danych, opcja domyślnadelete
- usuwa wszelkie słowa, które mogą być danymi wrażliwymi,pseudo
- zastępuje wrażliwe dane innymi losowo wybranymi słowami z odpowiedniej kategoriiTekst, plik tekstowy lub katalog plików .zip.
Zanonimizowany tekst, plik tekstowy lub katalog plików .zip.
W Colabie: Anonymizer - usuwanie wrażliwych danych z tekstu
(C) CLARIN-PL