Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
LEM (Literary Exploratory Machine) to usługa wydobywająca dane statystyczne z tekstów literackich w języku polskim. Pozwala na przetwarzanie dużych plików tekstowych.
Usługa wywołuje wybrane zadania usług udostępnianych przez CLARIN-PL i zapisuje dane wyjściowe w pliku Excel.
Wyznaczanie części mowy
[["any2txt","postagger"],{"statconverter":{"mode":"pos_determ"}}]
Charakterystyki czasownikowe wypowiedzi
[["any2txt",{"postagger":{"output":"ccl"}},"verbs"],{"statconverter":{"mode":"verbs_charact"}}]
Statystyki słów i części mowy
[["any2txt","postagger",{"fextor3":{"features":"mm_stat"}}],{"statconverter":{"mode":"w_pos_stats"}}]
Statystyki zdań i tokenów
[["any2txt","postagger"],{"statconverter":{"mode":"sent_token_stats"}}]
Wyznaczanie jednostek identyfikacyjnych
[["any2txt","keytool"],{"statconverter":{"mode":"ne_determ"}}]
Statystyki jednostek identyfikacyjnych
[["any2txt",{"postagger":{"method":"ner"}}],{"statconverter":{"mode":"ne_stats"}}]
Relacje między jednostkami identyfikacyjnymi
zadanie z użyciem NER-a w Postaggerze
zapytanie [["any2txt",{"postagger":{"method":"ner"}}],{"statconverter":{"mode": "ent_relations"}}]
opcje formularza:
limit
- maksymalna liczba jednostek identyfikacyjnych: domyślnie 2000
,window
- zakres relacji w zdaniach: domyślnie 5
,ann_type_options
- typ jednostki identyfikacyjnej:
nam_liv
- osobanam_loc
- miejscenam_org
- organizacjawyznaczanie relacji miedzy jednostkami identyfikacyjnymi. Format wyjściowy plik GEXF (Gephi).
Lematyzator
[["any2txt",{"postagger":{"output":"lemmas"}}]]
Konwersja do tekstu
[["any2txt"]]
Wyznaczenie emocji i wydźwięku w tekście
[["any2txt",{"emotagger":{"mode":"sentence"}}],{"statconverter":{"mode":"emotagger"}}]
Usługę można uruchomić:
W Colabie: LEM - Literacki Eksplorator Maszynowy
Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak (2017) Literary Exploration Machine A Web-Based Application for Textual Scholars, Selected papers from the CLARIN Annual Conference 2017. Linköping Electronic Conference Proceedings 147, Budapest, 128-144.
(C) CLARIN-PL