Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa do automatycznego wydobywania informacji o tym, jakie tematy są poruszane w tekstach. Wykorzystuje modelowanie tematyczne (LDA), które wykrywa tematy na podstawie współwystępowania słów w jednym dokumencie. Usługa przypisuje każdy dokument do kilku grup tematycznych. Wykryte tematy zwraca jako listę par: słowo i prawdopodobieństwo w postaci chmury słów. Umożliwia analizę jakościową (wykrywanie nieoczywistych tematów) i ilościową przetwarzanych tekstów.
Automatyczne przetwarzanie przez usługę składa się z następujących etapów:
Uzyskane wyniki przetwarzania wymagają interpretacji badacza.
Usługa wykorzystuje modelowanie tematyczne (topic modeling) czyli statystyczne metody wydobywania ukrytych tematów. Temat w ujęciu modelowania tematycznego to zbiór par: słowo i prawdopodobieństwo jego występowania.
Zastosowana metoda to ukryta alokacja Dirichleta (LDA - Latent Dirichlet Allocation). LDA identyfikuje ukryte tematy, wykrywając parametry modelu (prawdopodobieństwa słów i tematów) na podstawie obserwowanych tekstów (będących w założeniu modelu efektem losowego generatora o zadanych prawdopodobieństwach). Metoda zakłada też, że każdy analizowany tekst może się składać z wielu tematów, a każdy temat jest zbiorem prawdopodobieństw występowania słów. LDA identyfikuje ukryte tematy: dany dokument jest przypisywany do kilku tematów, dlatego może być np. w 30% na temat sportu i w 70% na temat polityki. Może więc należeć do dwóch grup tematycznych jednocześnie (grupowanie rozmyte, fuzzy clustering).
Usługa umożliwia dobór następujących parametrów:
Z usługi można korzystać na dwa sposoby:
Usługa jest przeznaczona do pracy na dużych zbiorach danych. Przykładowe zbiory danych, które można poddać przetwarzaniu w usłudze:
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: [['postagger', 'fextor3'] 'feature2', 'topic3': {'method': 'lda_mallet', 'no_topics': 50, 'no_passes': 500}]
[['postagger', 'fextor3'] 'feature2', 'topic3': {'method': 'lda_mallet', 'no_topics': 50, 'no_passes': 500}]
- dane wejściowe w postaci folderu skompresowanego (.zip)[[{'postagger': {'lang': 'pl'}}, {'fextor3': {'tags': ['subst'], 'stoplist': '@clarin://stoplista1'}}], {'feature2': {'filter': {'base': {'min_df': 2, 'max_df': 1, 'keep_n': 2000}}}}, {'topic3': {'method': 'lda_mallet', 'no_topics': 50, 'no_passes': 500}}]
- zapytanie z filtrowaniem częsci mowy do rzeczowników (subst), stoplistą stoplista1
no_topics
- liczba tematów, które mają zostać zwrócone (wartość domyślna: 20
)no_passes
- liczba iteracji algorytmu (wartość domyślna: 100
). Wartość zostanie dostosowana do zakresu (0, 2000>.method
- metoda grupowania:
artm_bigartm
- wartość domyślnalda_mallet
guided_lda
seed_topics_path
- ścieżka do pliku zawierającego seed_topics, wartość domyślna: /samba/seed_topics.json
. Ten parametr jest używany tylko w metodzie guided_lda
.{"topics":[["game", "team", "win", "player", "season", "second", "victory"],["percent", "company", "market", "price", "sell", "business", "stock", "share"],["music", "write", "art", "book", "world", "film"],["political", "government", "leader", "official", "state", "country", "american","case", "law", "police", "charge", "officer", "kill", "arrest", "lawyer"]]}
topic_scaling
- metoda skalowania wielowymiarowego wykorzystywana przy tworzeniu topic_vis.html:
pcoa
- wartość domyślnammds
tsne
alpha
- współczynnik regulacyjny dot. rozkładu tematów w dokumentach, wartość domyślna: 0.1
. Więcej informacji tutaj: Smooth/Sparse Theta, tau.beta
- współczynnik regulacyjny dot. rozkładu słów w tematach, wartość domyślna: 0.01
. Więcej informacji tutaj: Smooth/Sparse Phi, tau.model
- ścieżka do wytrenowanego modelu np. /request/serwis/resultID
. Jeżeli ścieżka będzie wskazywać na wywołanie, które nie było wywołaniem trenującym (tzn. zdefiniowano parametr model
), zostanie użyty ten sam model z zapytania, na które wskazuje ścieżka.Długość tekstu należy ustalić indywidualnie dla każdego zadania.
Pozyskiwane dane zawierają zanieczyszczenia specyficzne dla źródła, które mogą zniekształcić wyniki przetwarzania. Aby tego uniknąć, dane powinny zostać oczyszczone przed rozpoczęciem przetwarzania:
Zwracana jest lista par: słowo i prawdopodobieństwo w postaci chmury słów. Wielkość czcionki wyrazów jest wprost proporcjonalna w 50% do prawdopodobieństwa i w 50% do pozycji na liście.
(C) CLARIN-PL