Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa do automatycznego wydobywania informacji o tym, jakie tematy są poruszane w tekstach. Wykorzystuje modelowanie tematyczne (LDA), które wykrywa tematy na podstawie współwystępowania słów w jednym dokumencie. Usługa przypisuje każdy dokument do kilku grup tematycznych. Wykryte tematy zwraca jako listę par: słowo i prawdopodobieństwo w postaci chmury słów. Umożliwia analizę jakościową (wykrywanie nieoczywistych tematów) i ilościową przetwarzanych tekstów.
Automatyczne przetwarzanie przez usługę składa się z następujących etapów:
- podział tekstu na fragmenty (jeśli jest długi)
- segmentacja tekstu na zdania, identyfikacja klas gramatycznych i lematyzacja dokonywane przez tager morfosyntaktyczny
- wygenerowanie tematów w formie graficznej
Uzyskane wyniki przetwarzania wymagają interpretacji badacza.
Usługa wykorzystuje modelowanie tematyczne (ang. topic modeling) czyli statystyczne metody wydobywania ukrytych tematów. Temat w ujęciu modelowania tematycznego to zbiór par: słowo i prawdopodobieństwo jego występowania.
Zastosowana metoda to ukryta alokacja Dirichleta (ang. LDA - Latent Dirichlet Allocation). LDA identyfikuje ukryte tematy, wykrywając parametry modelu (prawdopodobieństwa słów i tematów) na podstawie obserwowanych tekstów (będących w założeniu modelu efektem losowego generatora o zadanych prawdopodobieństwach). Metoda zakłada też, że każdy analizowany tekst może się składać z wielu tematów, a każdy temat jest zbiorem prawdopodobieństw występowania słów. LDA identyfikuje ukryte tematy: dany dokument jest przypisywany do kilku tematów, dlatego może być np. w 30% na temat sportu i w 70% na temat polityki. Może więc należeć do dwóch grup tematycznych jednocześnie (grupowanie rozmyte, ang. fuzzy clustering).
Usługa jest przeznaczona do pracy na dużych zbiorach danych. Przykładowe zbiory danych, które można poddać przetwarzaniu w usłudze:
- wiadomości prasowe
- wiadomości z portali internetowych
- korpusy artykułów
- korpusy książek
Usługa umożliwia dobór następujących parametrów:
- liczba tematów: należy ją ustalić indywidualnie dla każdego zadania, najlepiej w przedziale 4-100
- stoplista: umożliwia filtrację po częściach mowy i odrzucenie tych elementów, których występowanie nie jest istotne dla prowadzonych badań lub wskazanie, by przetworzona została tylko wybrana część mowy
- liczba iteracji
- usuwanie częstych lematów
Z usługi można korzystać na dwa sposoby:
- dobierając parametry przetwarzania
- wybierając terminy, z których mają zostać zbudowane tematy - usługa umożliwia dobór fraz wielowyrazowych
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['']
[['']]
- dane wejściowe w postaci folderu skompresowanego (.zip)
Tu powinna się znaleść informacja, jak uruchomić funkcje wskazane w części ##Dostępne funkcjonalności.
- tekst nie może być za krótki, ponieważ w krótkich tekstach jest mało słów, dlatego ich współwystępowanie jest ograniczone. Aby wyznaczyć prawdopodobieństwa, usługa potrzebuje dużej ilości danych, dlatego nie będzie działać poprawnie, jeśli zostanie podany zbyt krótki tekst albo zbyt mała liczba tekstów,
- nie może też być za długi, ponieważ w długich tekstach prawie każde słowo z korpusu występuje z innym. Dlatego narzędzie domyślnie dzieli długie teksty na krótsze fragmenty o długości 20 000 znaków.
Długość tekstu należy ustalić indywidualnie dla każdego zadania.
Pozyskiwane dane zawierają zanieczyszczenia specyficzne dla źródła, które mogą zniekształcić wyniki przetwarzania. Aby tego uniknąć, dane powinny zostać oczyszczone przed rozpoczęciem przetwarzania:
- dane przetwarzane przez ASR nie zawierają interpunkcji, dużych liter ani podziału dla zdania, dlatego należy je dodać np. automatycznie za pomocą Punctuatora,
- dane przetwarzane przez OCR mogą zawierać zaburzoną ciągłość tekstu, różne kroje czcionki, obrazy, wtrącenia pozajęzykowe, literówki, przeniesienia wyrazów i inne zanieczyszczenia, które powinny zostać usunięte,
- z danych pozyskanych z portali internetowych należy usunąć m. in. wtrącenia z reklam lub odsyłacze do powiązanych treści
- jeśli dane zawierają dane wrażliwe należy je usunąć np. automatycznie za pomocą Anonymizera.
- krótkich tekstów
- tekstów zanieczyszczonych
- tekstów niespójnych tematycznie np. zbiorów wiadomości z całego dnia
- rozkład prawdopodobieństwa występowania wyrazów dla każdego tematu (rozkład Dirichleta)
- rozkład prawdopodobieństwa tematów w rozpatrywanych dokumentach (rozkład Dirichleta)
Zwracana jest lista par: słowo i prawdopodobieństwo w postaci chmury słów. Wielkość czcionki wyrazów jest wprost proporcjonalna w 50% do prawdopodobieństwa i w 50% do pozycji na liście.
- metoda nie bierze pod uwagę kolejności wyrazów w dokumencie - jest to cecha zastosowanego modelu bag-of-words,
- metoda nie uwzględnia kontekstu ani słów bliskoznacznych - wyraz w metodach statystycznych jest interpretowany jako ciąg znaków, więc dwa słowa bliskoznaczne to dwa różne ciągi znaków. Nawet jeśli w ocenie badacza należą do jednego tematu, metoda tego nie wykryje, ponieważ nie posiada wiedzy zewnętrznej.
- zastosowanie modeli statystycznych pociąga za sobą pewną losowość, przez co otrzymane tematy mogą się minimalnie różnić i nie jest zachowana ich kolejność przy kolejnych uruchomieniach,
- metoda nie nadaje tematom nazw. Interpretacja wyników i nadanie im etykiety to zadania dla badacza.
W Colabie:
(C) CLARIN-PL