Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa pozwala na wyznaczenie emocji oraz wydźwięku w tekście w języku polskim. Analiza może być przeprowadzona na poziomie całego tekstu, wybranych akapitów lub pojedynczych zdań. Pozwala na przetwarzanie tekstów, pojedynczych plików tekstowych oraz korpusów.
Uwzględnia osiem kategorii emocji z modelu Plutchika (radość, zaufanie, ciekawość, zaskoczenie, strach, smutek, wstręt i złość) oraz trzy kategorie wydźwięku: pozytywny, negatywny, neutralny. Wynikiem usługi jest stopień pewności modelu dla każdej kategorii będący wartością z przedziału od 0 do 1. Stopień pewności bliższy wartości 1 oznacza, że dana emocja jest wyrażona w analizowanym fragmencie tekstu.
Model oceniający jest oparty na architekturze Transformer (XLM-RoBERTa-Large) i został wytrenowany na zbiorze CLARIN-Emo. Jakość modelu (miara F1-micro po wszystkich kategoriach) wynosi 0.84. Dokładne wyniki jakościowe przedstawione są w tabeli 3 artykułu opisującego CLARIN-Emo.
Emotagger można uruchomić:
Emotagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN: ['emotagger'].
['any2txt', 'emotagger'] - dane wejściowe w postaci pliku tekstowego (.txt)['any2txt', {'emotagger': {'mode': 'sentence'}}] - segmentacja tekstu po zdaniachmode: wybór poziomu analizy
text - przetwarzany jest cały dokument, jeżeli ma on max. ~200 słów, w innym przypadku jest segmentowany semantycznie na możliwie najdłuższe kawałki, opcja domyślnaparagraph - przetwarzane są akapitysentence - przetwarzane są zdaniaTekst, zapisany w katalogu .zip plik tekstowy lub korpus tekstów.
Dla przetwarzania tekstu:
text - wycinek tekstu wejściowego po segmentacjijoy - radośćtrust - zaufanieanticipation - przeczuwaniesurprise - zdziwieniefear - strachsadness - smutekdisgust - wstrętanger - gniewpositive - pozytywnynegative - negatywnyneutral - neutralnyDla przetwarzania plików lub korpusów wynik analizy jest zapisywany do pliku Excel zawierającego następujące kolumny:
filenamechunk id - numer fragmentu tekstutext - wycinek tekstu wejściowego po segmentacjiW Colabie: Emotagger - wyznaczanie emocji i wydźwięku w tekście.
Skrypt z przykładowym zapytaniem do usługi działającej lokalnie: https://gitlab.clarin-pl.eu/nlpworkers/emotagger/-/blob/master/test.py?ref_type=heads.
Bartłomiej Koptyra, Anh Ngo, Łukasz Radliński, Jan Kocoń (2023) "CLARIN-Emo: Training Emotion Recognition Models Using Human Annotation and ChatGPT", Computational Science – ICCS 2023. ICCS 2023. Lecture Notes in Computer Science, vol 14073, Springer, Cham, 365-379.
(C) CLARIN-PL