Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa pozwala na wyznaczenie emocji oraz wydźwięku w tekście w języku polskim. Analiza może być przeprowadzona na poziomie całego tekstu, wybranych akapitów lub pojedynczych zdań. Pozwala na przetwarzanie tekstów, pojedynczych plików tekstowych oraz korpusów.
Uwzględnia osiem kategorii emocji z modelu Plutchika (radość, zaufanie, ciekawość, zaskoczenie, strach, smutek, wstręt i złość) oraz trzy kategorie wydźwięku: pozytywny, negatywny, neutralny. Wynikiem usługi jest stopień pewności modelu dla każdej kategorii będący wartością z przedziału od 0 do 1. Stopień pewności bliższy wartości 1 oznacza, że dana emocja jest wyrażona w analizowanym fragmencie tekstu.
Model oceniający jest oparty na architekturze Transformer (XLM-RoBERTa-Large) i został wytrenowany na zbiorze CLARIN-Emo. Jakość modelu (miara F1-micro po wszystkich kategoriach) wynosi 0.84. Dokładne wyniki jakościowe przedstawione są w tabeli 3 artykułu opisującego CLARIN-Emo.
Emotagger można uruchomić:
Emotagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN: ['emotagger']
.
['any2txt', 'emotagger']
- dane wejściowe w postaci pliku tekstowego (.txt)['any2txt', {'emotagger': {'mode': 'sentence'}}]
- segmentacja tekstu po zdaniachmode
: wybór poziomu analizy
text
- przetwarzany jest cały dokument, jeżeli ma on max. ~200 słów, w innym przypadku jest segmentowany semantycznie na możliwie najdłuższe kawałki, opcja domyślnaparagraph
- przetwarzane są akapitysentence
- przetwarzane są zdaniaTekst, zapisany w katalogu .zip plik tekstowy lub korpus tekstów.
Dla przetwarzania tekstu:
text
- wycinek tekstu wejściowego po segmentacjijoy
- radośćtrust
- zaufanieanticipation
- przeczuwaniesurprise
- zdziwieniefear
- strachsadness
- smutekdisgust
- wstrętanger
- gniewpositive
- pozytywnynegative
- negatywnyneutral
- neutralnyDla przetwarzania plików lub korpusów wynik analizy jest zapisywany do pliku Excel zawierającego następujące kolumny:
filename
chunk id
- numer fragmentu tekstutext
- wycinek tekstu wejściowego po segmentacjiW Colabie: Emotagger - wyznaczanie emocji i wydźwięku w tekście
Skrypt z przykładowym zapytaniem do usługi działającej lokalnie: https://gitlab.clarin-pl.eu/nlpworkers/emotagger/-/blob/master/test.py?ref_type=heads
Bartłomiej Koptyra, Anh Ngo, Łukasz Radliński, Jan Kocoń (2023) "CLARIN-Emo: Training Emotion Recognition Models Using Human Annotation and ChatGPT", Computational Science – ICCS 2023. ICCS 2023. Lecture Notes in Computer Science, vol 14073, Springer, Cham, 365-379.
(C) CLARIN-PL