Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa pozwala na wyznaczenie wydźwięku emocjonalnego tekstów w różnych językach według czterech kategorii: negatywny, pozytywny, meta_zero, niejednoznaczny. Każdej z nich przypisywana jest wartość liczbowa odpowiadająca poziomowi wydźwięku. Najwyższa wartość określa wydźwięk emocjonalny danego tekstu.
Usługa umożliwia analizę tekstu w 109 językach, w tym 25 szczególnie wspieranych. Lista szczególnie wspieranych języków znajduje się tutaj.
Usługa wykorzystuje wzorcowy zbiór danych MultiEmo dla wielojęzycznej analizy sentymentu obejmujący 11 języków, który zawiera recenzje konsumentów z czterech dziedzin: medycyna, hotele, produkty i uniwersytet. Oryginalne recenzje w języku polskim zawierały 8 216 dokumentów składających się z 57 466 zdań. Recenzje zostały poddane ręcznej anotacji sentymentu na poziomie całego dokumentu oraz na poziomie zdania (3 anotatorów na element). Osiągnęliśmy wysoką wartość Positive Specific Agreement na poziomie 0.91 dla tekstów i 0.88 dla zdań. Zbiór został następnie automatycznie przetłumaczony na języki: angielski, chiński, włoski, japoński, rosyjski, niemiecki, hiszpański, francuski, holenderski i portugalski. Jest publicznie dostępny na licencji Creative Commons Attribution 4.0 International i można go pobrać tutaj.
MultiEmo można uruchomić:
MultiEmo można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN: ['any2txt','multiemo']
.
[['any2txt','multiemo']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'multiemo':{'lang':'en'}}]
- dane wejściowe w języku angielskim['any2txt',{'multiemo':{'type':'paragraph'}}]
- segmentacja tekstu po akapitach['any2txt',{'multiemo':{'lang':'en','type':'sentence'}}]
- dane wejściowe w języku angielskim, segmentacja tekstu po zdaniachtype
: wybór poziomu analizy
text
- przetwarzany jest cały dokument, opcja domyślnaparagraph
- przetwarzane są akapitysentence
- przetwarzane są zdanialanguage
- wybór języka:
auto
- opcja domyślna, umożliwia automatyczną detekcję języka,ca
, cs
, de
, el
, en
, es
, fi
, fr
, ga
, hu
, is
, it
, lt
, lv
, nl
, pl
, pt
, ro
, ru
, sk
, sl
, sv
, ta
, yue
, zh
.Plik tekstowy.
Plik w formacie JSON zawierający następujące informacje:
labels
- kategorie identyfikujące wydźwięk emocjonalny tekstu:
meta_minus_m
- negatywnymeta_plus_m
- pozytywnymeta_zero
- neutralnymeta_amb
- niejednoznacznydecision
- kategoria, której została przypisana najwyższa wartośćlang
- język przetwarzanego tekstusource
- treść segmentu wskazanego do analizy w opcji type
W Colabie: Multiemo - wyznaczanie wydźwięku emocjonalnego tekstów w różnych językach
Piotr Miłkowski, Marcin Gruza, Przemysław Kazienko, Joanna Szołomicka, Stanisław Woźniak, Jan Kocoń (2022) "MultiEmo: Language-Agnostic Sentiment Analysis", Computational Science – ICCS 2022. ICCS 2022. Lecture Notes in Computer Science, vol 13351, Springer, 72–79.
(C) CLARIN-PL