Dostępne modele:
Model bert-unhealthy-conv
to zaawansowane narzędzie analizy tekstu służące do oceny poziomu mowy nienawiści w komentarzach na platformach społecznościowych, które może być użyte do monitorowania i moderacji treści online. Model jest oparty na architekturze DistilBert. Działa wyłącznie na tekście w języku angielskim.
Definicja mowy nienawiści, na której opiera się model, uwzględnia zarówno prawną definicję zbrodni z nienawiści w Stanach Zjednoczonych, jak i podejście intersekcjonalne. Znaczy to, model nie tylko identyfikuje mowę nienawiści skierowaną przeciwko pojedynczym grupom na podstawie rasy, religii, płci itd., ale również uwzględnia złożoność wynikającą z przynależności do wielu różnych grup jednocześnie. Na przykład, mowa nienawiści może być skierowana przeciwko osobie, która jest zarówno kobietą, jak i należy do mniejszości etnicznej.
Źródło
Zbiór danych, na którym opiera się usługa, pochodzi z publicznej wersji opisanej w pracach Kennedy et al. (2020) oraz Sachdeva et al. (2022). Zawiera on 39 565 komentarzy, które zostały opisane przez 7 912 anotatorów, co w sumie daje 135 556 połączonych wierszy. Komentarze pochodzą z seriwsów YouTube, Reddit i Twitter.
Zawartość
Główną zmienną wynikową jest "hate speech score" (wskaźnik mowy nienawiści), ale zbiór danych zawiera również 10 składowych etykiet porządkowych (sentiment, szacunek/brak szacunku, obelga, upokorzenie, niższy status, przemoc, dehumanizacja, ludobójstwo, atak/obrona, benchmark mowy nienawiści). Zbiór obejmuje 8 grup tożsamości (rasa/etniczność, religia, pochodzenie narodowe/obywatelstwo, płeć, orientacja seksualna, wiek, niepełnosprawność, ideologia polityczna) oraz 42 podgrupy tożsamości.
Proces anotacji
Wskaźnik mowy nienawiści jest dostosowany przez IRT (Item Response Theory), szacując różnice w interpretacji wytycznych etykietowania przez anotatorów.
Wskaźnik Mowy Nienawiści (hate_speech_score)
Wskaźnik ten jest miarą mowy nienawiści, gdzie wyższe wartości oznaczają bardziej nienawistne wypowiedzi, a niższe mniej nienawistne. Wartości powyżej 0,5 są generalnie uznawane za mowę nienawiści, wartości poniżej -1 są uznawane za mowę wspierającą lub przeciwdziałającą mowie nienawiści, a wartości od -1 do +0,5 są neutralne lub niejednoznaczne.
Model służy do kontekstowego wiązania wzmianek występujących w tekście z siecią semantyczną. Proces wiązania zakłada, że wzmianki zostały wstępnie wyznaczone przez użytkownika lub inną usługę (np. NER, EasyMatcher, WSD). Proces wiązania w usłudze ClaLink polega na kontekstowym ujednoznacznieniu wzmianki na podstawie wektorowego podobieństwa reprezentacji kontekstu wystąpienia wzmianki oraz reprezentacji pojęć zawartych w sieci semantycznej.
Usługa oparta jest na wykorzystaniu głębokich modeli językowych w konfiguracji bi-enkodera. W tworzeniu usługi wykorzystano techniki znane w dziedzinie wydobywania informacji (ang. information retrieval) takie jak uczenie kontrastowe oraz próbkowanie negatywne trudnych przykładów (ang. negative sampling).
Model enkodera encji (pojęcia z sieci semantycznej) uczono w następujący sposób:
W uczeniu modelu wykorzystano dostępne modele wielojęzyczne. Trening przeprowadzono na danych dwujęzycznych (polsko-angielski zbiór uczący). Z tego względu model może być wykorzystywany do wiązania wzmianek w różnych językach.
Do stworzenia usługi wykorzystano dostępne dane dla języka angielskiego (Wikidata oraz zbiory do zadania Entity Linking) jak również autorskie zbiory powstałe w projekcie CLARIN-Biz oraz otwarte zbiory opracowane na podstawie Wikipedii.
Usługa przyjmuje na wejściu tekst z zaznaczeniem wzmianki. Granice wzmianki należy oznaczyć znacznikami [unused0]
i [unused1]
.
"Europejscy astronomowie odkryli planetę pozasłoneczną pochodzącą spoza naszej galaktyki, czyli [unused0] Drogi Mlecznej [unused1]. Obserwacji dokonali 2,2-metrowym teleskopem MPG/ESO."
('Q321', ['Droga Mleczna', 'Droga Mleczna – galaktyka spiralna z poprzeczką, ...']): -18.93057632446289
('Q6631694', ['Lista gromad otwartych Drogi Mlecznej', 'Obecnie znamy około 2500 gromad otwartych w Drodze Mlecznej ...']): -29.736690521240234
('Q18424563', ['Podgrupa Drogi Mlecznej', 'Podgrupa Drogi Mlecznej – jedna z czterech podgrup galaktyk ...']): -29.90395736694336
Dla zadanej wzmianki usługa powinna zwrócić najbardziej relewantnych pojęć z sieci semantycznej, które odpowiadają tej wzmiance. Pierwsze w kolejności pojęcie jest najbardziej relewantnym hasłem w odniesieniu do wzmianki w kontekście (według oceny metody). Hiperparametr można ustawić wedle potrzeb użytkownika.
Domyślne działanie zakłada wiązanie z pojęciami zawartymi w sieci semantycznej Wikidata
. Docelowo zakłada się wprowadzenie sieci VeSNet jako bazowej sieci semantycznej (zawiera Wikidata).
[unused0] Novak Djokovic [unused1] thinks he’s landed one on to the line but it’s called out and shown to be out on challenge. Next point, he chases down a drop and curves a forehand winner.
('Q5812', ['Novak Đoković', 'Novak Đoković – serbski tenisista, dawniej reprezentant Serbii i Czarnogóry ...']): -6.546222686767578
('Q21153573', ['Domen Novak', 'Domen Novak – słoweński kolarz szosowy, zawodnik profesjonalnej ...']): -10.0224609375
('Q16236404', ['Jovan Novak', 'Jovan Novak – serbski koszykarz, występujący na pozycjach rozgrywającego ...']): -11.013639450073242
Dzięki wykorzystaniu metody opartej na znacznikach narzędzie cechuje się pewnym poziomem elastyczności. Użytkownik może podjąć próbę wiązania własnych fraz, które wyznaczył własną metodą (patrz NER, EasyMatcher). Należy jednak pamiętać, że narzędzie uczono głównie na pojedynczych słowach oraz krótkich 3-4 wyrazowych frazach. Struktura opisu pojęć w sieci semantycznej Wikidata jest górnym ograniczeniem dla skuteczności działania metody.
Model Senselink wiąże wybrane frazy zawarte w tekście źródłowym z odpowiadającymi im pojęciami w ustalonej sieci semantycznej. Wykorzystuje dwujęzyczny wordnet polsko-angielski Słowosieć, w którym zawarte są pojęcia (jednostki leksykalne) wraz z ich opisem definicyjnym. Senselink jest również częścią narzędzia Postagger, w którym użytkownik może automatycznie ujednoznacznić wszystkie słowa klasy otwartej (rzeczownik, przymiotnik, czasownik, przysłówek).
Senselink wykorzystuje głębokie modele językowe w architekturze bi-enkodera do przeprowadzenia dopasowania wybranych fraz z tekstu do pojęć zawartych w sieci semantycznej. Do przygotowania rozwiązania wykorzystano trening iteracyjny z próbkowaniem przykładów o wysokiej trudności (hard-negative sampling) za pomocą szybkich indeksów wyszukiwania przybliżonego (approximate neighbor search).
Model t5-clarin-keywords-plt5-small-shuffle
generuje słowa kluczowe na podstawie tekstu wejściowego. t5-clarin-keywords-plt5-small-shuffle to model generatywny trenowany na zbiorze 93 143 abstraktów artykułów naukowych w języku polskim zawartych w korpusie POSMAC (Polish Open Science Metadata Corpus) zebranym przez inicjatywę CURLICAT. Został nauczony z dodatkową augmentacją danych, co pozwala na otrzymywanie lepszych słów kluczowych.
Model t5-voicelab-vlt5-base-keywords
generuje słowa kluczowe na podstawie tekstu wejściowego. t5-voicelab-vlt5-base-keywords to model generatywny trenowany na zbiorze 216 214 abstraktów artykułów naukowych pochodzących z tego samego korpusu POSMAC. Generuje adekwatne, choć nie zawsze wszystkie możliwe do wydobycia słowa kluczowe.
Szczegółowe informacje można znaleźć na stronie Hugging Face modelu t5-voicelab-vlt5-base-keywords.
Model t5-plt5-large-poquad-dst-v2
służy do śledzenia stanu dialogu poprzez rozpoznawanie wartości wskazanego atrybutu (ang. slot-value tracking). Model był wstępnie uczony na danych do QA ze zbioru BEIR-PL a następnie dotrenowany na maszynowo tłumaczonych danych ze zbioru Schema-Guided Dialogue oraz danych wygenerowanych przez duży model językowy LLM. Wspiera tylko język polski.
[U] Wypowiedź użytkownika [S] Wypowiedź agenta [U] ... [U] Najnowsza wypowiedź użytkownika. [Dziedzina] Nazwa: opis dziedziny [Atrybut] Nazwa: opis atrybutu
gdzie:
[U]
to Użytkownik,[S]
to SystemNa przykład dla danych wejściowych:
[U] Chciałbym zarezerwować stolik na godzinę 17:30 dla 3 osób w restauracji X. [Dziedzina] Restauracje: serwis rezerwacji stolików [Atrybut] Godzina: czas rezerwacji stolika
oczekiwanym rezultatem jest 17:30
.
Narzędzie można wykorzystywać również jako ogólny system wydobywania informacji. Należy wówczas wyspecyfikować opis poszukiwanego atrybutu w ramach pola [Atrybut]
. Opis ten ma swobodny charakter - można go wyrazić w języku naturalnym.
[U] Szukam wycieczki do Grecji lub Portugalii. Moim marzeniem jest zobaczyć wspaniałe klify i potężne piaszczyste plaże. Preferuję hotele czterogwiazdkowe. [Dziedzina] Wycieczki [Atrybut] Lokalizacja
Prompt atrybutu | Wynik |
---|---|
[Atrybut] Lokalizacja |
Grecja | Portugalia |
[Atrybut] Standard hotelu |
czterogwiazdkowy |
[Atrybut] |
klify | piaszczyste plaże |
(C) CLARIN-PL