Dostępne modele:
fast_kgr10
sbert-distiluse-base-multilingual-cased-v1
i sbert-paraphrase-multilingual-mpnet-base-v2
Model fast_kgr10 to model typu fastText uczony dla języka polskiego na korpusie kgr10 czyli plWordNet Corpus 10.0 (PLWNC 10.0).
Zwraca średnią z osadzeń dla pojedynczych słów. Generuje wektory osadzeń przeznaczone do badania podobieństwa semantycznego zdań. Teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie. Jest dostępny tylko dla języka polskiego.
Podobnie jak model fast_kgr10 modele sbert-distiluse-base-multilingual-cased-v1 i sbert-paraphrase-multilingual-mpnet-base-v2 generują wektory osadzeń przeznaczone do badania podobieństwa semantycznego zdań. I w tym przypadku teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie.
Modele te działają jednak dla wielu języków, pozwalając na wykrycie podobieństwa semantycznego w tekstach w różnych językach. Znaczy to, że przykłady analizowane przez modele w ramach jednego zadania mogą pochodzić z różnych języków.
"Evaluating KGR10 Polish word embeddings in the recognition of temporal expressions using BiLSTM-CRF", Jan Kocoń, Michał Gawor
(C) CLARIN-PL