Dostępne modele:
Model fast_kgr10 to model typu fastText uczony dla języka polskiego na korpusie kgr10 czyli plWordNet Corpus 10.0 (PLWNC 10.0). Zwraca średnią z osadzeń dla pojedynczych słów. Generuje wektory osadzeń przeznaczone do badania podobieństwa semantycznego zdań. Teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie. Jest dostępny tylko dla języka polskiego.
Modele z serii multilingual-e5 to modele ogólnego zastosowania, które mogą służyć do wszelkich zadań wymagających jednowektorowej reprezentacji tekstów takich jak wyszukiwanie, grupowanie i klasyfikacja.
Szczegółowe informacje można znaleźć:
To model typu Sentence-BERT, który przyporządkowuje zdania i akapity do 512-wymiarowej przestrzeni wektorowej. Może być używany do takich zadań jak grupowanie czy wyszukiwanie semantyczne. Podobnie jak model fast_kgr10 model sbert-distiluse-base-multilingual-cased-v1 generuje wektory osadzeń przeznaczone do badania podobieństwa semantycznego zdań. I w tym przypadku teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie. Model ten działa jednak dla wielu języków, pozwalając na wykrycie podobieństwa semantycznego w tekstach w różnych językach. Znaczy to, że przykłady analizowane w ramach jednego zadania mogą pochodzić z różnych języków.
Szczegółowe informacje można znaleźć na stronie Hugging Face modelu sbert-distiluse-base-multilingual-cased-v1.
To model typu Sentence-BERT, który przyporządkowuje zdania i akapity do 768-wymiarowej przestrzeni wektorowej. Może być używany do takich zadań jak grupowanie czy wyszukiwanie semantyczne. Podobnie jak modele fast_kgr10 i sbert-distiluse-base-multilingual-cased-v1 model sbert-paraphrase-multilingual-mpnet-base-v* generuje wektory osadzeń przeznaczone do badania podobieństwa semantycznego zdań. I w tym przypadku teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie. Model ten działa jednak dla wielu języków, pozwalając na wykrycie podobieństwa semantycznego w tekstach w różnych językach. Znaczy to, że przykłady analizowane w ramach jednego zadania mogą pochodzić z różnych języków.
Szczegółowe informacje można znaleźć na stronie Hugging Face modelu sbert-paraphrase-multilingual-mpnet-base-v2.
To model typu Sentence-BERT uczony na zbiorze danych dostępnym tutaj.
Jan Kocoń, Michał Gawor, 2018, "Evaluating KGR10 Polish word embeddings in the recognition of temporal expressions using BiLSTM-CRF", Schedae Informaticae, Volume 27, 93 - 106.
(C) CLARIN-PL