Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Sentence to usługa przetwarzająca zdania do sekwencji wektorów osadzeń lub sekwencji słów za pomocą wybranego modelu głębokiego. W zależności od wybranego modelu rezultatem przetwarzania mogą być np. wektory osadzeń lub słowa kluczowe. Uzyskane wektory osadzeń (word embeddings) mogą być później wykorzystane przez użytkownika np. do wyznaczania podobieństwa semantycznego zdań lub w innych celach zbieżnych z założonym kierunkiem badań.
Metoda
Word embedding to technika zapisywania znaczenia słów w przestrzeni w postaci znaczących semantycznie wektorów osadzeń. Wektor osadzeń to wektor liczbowy stanowiący wynik transformacji danego słowa z tekstu na wektor liczbowy i reprezentujący jego wystąpienie w określonym kontekście.
Modele
W aktualnej wersji usługi udostępniono następujące modele głębokie:
Modele 1-3 służą do wyznaczania wektorów osadzeń, natomiast 4-5 do wyznaczania słów kluczowych.
Wybór modelu spośród podanych powyżej.
Sentence można uruchomić w usłudze LPMN Client, pisząc kod w Pythonie z wykorzystaniem biblioteki lpmn_client_biz i dostępnych w niej metod oraz klas.
Uwaga!
Ponieważ Sentence przetwarza listy zdań, wykorzystuje tylko metodę run_sent
.
Model
- na przykład:
model = "sbert-klej-cdsc-r"
Tekst
Zależą od wybranego modelu. Następujące modele generują wektory osadzeń:
Natomiast poniższe - słowa kluczowe:
Aby wyznaczyć wektory osadzeń dla długich tekstów lub wprowadzić dane wejściowe w formie pliku lub katalogu, należy użyć Embeddera.
W Colabie: Sentence - wyznaczanie wektorów osadzeń dla krótkich tekstów.
(C) CLARIN-PL