Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Embedder to usługa służąca do reprezentacji tekstów w formie numerycznej za pomocą modeli głębokich. Umożliwia to ich klasyfikację tematyczną i wizualizację podobieństwa semantycznego. Tekst wejściowy jest dzielony na fragmenty o żądanej długości (np. 300 słów), które są analizowane przez wybrany model i dla każdego z nich wyznaczane są sekwencje wielowymiarowych wektorów podobieństwa semantycznego (wektory osadzeń, ang. word embeddings) lub sekwencje słów.
Wygenerowane wektory można zwizualizować jako punkty na płaszczyźnie np. metodami typu UMAP. Pozawala to uzyskać wykres, w którym punkty reprezentują poszczególne fragmenty tekstu, a odległości między punktami ilustrują ich podobieństwo. Teksty o podobnej tematyce otrzymają wektory leżące blisko siebie, a teksty odległe semantycznie wektory odległe od siebie. Wizualizacja tekstów umożliwia szybkie zanalizowanie danych i pokazanie ich w estetyczny sposób.
Usługę stworzono na potrzeby analityki dla Politechniki Wrocławskiej, Embedder został więc przetestowany na danych dla dużej organizacji. Jest douczalny i może być dostosowany do różnego rodzaju komunikacji.
Word embedding to technika zapisywania znaczenia słów w przestrzeni w postaci znaczących semantycznie embeddingów słów czyli wektorów osadzeń. Wektor osadzeń to wektor liczbowy stanowiący wynik transformacji danego słowa z tekstu na wektor liczbowy i reprezentujący jego wystąpienie w określonym kontekście.
W aktualnej wersji usługi udostępniono następujące modele głębokie:
Semantyczne wektory osadzeń mogą być wykorzystane w procesie wyszukiwania informacji, a Embedder może być podstawą w narzędziach m. in. do:
Usługa może też znaleźć zastosowanie m. in. w badaniach wymagających analizy tekstów ograniczonych do jednego zdania np. ankiet.
Embedder można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
Embedder można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt','embedder']
.
[['any2txt','embedder']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'embedder':{'n_words':300}}]
- określona maksymalna liczba słów w segmencie podzielonego tekstu['any2txt',{'embedder':{'type':'fast_kgr10'}}]
- wybór narzędzia i domyślna liczba słów w segmencie podzielonego tekstu['any2txt',{'embedder':{'type':'sbert-distiluse-base-multilingual-cased-v1','n_words':400}}]
- wybór narzędzia i określona maksymalna liczba słów w segmencie podzielonego tekstutype
- wybór modelu:
fast_kgr10
sbert-klej-cdsc-r
- opcja domyślnasbert-distiluse-base-multilingual-cased-v1
sbert-paraphrase-multilingual-mpnet-base-v2
t5-clarin-keywords-plt5-small-shuffle
t5-voicelab-vlt5-base-keywords
n_words
- określa maksymalną liczbę słów, które może zawierać wyznaczony fragment tekstu, domyślnie: 100
. Fragmenty są dzielone po końcach zdań.Szczegółowe informacje na temat każdego z modeli znajdują się tutaj.
Plik tekstowy.
Plik tekstowy zawierający tekst podzielony na fragmenty i przypisane im wektory osadzeń.
W Colabie: Embedder - przetwarzanie tekstu do wektorów osadzeń
(C) CLARIN-PL