Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Wbesty to narzędzie analizujące i wizualizujące podbieństwo dokumentów.
Usługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
type
- metoda wyznaczania wektorów opisujących dokumenty:
authorship
- analiza autorstwa100base
- 100 najczęstszych lematów100orths
- klasyczna analiza autorstwa (100 najczęstszych wyrazów - form z tekstu)1000base
- klasyczne podobieństwo treści (1000 najczęstszych lematów)multilingual-e5-base
- opcja domyślnalang
- język tekstów, istotne dla metod opartych o TF-IDF
pl
- opcja domyślnachunk_size
- rozmiar (w bajtach) fragmentów, na które są dzielnone pliki wejściowe
20000
- wartośc domyślnametric
- metoda wyznaczania odległości w analizie podbieństwa dla grupowania i wizualizaji (UMAP):
cosine
- wartość domyślnaeuclidean
manhattan
chebyshev
minkowski
canberra
braycurtis
haversine
mahalanobis
wminkowski
seuclidean
correlation
n_neighbors
- liczba sąsiadów w metodzie UMAP
15
- wartośc domyślnamin_dist
- minimalna odległość w metodzie UMAP
0.1
Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['websty']
- uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['websty']]
- dane wejściowe w postaci folderu skompresowanego (.zip)Korpus
Pliki JSON, JSONL i HTML
(C) CLARIN-PL