Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Websty to narzędzie analizujące i wizualizujące podobieństwo dokumentów.
Usługę można uruchomić:
type
- metoda wyznaczania wektorów opisujących dokumenty:
authorship
- analiza autorstwa100base
- 100 najczęstszych lematów100orths
- klasyczna analiza autorstwa (100 najczęstszych wyrazów - form z tekstu)1000base
- klasyczne podobieństwo treści (1000 najczęstszych lematów)multilingual-e5-base
- opcja domyślnalang
- język tekstów, istotne dla metod opartych o TF-IDF
pl
- opcja domyślnachunk_size
- rozmiar (w bajtach) fragmentów, na które są dzielone pliki wejściowe
20000
- wartość domyślnametric
- metoda wyznaczania odległości w analizie podobieństwa dla grupowania i wizualizacji (UMAP):
cosine
- wartość domyślnaeuclidean
manhattan
chebyshev
minkowski
canberra
braycurtis
haversine
mahalanobis
wminkowski
seuclidean
correlation
n_neighbors
- liczba sąsiadów w metodzie UMAP
15
- wartość domyślnamin_dist
- minimalna odległość w metodzie UMAP
0.1
Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['websty']
- uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['websty']]
- dane wejściowe w postaci folderu skompresowanego (.zip)Korpus
Pliki JSON, JSONL i HTML
(C) CLARIN-PL