Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Websty to narzędzie analizujące i wizualizujące podobieństwo dokumentów.
Usługę można uruchomić:
type - metoda wyznaczania wektorów opisujących dokumenty:
authorship - analiza autorstwa100base - 100 najczęstszych lematów100orths - klasyczna analiza autorstwa (100 najczęstszych wyrazów - form z tekstu)1000base - klasyczne podobieństwo treści (1000 najczęstszych lematów)multilingual-e5-base - opcja domyślnalang - język tekstów, istotne dla metod opartych o TF-IDF
pl - opcja domyślnachunk_size - rozmiar (w bajtach) fragmentów, na które są dzielone pliki wejściowe
20000 - wartość domyślnametric - metoda wyznaczania odległości w analizie podobieństwa dla grupowania i wizualizacji (UMAP):
cosine - wartość domyślnaeuclideanmanhattanchebyshevminkowskicanberrabraycurtishaversinemahalanobiswminkowskiseuclideancorrelationn_neighbors - liczba sąsiadów w metodzie UMAP
15 - wartość domyślnamin_dist - minimalna odległość w metodzie UMAP
0.1Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['websty'] - uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['websty']] - dane wejściowe w postaci folderu skompresowanego (.zip)Korpus
Pliki JSON, JSONL i HTML
(C) CLARIN-PL