Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Fextor to narzędzie wyznaczające wektor opisujący dany dokument na podstawie wybranych cech tekstu. Wartościami poszczególnych wymiarów wektora są częstości wystąpień wybranych cech w dokumencie.
Zliczanie form bazowych:
lemma_count
tags
, exclude_tags
Zliczanie wybranych znaków interpunkcyjnych: interp_sign
Zliczanie dedykowanych statystyk: mm_stat
. Podaje zbiorcze statystyki dla liczby tokenów w tekście, lematów (ang. base) i ich frekwencji oraz znaczników POS (ang. Parts of speech).
Schemat wyjściowy mm_stat
:
{
"tokens": {"count": count},
"lemmas": {"lemma_name": count, ...},
"tags": {"tag_name": count, ...},
}
Usługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
features
- lista cech do ekstrakcji z danych wejściowych. Możliwe wartości:
lemma_count
- wartość domyślnainterp_sign
mm_stat
tags
- lista tagów, które mają zawierać tokeny, aby zostały zliczone. Bez podania tego argumentu wszystkie tagi zostaną zliczone.exclude_tags
- lista tagów, których mają nie zawierać tokeny, aby zostały zliczone,stoplist
- ścieżka do pliku zawierającego lematy w nowych liniach, które nie mają być zliczone,startlist
- ścieżka do pliku zawierającego lematy w nowych liniach, które mają być zliczone lub do pliku w formacie JSON.terminy | lematy |
---|---|
szkoła jezior | szkoła jezioro |
szkoła literacka | szkoła literacki |
szkoła strukturalna | szkoła strukturalny |
szkoła sycylijska | szkoła sycylijski |
szkoła śląska | szkoła śląski |
szkoła ukraińska | szkoła ukraiński |
"szkoła": [
{"lemma": "szkoła", "parts": []},
{"lemma": "szkoła jezioro", "parts": ["jezioro"], "term": "szkoła_jezior"},
{"lemma": "szkoła literacki", "parts": ["literacki"], "term": "szkoła_literacka"},
{"lemma": "szkoła strukturalny", "parts": ["strukturalny"], "term": "szkoła_strukturalna"},
{"lemma": "szkoła sycylijski", "parts": ["sycylijski"], "term": "szkoła_sycylijska"},
{"lemma": "szkoła śląski", "parts": ["śląski"], "term": "szkoła_śląska"},
{"lemma": "szkoła ukraiński", "parts": ["ukraiński"], "term": "szkoła_ukraińska"}]\
Element {"lemma": "szkoła", "parts": []} nie ma klucza "term", ponieważ słowo "szkoła" nie występuje jako osobny term.
Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['fextor3']
- uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['fextor3']]
- dane wejściowe w postaci folderu skompresowanego (.zip)[{'fextor3':{'features':['lemma_count','interp_sign','mm_stat']}}]
- ekstrakcja wybranych cech[{'fextor3':{'features':['lemma_count','interp_sign'], 'startlist':'startlist'}}]
- zdefiniowanie startlisty, zliczane będą tylko lematy zawarte w startliście[{'fextor3':{'features':['lemma_count','interp_sign'],'startlist':'startlist.json'}}]
- zdefiniowanie startlisty w formacie JSON[{'fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'startlist'}}]
- zdefiniowanie stoplisty, zliczane będą tylko lematy niezawarte w stopliście[{fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'/samba/demo/startlist','tags':['subst','interp','num','conj']}]
- stoplista lematów i ograniczona startlista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['subst','interp','num','conj']}]
- stoplista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags':['ADJ','SPACE','PUNCT','NOUN']}]
- startlista tagów UD[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['ADJ','SPACE','PUNCT','NOUN']}]
- stoplista tagów UDPlik z Postaggera w formacie JSON CCL.
Plik JSON ze zliczonymi częstościami wystąpień wybranych cech.
W Colabie: Fextor - zliczanie częstości wystąpień wybranych cech w tekście
(C) CLARIN-PL