Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Fextor3 to narzędzie wyznaczające wektor opisujący dany dokument na podstawie wybranych cech tekstu. Wartościami poszczególnych wymiarów wektora są częstości wystąpień wybranych cech w dokumencie.
Zliczanie form bazowych:
lemma_count
tags
, exclude_tags
Zliczanie wybranych znaków interpunkcyjnych: interp_sign
Zliczanie dedykowanych statystyk: mm_stat
. Podaje zbiorcze statystyki dla liczby tokenów w tekście, lematów (ang. base) i ich frekwencji oraz znaczników POS (ang. Parts of speech).
Schemat wyjściowy mm_stat
:
{
"tokens": {"count": count},
"lemmas": {"lemma_name": count, ...},
"tags": {"tag_name": count, ...},
}
Usługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
features
: lista cech do ekstrakcji z danych wejściowych (domyślnie: lemma_count
, wartości: lemma_count
, interp_sign
, mm_stat
)
tags
: lista tagów, które mają zawierać tokeny, aby zostały zliczone; bez podania tego argumentu wszystkie tagi są zliczane
exclude_tags
: lista tagów, których mają nie zawierać tokeny, aby zostały zliczone
stoplist
: ścieżka do pliku zawierającego lematy w nowych liniach, które nie mają być zliczone
startlist
: ścieżka do pliku zawierającego lematy w nowych liniach, które mają być zliczone lub do pliku w formacie JSON.
Plik JSON może zawierać informacje o lematach, częściach wielowyrazowców oraz końcowych termach.
Przykład dla wycinka ze słownika:
terminy | lematy |
---|---|
szkoła jezior | szkoła jezioro |
szkoła literacka | szkoła literacki |
szkoła strukturalna | szkoła strukturalny |
szkoła sycylijska | szkoła sycylijski |
szkoła śląska | szkoła śląski |
szkoła ukraińska | szkoła ukraiński |
"szkoła": [
{"lemma": "szkoła", "parts": []},
{"lemma": "szkoła jezioro", "parts": ["jezioro"], "term": "szkoła_jezior"},
{"lemma": "szkoła literacki", "parts": ["literacki"], "term": "szkoła_literacka"},
{"lemma": "szkoła strukturalny", "parts": ["strukturalny"], "term": "szkoła_strukturalna"},
{"lemma": "szkoła sycylijski", "parts": ["sycylijski"], "term": "szkoła_sycylijska"},
{"lemma": "szkoła śląski", "parts": ["śląski"], "term": "szkoła_śląska"},
{"lemma": "szkoła ukraiński", "parts": ["ukraiński"], "term": "szkoła_ukraińska"}]\
Element {"lemma": "szkoła", "parts": []} nie ma klucza "term", ponieważ słowo "szkoła" nie występuje jako osobny term.
Fextor3 można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['fextor3']
- uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['']]
- dane wejściowe w postaci folderu skompresowanego (.zip)[{'fextor3':{'features':['lemma_count','interp_sign','mm_stat']}}]
- uruchomienie z ekstrakcją wybranych cech[{'fextor3':{'features':['lemma_count','interp_sign', 'startlist':'startlist'}}]
- zdefiniowanie startlisty, zliczane będą tylko lematy zawarte w startliście[{'fextor3':{'features':['lemma_count','interp_sign'],'startlist':'startlist.json'}}]
- zdefiniowanie startlisty w formacie JSON[{'fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'startlist'}}]
- zdefiniowanie stoplisty, zliczane będą tylko lematy niezawarte w stopliście[{fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'/samba/demo/startlist','tags':['subst','interp','num','conj']}]
- stoplista lematów i ograniczona startlista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['subst','interp','num','conj']}]
- stoplista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags':['ADJ','SPACE','PUNCT','NOUN']}]
- startlista tagów UD[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['ADJ','SPACE','PUNCT','NOUN']}]
- stoplista tagów UDPlik z Postaggera w formacie JSON CCL.
Plik JSON ze zliczonymi częstościami wystąpień wybranych cech.
W Colabie: Fextor3 - zliczanie częstości wystąpień wybranych cech w tekście