Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Fextor to narzędzie wyznaczające wektor opisujący dany dokument na podstawie wybranych cech tekstu. Wartościami poszczególnych wymiarów wektora są częstości wystąpień wybranych cech w dokumencie.
tags
, exclude_tags
Usługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
features
- lista cech do ekstrakcji z danych wejściowych. Możliwe wartości:
lemma_count
- zliczane są lematy, wartość domyślnainterp_sign
- zliczane są znaki interpunkcyjnemm_stat
- statystyki dla liczby tokenów w tekście, lematów i ich frekwencji oraz znaczników części mowytags
- lista tagów, które mają zawierać tokeny, aby zostały zliczone. Bez podania tego argumentu wszystkie tagi zostaną zliczone.exclude_tags
- lista tagów, których mają nie zawierać tokeny, aby zostały zliczone,stoplist
- ścieżka do pliku zawierającego lematy w nowych liniach, które nie mają być zliczone,startlist
- ścieżka do pliku zawierającego lematy w nowych liniach, które mają być zliczone lub do pliku w formacie JSON.Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['postagger','fextor3']
- uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['postagger','fextor3']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['postagger',{'fextor3':{'features':'mm_stat'}}]
- ekstrakcja statystyk['postagger',{'fextor3':{'features':['lemma_count','interp_sign']}}]
- ekstrakcja lematów i znaków interpunkcyjnych['postagger',{'fextor3':{'startlist':'@clarin://startlista.txt'}}]
- zdefiniowanie startlisty, zliczane będą tylko lematy zawarte w startliście['postagger',{'fextor3':{'stoplist':'@clarin://stoplista.txt'}}]
- zdefiniowanie stoplisty, zliczane będą tylko lematy niezawarte w stopliście['postagger',{'fextor3':{'features':['lemma_count','interp_sign'],'tags':['subst','interp']}}]
- ekstrakcja lematów i znaków interpunkcyjnych, startlista tagów NKJP['postagger',{'fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'@clarin://stoplista.txt','tags':['subst','interp']}}]
- ekstrakcja lematów i znaków interpunkcyjnych, stoplista lematów i startlista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['ADJ','SPACE','PUNCT','NOUN']}]
- stoplista tagów UDPlik z Postaggera w formacie JSON CCL.
Pliki zawierające stoplistę i startlistę należy zapisać w przestrzeni użytkownika na stronie https://services.clarin-pl.eu/storage.
Przykład dla wycinka ze słownika:
terminy | lematy |
---|---|
szkoła jezior | szkoła jezioro |
szkoła literacka | szkoła literacki |
szkoła strukturalna | szkoła strukturalny |
szkoła sycylijska | szkoła sycylijski |
szkoła śląska | szkoła śląski |
szkoła ukraińska | szkoła ukraiński |
"szkoła": [
{"lemma": "szkoła", "parts": []},
{"lemma": "szkoła jezioro", "parts": ["jezioro"], "term": "szkoła_jezior"},
{"lemma": "szkoła literacki", "parts": ["literacki"], "term": "szkoła_literacka"},
{"lemma": "szkoła strukturalny", "parts": ["strukturalny"], "term": "szkoła_strukturalna"},
{"lemma": "szkoła sycylijski", "parts": ["sycylijski"], "term": "szkoła_sycylijska"},
{"lemma": "szkoła śląski", "parts": ["śląski"], "term": "szkoła_śląska"},
{"lemma": "szkoła ukraiński", "parts": ["ukraiński"], "term": "szkoła_ukraińska"}]\
Element {"lemma": "szkoła", "parts": []} nie ma klucza "termin", ponieważ słowo "szkoła" nie występuje jako osobny termin.
Plik JSON ze zliczonymi częstościami wystąpień wybranych cech.
mm_stat
:{
"tokens": {"count": count},
"lemmas": {"lemma_name": count, ...},
"tags": {"tag_name": count, ...},
}
W Colabie: Fextor - zliczanie częstości wystąpień wybranych cech w tekście
(C) CLARIN-PL