Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Fextor to narzędzie wyznaczające wektor opisujący dany dokument na podstawie wybranych cech tekstu. Wartościami poszczególnych wymiarów wektora są częstości wystąpień wybranych cech w dokumencie.
tags, exclude_tagsUsługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
features - lista cech do ekstrakcji z danych wejściowych. Możliwe wartości:
lemma_count - zliczane są lematy, wartość domyślnainterp_sign - zliczane są znaki interpunkcyjnemm_stat - statystyki dla liczby tokenów w tekście, lematów i ich frekwencji oraz znaczników części mowytags - lista tagów, które mają zawierać tokeny, aby zostały zliczone. Bez podania tego argumentu wszystkie tagi zostaną zliczone.exclude_tags - lista tagów, których mają nie zawierać tokeny, aby zostały zliczone,stoplist - ścieżka do pliku zawierającego lematy w nowych liniach, które nie mają być zliczone,startlist - ścieżka do pliku zawierającego lematy w nowych liniach, które mają być zliczone lub do pliku w formacie JSON.Usługę można wywołać w systemie Windows za pomocą następującego zapytania LPMN: ['postagger','fextor3'] - uruchomienie z wartościami domyślnymi dla pliku w formacie JSON CCL.
[['postagger','fextor3']] - dane wejściowe w postaci folderu skompresowanego (.zip)['postagger',{'fextor3':{'features':'mm_stat'}}] - ekstrakcja statystyk['postagger',{'fextor3':{'features':['lemma_count','interp_sign']}}] - ekstrakcja lematów i znaków interpunkcyjnych['postagger',{'fextor3':{'startlist':'@clarin://startlista.txt'}}] - zdefiniowanie startlisty, zliczane będą tylko lematy zawarte w startliście['postagger',{'fextor3':{'stoplist':'@clarin://stoplista.txt'}}] - zdefiniowanie stoplisty, zliczane będą tylko lematy niezawarte w stopliście['postagger',{'fextor3':{'features':['lemma_count','interp_sign'],'tags':['subst','interp']}}] - ekstrakcja lematów i znaków interpunkcyjnych, startlista tagów NKJP['postagger',{'fextor3':{'features':['lemma_count','interp_sign'],'stoplist':'@clarin://stoplista.txt','tags':['subst','interp']}}] - ekstrakcja lematów i znaków interpunkcyjnych, stoplista lematów i startlista tagów NKJP[{'fextor3':{'features':['lemma_count','interp_sign'],'tags_excluded':['ADJ','SPACE','PUNCT','NOUN']}] - stoplista tagów UDPlik z Postaggera w formacie Clarin json.
Pliki zawierające stoplistę i startlistę należy zapisać w przestrzeni użytkownika na stronie https://services.clarin-pl.eu/storage.
Przykład dla wycinka ze słownika:
| terminy | lematy | 
|---|---|
| szkoła jezior | szkoła jezioro | 
| szkoła literacka | szkoła literacki | 
| szkoła strukturalna | szkoła strukturalny | 
| szkoła sycylijska | szkoła sycylijski | 
| szkoła śląska | szkoła śląski | 
| szkoła ukraińska | szkoła ukraiński | 
"szkoła": [ 
  {"lemma": "szkoła", "parts": []}, 
     {"lemma": "szkoła jezioro", "parts": ["jezioro"], "term": "szkoła_jezior"}, 
     {"lemma": "szkoła literacki", "parts": ["literacki"], "term": "szkoła_literacka"}, 
     {"lemma": "szkoła strukturalny", "parts": ["strukturalny"], "term": "szkoła_strukturalna"}, 
     {"lemma": "szkoła sycylijski", "parts": ["sycylijski"], "term": "szkoła_sycylijska"}, 
     {"lemma": "szkoła śląski", "parts": ["śląski"], "term": "szkoła_śląska"}, 
     {"lemma": "szkoła ukraiński", "parts": ["ukraiński"], "term": "szkoła_ukraińska"}]\
Element {"lemma": "szkoła", "parts": []} nie ma klucza "termin", ponieważ słowo "szkoła" nie występuje jako osobny termin.
Plik JSON ze zliczonymi częstościami wystąpień wybranych cech.
mm_stat:{
 "tokens": {"count": count}, 
 "lemmas": {"lemma_name": count, ...},
 "tags": {"tag_name": count, ...},
}
W Colabie: Fextor - zliczanie częstości wystąpień wybranych cech w tekście
(C) CLARIN-PL