Postagger umożliwia wykorzystanie modelu głębokiego Senselink, który pozwala na wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie.
['any2txt',{'postagger':{'method':'ner','linking':'senselink'}}] - dane wejściowe w postaci pliku tekstowego w języku polskim['any2txt',{'postagger':{'method':'ner','linking':'senselink','lang':'en'}}] - dane wejściowe w postaci pliku tekstowego w języku angielskimAby uruchomić Postaggera z Senselinkiem należy użyć obu opcji:
method: ner - wybór metody przetwarzania: NER (Named Entity Recognition). NER to funkcja rozpoznawania jednostek nazwanych dodająca sekcję z nazwanymi jednostkami identyfikacyjnymi do informacji zwracanej przez tagger. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.linking: senselink - wybór metody linkowania: uruchomienie modelu SenselinkDodatkowe opcje:
linking_type - pozwala wskazać, z jaką sekcją znajdującą się w spans ma być powiązane linkowanie.
ner - opcja domyślnaPlik lub katalog dokumentów.
Plik lub folder zip w formacie clarin json z informacją o tagach morfosyntaktycznych i linkowaniach.
Wynikiem zapytania [{'postagger':{'method':'ner','linking':'senselink'}}] jest plik json zapisany na lokalnym dysku.
Linki z sekcji records -> linking -> senselink odpowiadają tokenom z sekcji tokens.
Na przykład:
"obj-id": 1 odpowiada elementowi "id": 1 -> "lemma": "wieczór", co jest linkowane w bazie wordnet do terminów:
"knowledge-base": "wordnet" odpowiada linkowanej bazie wiedzy, w tym przypadku wordnet,
"linking-type": "pos" odpowiada linkowanej sekcji, w tym przypadku część mowy.
W Colabie: Postagger - Senselink: wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie
(C) CLARIN-PL