Postagger umożliwia wykorzystanie modelu głębokiego Senselink, który pozwala na wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie.
['any2txt',{'postagger':{'method':'ner','linking':'senselink'}}]
- dane wejściowe w postaci pliku tekstowego w języku polskim['any2txt',{'postagger':{'method':'ner','linking':'senselink','lang':'en'}}]
- dane wejściowe w postaci pliku tekstowego w języku angielskimAby uruchomić Postaggera z Senselinkiem należy użyć obu opcji:
method: ner
- wybór metody przetwarzania: NER (Named Entity Recognition). NER to funkcja rozpoznawania jednostek nazwanych dodająca sekcję z nazwanymi jednostkami identyfikacyjnymi do informacji zwracanej przez tagger. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.linking: senselink
- wybór metody linkowania: uruchomienie modelu SenselinkDodatkowe opcje:
linking_type
- pozwala wskazać, z jaką sekcją znajdującą się w spans ma być powiązane linkowanie.
ner
- opcja domyślnaPlik lub katalog dokumentów.
Plik lub folder zip w formacie clarin json z informacją o tagach morfosyntaktycznych i linkowaniach.
Wynikiem zapytania [{'postagger':{'method':'ner','linking':'senselink'}}]
jest plik json zapisany na lokalnym dysku.
Linki z sekcji records -> linking -> senselink
odpowiadają tokenom z sekcji tokens
.
Na przykład:
"obj-id": 1
odpowiada elementowi "id": 1 -> "lemma": "wieczór"
, co jest linkowane w bazie wordnet do terminów:
"knowledge-base": "wordnet"
odpowiada linkowanej bazie wiedzy, w tym przypadku wordnet,
"linking-type": "pos"
odpowiada linkowanej sekcji, w tym przypadku część mowy.
W Colabie: Postagger - Senselink: wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie
(C) CLARIN-PL