Postagger umożliwia wykorzystanie modelu głębokiego Clalink, który pozwala na kontekstowe wiązanie wzmianek występujących w tekście z siecią semantyczną.
['any2txt',{'postagger':{'method':'ner','linking':'clalink'}}]
- dane wejściowe w postaci pliku tekstowego w języku polskim['any2txt',{'postagger':{'method':'ner','linking':'clalink','lang':'en'}}]
- dane wejściowe w postaci pliku tekstowego w języku angielskimAby uruchomić Postaggera z Clalinkiem należy użyć obu opcji:
method: ner
- wybór metody przetwarzania: NER (Named Entity Recognition). NER to funkcja rozpoznawania jednostek nazwanych dodająca sekcję z nazwanymi jednostkami identyfikacyjnymi do informacji zwracanej przez tagger. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.linking: clalink
- wybór metody linkowania: uruchomienie modelu ClalinkDodatkowe opcje:
linking_type
- pozwala wskazać, z jaką sekcją znajdującą się w spans ma być powiązane linkowanie.
ner
- opcja domyślnaPlik lub katalog dokumentów.
Plik lub folder zip w formacie clarin json z informacją o tagach morfosyntaktycznych, nazwach własnych i linkowaniach nazw własnych.
Wynikiem zapytania [{'postagger':{'method':'ner','linking':'clalink'}}]
jest plik json zapisany na lokalnym dysku.
Linki z sekcji records -> linking -> clalink
odpowiadają nazwom własnym z sekcji spans -> ner
.
Na przykład:
obj-id: 248e0315-e2a7-4df1-9e94-01eacf7b6646
odpowiada nazwie własnej Kapitan Bomba
, co jest linkowane w bazie wikidata do terminów:
"knowledge-base": "wikidata"
odpowiada linkowanej bazie wiedzy, w tym przypadku wikidata,
"linking-type": "spans/ner",
odpowiada linkowanej sekcji, w tym przypadku spans/ner.
W Colabie: Postagger - Clalink: linkowanie wzmianek z sieciami semantycznymi
(C) CLARIN-PL