Usługa służy do linkowania (łączenia; Entity Linking) pojęć z sieci
semantycznej z ich wystąpieniami w treści dokumentu.
Właściwym narzędziem uruchamianym przez usługę jest narzędzie o tej samej
nazwie. Zadanie EL jest realizowane w oparciu o wykorzystanie informacji
lingwistycznej z dokumentu (wynik zadań lematyzacji, NER, WSD, MWE) oraz sieci
semantycznej zawierającej otwarte, połączone zasoby (Linked Open Data).
Wynikiem działania usługi są anotacje dodane do przetwarzanego dokumentu.
Istnieją dwie metody bezpośredniego dopasowania pojęć (terminów) do wystąpień w
tekście. Dodatkowo, zbiór terminów skojarzonych z wystąpieniem w tekście zawiera
również terminy wykryte na podstawie połączeń relacjami równoważności
(skos:exactMatch, owl:sameAs) z terminami dopasowanymi bezpośrednio.
elinker
elinker
Konfiguracja narzędzia elinker
(zmiana wymaga restartu usługi): plik konfiguracyjny
Narzędzie do linkowania wzmianek nazw własnych i pojęć z siecią połączonych danych Linked Open Data.
file(/users/ajanz/dane/test-pl.txt)|any2txt|wcrft|wsdpl|elinker({"lang": "pl", "tagset": "nkjp"})
file(/users/ajanz/dane/test-pl.txt)|any2txt|wcrft|wsdpl|liner2|elinker({"lang": "pl", "tagset": "nkjp"})
file(/users/ajanz/dane/test-en.txt)|any2txt|spacy|wsden|elinker({"lang": "en", "tagset": "spacy"})
Oczekiwanym formatem dokumentu jest CCL (zawierający informacje o formach bazowych).
Dodatkowo, dokument może zawierać anotacje wykorzystywane przez elinker
:
wsd
, mwe
, ne
.
Dokument CCL (zawierający dane dokumentu wejściowego) z anotacjami narzędzia
elinker
zawierającymi odniesienia (URI) do terminów w zasobach LOD. W
większości przypadków (zależne od zasobu), URI zasobów są w istocie linkami
(URL), pod którymi dostępny jest opis pojęcia.
URI zasobów są przypisywane do tokenu reprezującego wystąpienie (lub głowy w
przypadku wyr. wielowyrazowego) jako właściwość (tag prop).
Klucz (key) zawarty w atrybucie tagu zawiera informację o nazwie zasobu
(RES_NAME) i jest następującej postaci: RES_NAME:url_XX, gdzie XX to
numer porządkowy.
Przykład oznaczonego tagu:
<tok>
<orth>Wszechświecie</orth>
<lex disamb="1"><base>wszechświat</base><ctag>subst:sg:loc:m3</ctag></lex>
...
<prop key="DBPEDIA:url_2">http://dbpedia.org/resource/Wszechświat</prop>
<prop key="DBPEDIA:url_3">http://dbpedia.org/resource/Universe</prop>
<prop key="DBPEDIA:url_4">http://dbpedia.org/resource/Category:Physical_universe</prop>
<prop key="DBPEDIA:url_5">http://dbpedia.org/resource/Space_(documentary)</prop>
<prop key="PlWN:url_0">http://plwordnet.pwr.wroc.pl/wordnet/synset/335696</prop>
<prop key="PlWN:url_1">http://plwordnet.pwr.wroc.pl/wordnet/synset/29997</prop>
<prop key="PlWN:url_6">http://plwordnet.pwr.wroc.pl/wordnet/synset/10819</prop>
...
</tok>
wosedon
(usługi wsdpl
/ wsden
), które zawierają informację o wybranymwosedonie
jest Słowosieć).Anotacja wsd
umożliwia zastosowanie alternatywnego sposobu dopasowania pojęć.
Ponadto, wszystkie anotacje wsd
, mwe
oraz ne
służą do ograniczenia zbioru
dopasowywanych wystąpień w tekście. Wpływa to pozytywnie na jakość
dopasowania (większa precyzja, mniejsza kompletność). Ponadto, takie rozwiązanie
zmniejsza czas przetwarzania.
Anotacja usługi wsdpl
/ wsden
(narzędzie wosedon
) dostarczająca informacji
o wybranym znaczeniu terminu. Bazą znaczeń jest Słowosieć.
elinker
może wykorzystać te informacje w celu dopasowania na podstawie synsetu
(zamiast lematu).
Anotacja usługi mwe
, służąca do oznaczania wyrażeń wielowyrazowych. Ponadto,
zawiera informacje o formie bazowej wyr. wielowyrazowego. Wykorzystano
narzędzie corpus2mwe bazujące na formalizmie WCCL.
Anotacja usługi typu NER, rozpoznającej nazwy własne. nazwy kategorii NER są
jednocześnie nazwami rozpoznawanych kanałów anotacji dokumentu CCL.
Aktualnie, wykrywane są anotacje następujących modeli kategorii NER:
Wykorzystywana sieć semantyczna zawiera 24 zasoby. Głównym, wykorzystywanym
standardem organizacji wiedzy w sieci jest SKOS.
Wśród zasobów znajdują się wordnety (Słowosieć), tezaurusy (np. GEMET) a także
zasoby o charakterze encyklopedycznym (np. WIKIPEDIA).
Pełna lista zasobów:
AGROVOC, BNCF, BNF, DBPEDIA, DDC, DNB, EUROVOC, GEMET,
GEONAMES, GEOWORDNET, HRMO, IATE, LINKEDDATA, LOC, LCSH, MESH,
NALT, PlWN, SCHEMA, SUMO, UAT, UMBEL, WIKIPEDIA, WOLTER