Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa wyznaczająca dane geolokalizacyjne (adres, typ, długość i szerokość geograficzną) znalezionych w tekście nazw miejsc geograficznych.
Geolocation bazuje na działaniu usługi NER (Named Entity Recognition), przyporządkowując współrzędne geograficzne wykrytym nazwom miejsc. Wykorzystuje usługę OpenStreetMap oraz dane pochodzące z GeoNames.
winer
, spacy
, liner
.morphodita
, spacy
, ptag
.clalink
(linkowanie pojęć z sieci semantycznej z ich wystąpieniami w treści dokumentu), senselink
, brak.Geolocation można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer','tagger_type':'morphodita'}},'geolocation']
[['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer','tagger_type':'morphodita'}},'geolocation']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'postagger':{'method':'ner','lang':'pl','linking':'clalink'}},'geolocation']
- uruchomienie modelu Clalinkmethod
- wybór metody przetwarzania:
ner
- szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.tagger
- narzędzie tagger dzieli tekst na tokeny, które otagowuje znacznikami tagsetu wybranego językalang
- wybór języka przetwarzanego tekstu, możliwe wartości:
pl
- opcja domyślnaen
- język angielskiner_type
- wybór NER-a:
winer
spacy
liner
tagger_type
- wybór taggera:
morphodita
spacy
ptag
linking
- wybór metody linkowania pojęć z sieci semantycznej:
None
- brakclalink
- uruchomienie modelu Clalink: linkowanie pojęć z sieci semantycznej z ich wystąpieniami w treści dokumentusenselink
- uruchomienie modelu SenselinkTekst, plik tekstowy lub korpus plików.
id
- identyfikator dokumentulabel
- etykieta dokumentutext
- treść danych wejściowychtagset
- zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp
dla języka polskiego (36 klas gramatycznych) i ud
dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens
- podział na tokeny pogrupowane według zadanego klucza. W przypadku bazowym kluczem jest default
. Każdy token składa się z poniższych elementów:lexemes
- leksemy
lemma
- lematpos
- znaczniki morfosyntaktyczne zależne od wybranego tagsetu: nkjp
lub ud
disamb
- informacja o tym, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości: True
lub False
.id
- identyfikator tokenustart
- indeks znaku rozpoczynającego tokenstop
- indeks pierwszego znaku znajdującego się po tokeniespans
- podział na sekcje
ner
- dane z NER-aid
- identyfikator sekcjistart
- indeks znaku rozpoczynającego tokenstop
- indeks pierwszego znaku znajdującego się po tokenie
type
- kategoria lokalizacjisentence
- podział na zdania
id
- identyfikator zdaniastart
- indeks znaku rozpoczynającego zdaniestop
- indeks pierwszego znaku znajdującego się po zdaniurelations
- relacje między elementami ze spans
records
- linkowaniaDane z Geolocation:
geolocation
obj-id
- identyfikator nazwyname
- znaleziona nazwa geograficznatype
- wartość zgodna z OpenStreetMaplat
- szerokość geograficznalon
- długość geograficznaimportance
- prawdopodobieństwo dopasowaniafilename
- nazwa plikuW Colabie: Geolocation - wyznaczanie danych geolokalizacyjnych
(C) CLARIN-PL