Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa wyznaczająca dane geolokalizacyjne (adres, typ, długość i szerokość geograficzną) znalezionych w tekście nazw miejsc geograficznych.
Geolocation bazuje na działaniu usługi NER (Named Entity Recognition), przyporządkowując współrzędne geograficzne wykrytym nazwom miejsc. Wykorzystuje usługę OpenStreetMap oraz dane pochodzące z GeoNames.
winer
, spacy
, liner
.morphodita
, spacy
, ptag
.clalink
(linkowanie pojęć z sieci semantycznej z ich wystąpieniami w treści dokumentu), senselink
, brak.Geolocation można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer','tagger_type':'morphodita'}},'geolocation']
[['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer','tagger_type':'morphodita'}},'geolocation']]
- dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'postagger':{'method':'ner','lang':'pl','linking':'clalink'}},'geolocation']
- uruchomienie modelu ClalinkBrak parametrów do ustawienia.
Tekst, plik tekstowy lub korpus plików.
id
- identyfikator dokumentulabel
- etykieta dokumentutext
- treść danych wejściowychtagset
- zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp
dla języka polskiego (36 klas gramatycznych) i ud
dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens
- podział na tokeny pogrupowane według zadanego klucza. W przypadku bazowym kluczem jest default
. Każdy token składa się z poniższych elementów:lexemes
- leksemy
lemma
- lematpos
- znaczniki morfosyntaktyczne zależne od wybranego tagsetu: nkjp
lub ud
disamb
- informacja o tym, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości: True
lub False
.id
- identyfikator tokenustart
- indeks znaku rozpoczynającego tokenstop
- indeks pierwszego znaku znajdującego się po tokeniespans
- podział na sekcje
ner
- dane z NER-aid
- identyfikator sekcjistart
- indeks znaku rozpoczynającego tokenstop
- indeks pierwszego znaku znajdującego się po tokenie
type
- kategoria lokalizacjisentence
- podział na zdania
id
- identyfikator zdaniastart
- indeks znaku rozpoczynającego zdaniestop
- indeks pierwszego znaku znajdującego się po zdaniurelations
- relacje między elementami ze spans
records
- linkowaniaDane z Geolocation:
geolocation
obj-id
- identyfikator nazwyname
- znaleziona nazwa geograficznatype
- wartość zgodna z OpenStreetMaplat
- szerokość geograficznalon
- długość geograficznaimportance
- prawdopodobieństwo dopasowaniafilename
- nazwa plikuW Colabie: Geolocation - wyznaczanie danych geolokalizacyjnych
(C) CLARIN-PL