Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa wyznaczająca dane geolokalizacyjne (adres, typ, długość i szerokość geograficzną) znalezionych w tekście nazw miejsc geograficznych.
Geolocation bazuje na działaniu usługi NER (Named Entity Recognition), przyporządkowując współrzędne geograficzne wykrytym nazwom miejsc. Wykorzystuje usługę OpenStreetMap oraz dane pochodzące z GeoNames.
Geolocation można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer'}},'geolocation']
[['any2txt',{'postagger':{'lang':'pl','linking':'None','method':'ner','ner_type':'winer'}},'geolocation']] - dane wejściowe w postaci folderu skompresowanego (.zip)['any2txt',{'postagger':{'method':'ner','lang':'pl','linking':'clalink'}},'geolocation'] - uruchomienie modelu ClalinkBrak parametrów do ustawienia.
Tekst, plik tekstowy lub korpus plików.
id - identyfikator dokumentulabel - etykieta dokumentutext - treść danych wejściowychtagset - zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp dla języka polskiego (36 klas gramatycznych) i ud dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens - podział na tokeny pogrupowane według zadanego klucza. W przypadku bazowym kluczem jest default. Każdy token składa się z poniższych elementów:lexemes - leksemy
lemma - lematpos - znaczniki morfosyntaktyczne zależne od wybranego tagsetu: nkjp lub uddisamb - informacja o tym, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości: True lub False.id - identyfikator tokenustart - indeks znaku rozpoczynającego tokenstop - indeks pierwszego znaku znajdującego się po tokeniespans - podział na sekcje
ner - dane z NER-aid - identyfikator sekcjistart - indeks znaku rozpoczynającego tokenstop - indeks pierwszego znaku znajdującego się po tokenie
type - kategoria lokalizacjisentence - podział na zdania
id - identyfikator zdaniastart - indeks znaku rozpoczynającego zdaniestop - indeks pierwszego znaku znajdującego się po zdaniurelations - relacje między elementami ze spansrecords - linkowaniaDane z Geolocation:
geolocation
obj-id - identyfikator nazwyname - znaleziona nazwa geograficznatype - wartość zgodna z OpenStreetMaplat - szerokość geograficznalon - długość geograficznaimportance - prawdopodobieństwo dopasowaniafilename - nazwa plikuW Colabie: Geolocation - wyznaczanie danych geolokalizacyjnych
(C) CLARIN-PL