Usługa wyznaczająca dane geolokalizacyjne (adres, typ, długość i szerokość geograficzną) znalezionych w tekście nazw miejsc geograficznych.
Wykorzystuje usługę OpenStreetMap oraz dane pochodzące z GeoNames.
any2txt|wcrft2({"morfeusz2":false})|liner2({"model":"n82"})|geolocation({"limit":1})
Plik w formacie ccl z zaznaczonymi nazwami lokazliacji (wyjście z liner2 z użyciem odpowiednich modeli).
Plik w formacie ccl z oznaczonymi danymi gelokalizacyjnymi w formie adnotacji: <prop key="nam_loc:coord:1">17.03333;51.1;P;Wrocław</prop>
, gdzie kolejne wartości odzielone ;
oznaczają: długość geograficzną
, szerokość geograficzną
, typ
, adres
:
<chunk type="p" id="ch1">
<sentence id="s1">
<tok>
<orth>Wrocław</orth>
<lex disamb="1"><base>Wrocław</base><ctag>subst:sg:nom:m3</ctag></lex>
<ann chan="nam_loc" head="1">3</ann>
<prop key="nam_loc:coord:1">17.03333;51.1;P;Wrocław</prop>
</tok>
<tok>
<orth>leży</orth>
<lex disamb="1"><base>leżeć</base><ctag>fin:sg:ter:imperf</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>w</orth>
<lex disamb="1"><base>w</base><ctag>prep:loc:nwok</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>Polsce</orth>
<lex disamb="1"><base>Polska</base><ctag>subst:sg:loc:f</ctag></lex>
<ann chan="nam_loc" head="1">2</ann>
<prop key="nam_loc:coord:1">19.0258159;52.0977181;administrative;Polska</prop>
</tok>
<ns/>
<tok>
<orth>,</orth>
<lex disamb="1"><base>,</base><ctag>interp</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>w</orth>
<lex disamb="1"><base>w</base><ctag>prep:loc:nwok</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>Europie</orth>
<lex disamb="1"><base>Europa</base><ctag>subst:sg:loc:f</ctag></lex>
<ann chan="nam_loc" head="1">1</ann>
<prop key="nam_loc:coord:1">10.0;51.0;continent;Europa</prop>
</tok>
<ns/>
<tok>
<orth>.</orth>
<lex disamb="1"><base>.</base><ctag>interp</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
</sentence>
</chunk>
<chunk type="p" id="ch2">
<sentence id="s2">
<tok>
<orth>Mostki</orth>
<lex disamb="1"><base>mostek</base><ctag>subst:pl:nom:m3</ctag></lex>
<ann chan="nam_loc" head="1">1</ann>
<prop key="nam_loc:coord:1">23.16312;53.25725;administrative;Mostek, gmina Wasilków, powiat białostocki, województwo podlaskie, Polska</prop>
<prop key="nam_loc:coord:2">15.6962248;50.4861348;administrative;Mostek, okres Trutnov, Královéhradecký kraj, Severovýchod, 54475, Czechy</prop>
<prop key="nam_loc:coord:3">16.2650416;50.0093877;administrative;Mostek, okres Ústí nad Orlicí, Pardubický kraj, Severovýchod, Czechy</prop>
</tok>
<tok>
<orth>to</orth>
<lex disamb="1"><base>to</base><ctag>pred</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>miejscowość</orth>
<lex disamb="1"><base>miejscowość</base><ctag>subst:sg:nom:f</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
</sentence>
</chunk>
geolocation({"limit":liczba})
Opcja limit
to określa maksymalną liczbę wyników zwracanych przez usługę OpenStreetMap. Wartość większa od 1
może spowodować przypisanie kilku adnotacji z danymi gelokalizacyjnymi do jednej nazwy geograficznej (jak w przyładzie Mostki powyżej). Domyślna wartość limit
to 1
.
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|wcrft2({"morfeusz2":false})|liner2({"model":"n82"})|geolocation')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL