Usługa przetwarzająca wyjście z usługi geolocation do pliku json zawierającego listę lokalizacji znalezionych w tekście (opcjonalnie w formacie GeoJSON) oraz tekst z oznaczonymi nazwami lokalizacji (znacznikami <span> HTML).
any2txt|wcrft2({"morfeusz2":false})|liner2({"model":"n82"})|geolocation|geo2json
Plik w formacie ccl z zaznaczonymi nazwami lokazliacji i danymi geolokazliacji (wyjście z geolocation).
Plik w formacie json zawierający:
<span data-locId=\"1\">Wrocław</span>
gdzie locId
odpowiada takiej samej wartości w liście lokazlicji."text": [
"<span data-locId=\"1\">Wrocław</span> to miasto.\nJest takie miasto: <span data-locId=\"2\">Nowy Dwór Mazowiecki</span>.",
"Jesteśmy we <span data-locId=\"1\">Wrocławiu</span>."
]`
occurrences
to liczba wystąpień w tekście:
{
"locations": [
{
"locId": 1,
"name": "Wrocław",
"type": "P",
"latitude": 51.1,
"longitude": 17.03333,
"occurrences": 2
},
...
]
}
features
: {
"geoJSON": {
"type": "FeatureCollection",
"features": [
{
"type": "Feature",
"geometry": {
"type": "Point",
"coordinates": [
17.03333,
51.1
]
},
"properties": {
"locId": 1,
"name": "Wrocław",
"type": "P",
"occurrences": 2
}
},
...
]
}
}
przykładowe wyjście dla ...geo2json({"page_max_char":120, "geo_json":true})
:
{
"text": [
"<span data-locId=\"1\">Wrocław</span> to miasto.\nJest takie miasto: <span data-locId=\"2\">Nowy Dwór Mazowiecki</span>.",
"Jesteśmy we <span data-locId=\"1\">Wrocławiu</span>."
],
"geoJSON": {
"type": "FeatureCollection",
"features": [
{
"type": "Feature",
"geometry": {
"type": "Point",
"coordinates": [
17.03333,
51.1
]
},
"properties": {
"locId": 1,
"name": "Wrocław",
"type": "P",
"occurrences": 2
}
},
{
"type": "Feature",
"geometry": {
"type": "Point",
"coordinates": [
20.71652,
52.43022
]
},
"properties": {
"locId": 2,
"name": "Nowy Dwór Mazowiecki",
"type": "P",
"occurrences": 1
}
}
]
}
}
({"geo_json": wartość logiczna, "text": wartość logiczna, "page_max_char": liczba})
geo_json
określa format listy lokalizacji, - domyśly dla false
lub GeoJSON dla true
. Formaty zostały opisane w sekcji "Wyjście". Domyślna wartość to false
.Lokalizacje zapisane w formacie GeoJSON można z łatwością wyświetlić na mapie kopiując zawartość pola geoJSON do stron: geojson.tools lub geojson.io
Opcja text
określa czy zamieścić tekst z oznacznymi nazwami lokalizacji w pliku wyjściowym. Domyślna wartość to true
.
Opcja page_max_char
określa maksymalną liczbę znaków na stronę (jeden element w liście text
). Domyślna wartość to 3500
.
Opcja page_max_char nie gwaratuje, że strona nie przekroczy podanej liczby znaków, ponieważ usługa nie dzieli zdań podczas podziału na strony, więc w przypadku kiedy pojedyncze zdanie będzie dłuższe niż maksymalna liczba znaków na stronę to nadal zostanie umieszczone w całości na nowej stronie
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|wcrft2({"morfeusz2":false})|liner2({"model":"top9"})|geolocation|geo2json({"geo_json":true, "text":true, "page_max_char": 3500})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL