Usługa wykrywa nazwy własne w tekście i przypisuje im tagi odpowiadające kategorii nazwy własnej.
any2txt|poldeepner2
Plik tekstowy. Podział na zdania jest przeprowadzany automatycznie przez usługe
Przykład:
Woda jest jedną z najpospolitszych substancji we Wszechświecie.
Marek Nowak z Politechniki Wrocławskiej mieszka przy ul. Sądeckiej.
Marek Nowak z Politechniki Wrocławskiej mieszka przy ul. Sądeckiej.
#PoselAdamNowak Co Pan myśli na temat fuzji Orlenu i Lotosu?
Tomasz Bobaliński pojechał do Poznania samachodem.
Plik w formacie json z wektorami zdań informującymi o nazwach własnych zawartych w pliku wejściowym.
Przykład 1 (verbose: True):
[
{
"sentence":"Woda jest jedną z najpospolitszych substancji we Wszechświecie.",
"entities":[
{
"begin":49,
"end":62,
"label":"nam_loc_astronomical",
"text":"Wszechświecie"
}
]
},
{
"sentence":"Marek Nowak z Politechniki Wrocławskiej mieszka przy ul. Sądeckiej.",
"entities":[
{
"begin":0,
"end":11,
"label":"nam_liv_person",
"text":"Marek Nowak"
},
{
"begin":14,
"end":39,
"label":"nam_org_organization",
"text":"Politechniki Wrocławskiej"
},
{
"begin":57,
"end":66,
"label":"nam_fac_road",
"text":"Sądeckiej"
}
]
},
{
"sentence":"Marek Nowak z Politechniki Wrocławskiej mieszka przy ul. Sądeckiej.",
"entities":[
{
"begin":0,
"end":11,
"label":"nam_liv_person",
"text":"Marek Nowak"
},
{
"begin":14,
"end":39,
"label":"nam_org_organization",
"text":"Politechniki Wrocławskiej"
},
{
"begin":57,
"end":66,
"label":"nam_fac_road",
"text":"Sądeckiej"
}
]
},
{
"sentence":"#PoselAdamNowak Co Pan myśli na temat fuzji Orlenu i Lotosu?",
"entities":[
{
"begin":6,
"end":15,
"label":"nam_liv_person",
"text":"AdamNowak"
},
{
"begin":44,
"end":50,
"label":"nam_org_group_team",
"text":"Orlenu"
},
{
"begin":53,
"end":59,
"label":"nam_org_group_team",
"text":"Lotosu"
}
]
},
{
"sentence":"Tomasz Bobaliński pojechał do Poznania samachodem.",
"entities":[
{
"begin":0,
"end":17,
"label":"nam_liv_person",
"text":"Tomasz Bobaliński"
},
{
"begin":30,
"end":38,
"label":"nam_loc_gpe_city",
"text":"Poznania"
}
]
}
]
Przykład 2 (verbose: False):
[
{
"text":"Poznania",
"label":"nam_loc_gpe_city",
"freq":1
},
{
"text":"AdamNowak",
"label":"nam_liv_person",
"freq":1
},
{
"text":"Sądeckiej",
"label":"nam_fac_road",
"freq":2
},
{
"text":"Wszechświecie",
"label":"nam_loc_astronomical",
"freq":1
},
{
"text":"Tomasz Bobali\u0144ski",
"label":"nam_liv_person",
"freq":1
},
{
"text":"Lotosu",
"label":"nam_org_group_team",
"freq":1
},
{
"text":"Marek Nowak",
"label":"nam_liv_person",
"freq":2
},
{
"text":"Orlenu",
"label":"nam_org_group_team",
"freq":1
},
{
"text":"Politechniki Wrocławskiej",
"label":"nam_org_organization",
"freq":2
}
]
poldeepner2({"model": model, "verbose": boo})
model
- nazwa modelu, który ma zostać użyty (domyślnie jest to kpwr-n82-base). Listę dostępnych modeli można znaleźć tutajverbose
- wartość Boolowska (domyślnie True), która wpływa na szczegółowość wyjścia.Wyniki dla Polish RoBERTa large on KPWr n82 test
precision recall f1-score support
nam_adj 0.5246 0.6154 0.5664 52
nam_adj_city 0.8372 0.8571 0.8471 42
nam_adj_country 0.7258 0.8133 0.7670 166
nam_adj_person 1.0000 0.5556 0.7143 18
nam_eve 1.0000 0.8750 0.9333 8
nam_eve_human 0.4000 0.3333 0.3636 78
nam_eve_human_cultural 0.2857 0.2727 0.2791 22
nam_eve_human_holiday 0.5714 0.4444 0.5000 9
nam_eve_human_sport 0.6949 0.7455 0.7193 55
nam_fac_bridge 0.4000 0.5000 0.4444 4
nam_fac_goe 0.6271 0.5781 0.6016 64
nam_fac_goe_stop 0.0000 0.0000 0.0000 4
nam_fac_park 0.8750 0.7000 0.7778 10
nam_fac_road 0.8317 0.8842 0.8571 95
nam_fac_square 0.6667 0.6667 0.6667 6
nam_fac_system 0.8571 0.4615 0.6000 26
nam_liv_animal 1.0000 0.0909 0.1667 11
nam_liv_god 0.7750 0.8857 0.8267 35
nam_liv_habitant 0.3750 0.4286 0.4000 7
nam_liv_person 0.9180 0.9315 0.9247 949
nam_loc 0.0000 0.0000 0.0000 4
nam_loc_country_region 0.0952 0.5000 0.1600 4
nam_loc_gpe_admin1 0.7971 0.8594 0.8271 64
nam_loc_gpe_admin2 0.8438 0.7500 0.7941 36
nam_loc_gpe_admin3 0.8372 0.7660 0.8000 47
nam_loc_gpe_city 0.8425 0.8810 0.8613 437
nam_loc_gpe_country 0.9361 0.9440 0.9400 357
nam_loc_gpe_district 0.5294 0.5000 0.5143 18
nam_loc_gpe_subdivision 0.5417 0.5000 0.5200 26
nam_loc_historical_region 0.5833 0.6364 0.6087 22
nam_loc_hydronym 0.0000 0.0000 0.0000 1
nam_loc_hydronym_lake 0.6667 1.0000 0.8000 2
nam_loc_hydronym_ocean 1.0000 1.0000 1.0000 1
nam_loc_hydronym_river 0.9333 0.8235 0.8750 51
nam_loc_hydronym_sea 0.6000 1.0000 0.7500 3
nam_loc_land 0.0000 0.0000 0.0000 2
nam_loc_land_continent 0.9677 0.9375 0.9524 32
nam_loc_land_island 0.8000 0.7273 0.7619 11
nam_loc_land_mountain 0.6667 0.6667 0.6667 9
nam_loc_land_region 0.4615 0.5455 0.5000 11
nam_num_house 0.9167 1.0000 0.9565 11
nam_num_phone 0.6667 1.0000 0.8000 2
nam_org_company 0.6000 0.6711 0.6335 76
nam_org_group 0.3750 0.1667 0.2308 18
nam_org_group_band 0.7222 0.6842 0.7027 19
nam_org_group_team 0.9091 0.9396 0.9241 149
nam_org_institution 0.6426 0.7368 0.6865 266
nam_org_nation 0.8395 0.8395 0.8395 81
nam_org_organization 0.7523 0.6667 0.7069 246
nam_org_organization_sub 0.3333 0.3333 0.3333 3
nam_org_political_party 0.8657 1.0000 0.9280 58
nam_oth 0.3143 0.5000 0.3860 22
nam_oth_currency 0.9583 0.9020 0.9293 51
nam_oth_data_format 0.8571 0.6000 0.7059 10
nam_oth_license 0.8333 0.9091 0.8696 11
nam_oth_position 0.4286 0.3000 0.3529 10
nam_oth_tech 0.6441 0.6230 0.6333 61
nam_oth_www 0.6667 0.2000 0.3077 20
nam_pro 0.0000 0.0000 0.0000 2
nam_pro_award 0.7000 0.6087 0.6512 23
nam_pro_brand 0.4340 0.5000 0.4646 46
nam_pro_media 0.2500 0.2500 0.2500 8
nam_pro_media_periodic 0.8718 0.8095 0.8395 84
nam_pro_media_radio 0.3333 1.0000 0.5000 3
nam_pro_media_tv 0.5000 0.7143 0.5882 7
nam_pro_media_web 0.3971 0.6750 0.5000 40
nam_pro_model_car 0.7097 0.8462 0.7719 26
nam_pro_software 0.7000 0.5773 0.6328 97
nam_pro_software_game 1.0000 0.3333 0.5000 3
nam_pro_title 0.4872 0.5429 0.5135 35
nam_pro_title_album 0.8333 0.7143 0.7692 7
nam_pro_title_book 0.5000 0.7273 0.5926 11
nam_pro_title_document 0.5769 0.6818 0.6250 88
nam_pro_title_song 0.5000 0.4286 0.4615 7
nam_pro_title_treaty 0.1250 0.5000 0.2000 2
nam_pro_title_tv 0.8462 0.4583 0.5946 24
nam_pro_vehicle 0.0000 0.0000 0.0000 4
micro avg 0.7703 0.7880 0.7791 4430
macro avg 0.7817 0.7880 0.7799 4430
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|poldeepner2')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL