Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
TermoPL to usługa do wydobywania terminów ze zbioru tekstów w języku polskim. Wyszukuje słowa i zestawienia wielowyrazowe, wykorzystując mechanizm zgodności gramatycznej. Wykrywa słowa i frazy charakterystyczne dla danej dziedziny. Wykorzystuje narzędzie TermoPL IPI PAN.
Wydobywanie terminologii może być przydatne w badaniach obejmujących:
TermoPL można wykorzystać m. in. w branży dziennikarskiej, medycznej, prawniczej i e-commerce.
TermoPL można uruchomić:
TermoPL można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: [['any2txt','postagger'],'termopl']
- dane wejściowe są w języku polskim w formacie JSONL.
['unzip','termopl']
- narzędzie pomocnicze unzip
zapewnia poprawne podanie folderumw
: true
- oznacza, że zwracane będą tylko terminy wielowyrazowesw
- ścieżka w systemie usług do pliku zawierającego listę słów niebranych pod uwagę (stoplista)cp
- ścieżka w systemie usług do pliku zawierającego listę wzorców zaimków niebranych pod uwagę (ang. compound prepositions)Uwaga!
Wszystkie opcje są opisane w dokumentacji TermoPL.
Katalog .zip zawierający pliki tekstowe.
Folder plików zawierający:
terms.csv
- podstawowy format plikutermsshort.csv
- plik terms.csv
ograniczony do 1000 rekordówterms.xlsx
- plik terms.csv
przetworzony na plik programu Excel z ustawionym kodowaniem i opisami kolumn. Najlepiej używać tego pliku.lemmasDictionary.json
- plik zawierający lematy, w tym lematy wielowyrazowców, dostosowany do formatu startlisty usługi Fextor3W Colabie: TermoPL - wydobywanie terminów ze zbioru tekstów
Piotr Rychlik, Malgorzata Marciniak, Agnieszka Mykowiecka (2022) "TermoPL: a tool for extracting and clustering domain related terms", JCDL '22: Proceedings of the 22nd ACM/IEEE Joint Conference on Digital Libraries, Association for Computing Machinery: New York, United States, 1–4.
(C) CLARIN-PL