Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
TermoPL to usługa do wydobywania terminów ze zbioru tekstów w języku polskim. Wyszukuje słowa i zestawienia wielowyrazowe, wykorzystując mechanizm zgodności gramatycznej. Wykrywa słowa i frazy charakterystyczne dla danej dziedziny. Wykorzystuje narzędzie TermoPL IPI PAN.
Wydobywanie terminologii może być przydatne w badaniach obejmujących:
TermoPL można wykorzystać m. in. w branży dziennikarskiej, medycznej, prawniczej i e-commerce.
TermoPL można uruchomić:
TermoPL można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: [['any2txt','postagger'],'termopl'] - dane wejściowe są w języku polskim w formacie JSONL.
['unzip','termopl'] - narzędzie pomocnicze unzip zapewnia poprawne podanie folderumw : true - oznacza, że zwracane będą tylko terminy wielowyrazowesw - ścieżka w systemie usług do pliku zawierającego listę słów niebranych pod uwagę (stoplista)cp - ścieżka w systemie usług do pliku zawierającego listę wzorców zaimków niebranych pod uwagę (ang. compound prepositions)Uwaga!
Wszystkie opcje są opisane w dokumentacji TermoPL.
Katalog .zip zawierający pliki tekstowe.
Folder plików zawierający:
terms.csv - podstawowy format plikutermsshort.csv - plik terms.csv ograniczony do 1000 rekordówterms.xlsx - plik terms.csv przetworzony na plik programu Excel z ustawionym kodowaniem i opisami kolumn. Najlepiej używać tego pliku.lemmasDictionary.json - plik zawierający lematy, w tym lematy wielowyrazowców, dostosowany do formatu startlisty usługi Fextor3W Colabie: TermoPL - wydobywanie terminów ze zbioru tekstów
Piotr Rychlik, Malgorzata Marciniak, Agnieszka Mykowiecka (2022) "TermoPL: a tool for extracting and clustering domain related terms", JCDL '22: Proceedings of the 22nd ACM/IEEE Joint Conference on Digital Libraries, Association for Computing Machinery: New York, United States, 1–4.
(C) CLARIN-PL