Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
TermoPL to usługa do wydobywania terminów ze zbioru tekstów w języku polskim. Wyszukuje słowa i zestawienia wielowyrazowe, wykorzystując mechanizm zgodności gramatycznej. Wykrywa słowa i frazy charakterystyczne dla danej dziedziny. Wykorzystuje narzędzie TermoPL.
Wydobywanie terminologii może być przydatne w badaniach obejmujących:
TermoPL można wykorzystać m. in. w branży dziennikarskiej, medycznej, prawniczej i e-commerce.
TermoPL można uruchomić:
mw
: true
- oznacza, że zwracane będą tylko terminy wielowyrazowesw
- ścieżka w systemie usług do pliku zawierającego listę słów niebranych pod uwagę (stoplista)cp
- ścieżka w systemie usług do pliku zawierającego listę wzorców zaimków niebranych pod uwagę (ang. compound prepositions)Wszystkie opcje są opisane w dokumentacji TermoPL.
[['any2txt',{'postagger':{'lang':'pl','output':'ccl'}}],'termopl']
- zapytanie z wykorzystaniem narzędzi any2txt
oraz postagger
['unzip','termopl']
- zapytanie z wartościami domyślnymi (dane wejściowe w formacie CCL), narzędzie pomocnicze unzip
zapewnia poprawne podanie folderuFolder zawierający pliki w formacie CCL (wyjście z Postaggera z opcją output
: ccl
).
Folder zawierający pliki:
terms.csv
- plik zawierający informacje o randze i lemacie formy napotkanej w tekścietermsshort.csv
- plik terms.csv
ograniczony do 1000 rekordówterms.xlsx
- plik terms.csv
przetworzony na plik programu Excel z ustawionym kodowaniem i opisami kolumnlemmasDictionary.json
- plik zawierający lematy, w tym lematy wielowyrazowców, dostosowany do formatu startlisty usługi Fextor3W Colabie: TermoPL - wydobywanie terminów ze zbioru tekstów