Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Punctuator jest usługą dodającą interpunkcję do tekstu w języku polskim, angielskim i rosyjskim. Został opracowany z myślą o przywróceniu interpunkcji do tekstu pochodzącego z transkrypcji tekstu mówionego.
Uwaga! Punctuator dodaje interpunkcję do tekstu, nie poprawia już istniejącej, dlatego kluczową kwestią dla poprawnego działania usługi jest prawidłowe przygotowanie danych wejściowych - nie powinny one zawierać interpunkcji.
Aktualna wersja modelu została wytrenowana na korpusie parlamentarnym i podzbiorze polskiej Wikipedii na zadaniu przywracania oryginalnej interpunkcji. Jest oparty na architekturze BERT.
Parametry skuteczności:
Usługa umożliwia wybór języka przetwarzanego tekstu:
Może być przydatny np. w badaniach:
pod warunkiem, że brak znaków interpunkcyjnych nie jest przedmiotem analizy.
Punctuator można uruchomić:
Punctuator można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['punctuator']
[['punctuator']]
- dane wejściowe w postaci folderu skompresowanego (.zip)[{'punctuator':{'language':'en'}}]
- dane w języku angielskim[{'punctuator':{'language':'ru'}}]
- dane w języku rosyjskimlanguage
- język przetwarzania:
pl
- polski (domyślnie)en
- angielskiru
- rosyjskiPlik gotowy do przetworzenia nie może zawierać żadnych znaków interpunkcyjnych ani dużych liter. Jeżeli w tekście znajdować się będą znaki interpunkcyjne, to Punctuator przetworzy tekst tak, jakby ich nie było, a wszystkie duże litery zostaną zamienione na małe, zanim nastąpi właściwe przetwarzanie tekstu.
Przykład poprawnie przygotowanych danych:
według webometrycznego rankingu uniwersytetów świata ze stycznia 2019 pokazującego zaangażowanie instytucji akademickich w internecie uczelnia zajmuje 5 miejsce w polsce wśród uczelni technicznych a na świecie 964 wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw politechnika wrocławska zajęła w 2019 roku 3 miejsce wśród uczelni technicznych oraz 6 miejsce spośród wszystkich uczelni akademickich w polsce
Plik tekstowy z dodanymi znakami interpunkcyjnymi i dużymi literami.
W Colabie: Punctuator - dodawanie interpunkcji do tekstu
(C) CLARIN-PL