Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
ASR (ang. Automatic Speech Recognition) to zbiór usług do automatycznego rozpoznawania mowy, który zamienia słowa wypowiedziane przez człowieka na tekst. Pozwala na rozpoznawanie mowy w języku polskim i angielskim.
ASR składa się z następujących usług:
Potok działania usługi ASR:
Segmentator
przetwarza plik wav i dzieli go na mniejsze fragmenty.Decoder
bądź Wav2vec_Decoder
dokonuje faktycznej transkrypcji z utworzonych fragmentów nagrań.Completator
utworzone transkrypcje z fragmentów nagrań są scalane z powrotem do pojedynczego pliku.Denormalizator
surowa transkrypcja jest przekształcana do formy czytelniejszej dla człowieka.Usługa może być przydatna w badaniach wymagających transkrypcji wywiadów lub nagrań.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['']
[ "segmentator", [1, "decoder"], "completator", "denormalizator" ]
Pliki są przetwarzane w następującym potoku:
[1, "decoder"]
oznacza, że dla każdego podkatalogu danych wyjściowych segmentatora usługa 'decoder' jest wykonywana równolegle,Ścieżka do pliku .wav zawierającego nagranie wymagające transkrypcji.
Tekst
(C) CLARIN-PL