Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa ta łączy transkrypcje wynikające z rozpoznawania mowy na wielu segmentach w jedną główną transkrypcję. W potoku asr zazwyczaj pojawia się bezpośrednio po usłudze rozpoznawania mowy, asr_decoder
lub asr_wav2vec_decoder
.
Usługa może być przydatna w badaniach wymagających transkrypcji wywiadów lub nagrań.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['segmentator', 'completator' ]
["segmentator",[1, "decoder"],"completator"]
Pliki są przetwarzane w następującym potoku:
[1, "decoder"]
oznacza "Wykonaj usługę asr_decoder oddzielnie dla każdego podkatalogu danych wyjściowych Segmentatora, równolegle",Katalog z jednym podkatalogiem na segment, gdzie podkatalogi są nazwane "segment", zaczynając od 0
. Każdy podkatalog musi zawierać dwa pliki, "timestamps.csv"
wskazujący czas rozpoczęcia i zakończenia danego segmentu, a także ".csv"
zawierający rzeczywistą transkrypcję, jak opisano w decoder
lub wav2vec-decoder
.
Przykładowa struktura powinna wyglądać:
Plik JSON, w którym kluczami są znaczniki czasu słów, a wartościami są same słowa. Plik zawiera również klucz "text"
, zawierający całą transkrypcję jako pojedynczy ciąg znaków.
(C) CLARIN-PL