Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Segmentator dzieli plik audio, który jest nagraniem co najmniej jednej osoby mówiącej, na mniejsze fragmenty.
Jeśli wynikowe fragmenty są nadal zbyt długie, model dzieli je na fragmenty o maksymalnej długości 30
sekund.
Segmentacja plików ma zastosowanie na przykład w automatycznym rozpoznawaniu mowy, ponieważ modele uczenia maszynowego są zwykle lepsze w rozpoznawaniu stosunkowo krótkich fragmentów. Moduł segmentacji wykorzystuje model VAD (Voice Activity Detection) do automatycznej segmentacji pliku audio na mniejsze fragmenty poprzez wykrywanie głosów mówiących osób.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['segmentator', 'completator']
["segmentator",[1, "decoder"],"completator"]
Pliki są przetwarzane w następującym potoku:
[1, "decoder"]
oznacza "Wykonaj usługę asr_decoder oddzielnie dla każdego podkatalogu danych wyjściowych Segmentatora, równolegle",Ścieżka do pliku o rozszerzeniu .wav
zawierającym nagranie conajmniej jednej osoby mówiącej.
Folder zawierający:
.csv
o nazwie "timestamps.csv"
z czterema kolumnami:
index_col=0
."recording"
zawierający numer nagrania, do którego odnosi się wiersz."start"
wskazujący bezwzględny czas rozpoczęcia nagrania liczony od początku oryginalnego pliku dźwiękowego."finish"
wskazujący bezwzględny czas zakończenia nagrania liczony od początku oryginalnego pliku dźwiękowego.(C) CLARIN-PL