Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Ta usługa wykonuje rozpoznawanie mowy przy użyciu modelu Wav2vec
dostosowanego do języka polskiego. Jest podobna do usługi asr_decoder
, ale używa Wav2vec
zamiast Whisper
.
Usługa może być przydatna w badaniach wymagających transkrypcji wywiadów lub nagrań.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['segmentator', 'completator']
["segmentator", [1, "wav2vec_decoder"], "completator"]
Pliki są przetwarzane w następującym potoku:
[1, "wav2vec_decoder"]
oznacza "Wykonaj usługę asr_wav2vec_decoder oddzielnie dla każdego podkatalogu danych wyjściowych Segmentatora (AKA dla każdego segmentu) równolegle",Dane wejściowe tej usługi to folder o nazwie "segment" zawierający dwa pliki, ".wav" i "timestamps.csv". Plik "timestamps.csv" nie jest używany przez tę usługę, jednak jest potrzebny przez Completator, więc jest kopiowany do katalogu wyjściowego dosłownie.
Przykładowa struktura powinna wyglądać:
Zostanie utworzony katalog w podanej ścieżce wyjściowej. Katalog będzie zawierał dwa pliki, "timestamps.csv"
, skopiowany z katalogu wejściowego, oraz ".csv"
, zawierający rzeczywiste wyniki rozpoznawania mowy.
W pliku ".csv"
każdy wiersz jest przeznaczany na pojedyncze rozpoznane słowo. Jeśli transkrypcja zawiera znaki interpunkcyjne dołączone do słowa bez spacji oddzielającej, takie jak przecinek lub kropka, odpowiedni symbol interpunkcyjny pojawia się w wierszu tego słowa, bezpośrednio przed lub po słowie. Innymi słowy, pełną transkrypcję można zrekonstruować po prostu łącząc wszystkie słowa, używając spacji jako separatora.
Plik zawiera następujące kolumny:
0
."word"
- samo słowo, wraz ze wszystkimi znakami interpunkcyjnymi bezpośrednio poprzedzającymi lub następującymi po tym słowie, jeśli takie występują."start"
- znacznik czasu, od którego zaczyna się to słowo, w sekundach, gdzie 0
oznacza początek segmentu."finish"
- znacznik czasu zakończenia tego słowa, w sekundach, gdzie 0
jest początkiem segmentu."confidence"
- liczba z przedziału od 0 do 1, wyrażająca stopień pewności systemu, że słowo zostało poprawnie rozpoznane, gdzie 0
oznacza skrajną niepewność, a 1
skrajną pewność.(C) CLARIN-PL