Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Jest on odpowiedzialny za faktyczne wykonywanie procesu rozpoznawania mowy. Odbywa się to przy użyciu modeli Whisper firmy OpenAI.
W całym potoku ASR usługa ta zwykle znajduje się pomiędzy "Segmentatorem"
, który dzieli pliki na krótsze segmenty, a "Completatorem"
, który łączy wyniki wielu rozpoznanych segmentów z powrotem w jeden plik.
Usługa może być przydatna w badaniach wymagających transkrypcji wywiadów lub nagrań.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['segmentator', 'completator']
["segmentator", [1, "decoder"],"completator"]
- Pliki są przetwarzane w następującym potoku:
[1, "decoder"]
oznacza "Wykonaj usługę decoder oddzielnie dla każdego podkatalogu danych wyjściowych Segmentatora, równolegle",Dane wejściowe tej usługi to folder o nazwie "segment"
zawierający dwa pliki, ".wav"
i "timestamps.csv"
. Plik "timestamps.csv"
nie jest używany przez tę usługę, jednak jest potrzebny przez Completator, więc jest kopiowany do katalogu wyjściowego dosłownie.
Przykładowa struktura:
Zostanie utworzony katalog w podanej ścieżce wyjściowej. Katalog będzie zawierał dwa pliki, "timestamps.csv"
, skopiowany z katalogu wejściowego, oraz ".csv"
, zawierający rzeczywiste wyniki rozpoznawania mowy.
W pliku ".csv"
każdy wiersz jest przeznaczany na pojedyncze rozpoznane słowo. Jeśli transkrypcja zawiera znaki interpunkcyjne dołączone do słowa bez spacji oddzielającej, takie jak przecinek lub kropka, odpowiedni symbol interpunkcyjny pojawia się w wierszu tego słowa, bezpośrednio przed lub po słowie. Innymi słowy, pełną transkrypcję można zrekonstruować po prostu łącząc wszystkie słowa, używając spacji jako separatora.
Plik zawiera następujące kolumny:
0
."word"
- samo słowo, wraz ze wszystkimi znakami interpunkcyjnymi bezpośrednio poprzedzającymi lub następującymi po tym słowie, jeśli takie występują."start"
- znacznik czasu, od którego zaczyna się to słowo, w sekundach, gdzie 0
oznacza początek segmentu."finish"
- znacznik czasu zakończenia tego słowa, w sekundach, gdzie 0
jest początkiem segmentu."confidence"
- liczba z przedziału od 0 do 1, wyrażająca stopień pewności systemu, że słowo zostało poprawnie rozpoznane, gdzie 0
oznacza skrajną niepewność, a 1
skrajną pewność.(C) CLARIN-PL