Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Whisper to usługa ASR (Automatic Speech Recognition) do transkrypcji zawartości plików dźwiękowych oparta na zewnętrznym modelu Whisper OpenAI. Pozwala na rozpoznawanie mowy w języku polskim i angielskim.
Usługę można uruchomić:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['whisper']
.
[{'whisper': {'lang': 'en'}}]
- dane wejściowe w postaci pliku dźwiękowego w języku angielskimNależy wybrać odpowiednią opcję języka dla pliku wejściowego:
lang
- dostępne opcje języka, które definiują używany model:
diabiz
- używany jest model diabiz
dla języka polskiegoen
- używany jest model en
dla języka angielskiegoes
/fr
/... - używany jest model multilingual
Plik dźwiękowy .wav.
Plik tekstowy zawierający transkrypcję danych.
W Colabie: Whisper - transkrypcja zawartości plików dźwiękowych
Marcin Oleksy, Jan Wieczorek, Dorota Drużyłowska, Julia Klyus, Aleksandra Domogała, Krzysztof Hwaszcz, Hanna Kędzierska, Daria Mikoś, Anita Wróż (2022) "DiaBiz.Kom - towards a Polish Dialogue Act Corpus Based on ISO 24617-2 Standard", Proceedings of the 29th International Conference on Computational Linguistics, International Committee on Computational Linguistics: Gyeongju, Republic of Korea, 3631–3638.
(C) CLARIN-PL