Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Usługa do automatycznego podziału pliku dźwiękowego na rozmówców. Usługa jest dostępna tylko dla języka angielskiego.
Model diaryzacji pochodzi z NVIDIA/NeMo. Usługa przyjmuje plik dźwiękowy, który jest poddawany diaryzacji oraz translacji do tekstu. Jest to podzadanie wykonywane przez Whispera.
Może być przydatny np. w badaniach, które wymagają transkrypcji nagrań.
Usługę można uruchomić za pomocą zapytania LPMN w usłudze LPMN Client:
Usługę można wywołać w systemie Windows z wartościami domyślnymi za pomocą następującego zapytania LPMN: ['diarizer']
.
Brak parametrów do ustawienia.
Plik dźwiękowy w formacie .wav
lub .mp3
.
Plik typu json
z transkrypcją dźwięku oraz podziałem fragmentów na rozmówców.
Wydajność usługi przy dłuższych plikach do przetestowania
W Colabie: Diaryzator - podział pliku dźwiękowego na rozmówców
(C) CLARIN-PL