SpokesBiz to korpus mówionego języka polskiego zawierający obecnie ponad 650 godzin nagrań, które zostały zdiaryzowane i opatrzone ręczną anotacją interpunkcji i rozróżnieniem na małe oraz wielkie litery. Można go przeszukiwać względem 23 kategorii, takich jak na przykład: rok nagrania, rodzaj komunikacji, ilość słów w danym segmencie, wiek i poziom wykształcenia mówcy z wyróżnieniem na “brak”, “podstawowe”, “średnie” i “wyższe”.
Korpus został stworzony przez zespół w Uniwersytecie Łódzkim w ramach projektu CLARIN-PL Biz (2020-2023) przy współpracy z VoiceLab.
Aby uzyskać dostęp do zasobu, należy wypełnić krótki kwestionariusz. Po jego wypełnieniu zostaną przesłane mailowo informacje z linkiem dostępu.
Piotr Pęzik, Sylwia Karasińska, Anna Cichosz, Łukasz Jałowiecki, Konrad Kaczyński, Małgorzata Krawentek, Karolina Walkusz, Paweł Wilk, Mariusz Kleć, Krzysztof Szklanny, Szymon Marszałkowski (2023) "SpokesBiz – an Open Corpus of Conversational Polish".
(C) CLARIN-PL