ChronoPress to korpus i wyszukiwarka artykułów prasowych. Zawiera obecnie ok. 100.000 starannie dobranych fragmentów tekstów prasowych opracowanych językowo na poziomie morfosyntaktycznym i oznaczonych metadanymi. Wszystkie fragmenty użyte są na zasadach cytatu. Próbki mają długość ok. 300 wyrazów tekstowych i reprezentują pełne spektrum tematyczne oficjalnego dyskursu publicznego lat 1945–1964 (od 12 do 20 różnych tytułów gazet lub czasopism na rok). Docelowo korpus obejmie stulecie polskiej niepodległości (1918–2018).
ChronoPress wykorzystuje lematyzator języka polskiego (Tager WCRFT2 z analizatorem morfologicznym Morfeusz), dzięki czemu możliwe jest generowanie charakterystyk podzbiorów złożonych z konkretnych części mowy.
ChronoPress jest dostępny tutaj.
Adam Pawłowski (2017) "ChronoPress – Chronological Corpus of Polish Press Texts (1945–1962)".
Adam Pawłowski (2016) "Chronological corpora: Challenges and opportunities of sequential analysis. The example of ChronoPress corpus of Polish", Digital Humanities 2016: Conference Abstracts, Jagiellonian University & Pedagogical University, Kraków, 311-313.
(C) CLARIN-PL