Usługi oferowane przez CLARIN-PL wykorzystują modele językowe do zadań przetwarzania języka naturalnego. Model językowy wykorzystuje metody statystyczne do określenia prawdopodobieństwa występowania słów w tekście. Wybrane modele można wytrenować do realizacji specyficznych zadań.
Modele głębokie dostępne w usługach oferowanych przez Clarin przetwarzają tekst do sekwencji wektorów osadzeń lub sekwencji słów. Wektor osadzeń to wektor liczbowy stanowiący wynik transformacji danego słowa z tekstu na wektor liczbowy i reprezentujący jego wystąpienie w określonym kontekście jako znaczący semantycznie punkt w przestrzeni. Modele analizują pojedyncze słowa lub całe zdania, działają na krótkim tekście, więc długi tekst będzie automatycznie dzielony na mniejsze fragmenty.
Reprezentacja wektorowa tekstów:
Wydobywanie informacji z tekstu:
Modyfikacja tekstu:
Jan Kocoń, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szydło, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Kocoń, Bartłomiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Marcin Oleksy, Maciej Piasecki, Łukasz Radliński, Konrad Wojtasik, Stanisław Woźniak, Przemysław Kazienko, 2023, "ChatGPT: Jack of all trades, master of none", Information Fusion, Volume 99.
Jan Kocoń, Michał Gawor, 2018, "Evaluating KGR10 Polish word embeddings in the recognition of temporal expressions using BiLSTM-CRF", Schedae Informaticae, Volume 27, 93 - 106.
CLARIN-PL: https://services.clarin-pl.eu/login
(C) CLARIN-PL