Usługa odpowiada za przekształcanie plików wyjściowych usługi Categories do bardziej przystępnego dla człowieka formatu oraz podsumowanie danych.
any2txt|wcrft2|categories|dir|transformer({"format": <str>})
{
"category1": {
"occurences": 2,
"info": [
{
"expression": "Woda",
"context": "Woda jest jedną z najpospolitszych substancji"
},
{
"expression": "substancji",
"context": "Woda jest jedną z najpospolitszych substancji we Wszechświecie."
}
]
},
"category2": {
"occurences": 3,
"info": [
{
"expression": "jest",
"context": "Woda jest jedną z najpospolitszych substancji we"
},
{
"expression": "z",
"context": "Woda jest jedną z najpospolitszych substancji we Wszechświecie."
},
{
"expression": "we",
"context": "jest jedną z najpospolitszych substancji we Wszechświecie."
}
]
},
"category3": {
"occurences": 0,
"info": []
},
"category4": {
"occurences": 0,
"info": []
},
"category5": {
"occurences": 0,
"info": []
},
"category6": {
"occurences": 0,
"info": []
}
}
{
"category1": {
"occurences": 2,
"info": [
{
"expression": "wody",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą"
},
{
"expression": "wodorze",
"context": "ośrodku międzygwiazdowym, po cząsteczkowym wodorze i tlenku węgla."
}
]
},
"category2": {
"occurences": 2,
"info": [
{
"expression": "jest",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w"
},
{
"expression": "w",
"context": "jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym"
}
]
},
"category3": {
"occurences": 1,
"info": [
{
"expression": "najbardziej rozpowszechnioną molekułą",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po"
}
]
},
"category4": {
"occurences": 1,
"info": [
{
"expression": "ośrodku międzygwiazdowym",
"context": "trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym wodorze i"
}
]
},
"category5": {
"occurences": 0,
"info": []
},
"category6": {
"occurences": 0,
"info": []
}
}
Ścieżka do pliku w formacie zadanym jako argument format
w opcjach.
W formacie .xlsx tabele znajdują się w oddzielnych kartach.
Aktualnie jedynym dostępnym formatem jest .xlsx
Podsumowanie:
Kategoria | Suma wystąpień | plik1 | plik2 |
---|---|---|---|
category1 | 4 | 2 | 2 |
category2 | 5 | 3 | 2 |
category3 | 1 | 0 | 1 |
category4 | 1 | 0 | 1 |
category5 | 0 | 0 | 0 |
category6 | 0 | 0 | 0 |
Szczegóły:
Kategoria | Token | Plik | Kontekst |
---|---|---|---|
category1 | Woda | plik1 | Woda jest jedną z najpospolitszych substancji |
category1 | substancji | plik1 | Woda jest jedną z najpospolitszych substancji we Wszechświecie. |
category2 | jest | plik1 | Woda jest jedną z najpospolitszych substancji we |
category2 | z | plik1 | Woda jest jedną z najpospolitszych substancji we Wszechświecie. |
category2 | we | plik1 | jest jedną z najpospolitszych substancji we Wszechświecie. |
category1 | wody | plik2 | Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą |
category1 | wodorze | plik2 | ośrodku międzygwiazdowym, po cząsteczkowym wodorze i tlenku węgla. |
category2 | jest | plik2 | Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w |
category2 | w | plik2 | jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym |
category3 | najbardziej rozpowszechnioną molekułą | plik2 | Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po |
category4 | ośrodku międzygwiazdowym | plik2 | trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym wodorze i |
transformer({"format": <str>})
format
: format pliku wyjściowego"xlsx"
start_row
: indeks pierwszego wiersza w dokumencie (domyślnie: 2)start_col
: indeks pierwszej kolumny w dokumencie (domyślnie: 1)Prawidłowe wartości argumentów start_row
, start_col
są liczbami całkowitymi, nieujemnymi.
Jeżeli podana wartość będzie nieprawidłowa zostanie przyjęta wartość domyślna
(C) CLARIN-PL