W zależności od wartości argumentu output_format
usługa odpowiada za:
json
: zliczanie wystąpień mianowników z pliku wejściowego dla każdej z danych kategorii.ccl
: rozszerzenie pliku wejściowego o annotacje z kategoriamiany2txt|wcrft2|categories({"csv_input":<str:path>, "output_format":<str>})
csv_input
w opcjach.<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE chunkList SYSTEM "ccl.dtd">
<chunkList>
<chunk id="ch1" type="p">
<sentence id="s1">
<tok>
<orth>Woda</orth>
<lex disamb="1"><base>woda</base><ctag>subst:sg:nom:f</ctag></lex>
</tok>
<tok>
<orth>jest</orth>
<lex disamb="1"><base>być</base><ctag>fin:sg:ter:imperf</ctag></lex>
</tok>
<tok>
<orth>jedną</orth>
<lex disamb="1"><base>jeden</base><ctag>adj:sg:acc:f:pos</ctag></lex>
</tok>
<tok>
<orth>z</orth>
<lex disamb="1"><base>z</base><ctag>prep:gen:nwok</ctag></lex>
</tok>
<tok>
<orth>najpospolitszych</orth>
<lex disamb="1"><base>pospolity</base><ctag>adj:pl:gen:m1:sup</ctag></lex>
</tok>
<tok>
<orth>substancji</orth>
<lex disamb="1"><base>substancja</base><ctag>subst:sg:gen:f</ctag></lex>
</tok>
<tok>
<orth>we</orth>
<lex disamb="1"><base>w</base><ctag>prep:acc:wok</ctag></lex>
</tok>
<tok>
<orth>Wszechświecie</orth>
<lex disamb="1"><base>wszechświat</base><ctag>subst:sg:loc:m3</ctag></lex>
</tok>
<ns/>
<tok>
<orth>.</orth>
<lex disamb="1"><base>.</base><ctag>interp</ctag></lex>
</tok>
</sentence>
</chunk>
<chunk id="ch2" type="p">
<sentence id="s2">
<tok>
<orth>Cząsteczka</orth>
<lex disamb="1"><base>cząsteczka</base><ctag>subst:sg:nom:f</ctag></lex>
</tok>
<tok>
<orth>wody</orth>
<lex disamb="1"><base>woda</base><ctag>subst:sg:gen:f</ctag></lex>
</tok>
<tok>
<orth>jest</orth>
<lex disamb="1"><base>być</base><ctag>fin:sg:ter:imperf</ctag></lex>
</tok>
<tok>
<orth>trzecią</orth>
<lex disamb="1"><base>trzecia</base><ctag>subst:sg:acc:f</ctag></lex>
</tok>
<tok>
<orth>najbardziej</orth>
<lex disamb="1"><base>najbardziej</base><ctag>adv:pos</ctag></lex>
</tok>
<tok>
<orth>rozpowszechnioną</orth>
<lex disamb="1"><base>rozpowszechniony</base><ctag>adj:sg:acc:f:pos</ctag></lex>
</tok>
<tok>
<orth>molekułą</orth>
<lex disamb="1"><base>molekuła</base><ctag>subst:sg:inst:f</ctag></lex>
</tok>
<tok>
<orth>w</orth>
<lex disamb="1"><base>w</base><ctag>prep:acc:nwok</ctag></lex>
</tok>
<tok>
<orth>ośrodku</orth>
<lex disamb="1"><base>ośrodek</base><ctag>subst:sg:loc:m3</ctag></lex>
</tok>
<tok>
<orth>międzygwiazdowym</orth>
<lex disamb="1"><base>międzygwiazdowy</base><ctag>adj:sg:inst:m1:pos</ctag></lex>
</tok>
<ns/>
<tok>
<orth>,</orth>
<lex disamb="1"><base>,</base><ctag>interp</ctag></lex>
</tok>
<tok>
<orth>po</orth>
<lex disamb="1"><base>po</base><ctag>prep:acc</ctag></lex>
</tok>
<tok>
<orth>cząsteczkowym</orth>
<lex disamb="1"><base>cząsteczkowy</base><ctag>adj:sg:inst:m1:pos</ctag></lex>
</tok>
<tok>
<orth>wodorze</orth>
<lex disamb="1"><base>wodór</base><ctag>subst:sg:loc:m3</ctag></lex>
</tok>
<tok>
<orth>i</orth>
<lex disamb="1"><base>i</base><ctag>conj</ctag></lex>
</tok>
<tok>
<orth>tlenku</orth>
<lex disamb="1"><base>tlenek</base><ctag>subst:sg:gen:m3</ctag></lex>
</tok>
<tok>
<orth>węgla</orth>
<lex disamb="1"><base>węgiel</base><ctag>subst:sg:gen:m3</ctag></lex>
</tok>
<ns/>
<tok>
<orth>.</orth>
<lex disamb="1"><base>.</base><ctag>interp</ctag></lex>
</tok>
</sentence>
</chunk>
</chunkList>
base | category |
---|---|
woda | category1 |
wodór | category1 |
substancja | category1 |
być | category2 |
z | category2 |
w | category2 |
najbardziej rozpowszechniony molekuła | category3 |
ośrodek międzygwiazdowy | category4 |
cząsteczkowym | category4 |
nieistniejąca1 | category5 |
nieistniejąca2 | category6 |
Ścieżka do pliku w formacie zadanym jako wartość argumentu output_format
{
"category1": {
"occurences": 4,
"info": [
{
"expression": "Woda",
"context": "Woda jest jedną z najpospolitszych substancji"
},
{
"expression": "substancji",
"context": "Woda jest jedną z najpospolitszych substancji we Wszechświecie."
},
{
"expression": "wody",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą"
},
{
"expression": "wodorze",
"context": "ośrodku międzygwiazdowym, po cząsteczkowym wodorze i tlenku węgla."
}
]
},
"category2": {
"occurences": 5,
"info": [
{
"expression": "jest",
"context": "Woda jest jedną z najpospolitszych substancji we"
},
{
"expression": "z",
"context": "Woda jest jedną z najpospolitszych substancji we Wszechświecie."
},
{
"expression": "we",
"context": "jest jedną z najpospolitszych substancji we Wszechświecie."
},
{
"expression": "jest",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w"
},
{
"expression": "w",
"context": "jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym"
}
]
},
"category3": {
"occurences": 1,
"info": [
{
"expression": "najbardziej rozpowszechnioną molekułą",
"context": "Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po"
}
]
},
"category4": {
"occurences": 1,
"info": [
{
"expression": "ośrodku międzygwiazdowym",
"context": "trzecią najbardziej rozpowszechnioną molekułą w ośrodku międzygwiazdowym, po cząsteczkowym wodorze i"
}
]
},
"category5": {
"occurences": 0,
"info": []
},
"category6": {
"occurences": 0,
"info": []
}
}
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE chunkList SYSTEM "ccl.dtd">
<chunkList>
<chunk type="p" id="ch1">
<sentence id="s1">
<tok>
<orth>Woda</orth>
<lex disamb="1"><base>woda</base><ctag>subst:sg:nom:f</ctag></lex>
<ann chan="nam_loc">0</ann>
<ann chan="category1">1</ann>
</tok>
<tok>
<orth>jest</orth>
<lex disamb="1"><base>być</base><ctag>fin:sg:ter:imperf</ctag></lex>
<ann chan="nam_loc">0</ann>
<ann chan="category2">1</ann>
</tok>
<tok>
<orth>jedną</orth>
<lex disamb="1"><base>jeden</base><ctag>adj:sg:acc:f:pos</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>z</orth>
<lex disamb="1"><base>z</base><ctag>prep:gen:nwok</ctag></lex>
<ann chan="nam_loc">0</ann>
<ann chan="category2">1</ann>
</tok>
<tok>
<orth>najpospolitszych</orth>
<lex disamb="1"><base>pospolity</base><ctag>adj:pl:gen:m1:sup</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
<tok>
<orth>substancji</orth>
<lex disamb="1"><base>substancja</base><ctag>subst:sg:gen:f</ctag></lex>
<ann chan="nam_loc">0</ann>
<ann chan="category1">1</ann>
</tok>
<tok>
<orth>we</orth>
<lex disamb="1"><base>w</base><ctag>prep:acc:wok</ctag></lex>
<ann chan="nam_loc">0</ann>
<ann chan="category2">1</ann>
</tok>
<tok>
<orth>Wszechświecie</orth>
<lex disamb="1"><base>wszechświat</base><ctag>subst:sg:loc:m3</ctag></lex>
<ann chan="nam_loc" head="1">1</ann>
</tok>
<ns />
<tok>
<orth>.</orth>
<lex disamb="1"><base>.</base><ctag>interp</ctag></lex>
<ann chan="nam_loc">0</ann>
</tok>
</sentence>
</chunk>
<chunk type="p" id="ch2">
<sentence id="s2">
<tok>
<orth>Cząsteczka</orth>
<lex disamb="1"><base>cząsteczka</base><ctag>subst:sg:nom:f</ctag></lex>
</tok>
<tok>
<orth>wody</orth>
<lex disamb="1"><base>woda</base><ctag>subst:sg:gen:f</ctag></lex>
<ann chan="category1">1</ann>
</tok>
<tok>
<orth>jest</orth>
<lex disamb="1"><base>być</base><ctag>fin:sg:ter:imperf</ctag></lex>
<ann chan="category2">1</ann>
</tok>
<tok>
<orth>trzecią</orth>
<lex disamb="1"><base>trzecia</base><ctag>subst:sg:acc:f</ctag></lex>
</tok>
<tok>
<orth>najbardziej</orth>
<lex disamb="1"><base>najbardziej</base><ctag>adv:pos</ctag></lex>
<ann chan="category3">1</ann>
</tok>
<tok>
<orth>rozpowszechnioną</orth>
<lex disamb="1"><base>rozpowszechniony</base><ctag>adj:sg:acc:f:pos</ctag></lex>
</tok>
<tok>
<orth>molekułą</orth>
<lex disamb="1"><base>molekuła</base><ctag>subst:sg:inst:f</ctag></lex>
</tok>
<tok>
<orth>w</orth>
<lex disamb="1"><base>w</base><ctag>prep:acc:nwok</ctag></lex>
<ann chan="category2">1</ann>
</tok>
<tok>
<orth>ośrodku</orth>
<lex disamb="1"><base>ośrodek</base><ctag>subst:sg:loc:m3</ctag></lex>
<ann chan="category4">1</ann>
</tok>
<tok>
<orth>międzygwiazdowym</orth>
<lex disamb="1"><base>międzygwiazdowy</base><ctag>adj:sg:inst:m1:pos</ctag></lex>
</tok>
<ns />
<tok>
<orth>,</orth>
<lex disamb="1"><base>,</base><ctag>interp</ctag></lex>
</tok>
<tok>
<orth>po</orth>
<lex disamb="1"><base>po</base><ctag>prep:acc</ctag></lex>
</tok>
<tok>
<orth>cząsteczkowym</orth>
<lex disamb="1"><base>cząsteczkowy</base><ctag>adj:sg:inst:m1:pos</ctag></lex>
</tok>
<tok>
<orth>wodorze</orth>
<lex disamb="1"><base>wodór</base><ctag>subst:sg:loc:m3</ctag></lex>
<ann chan="category1">1</ann>
</tok>
<tok>
<orth>i</orth>
<lex disamb="1"><base>i</base><ctag>conj</ctag></lex>
</tok>
<tok>
<orth>tlenku</orth>
<lex disamb="1"><base>tlenek</base><ctag>subst:sg:gen:m3</ctag></lex>
</tok>
<tok>
<orth>węgla</orth>
<lex disamb="1"><base>węgiel</base><ctag>subst:sg:gen:m3</ctag></lex>
</tok>
<ns />
<tok>
<orth>.</orth>
<lex disamb="1"><base>.</base><ctag>interp</ctag></lex>
</tok>
</sentence>
</chunk>
</chunkList>
categories({"csv_input":<str:path>, "output_format":<str>})
csv_input
: ścieżka do pliku z kategoriami przypisanymi do mianownikówoutput_format
: format pliku wyjściowego ("ccl" lub "json")context_head_len
: ilość tokenów poprzedzających zliczony token w kontekście wystąpienia (domyślnie: 5)context_tail_len
: ilość tokenów następujacych po zliczonym tokenie w kontekście wystąpienia (domyślnie: 5)Jeżeli wartości context_head_len
, context_tail_len
będą wykraczały poza granice zdania zostanie zwrócony odpowiednio lewy/prawy kontekst w granicach zdania.
(C) CLARIN-PL