Added missing updates

2024-08-28 11:00:22 +02:00
parent 30b848d853
commit 490f17d6b2
29 changed files with 2 additions and 1 deletions
@@ -0,0 +1,22 @@
+{
+  "language": "SL",
+
+  "corpusLocation": "target/classes/Gigafida_subset",
+  "readHeaderInfo": false,
+  "resultsLocation": "tmp",
+  "selectReader": "XML (Gigafida 1.0, Kres 1.0)",
+  "outputName": "",
+  "punctuation": "comma",
+
+  "tab": "characters",
+
+  "stringLength": 1,
+  "calculateFor": "calculateFor.WORD",
+  "displayTaxonomy": false,
+
+  "msd": "",
+  "taxonomySetOperation": "taxonomySetOperation.UNION",
+  "taxonomy": ["SSJ.T.K.L - tisk-knjižno-leposlovno", "SSJ.T.K.L - tisk-knjižno-leposlovno"],
+  "minimalOccurrences": 1,
+  "minimalTaxonomy": 1
+}
@@ -0,0 +1,21 @@
+
+"language": String - options: "SL", "EN"
+
+"corpusLocation": String - path to input location.
+"readHeaderInfo": Boolean - read taxonomy from corpus files
+"resultsLocation": String - path to results location
+"selectReader": String - options: "VERT + REGI", "XML (Šolar 1.0)", "XML (GOS 1.0)", "XML (ssj500k 2.1)", "XML (Gigafida 2.0)", "XML (Gigafida 1.0, Kres 1.0)", corpusType = GIGAFIDA
+"outputName": String - Output file name
+"punctuation": String - options: "comma", "point"
+
+"tab": String - options: "characters", "wordParts", "words", "wordSets"
+
+"stringLength": int - Number of characters
+"calculateFor": String - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.NORMALIZED_WORD", "calculateFor.LEMMA", "calculateFor.MORPHOSYNTACTIC_SPECS", "calculateFor.MORPHOSYNTACTIC_PROPERTY", "calculateFor.WORD_TYPE", "calculateFor.DIST_WORDS", "calculateFor.DIST_LEMMAS"
+"displayTaxonomy": Boolean - Display taxonomy in output
+
+"msd": String - A valid MSD (or empty)
+"taxonomySetOperation": String - options: "taxonomySetOperation.UNION", "taxonomySetOperation.INTERSECTION"
+"taxonomy": array of Strings - options: "SSJ.T - tisk", "  SSJ.T.K - tisk-knjižno", "    SSJ.T.K.L - tisk-knjižno-leposlovno", "    SSJ.T.K.S - tisk-knjižno-strokovno", "  SSJ.T.P - tisk-periodično", "    SSJ.T.P.C - tisk-periodično-časopis", "    SSJ.T.P.R - tisk-periodično-revija", "  SSJ.T.D - tisk-drugo", "SSJ.I - internet", "Ft.P - prenosnik", "  Ft.P.G - prenosnik-govorni", "  Ft.P.E - prenosnik-elektronski", "  Ft.P.P - prenosnik-pisni", "    Ft.P.P.O - prenosnik-pisni-objavljeno", "      Ft.P.P.O.K - prenosnik-pisni-objavljeno-knjižno", "      Ft.P.P.O.P - prenosnik-pisni-objavljeno-periodično", "        Ft.P.P.O.P.C - prenosnik-pisni-objavljeno-periodično-časopisno", "          Ft.P.P.O.P.C.D - prenosnik-pisni-objavljeno-periodično-časopisno-dnevno", "          Ft.P.P.O.P.C.V - prenosnik-pisni-objavljeno-periodično-časopisno-večkrat tedensko", "          Ft.P.P.O.P.C.T - prenosnik-pisni-objavljeno-periodično-časopisno-tedensko", "        Ft.P.P.O.P.R - prenosnik-pisni-objavljeno-periodično-revialno", "          Ft.P.P.O.P.R.T - prenosnik-pisni-objavljeno-periodično-revialno-tedensko", "          Ft.P.P.O.P.R.S - prenosnik-pisni-objavljeno-periodično-revialno-štirinajstdnevno", "          Ft.P.P.O.P.R.M - prenosnik-pisni-objavljeno-periodično-revialno-mesečno", "          Ft.P.P.O.P.R.D - prenosnik-pisni-objavljeno-periodično-revialno-redkeje kot na mesec", "          Ft.P.P.O.P.R.O - prenosnik-pisni-objavljeno-periodično-revialno-občasno", "    Ft.P.P.N - prenosnik-pisni-neobjavljeno", "      Ft.P.P.N.J - prenosnik-pisni-neobjavljeno-javno", "      Ft.P.P.N.I - prenosnik-pisni-neobjavljeno-interno", "      Ft.P.P.N.Z - prenosnik-pisni-neobjavljeno-zasebno", "Ft.Z - zvrst", "  Ft.Z.U - zvrst-umetnostna", "    Ft.Z.U.P - zvrst-umetnostna-pesniška", "    Ft.Z.U.R - zvrst-umetnostna-prozna", "    Ft.Z.U.D - zvrst-umetnostna-dramska", "  Ft.Z.N - zvrst-neumetnostna", "    Ft.Z.N.S - zvrst-neumetnostna-strokovna", "      Ft.Z.N.S.H - zvrst-neumetnostna-strokovna-humanistična in družboslovna", "      Ft.Z.N.S.N - zvrst-neumetnostna-strokovna-naravoslovna in tehnična", "    Ft.Z.N.N - zvrst-neumetnostna-nestrokovna", "    Ft.Z.N.P - zvrst-neumetnostna-pravna", "Ft.L - zvrst-lektorirano", "  Ft.L.D - zvrst-lektorirano-da", "  Ft.L.N - zvrst-lektorirano-ne", "gos.T - diskurz", "  gos.T.J - diskurz-javni", "    gos.T.J.I - diskurz-javni-informativno-izobraževalni", "    gos.T.J.R - diskurz-javni-razvedrilni", "  gos.T.N - diskurz-nejavni", "    gos.T.N.N - diskurz-nejavni-nezasebni", "    gos.T.N.Z - diskurz-nejavni-zasebni", "gos.S - situacija", "  gos.S.R - situacija-radio", "  gos.S.T - situacija-televizija", "gos.K - kanal", "  gos.K.O - kanal-osebni stik", "  gos.K.P - kanal-telefon", "  gos.K.R - kanal-radio", "  gos.K.T - kanal-televizija"
+"minimalOccurrences": int - Minimal number of occurrences
+"minimalTaxonomy": int - Minimal number of taxonomy branches
@@ -0,0 +1,27 @@
+{
+  "language": "SL",
+
+  "corpusLocation": "target/classes/Gigafida_subset",
+  "readHeaderInfo": false,
+  "resultsLocation": "tmp",
+  "selectReader": "XML (Gigafida 1.0, Kres 1.0)",
+  "outputName": "",
+  "punctuation": "comma",
+
+  "tab": "wordParts",
+
+  "calculateFor": "calculateFor.WORD",
+  "alsoVisualize": ["calculateFor.LEMMA"],
+  "displayTaxonomy": false,
+  "prefixLength": 1,
+  "suffixLength": 0,
+  "prefixList": [],
+  "suffixList": [],
+
+  "msd": "",
+  "taxonomySetOperation": "taxonomySetOperation.UNION",
+  "taxonomy": [],
+  "minimalOccurrences": 1,
+  "minimalTaxonomy": 1,
+  "minimalRelFre": 1
+}
@@ -0,0 +1,26 @@
+
+"language": String - options: "SL", "EN"
+
+"corpusLocation": String - path to input location.
+"readHeaderInfo": Boolean - read taxonomy from corpus files
+"resultsLocation": String - path to results location
+"selectReader": String - options: "VERT + REGI", "XML (Šolar 1.0)", "XML (GOS 1.0)", "XML (ssj500k 2.1)", "XML (Gigafida 2.0)", "XML (Gigafida 1.0, Kres 1.0)", corpusType = GIGAFIDA
+"outputName": String - Output file name
+"punctuation": String - options: "comma", "point"
+
+"tab": String - options: "characters", "wordParts", "words", "wordSets"
+
+"calculateFor": String - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.NORMALIZED_WORD", "calculateFor.LEMMA", "calculateFor.MORPHOSYNTACTIC_SPECS", "calculateFor.MORPHOSYNTACTIC_PROPERTY", "calculateFor.WORD_TYPE", "calculateFor.DIST_WORDS", "calculateFor.DIST_LEMMAS"
+"alsoVisualize": array of Strings - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.LEMMA", "calculateFor.NORMALIZED_WORD", "calculateFor.WORD_TYPE", "calculateFor.MORPHOSYNTACTIC_SPECS"
+"displayTaxonomy": Boolean - Display taxonomy in output
+"prefixLength": int - prefix length
+"suffixLength": int - suffix length
+"prefixList": array of Strings - write different options in array
+"suffixList": array of Strings - write different options in array
+
+"msd": String - A valid MSD (or empty)
+"taxonomySetOperation": String - options: "taxonomySetOperation.UNION", "taxonomySetOperation.INTERSECTION"
+"taxonomy": array of Strings - options: "SSJ.T - tisk", "  SSJ.T.K - tisk-knjižno", "    SSJ.T.K.L - tisk-knjižno-leposlovno", "    SSJ.T.K.S - tisk-knjižno-strokovno", "  SSJ.T.P - tisk-periodično", "    SSJ.T.P.C - tisk-periodično-časopis", "    SSJ.T.P.R - tisk-periodično-revija", "  SSJ.T.D - tisk-drugo", "SSJ.I - internet", "Ft.P - prenosnik", "  Ft.P.G - prenosnik-govorni", "  Ft.P.E - prenosnik-elektronski", "  Ft.P.P - prenosnik-pisni", "    Ft.P.P.O - prenosnik-pisni-objavljeno", "      Ft.P.P.O.K - prenosnik-pisni-objavljeno-knjižno", "      Ft.P.P.O.P - prenosnik-pisni-objavljeno-periodično", "        Ft.P.P.O.P.C - prenosnik-pisni-objavljeno-periodično-časopisno", "          Ft.P.P.O.P.C.D - prenosnik-pisni-objavljeno-periodično-časopisno-dnevno", "          Ft.P.P.O.P.C.V - prenosnik-pisni-objavljeno-periodično-časopisno-večkrat tedensko", "          Ft.P.P.O.P.C.T - prenosnik-pisni-objavljeno-periodično-časopisno-tedensko", "        Ft.P.P.O.P.R - prenosnik-pisni-objavljeno-periodično-revialno", "          Ft.P.P.O.P.R.T - prenosnik-pisni-objavljeno-periodično-revialno-tedensko", "          Ft.P.P.O.P.R.S - prenosnik-pisni-objavljeno-periodično-revialno-štirinajstdnevno", "          Ft.P.P.O.P.R.M - prenosnik-pisni-objavljeno-periodično-revialno-mesečno", "          Ft.P.P.O.P.R.D - prenosnik-pisni-objavljeno-periodično-revialno-redkeje kot na mesec", "          Ft.P.P.O.P.R.O - prenosnik-pisni-objavljeno-periodično-revialno-občasno", "    Ft.P.P.N - prenosnik-pisni-neobjavljeno", "      Ft.P.P.N.J - prenosnik-pisni-neobjavljeno-javno", "      Ft.P.P.N.I - prenosnik-pisni-neobjavljeno-interno", "      Ft.P.P.N.Z - prenosnik-pisni-neobjavljeno-zasebno", "Ft.Z - zvrst", "  Ft.Z.U - zvrst-umetnostna", "    Ft.Z.U.P - zvrst-umetnostna-pesniška", "    Ft.Z.U.R - zvrst-umetnostna-prozna", "    Ft.Z.U.D - zvrst-umetnostna-dramska", "  Ft.Z.N - zvrst-neumetnostna", "    Ft.Z.N.S - zvrst-neumetnostna-strokovna", "      Ft.Z.N.S.H - zvrst-neumetnostna-strokovna-humanistična in družboslovna", "      Ft.Z.N.S.N - zvrst-neumetnostna-strokovna-naravoslovna in tehnična", "    Ft.Z.N.N - zvrst-neumetnostna-nestrokovna", "    Ft.Z.N.P - zvrst-neumetnostna-pravna", "Ft.L - zvrst-lektorirano", "  Ft.L.D - zvrst-lektorirano-da", "  Ft.L.N - zvrst-lektorirano-ne", "gos.T - diskurz", "  gos.T.J - diskurz-javni", "    gos.T.J.I - diskurz-javni-informativno-izobraževalni", "    gos.T.J.R - diskurz-javni-razvedrilni", "  gos.T.N - diskurz-nejavni", "    gos.T.N.N - diskurz-nejavni-nezasebni", "    gos.T.N.Z - diskurz-nejavni-zasebni", "gos.S - situacija", "  gos.S.R - situacija-radio", "  gos.S.T - situacija-televizija", "gos.K - kanal", "  gos.K.O - kanal-osebni stik", "  gos.K.P - kanal-telefon", "  gos.K.R - kanal-radio", "  gos.K.T - kanal-televizija"
+"minimalOccurrences": int - Minimal number of occurrences
+"minimalTaxonomy": int - Minimal number of taxonomy branches
+"minimalRelFre": int - Minimal relative frequency
@@ -0,0 +1,27 @@
+{
+  "language": "SL",
+
+  "corpusLocation": "target/classes/Gigafida_subset",
+  "readHeaderInfo": false,
+  "resultsLocation": "tmp",
+  "selectReader": "XML (Gigafida 1.0, Kres 1.0)",
+  "outputName": "",
+  "punctuation": "comma",
+
+  "tab": "wordSets",
+
+  "calculateFor": "calculateFor.WORD",
+  "alsoVisualize": ["calculateFor.MORPHOSYNTACTIC_SPECS"],
+  "displayTaxonomy": false,
+  "ngramValue": 2,
+  "skipValue": 0,
+  "notePunctuations": false,
+  "collocability": ["Dice"],
+
+  "msd": "Sozei Sozei",
+  "taxonomySetOperation": "taxonomySetOperation.UNION",
+  "taxonomy": [],
+  "minimalOccurrences": 1,
+  "minimalTaxonomy": 1,
+  "minimalRelFre": 1
+}
@@ -0,0 +1,26 @@
+
+"language": String - options: "SL", "EN"
+
+"corpusLocation": String - path to input location.
+"readHeaderInfo": Boolean - read taxonomy from corpus files
+"resultsLocation": String - path to results location
+"selectReader": String - options: "VERT + REGI", "XML (Šolar 1.0)", "XML (GOS 1.0)", "XML (ssj500k 2.1)", "XML (Gigafida 2.0)", "XML (Gigafida 1.0, Kres 1.0)", corpusType = GIGAFIDA
+"outputName": String - Output file name
+"punctuation": String - options: "comma", "point"
+
+"tab": String - options: "characters", "wordParts", "words", "wordSets"
+
+"calculateFor": String - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.NORMALIZED_WORD", "calculateFor.LEMMA", "calculateFor.MORPHOSYNTACTIC_SPECS", "calculateFor.MORPHOSYNTACTIC_PROPERTY", "calculateFor.WORD_TYPE", "calculateFor.DIST_WORDS", "calculateFor.DIST_LEMMAS"
+"alsoVisualize": array of Strings - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.LEMMA", "calculateFor.NORMALIZED_WORD", "calculateFor.WORD_TYPE", "calculateFor.MORPHOSYNTACTIC_SPECS"
+"displayTaxonomy": Boolean - Display taxonomy in output
+"ngramValue": int - N-gram length
+"skipValue": int - Maximum number of words that can appear between two words and word set
+"notePunctuations": Boolean - The output will also include parts of morphosyntactic tag
+"collocability": array of Strings - options: "Dice", "t-score", "MI", "MI3", "logDice", "simple LL"
+
+"msd": String - A valid MSD (or empty)
+"taxonomySetOperation": String - options: "taxonomySetOperation.UNION", "taxonomySetOperation.INTERSECTION"
+"taxonomy": array of Strings - options: "SSJ.T - tisk", "  SSJ.T.K - tisk-knjižno", "    SSJ.T.K.L - tisk-knjižno-leposlovno", "    SSJ.T.K.S - tisk-knjižno-strokovno", "  SSJ.T.P - tisk-periodično", "    SSJ.T.P.C - tisk-periodično-časopis", "    SSJ.T.P.R - tisk-periodično-revija", "  SSJ.T.D - tisk-drugo", "SSJ.I - internet", "Ft.P - prenosnik", "  Ft.P.G - prenosnik-govorni", "  Ft.P.E - prenosnik-elektronski", "  Ft.P.P - prenosnik-pisni", "    Ft.P.P.O - prenosnik-pisni-objavljeno", "      Ft.P.P.O.K - prenosnik-pisni-objavljeno-knjižno", "      Ft.P.P.O.P - prenosnik-pisni-objavljeno-periodično", "        Ft.P.P.O.P.C - prenosnik-pisni-objavljeno-periodično-časopisno", "          Ft.P.P.O.P.C.D - prenosnik-pisni-objavljeno-periodično-časopisno-dnevno", "          Ft.P.P.O.P.C.V - prenosnik-pisni-objavljeno-periodično-časopisno-večkrat tedensko", "          Ft.P.P.O.P.C.T - prenosnik-pisni-objavljeno-periodično-časopisno-tedensko", "        Ft.P.P.O.P.R - prenosnik-pisni-objavljeno-periodično-revialno", "          Ft.P.P.O.P.R.T - prenosnik-pisni-objavljeno-periodično-revialno-tedensko", "          Ft.P.P.O.P.R.S - prenosnik-pisni-objavljeno-periodično-revialno-štirinajstdnevno", "          Ft.P.P.O.P.R.M - prenosnik-pisni-objavljeno-periodično-revialno-mesečno", "          Ft.P.P.O.P.R.D - prenosnik-pisni-objavljeno-periodično-revialno-redkeje kot na mesec", "          Ft.P.P.O.P.R.O - prenosnik-pisni-objavljeno-periodično-revialno-občasno", "    Ft.P.P.N - prenosnik-pisni-neobjavljeno", "      Ft.P.P.N.J - prenosnik-pisni-neobjavljeno-javno", "      Ft.P.P.N.I - prenosnik-pisni-neobjavljeno-interno", "      Ft.P.P.N.Z - prenosnik-pisni-neobjavljeno-zasebno", "Ft.Z - zvrst", "  Ft.Z.U - zvrst-umetnostna", "    Ft.Z.U.P - zvrst-umetnostna-pesniška", "    Ft.Z.U.R - zvrst-umetnostna-prozna", "    Ft.Z.U.D - zvrst-umetnostna-dramska", "  Ft.Z.N - zvrst-neumetnostna", "    Ft.Z.N.S - zvrst-neumetnostna-strokovna", "      Ft.Z.N.S.H - zvrst-neumetnostna-strokovna-humanistična in družboslovna", "      Ft.Z.N.S.N - zvrst-neumetnostna-strokovna-naravoslovna in tehnična", "    Ft.Z.N.N - zvrst-neumetnostna-nestrokovna", "    Ft.Z.N.P - zvrst-neumetnostna-pravna", "Ft.L - zvrst-lektorirano", "  Ft.L.D - zvrst-lektorirano-da", "  Ft.L.N - zvrst-lektorirano-ne", "gos.T - diskurz", "  gos.T.J - diskurz-javni", "    gos.T.J.I - diskurz-javni-informativno-izobraževalni", "    gos.T.J.R - diskurz-javni-razvedrilni", "  gos.T.N - diskurz-nejavni", "    gos.T.N.N - diskurz-nejavni-nezasebni", "    gos.T.N.Z - diskurz-nejavni-zasebni", "gos.S - situacija", "  gos.S.R - situacija-radio", "  gos.S.T - situacija-televizija", "gos.K - kanal", "  gos.K.O - kanal-osebni stik", "  gos.K.P - kanal-telefon", "  gos.K.R - kanal-radio", "  gos.K.T - kanal-televizija"
+"minimalOccurrences": int - Minimal number of occurrences
+"minimalTaxonomy": int - Minimal number of taxonomy branches
+"minimalRelFre": int - Minimal relative frequency
@@ -0,0 +1,25 @@
+{
+  "language": "SL",
+
+  "corpusLocation": "target/classes/Gigafida_minimal/gfmin.xml",
+  "readHeaderInfo": false,
+  "resultsLocation": "tmp",
+  "selectReader": "XML (Gigafida 1.0, Kres 1.0)",
+  "outputName": "",
+  "punctuation": "comma",
+
+  "tab": "words",
+
+  "calculateFor": "calculateFor.WORD",
+  "alsoVisualize": ["calculateFor.LEMMA"],
+  "displayTaxonomy": false,
+  "notePunctuations": false,
+  "writeMsdAtTheEnd": false,
+
+  "msd": "",
+  "taxonomySetOperation": "taxonomySetOperation.UNION",
+  "taxonomy": ["    SSJ.T.K.S - tisk-knjižno-strokovno"],
+  "minimalOccurrences": 1,
+  "minimalTaxonomy": 1,
+  "minimalRelFre": 1
+}
@@ -0,0 +1,24 @@
+
+"language": String - options: "SL", "EN"
+
+"corpusLocation": String - path to input location.
+"readHeaderInfo": Boolean - read taxonomy from corpus files
+"resultsLocation": String - path to results location
+"selectReader": String - options: "VERT + REGI", "XML (Šolar 1.0)", "XML (GOS 1.0)", "XML (ssj500k 2.1)", "XML (Gigafida 2.0)", "XML (Gigafida 1.0, Kres 1.0)", corpusType = GIGAFIDA
+"outputName": String - Output file name
+"punctuation": String - options: "comma", "point"
+
+"tab": String - options: "characters", "wordParts", "words", "wordSets"
+
+"calculateFor": String - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.NORMALIZED_WORD", "calculateFor.LEMMA", "calculateFor.MORPHOSYNTACTIC_SPECS", "calculateFor.MORPHOSYNTACTIC_PROPERTY", "calculateFor.WORD_TYPE", "calculateFor.DIST_WORDS", "calculateFor.DIST_LEMMAS"
+"alsoVisualize": array of Strings - options: "calculateFor.WORD", "calculateFor.LOWERCASE_WORD", "calculateFor.LEMMA", "calculateFor.NORMALIZED_WORD", "calculateFor.WORD_TYPE", "calculateFor.MORPHOSYNTACTIC_SPECS"
+"displayTaxonomy": Boolean - Display taxonomy in output
+"notePunctuations": Boolean - The output will also include parts of morphosyntactic tag
+"writeMsdAtTheEnd": Boolean - Word sets will include punctuations
+
+"msd": String - A valid MSD (or empty)
+"taxonomySetOperation": String - options: "taxonomySetOperation.UNION", "taxonomySetOperation.INTERSECTION"
+"taxonomy": array of Strings - options: "SSJ.T - tisk", "  SSJ.T.K - tisk-knjižno", "    SSJ.T.K.L - tisk-knjižno-leposlovno", "    SSJ.T.K.S - tisk-knjižno-strokovno", "  SSJ.T.P - tisk-periodično", "    SSJ.T.P.C - tisk-periodično-časopis", "    SSJ.T.P.R - tisk-periodično-revija", "  SSJ.T.D - tisk-drugo", "SSJ.I - internet", "Ft.P - prenosnik", "  Ft.P.G - prenosnik-govorni", "  Ft.P.E - prenosnik-elektronski", "  Ft.P.P - prenosnik-pisni", "    Ft.P.P.O - prenosnik-pisni-objavljeno", "      Ft.P.P.O.K - prenosnik-pisni-objavljeno-knjižno", "      Ft.P.P.O.P - prenosnik-pisni-objavljeno-periodično", "        Ft.P.P.O.P.C - prenosnik-pisni-objavljeno-periodično-časopisno", "          Ft.P.P.O.P.C.D - prenosnik-pisni-objavljeno-periodično-časopisno-dnevno", "          Ft.P.P.O.P.C.V - prenosnik-pisni-objavljeno-periodično-časopisno-večkrat tedensko", "          Ft.P.P.O.P.C.T - prenosnik-pisni-objavljeno-periodično-časopisno-tedensko", "        Ft.P.P.O.P.R - prenosnik-pisni-objavljeno-periodično-revialno", "          Ft.P.P.O.P.R.T - prenosnik-pisni-objavljeno-periodično-revialno-tedensko", "          Ft.P.P.O.P.R.S - prenosnik-pisni-objavljeno-periodično-revialno-štirinajstdnevno", "          Ft.P.P.O.P.R.M - prenosnik-pisni-objavljeno-periodično-revialno-mesečno", "          Ft.P.P.O.P.R.D - prenosnik-pisni-objavljeno-periodično-revialno-redkeje kot na mesec", "          Ft.P.P.O.P.R.O - prenosnik-pisni-objavljeno-periodično-revialno-občasno", "    Ft.P.P.N - prenosnik-pisni-neobjavljeno", "      Ft.P.P.N.J - prenosnik-pisni-neobjavljeno-javno", "      Ft.P.P.N.I - prenosnik-pisni-neobjavljeno-interno", "      Ft.P.P.N.Z - prenosnik-pisni-neobjavljeno-zasebno", "Ft.Z - zvrst", "  Ft.Z.U - zvrst-umetnostna", "    Ft.Z.U.P - zvrst-umetnostna-pesniška", "    Ft.Z.U.R - zvrst-umetnostna-prozna", "    Ft.Z.U.D - zvrst-umetnostna-dramska", "  Ft.Z.N - zvrst-neumetnostna", "    Ft.Z.N.S - zvrst-neumetnostna-strokovna", "      Ft.Z.N.S.H - zvrst-neumetnostna-strokovna-humanistična in družboslovna", "      Ft.Z.N.S.N - zvrst-neumetnostna-strokovna-naravoslovna in tehnična", "    Ft.Z.N.N - zvrst-neumetnostna-nestrokovna", "    Ft.Z.N.P - zvrst-neumetnostna-pravna", "Ft.L - zvrst-lektorirano", "  Ft.L.D - zvrst-lektorirano-da", "  Ft.L.N - zvrst-lektorirano-ne", "gos.T - diskurz", "  gos.T.J - diskurz-javni", "    gos.T.J.I - diskurz-javni-informativno-izobraževalni", "    gos.T.J.R - diskurz-javni-razvedrilni", "  gos.T.N - diskurz-nejavni", "    gos.T.N.N - diskurz-nejavni-nezasebni", "    gos.T.N.Z - diskurz-nejavni-zasebni", "gos.S - situacija", "  gos.S.R - situacija-radio", "  gos.S.T - situacija-televizija", "gos.K - kanal", "  gos.K.O - kanal-osebni stik", "  gos.K.P - kanal-telefon", "  gos.K.R - kanal-radio", "  gos.K.T - kanal-televizija"
+"minimalOccurrences": int - Minimal number of occurrences
+"minimalTaxonomy": int - Minimal number of taxonomy branches
+"minimalRelFre": int - Minimal relative frequency