Computer formatted

2018-07-23 09:14:46 +02:00 · 2018-07-23 09:14:46 +02:00 · bebc0abbb3
commit bebc0abbb3
parent 84d0086a66
92 changed files with 74 additions and 12 deletions
--- a/.gitignore
+++ b/.gitignore
--- a/Analyzer.iml
+++ b/Analyzer.iml
--- a/pom.xml
+++ b/pom.xml
--- a/src/main/java/alg/Common.java
+++ b/src/main/java/alg/Common.java
--- a/src/main/java/alg/XML_processing.java
+++ b/src/main/java/alg/XML_processing.java
@ -224,7 +224,8 @@ public class XML_processing {
 	@SuppressWarnings("unused")
 	public static void readXMLSolar(String path, StatisticsNew stats) {
 		boolean in_word = false;
-		String lemma = "";
+        boolean inPunctuation = false;
+        String lemma = "";
 		String msd = "";

 		List<Word> stavek = new ArrayList<>();
@ -275,6 +276,9 @@ public class XML_processing {
 									corpus.clear();
 								}
 							}
+							else if(includeThisBlock){
+                                inPunctuation = true;
+                            }
 						} else if (headTags.contains(qName)) {
 							String tagContent = eventReader.nextEvent().asCharacters().getData();
 							headBlock.put(qName, tagContent);
@ -291,7 +295,13 @@ public class XML_processing {
 						if (in_word) {
 							stavek.add(new Word(characters.getData(), lemma, msd));
 							in_word = false;
-						}
+						} else if(inPunctuation){
+                            String punctuation = ",";
+                            stavek.get(stavek.size()-1).setWord(stavek.get(stavek.size()-1).getWord() + punctuation);
+                            stavek.get(stavek.size()-1).setLemma(stavek.get(stavek.size()-1).getLemma() + punctuation);
+                            stavek.get(stavek.size()-1).setMsd(stavek.get(stavek.size()-1).getMsd() + punctuation);
+						    inPunctuation = false;
+                        }
 						break;

 					case XMLStreamConstants.END_ELEMENT:
@ -472,6 +482,7 @@ public class XML_processing {
 	@SuppressWarnings("Duplicates")
 	public static boolean readXMLGigafida(String path, StatisticsNew stats) {
 		boolean inWord = false;
+		boolean inPunctuation = false;
 		ArrayList<String> currentFiletaxonomy = new ArrayList<>();
 		ArrayList<String> currentFiletaxonomyLong = new ArrayList<>();
 		String lemma = "";
@ -501,6 +512,11 @@ public class XML_processing {
 							msd = String.valueOf(startElement.getAttributeByName(QName.valueOf("msd")).getValue());
 							lemma = String.valueOf(startElement.getAttributeByName(QName.valueOf("lemma")).getValue());
 						}
+
+						if (qName.equals("c")){
+							inPunctuation = true;
+						}
+
 						// taxonomy node
 						else if (qName.equalsIgnoreCase("catRef")) {
 							// there are some term nodes at the beginning that are of no interest to us
@ -526,6 +542,14 @@ public class XML_processing {
 							sentence.add(new Word(word, lemma, msd, currentFiletaxonomyLong));
 							inWord = false;
 						}
+//						if (stats.getFilter().getNgramValue() > 1 && stats.getFilter().getNotePunctuations() && inPunctuation && sentence.size() > 0) {
+////						    String punctuation = characters.getData();
+//						    String punctuation = ",";
+//						    sentence.get(sentence.size()-1).setWord(sentence.get(sentence.size()-1).getWord() + punctuation);
+//                            sentence.get(sentence.size()-1).setLemma(sentence.get(sentence.size()-1).getLemma() + punctuation);
+//                            sentence.get(sentence.size()-1).setMsd(sentence.get(sentence.size()-1).getMsd() + punctuation);
+//                            inPunctuation = false;
+//                        }
 						break;

 					case XMLStreamConstants.END_ELEMENT:
@ -604,6 +628,7 @@ public class XML_processing {
 	@SuppressWarnings("Duplicates")
 	public static boolean readXMLGos(String path, StatisticsNew stats) {
 		boolean inWord = false;
+        boolean inPunctuation = false;
 		boolean inOrthDiv = false;
 		boolean computeForOrth = stats.getCorpus().isGosOrthMode();
 		ArrayList<String> currentFiletaxonomy = new ArrayList<>();
--- a/src/main/java/alg/inflectedJOS/ForkJoin.java
+++ b/src/main/java/alg/inflectedJOS/ForkJoin.java
--- a/src/main/java/alg/inflectedJOS/InflectedJOSCount.java
+++ b/src/main/java/alg/inflectedJOS/InflectedJOSCount.java
--- a/src/main/java/alg/inflectedJOS/WordFormation.java
+++ b/src/main/java/alg/inflectedJOS/WordFormation.java
--- a/src/main/java/alg/ngram/ForkJoin.java
+++ b/src/main/java/alg/ngram/ForkJoin.java
--- a/src/main/java/alg/ngram/Ngrams.java
+++ b/src/main/java/alg/ngram/Ngrams.java
@ -44,6 +44,7 @@ public class Ngrams {

 				// generate proper MultipleHMKeys depending on filter data
 				String key = wordToString(ngramCandidate, stats.getFilter().getCalculateFor());
+				key = (key.charAt(key.length()-1) == ',') ? key.substring(0, key.length() - 1) : key;
 //				String key = "aaaaaaaaaaaaaaaaaaaaaaa";

 				String lemma = "";
@ -60,6 +61,8 @@ public class Ngrams {
 					}
 				}

+
+
 				MultipleHMKeys multipleKeys = new MultipleHMKeys(key, lemma, wordType, msd);

 				// UPDATE TAXONOMY HERE!!!
--- a/src/main/java/alg/word/ForkJoin.java
+++ b/src/main/java/alg/word/ForkJoin.java
--- a/src/main/java/alg/word/WordCount.java
+++ b/src/main/java/alg/word/WordCount.java
--- a/src/main/java/alg/word/WordLevel.java
+++ b/src/main/java/alg/word/WordLevel.java
--- a/src/main/java/data/AnalysisLevel.java
+++ b/src/main/java/data/AnalysisLevel.java
--- a/src/main/java/data/CalculateFor.java
+++ b/src/main/java/data/CalculateFor.java
--- a/src/main/java/data/Corpus.java
+++ b/src/main/java/data/Corpus.java
--- a/src/main/java/data/CorpusType.java
+++ b/src/main/java/data/CorpusType.java
--- a/src/main/java/data/Enums/InflectedJosTypes.java
+++ b/src/main/java/data/Enums/InflectedJosTypes.java
--- a/src/main/java/data/Enums/Msd.java
+++ b/src/main/java/data/Enums/Msd.java
--- a/src/main/java/data/Enums/WordLevelDefaultValues.java
+++ b/src/main/java/data/Enums/WordLevelDefaultValues.java
--- a/src/main/java/data/Enums/WordLevelType.java
+++ b/src/main/java/data/Enums/WordLevelType.java
--- a/src/main/java/data/Enums/solar/SolarFilters.java
+++ b/src/main/java/data/Enums/solar/SolarFilters.java
--- a/src/main/java/data/Filter.java
+++ b/src/main/java/data/Filter.java
@ -25,7 +25,8 @@ public class Filter {
 		MSD,
 		HAS_MSD,
 		SOLAR_FILTERS,
-		MULTIPLE_KEYS
+		MULTIPLE_KEYS,
+		NOTE_PUNCTUATIONS
 	}

 	public Filter() {
@ -161,4 +162,12 @@ public class Filter {
 			return new ArrayList<>();
 		}
 	}
+
+    public void setNotePunctuations(boolean notePunctuations) {
+        filter.put(NOTE_PUNCTUATIONS, notePunctuations);
+    }
+
+    public boolean getNotePunctuations() {
+        return filter.containsKey(NOTE_PUNCTUATIONS) && (boolean) filter.get(NOTE_PUNCTUATIONS);
+    }
 }
--- a/src/main/java/data/GigafidaJosWordType.java
+++ b/src/main/java/data/GigafidaJosWordType.java
--- a/src/main/java/data/GigafidaTaxonomy.java
+++ b/src/main/java/data/GigafidaTaxonomy.java
--- a/src/main/java/data/GosTaxonomy.java
+++ b/src/main/java/data/GosTaxonomy.java
--- a/src/main/java/data/MultipleHMKeys.java
+++ b/src/main/java/data/MultipleHMKeys.java
--- a/src/main/java/data/Sentence.java
+++ b/src/main/java/data/Sentence.java
--- a/src/main/java/data/Settings.java
+++ b/src/main/java/data/Settings.java
--- a/src/main/java/data/Statistics.java
+++ b/src/main/java/data/Statistics.java
--- a/src/main/java/data/StatisticsNew.java
+++ b/src/main/java/data/StatisticsNew.java
--- a/src/main/java/data/Tax.java
+++ b/src/main/java/data/Tax.java
--- a/src/main/java/data/Taxonomy.java
+++ b/src/main/java/data/Taxonomy.java
--- a/src/main/java/data/Validation.java
+++ b/src/main/java/data/Validation.java
--- a/src/main/java/data/Word.java
+++ b/src/main/java/data/Word.java
@ -134,6 +134,10 @@ public class Word implements Serializable {
 		return msd;
 	}

+	public void setMsd(String msd) {
+		this.msd = msd;
+	}
+
 	public String toString() {
 		StringBuilder sb = new StringBuilder();

--- a/src/main/java/gui/CharacterAnalysisTab.java
+++ b/src/main/java/gui/CharacterAnalysisTab.java
--- a/src/main/java/gui/CorpusTab.java
+++ b/src/main/java/gui/CorpusTab.java
--- a/src/main/java/gui/FiltersForSolar.java
+++ b/src/main/java/gui/FiltersForSolar.java
--- a/src/main/java/gui/GUIController.java
+++ b/src/main/java/gui/GUIController.java
--- a/src/main/java/gui/Messages.java
+++ b/src/main/java/gui/Messages.java
@ -21,6 +21,7 @@ public class Messages {
 	public static final String WARNING_NO_SOLAR_FILTERS_FOUND = "Iz korpusnih datotek ni bilo moč razbrati filtrov. Prosim izberite drugo lokacijo ali korpus.";
 	public static final String ERROR_WHILE_EXECUTING = "Prišlo je do napake med izvajanjem.";
 	public static final String ERROR_WHILE_SAVING_RESULTS_TO_CSV = "Prišlo je do napake med shranjevanje rezultatov.";
+	public static final String ERROR_NOT_ENOUGH_MEMORY= "Na voljo imate premalo pomnilnika (RAM-a) za analizo takšne količine podatkov.";

 	// missing
 	public static final String MISSING_NGRAM_LEVEL = "N-gram nivo";
@ -52,6 +53,7 @@ public class Messages {

 	public static final String TOOLTIP_chooseCorpusLocationB = "Izberite mapo v kateri se nahaja korpus. Program izbrano mapo preišče rekurzivno, zato bodite pozorni, da ne izberete mape z več korpusi ali z mnogo datotekami, ki niso del korpusa.";
 	public static final String TOOLTIP_readHeaderInfoChB = "Če izberete to opcijo, se bo iz headerjev korpusa prebrala razpoložljiva taksonomija oz. filtri (korpus Šolar). Ta operacija lahko traja dlje časa, sploh če je korpus združen v eni sami datoteki.";
+	public static final String TOOLTIP_readNotePunctuationsChB = "Ločila med povedmi se upoštevajo v vsakem primeru.";



--- a/src/main/java/gui/SelectedFiltersPane.java
+++ b/src/main/java/gui/SelectedFiltersPane.java
--- a/src/main/java/gui/StringAnalysisTabNew2.java
+++ b/src/main/java/gui/StringAnalysisTabNew2.java
@ -62,6 +62,10 @@ public class StringAnalysisTabNew2 {
    private ComboBox<String> skipValueCB;
    private Integer skipValue;

+    @FXML
+    private CheckBox notePunctuationsChB;
+    private boolean notePunctuations;
+
    @FXML
    private Pane paneWords;

@ -135,6 +139,14 @@ public class StringAnalysisTabNew2 {
        ngramValueCB.getSelectionModel().select(0); // selected index
        ngramValue = 2; // actual value at that index

+        notePunctuations = true;
+        // set
+        notePunctuationsChB.selectedProperty().addListener((observable, oldValue, newValue) -> {
+            notePunctuations = newValue;
+            logger.info("note punctuations: ", notePunctuations);
+        });
+        notePunctuationsChB.setTooltip(new Tooltip(TOOLTIP_readNotePunctuationsChB));
+
        // calculateForCB
        calculateForCB.valueProperty().addListener((observable, oldValue, newValue) -> {
            calculateFor = CalculateFor.factory(newValue);
@ -398,6 +410,7 @@ public class StringAnalysisTabNew2 {
        filter.setSkipValue(skipValue);
        filter.setIsCvv(calculateCvv);
        filter.setSolarFilters(solarFiltersMap);
+        filter.setNotePunctuations(notePunctuations);

        if (ngramValue != null && ngramValue == 0) {
            filter.setStringLength(stringLength);
@ -488,6 +501,9 @@ public class StringAnalysisTabNew2 {
            } catch (UnsupportedEncodingException e1) {
                showAlert(Alert.AlertType.ERROR, ERROR_WHILE_SAVING_RESULTS_TO_CSV);
                logger.error("Error while saving", e1);
+            } catch (OutOfMemoryError e1){
+                showAlert(Alert.AlertType.ERROR, ERROR_NOT_ENOUGH_MEMORY);
+                logger.error("Out of memory error", e1);
            }

            ngramProgressBar.progressProperty().unbind();
--- a/src/main/java/gui/ValidationUtil.java
+++ b/src/main/java/gui/ValidationUtil.java
--- a/src/main/java/gui/WordFormationTab.java
+++ b/src/main/java/gui/WordFormationTab.java
--- a/src/main/java/gui/WordLevelTab.java
+++ b/src/main/java/gui/WordLevelTab.java
--- a/src/main/java/man/META-INF/MANIFEST.MF
+++ b/src/main/java/man/META-INF/MANIFEST.MF
--- a/src/main/java/util/ByteUtils.java
+++ b/src/main/java/util/ByteUtils.java
--- a/src/main/java/util/Combinations.java
+++ b/src/main/java/util/Combinations.java
--- a/src/main/java/util/Export.java
+++ b/src/main/java/util/Export.java
@ -13,6 +13,7 @@ import data.Filter;
 import data.MultipleHMKeys;
 import org.apache.commons.csv.CSVFormat;
 import org.apache.commons.csv.CSVPrinter;
+import org.apache.commons.csv.QuoteMode;
 import org.apache.commons.lang3.tuple.Pair;
 import org.json.simple.JSONArray;
 import org.json.simple.JSONObject;
@ -167,8 +168,8 @@ public class Export {
 			OutputStreamWriter fileWriter = null;
 			CSVPrinter csvFilePrinter = null;

-			//Create the CSVFormat object with "\n" as a record delimiter
-			CSVFormat csvFileFormat = CSVFormat.DEFAULT.withRecordSeparator(NEW_LINE_SEPARATOR).withDelimiter(';');
+			//Create the CSVFormat object with "\n" as a record delimiter it puts all words in braces
+			CSVFormat csvFileFormat = CSVFormat.DEFAULT.withRecordSeparator(NEW_LINE_SEPARATOR).withDelimiter(';').withQuoteMode(QuoteMode.ALL);

 			try {
 				//initialize FileWriter object
--- a/src/main/java/util/Key.java
+++ b/src/main/java/util/Key.java
--- a/src/main/java/util/TimeWatch.java
+++ b/src/main/java/util/TimeWatch.java
--- a/src/main/java/util/Util.java
+++ b/src/main/java/util/Util.java
--- a/src/main/java/util/db/RDB.java
+++ b/src/main/java/util/db/RDB.java
--- a/src/main/resources/GOS_small/TEI_GOS_small.xml
+++ b/src/main/resources/GOS_small/TEI_GOS_small.xml
--- a/src/main/resources/GOS_tax_test/GOS_tax_test.xml
+++ b/src/main/resources/GOS_tax_test/GOS_tax_test.xml
--- a/src/main/resources/GUI.fxml
+++ b/src/main/resources/GUI.fxml
--- a/src/main/resources/Gigafida_minimal/gfmin.xml
+++ b/src/main/resources/Gigafida_minimal/gfmin.xml
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.34.13.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.34.13.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.37.50.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.37.50.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.38.17.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_0-gram_0-skip_14.05.2018_06.38.17.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_1-gram_0-skip_31.01.2018_05.11.26.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_1-gram_0-skip_31.01.2018_05.11.26.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_2-gram_1-skip_31.01.2018_05.11.33.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_lema_2-gram_1-skip_31.01.2018_05.11.33.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_1-gram_0-skip_25.01.2018_06.27.41.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_1-gram_0-skip_25.01.2018_06.27.41.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_2-gram_0-skip_20.01.2018_01.27.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_2-gram_0-skip_20.01.2018_01.27.csv
--- a/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_3-gram_0-skip_20.01.2018_01.27.csv
+++ b/src/main/resources/Gigafida_subset/Besedni_nizi_Gigafida_različnica_3-gram_0-skip_20.01.2018_01.27.csv
--- a/src/main/resources/Gigafida_subset/F0012405.xml
+++ b/src/main/resources/Gigafida_subset/F0012405.xml
--- a/src/main/resources/Gigafida_subset/F0016316.xml
+++ b/src/main/resources/Gigafida_subset/F0016316.xml
--- a/src/main/resources/Gigafida_subset/F0018194.xml
+++ b/src/main/resources/Gigafida_subset/F0018194.xml
--- a/src/main/resources/Gigafida_subset/F0026709.xml
+++ b/src/main/resources/Gigafida_subset/F0026709.xml
--- a/src/main/resources/Gigafida_subset/F0030361.xml
+++ b/src/main/resources/Gigafida_subset/F0030361.xml
--- a/src/main/resources/Gigafida_subset/nested/F0036980.xml
+++ b/src/main/resources/Gigafida_subset/nested/F0036980.xml
--- a/src/main/resources/Gigafida_subset/nested/F0037258.xml
+++ b/src/main/resources/Gigafida_subset/nested/F0037258.xml
--- a/src/main/resources/Gigafida_subset/nested/F0037544.xml
+++ b/src/main/resources/Gigafida_subset/nested/F0037544.xml
--- a/src/main/resources/Gigafida_subset/nested/F0038754.xml
+++ b/src/main/resources/Gigafida_subset/nested/F0038754.xml
--- a/src/main/resources/Gigafida_subset/nested/F0038920.xml
+++ b/src/main/resources/Gigafida_subset/nested/F0038920.xml
--- a/src/main/resources/Lists/prefixes.txt
+++ b/src/main/resources/Lists/prefixes.txt
--- a/src/main/resources/Lists/suffixes.txt
+++ b/src/main/resources/Lists/suffixes.txt
--- a/src/main/resources/gui/CharacterAnalysisTab.fxml
+++ b/src/main/resources/gui/CharacterAnalysisTab.fxml
--- a/src/main/resources/gui/CorpusTab.fxml
+++ b/src/main/resources/gui/CorpusTab.fxml
--- a/src/main/resources/gui/FiltersForSolar.fxml
+++ b/src/main/resources/gui/FiltersForSolar.fxml
--- a/src/main/resources/gui/SelectedFiltersPane.fxml
+++ b/src/main/resources/gui/SelectedFiltersPane.fxml
--- a/src/main/resources/gui/StringAnalysisTabNew2.fxml
+++ b/src/main/resources/gui/StringAnalysisTabNew2.fxml
@ -62,19 +62,21 @@
                    </items>
                </ComboBox>
            </children>
+            <children>
+                <Label layoutX="10.0" layoutY="40.0" prefHeight="25.0" text="Upoštevaj ločila"/>
+                <CheckBox fx:id="notePunctuationsChB" layoutX="176.0" layoutY="45.0" selected="true"/>
+            </children>
        </Pane>


-
-
        <!-- MSD and Taxonomy separated -->

-        <Label layoutX="10.0" layoutY="160.0" prefHeight="25.0" text="Omejitev podatkov"/>
+        <Label layoutX="10.0" layoutY="200.0" prefHeight="25.0" text="Omejitev podatkov"/>

-        <Label layoutX="10.0" layoutY="200.0" prefHeight="25.0" text="Oznaka MSD"/>
-        <TextField fx:id="msdTF" layoutX="100.0" layoutY="200.0" prefWidth="180.0"/>
-        <Label layoutX="10.0" layoutY="240.0" prefHeight="25.0" text="Taksonomija"/>
-        <CheckComboBox fx:id="taxonomyCCB" layoutX="100.0" layoutY="240.0" prefHeight="25.0" prefWidth="180.0"/>
+        <Label layoutX="10.0" layoutY="240.0" prefHeight="25.0" text="Oznaka MSD"/>
+        <TextField fx:id="msdTF" layoutX="100.0" layoutY="240.0" prefWidth="180.0"/>
+        <Label layoutX="10.0" layoutY="280.0" prefHeight="25.0" text="Taksonomija"/>
+        <CheckComboBox fx:id="taxonomyCCB" layoutX="100.0" layoutY="280.0" prefHeight="25.0" prefWidth="180.0"/>


        <!-- samoglasniki/soglasniki -->
--- a/src/main/resources/gui/WordFormationTab.fxml
+++ b/src/main/resources/gui/WordFormationTab.fxml
--- a/src/main/resources/gui/WordLevelTab.fxml
+++ b/src/main/resources/gui/WordLevelTab.fxml
--- a/src/main/resources/log4j2.xml
+++ b/src/main/resources/log4j2.xml
--- a/src/test/java/Common.java
+++ b/src/test/java/Common.java
--- a/src/test/java/CorpusTests.java
+++ b/src/test/java/CorpusTests.java
--- a/src/test/java/DBTest.java
+++ b/src/test/java/DBTest.java
--- a/src/test/java/NgramTests.java
+++ b/src/test/java/NgramTests.java
--- a/src/test/java/WordFormationTest.java
+++ b/src/test/java/WordFormationTest.java
--- a/src/test/java/WordLevelTest.java
+++ b/src/test/java/WordLevelTest.java
--- a/src/test/java/WordTest.java
+++ b/src/test/java/WordTest.java