package alg; import static data.Enums.solar.SolarFilters.*; import java.io.*; import java.util.*; import java.util.concurrent.ConcurrentHashMap; import java.util.concurrent.ForkJoinPool; import javax.xml.namespace.QName; import javax.xml.stream.XMLEventReader; import javax.xml.stream.XMLInputFactory; import javax.xml.stream.XMLStreamConstants; import javax.xml.stream.XMLStreamException; import javax.xml.stream.events.*; import gui.I18N; import javafx.beans.InvalidationListener; import javafx.beans.property.ReadOnlyDoubleProperty; import javafx.beans.property.ReadOnlyDoubleWrapper; import javafx.concurrent.Task; import org.apache.commons.io.FileUtils; import org.apache.commons.io.LineIterator; import org.apache.logging.log4j.LogManager; import data.*; import gui.ValidationUtil; public class XML_processing { public final static org.apache.logging.log4j.Logger logger = LogManager.getLogger(XML_processing.class); // progress tracking functionality private static final ReadOnlyDoubleWrapper progress = new ReadOnlyDoubleWrapper(); public static boolean isCancelled = false; public static Date startTime = new Date(); public static boolean isCollocability = false; public static InvalidationListener progressBarListener; public double getProgress() { return progressProperty().get(); } public ReadOnlyDoubleProperty progressProperty() { return progress ; } // public static void processCorpus(Statistics stats) { // // we can preset the list's size, so there won't be a need to resize it // List corpus = new ArrayList<>(Settings.CORPUS_SENTENCE_LIMIT); // // int i = 0; // for (File f : Settings.corpus) { // i++; // readXML(f.toString(), stats); // } // } // public static void readXML(String path, Statistics stats) { // if (stats.getCorpusType() == CorpusType.GIGAFIDA) { // readXMLGigafida(path, stats); // } else if (stats.getCorpusType() == CorpusType.GOS) { // readXMLGos(path, stats); // } else if (stats.getCorpusType() == CorpusType.SOLAR) { // readXMLSolar(path, stats); // } // } public static boolean readXML(String path, StatisticsNew stats) { if (stats.getCorpus().getCorpusType() == CorpusType.GIGAFIDA || stats.getCorpus().getCorpusType() == CorpusType.CCKRES) { return readXMLGigafida(path, stats); } else if (stats.getCorpus().getCorpusType() == CorpusType.GOS) { return readXMLGos(path, stats); } else if (stats.getCorpus().getCorpusType() == CorpusType.SOLAR) { return readXMLSolar(path, stats); } else if (stats.getCorpus().getCorpusType() == CorpusType.SSJ500K || stats.getCorpus().getCorpusType() == CorpusType.GIGAFIDA2) { return readXMLSSJ500K(path, stats); } else if (stats.getCorpus().getCorpusType() == CorpusType.VERT) { return readVERT(path, stats); } // task.updateProgress(fileNum, size); return false; } /** * Reads and returns the value of a passed header tag or an empty string. * E.g. title tag, for discerning the corpus' type. * Notice: returns only the value of the first occurrence of a given tag name. */ public static String readXMLHeaderTag(String path, String tag) { XMLInputFactory factory = XMLInputFactory.newInstance(); XMLEventReader eventReader = null; try { eventReader = factory.createXMLEventReader(new FileInputStream(path)); while (eventReader.hasNext()) { XMLEvent xmlEvent = eventReader.nextEvent(); if (xmlEvent.isStartElement()) { StartElement startElement = xmlEvent.asStartElement(); String var = startElement.getName().getLocalPart(); if (var.equalsIgnoreCase(tag)) { return eventReader.nextEvent().asCharacters().getData(); } } } } catch (FileNotFoundException | XMLStreamException e) { e.printStackTrace(); } finally { if (eventReader != null) { try { eventReader.close(); } catch (XMLStreamException e) { logger.error("closing stream", e); } } } return ""; } /** * Reads and returns the value of a passed header attribute or an empty string. * E.g. body base attribute, for discerning the corpus' type of ssj500k. * Notice: returns only the value of the first occurrence of a given tag name. */ public static String readXMLHeaderAttribute(String path, String tag, String attribute) { XMLInputFactory factory = XMLInputFactory.newInstance(); XMLEventReader eventReader = null; try { eventReader = factory.createXMLEventReader(new FileInputStream(path)); while (eventReader.hasNext()) { XMLEvent xmlEvent = eventReader.nextEvent(); if (xmlEvent.isStartElement()) { StartElement startElement = xmlEvent.asStartElement(); String var = startElement.getName().getLocalPart(); if (var.equalsIgnoreCase(tag)) { HashMap att = extractAttributes(startElement); if (att.containsKey("base")) { return att.get("base").substring(0, att.get("base").length() - 12); } return eventReader.nextEvent().asCharacters().getData(); } } } } catch (FileNotFoundException | XMLStreamException e) { e.printStackTrace(); } finally { if (eventReader != null) { try { eventReader.close(); } catch (XMLStreamException e) { logger.error("closing stream", e); } } } return ""; } private static void fj(List corpus, StatisticsNew stats) { ForkJoinPool pool = new ForkJoinPool(); if (stats.getFilter().getAl() == AnalysisLevel.STRING_LEVEL) { alg.ngram.ForkJoin wc = new alg.ngram.ForkJoin(corpus, stats); pool.invoke(wc); } else if (stats.getFilter().getAl() == AnalysisLevel.WORD_LEVEL) { alg.word.ForkJoin wc = new alg.word.ForkJoin(corpus, stats); pool.invoke(wc); } else { // TODO: // alg.inflectedJOS.ForkJoin wc = new alg.inflectedJOS.ForkJoin(corpus, stats); // pool.invoke(wc); } } // public static void readXMLGos(String path, Statistics stats) { // boolean in_word = false; // String taksonomija = ""; // String lemma = ""; // String msd = ""; // String type = stats.isGosOrthMode() ? "orth" : "norm"; // orth & norm // // List stavek = new ArrayList<>(); // List corpus = new ArrayList<>(); // String sentenceDelimiter = "seg"; // String taxonomyPrefix = "gos."; // // try { // XMLInputFactory factory = XMLInputFactory.newInstance(); // XMLEventReader eventReader = factory.createXMLEventReader(new FileInputStream(path)); // // while (eventReader.hasNext()) { // XMLEvent event = eventReader.nextEvent(); // // switch (event.getEventType()) { // case XMLStreamConstants.START_ELEMENT: // // StartElement startElement = event.asStartElement(); // String qName = startElement.getName().getLocalPart(); // // // "word" node // if (qName.equals("w")) { // in_word = true; // // if (type.equals("norm")) { // // make sure we're looking at and not // Iterator var = startElement.getAttributes(); // ArrayList