common msd now calculated per colocation id and not for whole corpus

2019-07-01 17:21:28 +02:00
parent 2f789e6550
commit 48795c6227
2 changed files with 17 additions and 43 deletions
@@ -75,11 +75,15 @@ class WordFormAnyCR(ComponentRepresentation):
                return text_forms[(word_msd, word_lemma)]
 class WordFormMsdCR(WordFormAnyCR):
    def __init__(self, *args):
        super().__init__(*args)
        self.lemma = None
-        self.msd = None
+        self.msds = []
    def msd(self):
        return self.msds[0]
    def check_msd(self, word_msd):
        if 'msd' not in self.data:
@@ -100,16 +104,23 @@ class WordFormMsdCR(WordFormAnyCR):
    def add_word(self, word):
        if self.lemma is None:
            self.lemma = word.lemma
            self.msd = word.msd
        self.msds.append(word.msd)
        if self.check_msd(word.msd):
            super().add_word(word)
    def _render(self):
-        msd = self.word_renderer.get_lemma_msd(self.lemma, self.msd)
+        self.words.append(WordMsdOnly(self._common_msd()))
        self.words.append(WordMsdOnly(msd))
        return super()._render()
    def _common_msd(self):
        msds = sorted(self.msds, key=len)
        common_msd = ["-" if not all(msds[j][idx] == msds[0][idx] for j in range(1, len(self.msds))) 
                      else msds[0][idx] for idx in range(len(msds[0]))]
        common_msd = "".join(common_msd)
        iommon_msd = "".join(common_msd)
        return self.word_renderer.common_lemma_msd(self.lemma, common_msd)
 class WordFormAgreementCR(WordFormMsdCR):
    def __init__(self, data, word_renderer):
@@ -124,7 +135,7 @@ class WordFormAgreementCR(WordFormMsdCR):
        lemma_available_words = self.word_renderer.available_words(self.lemma, existing)
        for candidate_msd, candidate_text in lemma_available_words:
-            if self.msd[0] != candidate_msd[0]:
+            if self.msd()[0] != candidate_msd[0]:
                continue
            if WordFormAgreementCR.check_agreement(word_msd, candidate_msd, self.data['agreement']):
@@ -18,12 +18,10 @@ class WordStats:
            text varchar(64), 
            frequency int
            )""")
        self.db.init("CREATE TABLE CommonMsd (lemma varchar(64), msd0 char, msd varchar(16))")
        self.db.init("CREATE TABLE WordCount (lemma varchar(64), msd0 char, frequency int)")
        self.db.init("CREATE INDEX lemma_msd_text_on_uw ON UniqWords (lemma, msd, text)")
        self.db.init("CREATE INDEX lemma_on_uw ON UniqWords (lemma)")
        self.db.init("CREATE INDEX lemma_on_cm ON CommonMsd (lemma, msd0)")
        self.db.init("CREATE INDEX lemma_msd0_on_wc ON WordCount (lemma, msd0)")
    def add_words(self, words):
@@ -44,24 +42,6 @@ class WordStats:
    def generate_renders(self):
        lemmas = [lemma for (lemma, ) in self.db.execute("SELECT DISTINCT lemma FROM UniqWords")]
        for lemma in progress(lemmas, 'common-msd'):
            common_msds = defaultdict(lambda: "*" * 10)
            for msd in self.db.execute("SELECT DISTINCT msd FROM UniqWords WHERE lemma=?", (lemma,)):
                msd = msd[0]
                current_msd = common_msds[msd[0]]
                new_msd = self.merge_msd(current_msd, msd)
                common_msds[msd[0]] = new_msd
            for msd0, common_msd in common_msds.items():
                common_msd = self.common_lemma_msd(lemma, common_msd)
                self.db.execute("INSERT INTO CommonMsd (lemma, msd0, msd) VALUES (?, ?, ?)", 
                                (lemma, msd0, common_msd))
        self.db.commit()
        for lemma in progress(lemmas, 'word-count'):
            num_words = defaultdict(int)
            for (msd, freq) in self.db.execute("SELECT msd, frequency FROM UniqWords WHERE lemma=?", (lemma,)):
@@ -81,23 +61,6 @@ class WordStats:
        else:
            return msd
    def merge_msd(self, common_msd, new_msd):
        key = (common_msd, new_msd)
        if key in self.memoized_msd_merges:
            return self.memoized_msd_merges[key]
        def merge_letter(l1, l2):
            if l1 == "*":
                return l2
            elif l1 != l2:
                return "-"
            else:
                return l1
        value = "".join(merge_letter(l1, l2) for l1, l2 in zip(common_msd, new_msd))
        self.memoized_msd_merges[key] = value
        return value
    def render(self, lemma, msd):
        statement = """SELECT msd, frequency FROM UniqWords WHERE 
        lemma=:lemma AND msd=:msd ORDER BY frequency DESC"""