import argparse
import os
import sys
import tqdm
import logging

good_lemmas = ["absurd", "absurdnost", "akuten", "akutno", "alkohol", "alkoholen", "aluminijast", "ananas", "aplikacija", "aplikativen", "aranžma", "arbiter", "armada", "avtomatičen", "avtomatiziran", "babica", "bajen", "bajka", "bakren", "bambusov", "barvan", "barvanje", "baseballski", "bazar", "bazičen", "belina", "bezgov", "bičati", "bife", "bilka", "biomasa", "biotop", "birma", "bivol", "blago", "blaženost", "bliskavica", "bobnič", "bolha", "bolnišnica", "bor", "borov", "borovničev", "brati", "briljant", "briti", "brusiti", "bučanje", "cikličen", "civilizacija", "dopust", "drama", "drezati", "duda", "dvorezen", "embalaža", "faks", "farsa", "glasno", "informiranje", "interier", "intima", "intimno", "investirati", "ironično", "istovetiti", "izvožen", "jagoda", "jeklar", "jezik", "karbon", "kitara", "kodrast", "molče", "mučiti", "novinarski", "obala", "občevati", "okrasiti", "pajčevina", "panoga", "prevajanje", "prevajati", "previti", "prihraniti", "priloga", "prisluškovati", "sopara"]

def main(args):
    filepaths = [os.path.join(args.input, fn) for fn in os.listdir(args.input)]
    filepaths = sorted(filepaths, key=lambda x: int(x.split('.')[-1]))
    N1 = len(good_lemmas)
    N2 = len(filepaths) - 1

    files_to_write = [open("output/{}".format(l), 'w') for l in good_lemmas]

    for fidx, filename in enumerate(filepaths):
        with open(filename, 'r') as fp:
            logging.info("loading next...")
            line = fp.readline()
            lemma_rows = [idx for idx, cell in enumerate(line.split(",")) if "_Lemma" in cell]
            file_lines = fp.read().split("\n")

        for lidx, good_lemma in enumerate(good_lemmas):
            spaces = " " * 20 if lidx == 0 else ""
            logging.info("\r{}.{} / {}.{}{}".format(fidx, lidx, N2, N1, spaces))

            for line in file_lines:
                if good_lemma not in line:
                    continue

                line_split = line.split(',')
                for lemma_idx in lemma_rows:
                    lemma = line_split[lemma_idx]
                    if lemma == good_lemma:
                        print(line, file=files_to_write[lidx])
                        break

    for fp in files_to_write:
        fp.close()

if __name__ == '__main__':
    parser = argparse.ArgumentParser(
        description='Extract structures from a parsed corpus.')
    parser.add_argument('input',
                        help='Path to folder with files')
    args = parser.parse_args()
    main(args)