import sys import re import pathlib import mmap from datetime import datetime import json FOLDER_XMLS = sys.argv[1] FILE_OUT = sys.argv[2] TYPES = { "SSJ.I": "internet", "SSJ.T.D": "drugo", "SSJ.T.P.C": "casopisi", "SSJ.T.P.R": "revije", "SSJ.T.K.S": "stvarno", "SSJ.T.K.L": "leposlovje", "SSJ.T.K.N": "stvarno", } xml_data = {} searcher_date = re.compile(b"([^<]+)") searcher_type = re.compile(b"= 0: fidx = data.find(b"