Vous ne pouvez pas sélectionner plus de 25 sujets Les noms de sujets doivent commencer par une lettre ou un nombre, peuvent contenir des tirets ('-') et peuvent comporter jusqu'à 35 caractères.
Ozbolt Menegatti 51c3899ca3
Pokrivam uporabo meta-taggerja in conllu formata.
il y a 5 ans
.gitignore Pokrivam uporabo meta-taggerja in conllu formata. il y a 5 ans
README.md Pokrivam uporabo meta-taggerja in conllu formata. il y a 5 ans
add_ids.xml Initial commit il y a 5 ans
conllu_to_xml.py Pokrivam uporabo meta-taggerja in conllu formata. il y a 5 ans
merge_back.py Initial commit il y a 5 ans
multiple_conllu_to_xml.py Pokrivam uporabo meta-taggerja in conllu formata. il y a 5 ans
separate.py Initial commit il y a 5 ans
tag_ids.py tag_ids now reports errors does not just exit. il y a 5 ans

README.md

SOLAR oznacevanje ucitelj/ucenec

Dodaj IDje

"Pametno" doda ozbo_id k vsem besedam v SOLAR xmlu.

python3 add_ids.py SOLAR.xml SOLAR_ID.xml

Loci ucenec/ucitelj

Loci velik xml v skupek ucenec in skupek ucitelj xml-ov, vsak predstavlja <text> element iz vhodnega xml-a. Vse datoteke se izpisejo v mapi student in teacher.

python3 separate.py SOLAR_ID.xml

Uporaba metataggerja

Izhod metataggerja je v txt obliki. Za to je potrebno pretvoriti xml v conllu in nazaj. Za pretvorbo xml->conllu obstajajo Python scripte nekje (TODO), za pretvorbo nazaj pa je scripta prilozena tu. pozeni (pazi: Python 2.7):

python2 multiple_conllu_to_xml.py teacher-out-txt teacher-out-xml

Uporabi izhod tagger-ja

Denimo da damo mapo student skozi taggerja in dobimo izhod v mapi student-out. Vsaka mapa ima polno datotek: 0.xml, 1.xml,.... Zdruzimo ozbo_id informacijo z informacijo taggerja:

python3 tag_ids.py student student-out tags.p

To pozenemo prvo za ucenca in potem za ucitelja.

Nazaj v original datoteko

Sedaj samo poberemo informacije iz tags.p in jih damo nazaj v vhodne xml-e.

python3 merge_back.py tags.p SOLAR_ID.xml SOLAR_OUT.xml