Predavanje s področja komunikacije človek-stroj. [Gos] snemanje Pija Vrezner transkripcija PAVILION 1.1 CLARIN.SI http://hdl.handle.net/11356/1438 www.clarin.si www.korpus-gos.net/

Avtorske pravice za to izdajo ureja licenca Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 4.0.

Dovoljeno vam je: reproduciranje, distribuiranje, dajanje v najem in priobčevanje dela javnosti predelati delo Pod naslednjimi pogoji: Priznanje avtorstva — Pri uporabi dela morate navesti izvirnega avtorja na način, ki ga določi izvirni avtor oziroma dajalec licence. V znanstvenih publikacijah to pomeni citiranje ustreznega dela ali del, dostopnih na domači strani projekta, http://www.slovenscina.eu/. Nekomercialno. Tega dela ne smete uporabiti v komercialne namene. Deljenje pod enakimi pogoji — Če spremenite, preoblikujete ali uporabite to delo v svojem delu, lahko distribuirate predelavo dela le pod licenco, ki je enaka tej.

This work is licenced under the Attribution-NonCommercial-ShareAlike 4.0.

You are free: to Share — to copy, distribute and transmit the work to Remix — to adapt the work Under the following conditions: Attribution — You must attribute the work in the manner specified by the author or licensor. In scientific publications this means citing the relevant publication or publications, referred to on the home page of the project: http://www.slovenscina.eu/. Noncommercial. You may not use this work for commercial purposes. Share Alike. If you alter, transform, or build upon this work, you may distribute the resulting work only under the same or similar license to this one.

2021-09-23
Predavanje s področja komunikacije človek-stroj. 2010-01-17 terenski posnetek 2010-01-17
akademski, tehnika MB Maribor 2010-01-12
torej zadnjič smo končali pri obravnavi elementov razpoznavanja govora obravnavali smo statistični pristop kar pomeni da razpoznavamo govor na osnovi klasifikatorja ki temelji na izračunavanju verjetnosti eee če se spomnite gre za to da za nek nabor besed ki jih razpoznavamo izračunavamo verjetnosti da je nek izgovorjen govorni signal dejansko eee bil izgovorjava posamezne besede pri čemer izračunavamo verjetnosti iz posameznega modela da je generiral ta govorni signal na koncu eee po izračunu vseh verjetnosti za vse besede ki jih imamo v slovarju primerjamo verjetnosti med seboj in kot zmagovalko določimo tisto besedo oziroma tisti model ki je generiral največjo verjetnost za vhodno besedo to je nekako splošni princip mi pa si bomo sedaj nekolko podrobneje pogledali sam postopek učenja že zadnjič smo omenili da je pravzaprav osnova za določitev verjetnosti Bajersov teorem ki nam omogoča izračun verjetnosti da je beseda pravzaprav povezana z eee množico stanj ki pre skozi katere se pri izračunavanju verjetnosti besede eee nekako eem sprehodimo eee ki pa je zopet produkt a priori verjetnosti zaporedja besed in pa verjetnosti da je posamezna beseda eee oziroma da je posamezni model divergiral pod njegovo resignanto vse skupaj delimo z verjetnostjo govornega signala ki ga pa v praksi običajno zanemarimo prva dva faktorja sta tista ki jih v realnosti tudi izračunavamo prvega takrat kadar dejansko si obetamo neko dodatno informacijo prav eem z povezovanjem ali ugotavljanjem verjetnosti pojavljanja sosedja besed torej pri tekočem govoru kjer vsaka beseda eee se nahaja v nekem kontekstu ki jo pravzaprav tudi določa saj vemo da je za slovenščino to še posebej značilno kot pregibni jezik cer lahko če spremenimo spol ali če spremenimo število v besedi potem oziroma v stavku to odraža na mnozici besed v tem stavku in seveda se potem tudi verjetnosti eee povezave besed spreminjajo kot smo omenili že zadnjič verjetnost eee množice besed oziroma zaporedja besed izračunavamo iz eee obsežnih korpusov kjer preprosto preštejemo število pojavljanj posamezne mnozice besed in nato eee to statistično ovrednotimo kadar pa razpoznavamo osamljene besede oziroma izolirane besede pa nam a priori vrednost ne prinaša nobene dodatne informacije kajti če razpoznavate recimo izolirane števke potem je dejansko nemogoče napovedati v kakšnem vrstnem redu si bodo te števke sledile zaradi tega ker si pravzaprav lahko sledijo v kakršnem koli vrstnem redu in tu ni nobenega konteksta ki bi nam omogočal da bi lahko s pomočjo eee a priori vrednosti pravzaprav vnesli neko dodatno informacijo v to enačbo zato uporabimo samo verjetnost pe es o dve to je popolna verjetnost za katero pa pravimo da ji je eem to je dejanski proces akustičnega modeliranja saj je vhod eee zaporedje vektorja značilk ki ga izračunamo iz vstopnega signala eee izhod pa je potem sama verjetnost eee za posamezni model da je generiral vhodno verjetnost ho pardon vhodno besedo osnovna struktura sistema eee je prikazana tule na eee vrhu te prosojnice in sicer gre preprosto za princip kjer vhodno besedo torej primerjamo z vsemi modeli ki jih imamo na voljo v primeru recimo razpoznavanja števk gre tukaj za običajno deset modelov od nič do devet v primeru recimo razpoznavanja tekočega govora pa bi šlo tukaj lahko tudi za dvajset trideset ali pa šestdeset tisoč besed iz tega je jasno da okvir eee v katerem pač živimo izvaja to razpoznavanje ne ki se nanaša na množico besed ki jih bomo razpoznavali v dobršni meri določa kompleksnost samega sistema razpoznavanja govora in kot bomo videli kasneje eee se dejansko tudi v številu podatkov ki jih moramo procesirat predvsem teh verjetnosti prav s tem okvirjem izredno veliko spreminja od nekaj tisoč pa do nekaj deset eee milijonov parametrov ki jih je potrebno pri tem upoštevat v vseh primerih pa imamo enako strukturo sistema torej do vhodov prihaja govorni signal ki ga najprej predprocesiramo v tem v tej fazi predprocesiranja je lahko vključenih več stopenj procesiranja od sistemov oziroma eee ki ugotavljajo začetek in konec izgovorjave posebej pomembno kar je razpoznavamo izolirane besede ker moramo natančno določit meje te besede eee do sistemov ki zmanjšujejo eee šum v govoru pa v drugi fazi eee procesa ki iz govornega signala izloči značilke in jih v eem obliki niza vektorjev značilk običajno vsakih deset minisekund pošlje pod izhod tega modula na eee vhod tako imenovanega modula akustičnega modeliranja ta množica vektorjev značilk torej predstavlja značilnosti vhodne besede ki pa kot smo rekli jo moramo primerjati z vsako besedo ali pa z vsakim modelom ki ga imamo shranjenega v modulu eee modelov ki ga imenujemo tudi generator potez kadar govorimo o razpoznavanju tekočega govora že zadnjič smo se na koncu pogovarjali o dej o tem da zaradi samega pristopa ki ga dejansko pomeni ki ki pomeni statistično eee razpoznavanje govora ni mogoče računati na to da bo vsaka verjetnost ki bo maksimalna za posamezno besedo tudi prava izgovorjava pač pa moramo upoštevat dejstvo da se lahko zaradi različnih dejavnikov zgodi da bo beseda oziroma model ki bo predelal največjo verjetnost dejansko eee model ki ne bo ustrezal izgovorjavi vhodne besede eee recimo eee izgovorimo lahko besedo soba ki pa je zelo akustično podobna besedi sova saj se spremen spremeni samo v enem glasu čeprav je za poslušalca v velik večini primerov to popolnoma jasna razlika med dvema izgovorjavama pa statistično gledano zelo hitro lahko pride do napačne eee napačnega vrednotenja oziroma do tega da ima čeprav je bila beseda s soba dejansko izgovorjena pri izračunu akustične verjetnosti beseda sova večjo verjetnost eee sicer pa je recimo druga največja verjetnost je da gre tu za besede sov in zato je potrebno najpogosteje za posamezno besedo ki smo jo izgovorili v nekem stavku upoštevati več hipotez se pravi ker smo tako ali tako izračunali za vsako besedo ki jo imamo v pomnilniku oziroma v slovarju verjetnost da je ta Markov model generiral vhodno besedo se pravi imamo vse te verjetnosti na koncu izračunane jih pri eem končnem izračunavanju razvrstimo po padajočem vrstnem redu tako da je najvišja bes model z najvišjimi vrednosti zapisan kot prva hipoteza naslednji kot druga in recimo če jih mamo pet potem za vsako vhodno besedo eee zapišemo torej in upoštevamo pri nadaljnjem procesiranju teh besed če imamo na primer zgago soba je obarvana zeleno potem to pomeni da bomo za te štiri besede upoštevali pri vsaki izgovorjavi pet hipotez in skupaj dobili pravzaprav dvajset hipotez besed ki jih je potrebno sedaj ustrezno ovrednotiti ne tukaj pa smo rekli da je vrednotenje pa na osnovi oziroma ker besede nastopajo v kontekstu je vrednotenje izvedeno s pomočjo jezikovnega modela ki te hipoteze medsebojno primerja in oceni katera verjetnost je pri posamezni povezavi teh eee besed pravzaprav največja to pa določi s pomočjo tako imenovanega jezikovnega modela za katerega smo rekli prej da se na osnovi velikega eee slovarj eee korpusa nekaj deset ali sto milijonov besed pravzaprav preverijo posamezne besedne zveze in opredelijo njim tudi ustrezne verjetnosti če imam v tem primeru kot smo rekli pri prvi besedi sova hipoteze eee sovo soba kjer bi bila soba druga hipoteza pa pri besedi je se je najprej kot največ naboljša hipoteza ki razpoznava beseda se nato je je eem torej smo tukaj imamo pobarva n pobarvana in pa recimo zelje pa zeleno in sledijo si pri vsaki besedi še eee ostale hipoteze je naloga tega generatorja hipotez ki ga ki ga imamo tukaj pravzaprav da se da zgenerirat vse možne kombinacije teh besed in jih statistično obdelat če bi to kake druge da bi stanje sedaj preverili potem bi videli da če bi sledili eee prvim hipotezam ki so se zgodile oziroma ki so bile izračunane kot najbolj verjetne besede za posamezno eee zaporedje vektorjev značilk v vhodnem nizu besed potem imamo takšen rezultat sova se obarva na zelje to je jasno mi vemo eee stavek ki ni eee smiseln vendar z statističnim modeliranjem je potrebno to tudi eee tako nekako eee dokazat ali pokazat to pa izvedemo tako da izračunamo verjetnosti da se pojavijo pari ali pa trojice besed tako imenovani bigramski modeli ali pa trigramski modeli eee v množici verjetnosti ki jih eee podajamo s pomočjo jezikovnega modela in ker je zelo malo verjetno da se v praksi kdaj pojavi ta stavek kot takšen eee bo jezikovni model tej povezavi dal majhno verjetnost in v enačbi si smo jo eee prej tule videli bo zaradi tega ker bo verjetnost pe o dve ki je kot rečeno vnaprejšnja verjetnost ki smo jo torej izračunali čisto eee eee zgolj razpoznavalnika dala za to kombinacijo toliko majhno verjetnost da bo kljub temu da je pogojna verjetnost ki smo jo izračunali s pomočjo akustičnega modeliranja za te besede generirana maksimalna verjetnost skupna verjetnost povezave teh besed majhna saj bo predvsem recimo povezava se pobarvana dejansko v slovenščini to praktično težko najdemo eee nek eee nek primer takšne povezave eem bo izredno mala in tudi pobravana zelje je povezava besed ki je v slovenščini ni eee in zato tudi ta verjetnost majhna in če potem vse te verjetnosti skupaj vidimo da bo dejansko gen generirana končna verjetnost eee zelo verjetno manjša kot pa katera druga pot ki jo tukaj potem generator hipotez generira kot recimo sova je pobarvana zeleno kar bi lahko bilo čeprav je verjetno malo manj verjetno bolj verjetno pa bo da je so soba pobarvana zeleno ker pa gre tukaj za statistično vrednotenje je mnogo bolj verjetno da bo v tej povezavi sova je pobarvana zeleno ali pa soba je obarvana zele zeleno vseeno zmagala hipoteza sova kar pa seveda pomeni napačno razpoznavanje zato je pa toliko bolj pomembno da imamo tako na nivoju akustičnega modeliranja kot na nivoju jezikovnega modeliranja zelo kakovostne jezikovne vire saj nam ti jezikovni viri potem omogočijo da bomo v takšnih primerih prišli do pravilnega rezultata že z recimo kakovostnimi govorjenimi viri bomo izboljšali modeliranje na akustičnem nivoju kar pomeni da če je bila izgovorjena beseda soba se bo tudi ta poja pojavila na prvem mestu in s tem bomo omogočili da eee bo tudi končna hipoteza verjetneje pravilneja pravilnejša eee če pa bomo imeli tudi kakovosten pisni jezikovni vir potem bo pa to pomenilo da bo verjetnost ki jo bomo izračunavali ali upoštevali pri proizvajanju posameznih besed tudi rezultirala v tem da bo na koncu rezultat razpoznavanja pravilen in da bo razlika med verjetnostjo ki se generira za posamezne kombinacije besed dovolj velika da bomo lahko iz tega dovolj zanesljivo prepoznali pravo kombinacijo besed seveda pa je tukaj znan rek kot smo že zadnjič omenili der is nou dejta dejta lajk mor dejta to pomeni da ker gre za statistično vrednotenje in raz eee izvajanje eee razpoznavanja nikoli nimamo dovolj kvalitetnih eee virov ne eee govorjenih kot tudi ne pisanih in zato se pri bolj zahtevnih sistemih kot so sistemi prepoznavanja tekočega spontanega pogovornega govora pravzaprav uporabljajo jezikovni viri ki vključujejo nekaj sto ur posnetega govornega materiala in pa nekaj sto milijonov obsežne govorjene korpuse eee oziroma tekstovne korpuse to pa eee pomeni seveda zelo veliko eee procesorsko zahtevnost za obravnavo takšnih eee virov in hkrati tudi zelo velik oziroma dolg čas eee priprave takšnih sistemov generator hipotez v skladu z tem kar smo pravkar eee spoznali generira množico različnih kombinacij besed ki se lahko pojavijo na eee vhodu takšnega sistema in s pomočjo akustičnega modela ter jezikovnega modela vrednotimo te verjetnosti povezave oziroma pojavljanja takšnih besed na koncu kot rečeno tukaj dobimo skupno verjetnost ki je torej produkt verjetnosti povezave posameznih skupin besed in pa tako imenovane akustične verjetnosti ki nam daje končni rezultat končni rezultat potem ovrednotimo v smislu iskanja maksimalne verjetnosti in seveda zmeri poznamo za določeno maksimalno verjetnost tudi zaporedje besed ki je pridruženo tej verjetnosti in to je tudi končni rezultat ki ga eee potem uporabimo kot rezultat razpoznavanja stnega govora akustično modeliranje je torej proces ki na osnovi vhodne vhodnega zaporedja vektorjev značilk eee ob shranjenih modelih posameznih izgovorjav bodisi besed ali podbesednih modelov opredeli verjetnost da je posamezen model generiral vhodno množico besed rezultatov je toliko kolikor je modelov ki jih imamo shranjenih v eee modulu eee akustičnih modelov in če razpoznavamo sami te besede je recimo v osnovi rezultatov toliko kolikor besed razpoznavamo če pa razpoznavamo tekoči govor pa je rezultatov toliko kolikor jih v nekem trenutku eee vzamemo kot eem fhodno množico modelov če bi rekli da teh omejitev ni da torej lah vzamemo vse modele ki jih imamo shranjene v eee modulu modelov potem bi to pomenilo da bi morali v vsakem trenutku eee razpoznavati približno al pa o ovrednotiti približno dvanajst tisoč eee takšnih modelov saj jih v razpoznavanju tekočega govora uporabljamo trifonski model kot sem že zadnjič eee na kratko omenil eem in teh je za slovenski jezik približno dvanajst tisoč to pa je jasno da je preveč za eee samo procesiranje še manj v realnem času eee kar pomeni da moramo glede na kontekst kot bomo videli kasneje pravzaprav omejevat obseg modelov za katere izračunavamo verjetnosti eee saj drugače tega ne moremo izvest v času v katerem si to želimo kako pa poteka samo modeliranje oziroma razpoznavanje z Markovim modelom ? ovsak model predstavlja množico stanj ki je vnaprej opredeljena z glasom in tule imamo angleško besedo šest torej sestavljena iz treh fonemov eem in vsak fonem zaseda določeno množico stanj najpogosteje foneme modeliramo z tremi modeli zaradi tega ker nekako eee razmišljamo da začetni model modelira začetek nastajanja glasu drug drugo stanje eee tega modela modelira stacionarni del trajanja fonema in tretje stanje pravzaprav modelira zaključek fonema in že prehod v novo stan v nov fonem kjer se potem to zaporedje ponovi v praksi se je pokazalo da so tri stanja modela na eee fonem pravzaprav eem tisti najboljši kompromis ki na eni strani omogoča dovolj natančno modeliranje poteka fonemov na drugi strani pa tudi matematično oziroma numerično predstavlja dovolj majhen obseg izračunavanj glede na to da je vhodna beseda iste izgovorjave lahko časovno gledano zelo različnega časa trajanja eee seveda se izkaže tukaj prikriti modeli Markova so zelo dobro orodje za modeliranje takšnih eem razmer namreč ne glede na to kako dolgo bo trajal posamezen fonem kako dolgo bo trajala posamezna faza tega modela se bomo lahko v posameznem stanju vrteli poljubno dolgo časa in s tem kompenzirali tisti eee čas tranjanja v katerem se recimo izkazuje odstopanje trajanj takšne besede od neke povprečne besede eee iste istovrstne torej izgovorjave te besede če bi recimo izgovorilo sto ljudi tole besedo bi jo zagotovo vsak izgovoril na drugačen način še posebej recimo glede dolžine teh besed in vse te izgovorjave bi lahko modelirali z enim samim modelom zaradi tega ker bi se vse te dolžine kompenzirale z tem da bi pač na različnih mestih v različnih stanjih prihajalo do večkratnega eem zadrževanja sistema eee v tem stanju oziroma v tem delu modela z prehajanjem v isto stanje dokler bi pač trajal ta fonem in to je ena od eee zelo pomembnih vrednosti Markovih modelov pred že obravnavanim eee dinamičnim časovnim sledenjem pa nevronskimi mrežami ki so se pred časom tudi uporabljali kako pa dolo določimo modele eee oziroma farante teh Markovih modelov ? za to uporabljamo logaritem ki določi parametre ki smo jih že zadnjič spoznali torej ma matriko prehajanja stanj matriko admitiranih simbolov in pa matriko začetka modeliranja v posameznih stanjih modela eee zadnjič smo omenili tudi postopek naprej ki je dejansko omogočal iterativno določitev eee verjetnosti napredovanja eee pri modeliranju Markovega modela skozi posamezna stanja to je bila verjetnost alfa za katere smo razvili iterativni postopek določevanja glede na verjetnosti prehajanja eee v posamezna stanja v nekih časovnih trenutkih modeliranja celotnega procesa tukaj pa imamo pri eee logaritmu še dodatno verjetnost torej verjetnost nazaj ki pa dejansko jo izračunavamo popolnoma enako kot eee verjetnost naprej samo smer računanja verjetnosti je drugačna torej tukaj sedaj računamo kakšna je verjetnost da smo v nekem trenutku te v stanju i in da smo pri tem iz prejšnjega trenutka pravzaprav prešli iz eee prihodnjega stanja torej gremo tukaj z desne proti levi pri sta pri računanju verjetnosti naprej pa smo prehajali iz leve proti desni verjetnosti alfa in beta so osnova za izračun eee verjetnosti modelov Mark eee parametrov Markovega modela saj z njihovo kombinacijo dejansko interaktivno potem izboljšujemo oceno verjetnosti a in be pi na osnovi interaktivnih enačb ki jih imamo tule v tej trojici enačb zajete se pravi najprej izračunavamo verjetnosti naprej in verjetnosti nazaj alfa in beta te eee uporabimo pri izračunu verjetnosti gama ki pomeni verjetnost prehoda iz stanja i v stanje jot v trenutku te za dan model in zaporedje opazovanja in ker vidimo da dejansko vključuje tale verjetnost gama verjetnosti alfa in verjetnosti beta eee ki se obe nanašata na izračunano izračeva izračunavan trenutek eee opazovanja dogajanja v modelu ki nas tukaj zanima torej trenutek te tako da beta pride iz desne proti levi alfa pa iz leve proti desni v to isto stanje smo na ta način ustvarili eee dejansko postopek ki omogoča da poljubnokrat to se prav eee preko iteracij ovrednotimo te verjetnosti to pa je za statistično modeliranje zelo pomembno kajti pri statističnem modeliranju eee je bistveno predvsem to da izvedemo dovolj veliko število interacij s pri katerih vedno znova in znova ovrednotimo te verjetnosti se pravi alfa beta gama ter preko teh s pomočjo kvocientov eee teh verjetnosti gama pri izračunu prehoda iz stanja i v stanje jot in pa v istem stanju imitiranja posameznih simbolov določamo končne verjetnosti ki predstavljajo parametre Markovega modela in sic tudi v praksi poteka razpoz ozir učenje Markovega modela tako da na začetku privzamemo za a be in pi lahko čisto naključne verjetnosti se pravi začnemo z definiranjem naključnih verjetnosti za posamezni model nato pa preko teh treh enačb osvežujemo te verjetnosti tako da na vhod Markovega modela če recimo Markov model modelira izgovorjavo a damo nekaj sto ali nekaj tisoč izgovorjav teh fonemov in za vsako izgovorjavo osvežujemo in izračunavamo te verjetnosti ki počasi lahko rečem tistim pravim verjetnostim oziroma verjetnostim ki bodo maksimizirala končno verjetnost Markovega modela ko se bo na vhodu tega Markovega modela pojavil fonem a in prednost Markovega modela je predvsem v tem da so ko rečemo statistično robustni to pa pomeni da bodo v dajali maksimalne verjetnosti tudi takrat kadar bodo na vhod prihajali eee po svojih karakteristikah zelo različne izgovorjave fonema a to pa je na kožo pisano prav realnemu stanju ker imajo recimo ženske govorke precej drugačne akustične karakteristike kot moški govorci starejši mlajši ali pa celo otroci čeprav pri otrocih je eee ta razlika vseeno takšna da eee Markovi modeli ne z pokrivajo tako zelo velike razpršenosti eee je pa tudi res da v teh virih ki jih običajno uporabljamo ni tako zelo veliko eee izgovorjav otrok in torej te verjetnosti na nek način pri njihovi določitvi niso bili takšne značilnosti govora tudi upoštevane eee po drugi strani je pa zopet tako da te modele običajno razvijamo za določene ciljne skupine in proizvajalci eee recimo določenih elektronskih naprav ki vključujejo sisteme razpoznavanja govora obravanavajo otroke kot posebno ciljno skupino in razvijajo razpoznavalnike govora recimo prilagojene njihovim karakteristikam govornega signala v vsakem primeru pa so se Markovi modeli prav preko teh načinov določitve parametrov modelov a be in pi izkazali kot tista rešitev ki daje najboljše rezultate pri eem razpoznavanju govora in zato tudi predstavljajo danes v svetu praktično edino rešitev ki jo uporabljajo vsi proizvajalci takšnih sistemov