Pratheeksha Nair
Pratheeksha Nair

Follow

júl 24, 2018 – 4 min read

Disclaimer 1 : Ez a cikk csak bevezetés az MFCC jellemzőibe, és azoknak szól, akiknek szükségük van egy egyszerű és gyors megértésre. A részletes matematikát és a bonyolult dolgokat nem tárgyalja.

Mivel magam sosem dolgoztam a beszédfeldolgozás területén, az “MFCC” szó hallatán (amelyet a kollégák elég gyakran használnak) az a hiányos felfogás maradt bennem, hogy ez a hangjelekből kinyert egy bizonyos fajta “jellemző” elnevezése (hasonlóan a képekből kinyert egyfajta jellemzőt alkotó élekhez).

Features extracted by a CNN from képekből

A beszédjelekből kinyert jellemzők. Szép, mi?!

Meglehetősen sok olvasásra volt szükségem több forrásból, hogy a kezdők megérthessék, mi is az MFCC jellemző. Ezért úgy döntöttem, hogy segítek a rászoruló embertársaimnak azzal, hogy az általam összegyűjtött információkat könnyen érthető módon összeállítom.

Kezdjük az MFCC – Mel Frequency Cepstral Co-efficients – rövidítés kibővítésével.

Hallottad már a cepstral szót? Valószínűleg nem. Ez spektrális, megfordított spec-ekkel! De miért? Egy nagyon alapvető megértéshez, a cepstrum a spektrális sávok változásának sebességére vonatkozó információ. Az időjelek hagyományos elemzésénél minden periodikus komponens (pl. visszhangok) éles csúcsokként jelenik meg a megfelelő frekvenciaspektrumban (azaz a Fourier-spektrumban). Ezt úgy kapjuk meg, hogy az időjelre Fourier-transzformációt alkalmazunk). Ez a következő képen látható.

Az e Fourier-spektrum nagyságának logaritmusát véve, majd ismét ennek a logaritmusnak a spektrumát kozinusztranszformációval véve (tudom, hogy bonyolultan hangzik, de türelmet kérek!), mindenütt csúcsot figyelhetünk meg, ahol az eredeti időjelben periodikus elem van. Mivel magára a frekvenciaspektrumra transzformációt alkalmazunk, az így kapott spektrum nem a frekvenciatartományban és nem is az időtartományban van, ezért Bogert és társai úgy döntöttek, hogy quefrency-tartománynak nevezik. Ezt az időjel spektrum logaritmusának spektrumát pedig cepstrumnak nevezték el (ta-da!).

A következő kép a fentebb ismertetett lépések összefoglalása.

A cepstrumot először a földrengések miatt keletkező szeizmikus visszhangok jellemzésére vezették be.

A hangmagasság a beszédjelek egyik jellemzője, és a jel frekvenciájaként mérik. A dallamskála egy olyan skála, amely egy hang észlelt frekvenciáját viszonyítja a ténylegesen mért frekvenciához. A frekvenciát úgy skálázza, hogy jobban megfeleljen annak, amit az emberi fül hallani képes (az emberek jobban felismerik a beszéd kis változásait az alacsonyabb frekvenciákon). Ezt a skálát emberi alanyokon végzett kísérletsorozatokból vezették le. Hadd adjak egy intuitív magyarázatot arra, hogy mit ragad meg a mel skála.

Az emberi hallás tartománya 20 Hz és 20 kHz között van. Képzeljünk el egy dallamot 300 Hz-en. Ez körülbelül úgy hangzana, mint egy vezetékes telefon szabványos tárcsahangja. Most képzeljünk el egy 400 Hz-es dallamot (egy kicsit magasabb tárcsahang). Most hasonlítsa össze a kettő közötti távolságot, bárhogyan is érzékeli ezt az agya. Most képzeljünk el egy 900 Hz-es jelet (hasonlóan a mikrofon visszacsatolási hangjához) és egy 1 kHz-es hangot. E két hang közötti érzékelt távolság nagyobbnak tűnhet, mint az első kettőé, bár a tényleges különbség ugyanaz (100Hz). A mel skála az ilyen különbségeket próbálja megragadni. Egy Hertzben (f) mért frekvencia a következő képlettel konvertálható át a Mel-skálára :

Az ember által keltett hangokat a hangszálak (beleértve a nyelvet, fogakat stb.) alakja határozza meg. Ha ez az alak helyesen határozható meg, akkor minden előállított hang pontosan ábrázolható. A beszédjel időbeli teljesítményspektrumának burkológörbéje reprezentálja a hangszalagot, és az MFCC (amely nem más, mint a Mel-frekvencia cepstrumot alkotó együtthatók) pontosan reprezentálja ezt a burkológörbét. Az alábbi blokkdiagram lépésről lépésre összefoglalja, hogyan jutottunk el az MFCC-hez:

Itt a Filter Bank a mel-szűrőkre utal (a mel-skálára fedés), a Cepstral Coefficients pedig nem más, mint az MFCC.

TL; DR – Az MFCC jellemzők fonémákat (a hang különálló egységeit) képviselik, mivel a hangképzésért felelős vokális traktus alakja nyilvánul meg bennük.

Disclaimer 2 : Minden kép a Google images-ről származik.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.