Pratheeksha Nair
Pratheeksha Nair

Follow

24 iulie, 2018 – 4 min citește

Disclaimer 1 : Acest articol este doar o introducere în caracteristicile MFCC și este destinat celor care au nevoie de o înțelegere ușoară și rapidă a acestora. Matematica detaliată și complexitățile nu sunt discutate.

Nu am lucrat niciodată eu însumi în domeniul procesării vorbirii, faptul că am auzit cuvântul „MFCC” (destul de des folosit de colegi) m-a lăsat cu înțelegerea inadecvată a faptului că acesta este numele dat unui anumit tip de „caracteristică” extrasă din semnalele audio (similar cu marginile care constituie un tip de caracteristică extrasă din imagini).

Caracteristicile extrase de un CNN din imagini

Caracteristici extrase din semnale de vorbire. Drăguț, nu-i așa?!

Mi-a luat destul de mult timp să citesc din mai multe surse pentru a înțelege, ca novice, ce sunt caracteristicile MFCC. Așa că am decis să ajut semenii care au nevoie de ajutor, compilând informațiile pe care le-am adunat într-o manieră ușor de înțeles.

Să începem prin a extinde acronimul MFCC – Mel Frequency Cepstral Co-efficients.

Ați mai auzit vreodată cuvântul cepstral? Probabil că nu. Este spectral cu spectrul inversat! De ce totuși? Pentru o înțelegere foarte elementară, cepstrul este informația privind rata de schimbare a benzilor spectrale. În analiza convențională a semnalelor temporale, orice componentă periodică (de exemplu, ecourile) apare ca vârfuri ascuțite în spectrul de frecvență corespunzător (adică spectrul Fourier. Acesta se obține prin aplicarea unei transformate Fourier asupra semnalului temporal). Acest lucru poate fi observat în următoarea imagine.

După ce luăm logaritmul magnitudinii acestui spectru Fourier și apoi luăm din nou spectrul acestui logaritm printr-o transformare în cosinus (știu că sună complicat, dar vă rog să aveți răbdare cu mine!), observăm un vârf ori de câte ori există un element periodic în semnalul temporal original. Deoarece aplicăm o transformare asupra spectrului de frecvență în sine, spectrul rezultat nu este nici în domeniul frecvenței, nici în domeniul timpului și, prin urmare, Bogert et al. au decis să îl numească domeniul quefrency. Iar acest spectru al logaritmului spectrului semnalului temporal a fost numit cepstru (ta-da!).

Imaginea următoare este un rezumat al pașilor explicați mai sus.

Cepstrul a fost introdus pentru prima dată pentru a caracteriza ecourile seismice rezultate din cauza cutremurelor.

Pitch-ul este una dintre caracteristicile unui semnal de vorbire și se măsoară ca frecvență a semnalului. Scala Mel este o scală care raportează frecvența percepută a unui ton la frecvența reală măsurată. Ea scalează frecvența pentru a se potrivi mai bine cu ceea ce poate auzi urechea umană (oamenii identifică mai bine micile schimbări în vorbire la frecvențe mai mici). Această scală a fost derivată din seturi de experimente efectuate pe subiecți umani. Permiteți-mi să vă dau o explicație intuitivă a ceea ce captează scara mel.

Regimul auzului uman este de la 20Hz la 20kHz. Imaginați-vă o melodie la 300 Hz. Aceasta ar suna ceva de genul tonului de apelare standard al unui telefon fix. Acum imaginați-vă o melodie la 400 Hz (un ton de apelare puțin mai ascuțit). Acum comparați distanța dintre cele două, indiferent cum ar fi percepută de creierul dumneavoastră. Acum imaginați-vă un semnal de 900 Hz (similar cu sunetul de feedback al unui microfon) și un sunet de 1kHz. Distanța percepută între aceste două sunete poate părea mai mare decât în cazul primelor două, deși diferența reală este aceeași (100 Hz). Scala mel încearcă să surprindă astfel de diferențe. O frecvență măsurată în Hertz (f) poate fi convertită în scara Mel folosind următoarea formulă :

Care sunet generat de oameni este determinat de forma tractului vocal al acestora (inclusiv limba, dinții etc.). Dacă această formă poate fi determinată corect, orice sunet produs poate fi reprezentat cu acuratețe. Învelișul spectrului de putere în timp al semnalului de vorbire este reprezentativ pentru tractul vocal, iar MFCC (care nu este altceva decât coeficienții care alcătuiesc cepstrul frecvenței Mel) reprezintă cu exactitate acest înveliș. Următoarea schemă bloc este un rezumat pas cu pas al modului în care am ajuns la MFCC:

Aici, Filter Bank se referă la filtrele de mel (care acoperă scara de mel), iar Coeficienții Cepstral nu sunt altceva decât MFCC.

TL; DR – Caracteristicile MFCC reprezintă foneme (unități distincte de sunet), deoarece forma tractului vocal (care este responsabil pentru generarea sunetului) se manifestă în ele.

Disclaimer 2 : Toate imaginile provin din Google images.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.