Pratheeksha Nair
Pratheeksha Nair

Volg

24 jul, 2018 – 4 min read

Disclaimer 1 : Dit artikel is slechts een inleiding tot MFCC-kenmerken en is bedoeld voor degenen die snel en gemakkelijk inzicht willen krijgen in deze kenmerken. Gedetailleerde wiskunde en fijne kneepjes worden niet besproken.

Nooit zelf op het gebied van spraakverwerking gewerkt hebbende, begreep ik bij het horen van het woord “MFCC” (dat vaak door collega’s wordt gebruikt) onvoldoende dat het de naam is die wordt gegeven aan een bepaald soort “kenmerk” dat uit audiosignalen wordt gehaald (vergelijkbaar met randen die een soort kenmerk vormen dat uit beelden wordt gehaald).

Gegevens die door een CNN worden geëxtraheerd uit beelden

Features extracted from speech signals. Mooi hè?!

Het heeft me heel wat leeswerk uit verschillende bronnen gekost om te begrijpen wat MFCC-kenmerken voor een beginner zijn. Daarom heb ik besloten mijn medemensen te helpen door de informatie die ik heb verzameld op een begrijpelijke manier samen te vatten.

Laten we beginnen met de afkorting MFCC – Mel Frequency Cepstral Co-efficients.

Heb je het woord cepstral wel eens gehoord? Waarschijnlijk niet. Het is spectraal met de specificaties omgekeerd! Maar waarom? Voor een goed begrip, cepstrum is de informatie van de snelheid van verandering in spectrale banden. Bij de conventionele analyse van tijdsignalen verschijnt elke periodieke component (b.v. echo’s) als scherpe pieken in het overeenkomstige frequentiespectrum (d.w.z. Fourierspectrum. Dit wordt verkregen door toepassing van een Fourier-transformatie op het tijdsignaal). Dit is te zien in de volgende afbeelding.

Wanneer we de log van de magnitude van dit Fourier-spectrum nemen, en vervolgens nogmaals het spectrum van deze log door middel van een cosinus-transformatie (ik weet dat het ingewikkeld klinkt, maar heb geduld met me!), zien we een piek overal waar een periodiek element in het oorspronkelijke tijdsignaal aanwezig is. Aangezien we een transformatie toepassen op het frequentiespectrum zelf, is het resulterende spectrum noch in het frequentiedomein, noch in het tijdsdomein en daarom hebben Bogert et al. besloten het het quefrency-domein te noemen. En dit spectrum van de log van het spectrum van het tijdsignaal kreeg de naam cepstrum (ta-da!).

De volgende afbeelding is een samenvatting van de hierboven uitgelegde stappen.

Cepstrum werd voor het eerst geïntroduceerd om de seismische echo’s te karakteriseren die het gevolg zijn van aardbevingen.

Pitch is een van de kenmerken van een spraaksignaal en wordt gemeten als de frequentie van het signaal. De Mel-schaal is een schaal die de waargenomen frequentie van een toon relateert aan de werkelijk gemeten frequentie. De frequentie wordt geschaald om beter aan te sluiten bij wat het menselijk oor kan horen (mensen zijn beter in het waarnemen van kleine veranderingen in spraak bij lagere frequenties). Deze schaal is afgeleid uit een reeks experimenten met menselijke proefpersonen. Ik zal u een intuïtieve uitleg geven van wat de mel-schaal inhoudt.

Het bereik van het menselijk gehoor is 20Hz tot 20kHz. Stel je een melodie voor op 300 Hz. Dit zou klinken als de standaard kiestoon van een vaste telefoon. Stel je nu een toon voor van 400 Hz (een iets hogere kiestoon). Vergelijk nu de afstand tussen deze twee, hoe dit ook door uw hersenen wordt waargenomen. Stel u nu een signaal van 900 Hz voor (vergelijkbaar met een microfoonfeedback-geluid) en een geluid van 1kHz. De waargenomen afstand tussen deze twee geluiden kan groter lijken dan de eerste twee, hoewel het werkelijke verschil hetzelfde is (100Hz). De mel-schaal probeert dergelijke verschillen weer te geven. Een frequentie gemeten in Hertz (f) kan worden omgerekend naar de Mel-schaal met behulp van de volgende formule :

Elk geluid dat door mensen wordt voortgebracht, wordt bepaald door de vorm van hun spraakkanaal (inclusief tong, tanden, enz.). Als deze vorm correct kan worden bepaald, kan elk geproduceerd geluid nauwkeurig worden weergegeven. De omhullende van het tijd-vermogenspectrum van het spraaksignaal is representatief voor het spraakkanaal en MFCC (dat niets anders is dan de coëfficiënten die het Mel-frequentie cepstrum vormen) geeft deze omhullende nauwkeurig weer. Het volgende blokschema is een stapsgewijze samenvatting van hoe we tot MFCCs zijn gekomen:

Hier verwijst Filter Bank naar de mel-filters (die de mel-schaal dekken) en Cepstral Coefficients zijn niets anders dan MFCCs.

TL; DR – MFCC-kenmerken vertegenwoordigen fonemen (afzonderlijke geluidseenheden), aangezien de vorm van het spraakkanaal (dat verantwoordelijk is voor het voortbrengen van geluid) erin tot uiting komt.

Disclaimer 2 : Alle afbeeldingen zijn afkomstig van Google images.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.