Nie ma jednego wzoru na skalę Mel. Popularna formuła z książki O’Shaughnessy’ego może być wyrażona za pomocą różnych podstaw logarytmicznych:

m = 2595 log 10 ( 1 + f 700 ) = 1127 ln ( 1 + f 700 ) {displaystyle m=2595 log _{10}} lewa(1+{frac {f}{700}}prawa)=1127 ln \left(1+{frac {f}{700}}prawa)}

{{displaystyle m=2595log _{10}}}left(1+{frac {f}{700}}}prawica)=1127ln \left(1+{frac {f}{700}}prawica)}

Odpowiednimi wyrażeniami odwrotnymi są:

f = 700 ( 10 m 2595 – 1 ) = 700 ( e m 1127 – 1 ) {{displaystyle f=700}left(10^{frac {m}{2595}}}-1}prawa)=700}left(e^{frac {m}{1127}}-1}prawa)}

{displaystyle f=700\left(10^{}frac {m}{2595}}}-1\right)=700\left(e^{\frac {m}{1127}}-1\right)}

Od czasu krzywych Steinberga z 1937 roku, opartych na zaledwie zauważalnych różnicach wysokości dźwięku, opublikowano krzywe i tabele dotyczące psychofizycznych skal wysokości dźwięku. Więcej krzywych wkrótce pojawiło się w pracach Fletchera i Munsona z 1937 roku, Fletchera z 1938 roku i Stevensa z 1937 roku oraz Stevensa i Volkmanna z 1940 roku przy użyciu różnych metod eksperymentalnych i podejść analitycznych.

W 1949 roku Koenig opublikował przybliżenie oparte na oddzielnych segmentach liniowych i logarytmicznych, z przerwą przy 1000 Hz.

Gunnar Fant zaproponował obecną popularną formułę liniowo-logarytmiczną w 1949 roku, ale z częstotliwością narożną 1000 Hz.

Alternatywne wyrażenie wzoru, nie zależne od wyboru podstawy logarytmu, jest odnotowane w Fant (1968):

m = 1000 log 2 log ( 1 + f 1000 ) {displaystyle m={{frac {1000}{log 2}}}log \left(1+{frac {f}{1000}}}right)\ }

{displaystyle m={{frac {1000}{log 2}}log }left(1+{frac {f}{1000}}}right)}

W 1976 roku Makhoul i Cosell opublikowali popularną obecnie wersję z częstotliwością narożną 700 Hz.Jak zauważyli Ganchev et al., „Wzory , w porównaniu do , zapewniają bliższe przybliżenie skali Mel dla częstotliwości poniżej 1000 Hz, za cenę większej niedokładności dla częstotliwości wyższych niż 1000 Hz.” Powyżej 7 kHz sytuacja jest jednak odwrotna i wersja 700 Hz znów pasuje lepiej.

Dane, przez które niektóre z tych formuł są motywowane są zestawione w Beranek (1949), jako zmierzone z krzywych Stevensa i Volkmanna:

.

.

Beranek 1949 mel scale data from Stevens and Volkmann 1940
Hz 20 160 394 670 1000 1420 1900 2450 3120 4000 5100 6600 9000 14000
mel 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250

Wzór z częstotliwością przerwania 625 Hz jest podany przez Lindsay & Norman (1977); wzór ten nie pojawia się w ich pierwszym wydaniu z 1972 roku:

m = 2410 log 10 ( 0.0016 f + 1 ) {{displaystyle m=2410 log _{10}(0.0016f+1)}

{displaystyle m=2410 log _{10}(0.0016f+1)}

Dla bezpośredniego porównania z innymi wzorami, jest to równoważne:

m = 2410 log 10 ( 1 + f 625 ) {displaystyle m=2410 log _{10}}left(1+{frac {f}{625}}}right)}

{displaystyle m=2410 log _{10}}left(1+{frac {f}{625}}}right)}

Większość wzorów na skalę mel daje dokładnie 1000 mel przy 1000 Hz. Częstotliwość przerwy (np. 700 Hz, 1000 Hz, lub 625 Hz) jest jedynym wolnym parametrem w zwykłej formie wzoru. Niektóre wzory na słuchowo-częstotliwościowe skale nie-melowe używają tej samej formy, ale ze znacznie niższą częstotliwością podziału, niekoniecznie odwzorowującą 1000 przy 1000 Hz; na przykład skala ERB-rate Glasberga & Moore’a (1990) używa punktu podziału 228,8 Hz, a ślimakowa mapa częstotliwości-miejsca Greenwooda (1990) używa 165,3 Hz.

Inne formy funkcjonalne dla skali mel zostały zbadane przez Umesh et al.; wskazują oni, że tradycyjne wzory z regionem logarytmicznym i liniowym nie pasują do danych z krzywych Stevensa i Volkmanna tak dobrze, jak niektóre inne formy, w oparciu o następującą tabelę danych z pomiarów, które wykonali z tych krzywych:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.