Pratheeksha Nair
Pratheeksha Nair

Follow

7月24日です。 2018 – 4 min read

Disclaimer 1 : この記事は、MFCCの特徴を簡単かつ迅速に理解する必要がある人向けの、単なる紹介記事です。 音声処理の分野で働いたことはありませんが、「MFCC」という言葉(仲間内でよく使われます)を聞いて、それが音声信号から抽出された特定の種類の「特徴」に与えられた名前であることを十分に理解できませんでした(画像から抽出された特徴の一種を構成するエッジに似ています)。

CNN で抽出される特徴量 images
音声信号から抽出した特徴量です。 きれいでしょう!

MFCC特徴量が何であるかを初心者が理解するためには、複数のソースから読み込むのにかなりの時間を要しました。

まずは MFCC – Mel Frequency Cepstral Co-efficients という頭字語を展開することから始めましょう。 おそらくないでしょう。 スペックを逆にしたスペクトルです! しかし、なぜでしょうか。 ごく基本的な理解として、ケプストラムとは、スペクトル帯域の変化率の情報です。 従来の時間信号の分析では、周期的な成分(例えばエコー)は、対応する周波数スペクトル(つまりフーリエスペクトル)に鋭いピークとして現れる。 これは、時間信号にフーリエ変換を施すことで得られる)。

このフーリエスペクトルの大きさの対数をとり、さらにコサイン変換してそのスペクトルをとると、元の時間信号の周期的要素があるところにピークが見られます(複雑そうですが我慢してください!)。 周波数スペクトルそのものに変換を加えているので、周波数領域でも時間領域でもないスペクトルになり、Bogertらはこれをquefrency domainと呼ぶことにしました。 そして、この時間信号のスペクトルの対数のスペクトルをケプストラムと名付けました(ジャジャーン!)

以上説明した手順をまとめたのが、次の画像です。

Cepstrumは地震によって生じる地震エコーを特徴付けるために初めて導入されました。

ピッチは音声信号の特徴の一つで信号の周波数として測定されます。 メルスケールは、音の知覚周波数と実際に測定された周波数を関連付ける尺度である。 人間の耳が聞き取ることができる周波数に近づけるために、周波数をスケーリングします(人間は低い周波数の音声の小さな変化を識別するのに長けています)。 この尺度は、人間を対象とした一連の実験から導き出されたものです。 メルスケールが何を捉えているか、直感的に説明しましょう。

人間の聴覚の範囲は20Hzから20kHzです。 300Hzの曲を想像してください。 これは、固定電話の標準的な発信音のように聞こえるでしょう。 次に、400Hzの音を想像してみてください(少し高めのダイヤルイン音)。 この2つの距離を、あなたの脳がどのように認識するかを比べてみてください。 次に、900Hzの信号(マイクのハウリング音のようなもの)と1kHzの音を想像してください。 実際の差は同じ(100Hz)ですが、この2つの音の間の知覚される距離は、最初の2つよりも大きいように見えるかもしれません。 メルスケールは、このような違いを捉えようとするものです。 ヘルツ(f)で測定された周波数は、次の式でメルスケールに変換することができます:

人間の出す音はすべて声道の形(舌、歯などを含む)によって決定されるものです。 この形状を正しく決定できれば、発生するどんな音も正確に表現することができます。 音声信号の時間パワースペクトルの包絡線が声道を代表し、MFCC(メル周波数のケプストラムを構成する係数に他ならない)はこの包絡線を正確に表現している。 次のブロック図は、MFCC に到達した方法を段階的にまとめたものです。

ここで、フィルターバンクとはメルフィルター(メルスケールにかぶせる)を、セプストラルコefficients とは MFCC のこと以外の何物でもありません。

TL; DR – MFCC 特徴は、(音の生成を担う)声道の形状が現れているため、音素(音の異なる単位)を表します。

Disclaimer 2 : 画像はすべてGoogleイメージです。

コメントを残す

メールアドレスが公開されることはありません。