マハラノビス距離を学んだ

判別分析に用いられる二つの尺度のうち、線形判別関数でない方がマハラノビス距離である。
ということで、調べてみたけどなんだか難しめな感じ。
マハラノビス距離 - Wikipedia

でもそんなに難しくなかった。

マハラノビス距離とは

データ分布の広がりを加味した距離のことです。
この辺がユークリッド距離との違いです。

前提条件

マハラノビス距離では、各グループのデータが正規分布に従って存在していると仮定します。
なので、正規分布に従わないデータについてはどうなるんでしょう?って感じですね。

求め方

データの平均との偏差の絶対値を標準偏差で割ります。
標準偏差で割ることで、分布の幅を考慮した距離が求まります。
ただし、これは一変数のときだけです。

マハラノビス距離の意味

マハラノビス距離が大きいということは、正規分布の中心付近から離れているということになります。
なので、マハラノビス距離が大きいということは、確率的に起こりにくい、ということを意味します。
逆にマハラノビス距離が小さいということは、確率的に起こりやすい、すなわち正規分布の中心付近にデータが存在することを意味します。

多変量に拡張

今までは一変量の話でしたが、実際のデータは多変量です。
拡張の方法は、1変量のマハラノビス距離の2乗について考えます。
すると絶対値が外れますので、2変量以上を扱うための行列計算が可能になります。
かたちは、変量のベクトルで分散共分散行列を挟み込んだ形になります。


2変量のマハラノビス距離は通常楕円に、それ以上では超平面となります。

分類に用いる

あらかじめクラスが分かっているデータの各統計的値を求めておいて、未知のデータのそれぞれのクラスからのマハラノビス距離を求め、近いクラスに属する、というように分類を行うことができます。

まとめ

統計的に有意なほどのサンプル数があるときは、かなり協力に働くんではないかと思います。
特に、線形判別関数ではあいまいだった境界付近での分類もうまく働くと考えられます。