一年以上パターン認識機械学習の世界から離れていたので、ちょっと色々とひどいことになっています。といっても、一年前も大したことはなかったので、再勉強というところでしょうか。

リハビリをかねてこちらの本を読んで、まとめつつ、基礎から学び直していきます。
できるだけ数式を書かないようにして、自分の曖昧なところを明らかにしていきたいと思います。

わかりやすいパターン認識
わかりやすいパターン認識石井 健一郎 前田 英作 上田 修功 村瀬 洋

オーム社 1998-08
売り上げランキング : 35310


Amazonで詳しく見る
by G-Tools

今回は、主に4章の識別部の設計についてまとめています。ここは自分でもけっこう大事だと思っていて、各論というよりは、パターン認識全体の概要になっていると思っています。

パラメトリックな学習とノンパラメトリックな学習

学習パターンは、何らかの確率密度関数に従って生起し、それが観測されている考えられます。
パターンの背後にある確率密度関数のパラメータ(要は分布のもとになる関数のパラメータ、正規分布だったら平均と分散みたいな)を推定するのが、名前の通りパラメトリックな学習です。。
一方、いわゆる機械学習として有名なニューラルネットワークや、k近傍法などは、学習パターンの密度関数等は考えずに識別関数を構築するので、その名の通りノンパラメトリックな学習と呼ばれます。

パラメトリックな学習は確率密度関数をもとにして識別部を構成する。いわゆるベイズ決定則に基づいた識別部が構成されますが、現実問題として、単純な分布関数に基づいてデータが観測されているということは考えづらく、なかなか難しい問題だったりします。

教師あり学習と教師なし学習

学習データにラベルをつけることが可能、すなわち、学習データの確率密度関数が互いに独立しているという過程のもとで進める学習手法を教師あり学習と言います。
学習データはどのクラスに属しているか、ということが明確なので、学習データと所属するクラスの情報をもとに識別関数を構成します。
教師なし学習は学習パターンがどのクラスに属しているか分からない状態で行う学習手法です。すなわち、確率密度関数をそれぞれ独立に求めることができません。
このとき、識別するクラス数が分かっている場合は、混合分布(確率密度関数の線形結合で表される分布)のパラメータ推定問題となります。教師なし学習で有名なものとして、自己組織化マップなどがあります。
クラス数すら分かっていない場合は、学習ではなくクラスタリングを行う必要があります。クラスタリングとは、特徴空間上で分布の塊を見いだす手法のことを言います。つまり、似た者は近くに集まってるはずなので、そこでまとめてしまおうという手法ですね。


で、結論として言えることは、現実はそんなに単純な確率密度関数に従ったデータが得られるわけではないので、やはりパラメトリックな手法より、データさえあればひとまず結果を得る事が簡単なノンパラメトリックな手法の方が実問題には適用しやすいのではないでしょうか。。
教師あり学習/教師なし学習については、今の自分の知識ではなんとも言えません。まだまだ勉強が必要ですね。


まあやはりまだ理解が曖昧すぎて、悲しい感じで終わってますが、いいリハビリにはなっています。
次回は、特徴量(次元)とデータ数の関係についてまとめてみたいと思います。