たたみかけるようにSVM - 元データ分析の会社で働いていた人の四方山話

今度はカーネル選択について。

We suggest that in gereral RBF is a reasonable first choice.
(一般的に、RBFカーネルが妥当なファーストチョイスであることを提案する.)

だってさ。

理由１

The RBF kernel nolinearly maps smples into a higher dimensional space, so, it,unlike the linear kernel, can handle the case when the relation between class labeland attributes is nonlinear.
(RBFカーネルは非線形的にサンプルを高次元空間に写像する、そして、線形カーネルと違って、クラスラベルとアトリビュートに線形な関係がないときを扱うことができる。)

理由２

The second reason is the number of hyperparameters which influences the complexity of model selection. The polynomial kernel has more hyperparameters than the RBF kernel.
(２番目の理由は、モデル選択に影響を及ぼすハイパーパラメータの数である。多項式カーネルはRBFカーネルより多くのハイパーパラメータを有している。)

理由３

Finally, the RBF kernel has less numerical difficulties.
(最後に、RBFカーネルは数値的な難解さが緩和されている。)

理由３は理解できたか若干怪しいところ。
カーネルの値が、多項式カーネルが無限か０になるのと対照に、０〜１の間に収まるらしい。
この辺はよくわかんね。

ちなみにハイパーパラメータ（超パラメータ）という謎の単語が登場してきたので、調べてみる。
どうやら統計あたりの話のよう。
http://www.trialpc.net/~buch/blog/diary/archives/2007/07/post_930.php
によると

インターネット上に公開されていた論文によると、ハイパーパラメータとは、事前確率を決めるパラメータや確率モデル全体に影響を与えるパラメータのことを指すようです。つまり、ハイパーパラメータを決定することによって確率モデルの分布も決定するようです。

きちんと定義してくれているサイトが見つからなかったOTZ