もういっちょSVM

when to use linea but not RBF kernel
(RBFカーネルではなく、線形カーネルを使うとき)

if the number of features is large, one may not need to map data to a higher dimensional space.
(特徴量の数が多いとき、データを高次元空間に写像する必要はないかもしれない。)
that is, the nonlinear mapping does not improve the performance.
(つまり、非線形写像はパフォーマンスを向上させない。)

つまり、線形カーネルでいい結果が出るなら、コストの係数Cだけを決めればいいのだから、線形カーネルを選ぶことを推奨するという話(だと思う)。


んで、この後議論が二点に絞られるが、その一つ

Case1:Number of instance << number of features
(事例の数<<特徴量の数)

Many microarray data in bioinfomatics are of this type.
(バイオインフォマティクスでの多くのマイクロアレイデータはこのタイプである。)

てなわけで、ビンゴ。
今まで線形カーネルでいい値が出ていたので不思議に思っていたが、どうやらこのタイプのデータを扱っているからですね。
例に挙げられているのがまさに今使っているデータセットLeukemiaやし。

線形カーネルでよろしげな値が出るのは妥当な模様。
でも何でか、というところまでは書いてないorz

もう一点は、文書の分類のような事例の数も特徴量の数も多いような場合について述べられていた。