ちょｗｗｗ - 元データ分析の会社で働いていた人の四方山話

めちゃめちゃ興味あるんですけど
http://bioinfo.is.ocha.ac.jp/poster-kokai-seminar/15th-bio-shotai.pdf

とおすぐる＞＜

まあ少しまじめな話をすると、

Support Vector Machine を代表とするKernel-based Machine Learning では、アプリケーションを特徴付けるカーネル関数をうまく設計することが成否の鍵となる。カーネル関数は半正定値という数学的性質により定義されており、その性質を満足するようにカーネル関数を設計することは意外に易しくはない。

前半はまさに正しくて非線形な処理を行うには、SVMをはじめとしてカーネルはきってもきりはなせない。
でも後半の部分もカーネルの説明をするときには良く言われることだけど、最近少し気になることを聞いた。
データの性質に合うカーネル関数を「うまく設計」することができるってことは、データの構造がある程度分かっているってことで、それなら計算コストの高い機械学習じゃなくてもよくね？って意見があるらしい。
なるほど、な主張なので現時点においてそれを覆すような意見はない。

実際、高次元でサンプルが少ないわ、内部の構造もよく分からない発現量データなんかは、複雑（って言うほどでもないけど）なRBFカーネルよりは単純な線形カーネルの方が高い識別率を示すことが多い。
カーネルの選択についてはいつもどーなんだろうな〜、って思っている。
そして、学会発表なんかでは、質疑応答のときにけっこうカーネルを気にして質問してくる人がいる。
「原論文にあったカーネルにあわせましたー」なんて適当なことを言って逃れてきたが、そろそろ理論的につっこんだことも理解していきたいし、いかねばならないだろうな。

その辺りを詳しく知りたいので参加した人のレポを期待するなどする。