論文読み - 元データ分析の会社で働いていた人の四方山話

"Multidimensional support vector machines for visualization of gene expression data" D.Komuraらを読む。
これ東大の先生の論文みたいだな。
この分野で日本人が書いた論文を初めて読んだ。

SVMは決定関数(分離超平面)が1つだけしか学習できない。
PCA(主成分分析)は複数の軸を求めることができるが分類には適さない。
そこで、両者の欠点を補い合うものを考えた。

つまり、SVMで複数のお互いに直行し合う分離超平面を学習しよう、ということのようだ。
具体的には重みベクトルである $W$ をそれぞれが直行しあうように複数みつける。
一つ目の重みベクトルは従来のSVMの学習に従って学習。
二つ目以降を繰り返しのアルゴリズムで求めるよう、だが、この辺りの理解がまだ微妙。

従来のSVMにおける最適化の式に、重みベクトルが直行しあうことを制約条件として与える。
後はラグランジュの未定乗数法を使って、双対問題へ…
で、普通に解くのは大変なので、再帰的なアルゴリズムで近似的に求めましょう、という流れ。
ラグランジュ方程式のくっついている最後の項が理解できない。
後、双対問題から再帰的なアルゴリズムへの変換の辺りがまだだな。

アルゴリズムに用いる遺伝子は、事前にランク付けを行い上位100遺伝子を抽出。
これは前回読んだ論文と同じ。
(2つのクラスの平均の差）/（2つのクラスの標準偏差の和）でランキング。
これは2つのクラスが離れていて、かつクラスはあまりばらついていないことを表している。

結果は非常にきれい。
単純にPCAを用いるよりも、うまく分離できている。
特徴は、クラスラベルをつけ間違っているor外れ値を見つけることができる。

可視化するのはやっぱり見た目的な説得力があるなぁ。