読者です 読者をやめる 読者になる 読者になる

論文読み

"Multidimensional support vector machines for visualization of gene expression data" D.Komuraらを読む。
これ東大の先生の論文みたいだな。
この分野で日本人が書いた論文を初めて読んだ。


SVMは決定関数(分離超平面)が1つだけしか学習できない。
PCA(主成分分析)は複数の軸を求めることができるが分類には適さない。
そこで、両者の欠点を補い合うものを考えた。


つまり、SVMで複数のお互いに直行し合う分離超平面を学習しよう、ということのようだ。
具体的には重みベクトルであるWをそれぞれが直行しあうように複数みつける。
一つ目の重みベクトルは従来のSVMの学習に従って学習。
二つ目以降を繰り返しのアルゴリズムで求めるよう、だが、この辺りの理解がまだ微妙。


従来のSVMにおける最適化の式に、重みベクトルが直行しあうことを制約条件として与える。
後はラグランジュの未定乗数法を使って、双対問題へ…
で、普通に解くのは大変なので、再帰的なアルゴリズムで近似的に求めましょう、という流れ。
ラグランジュ方程式のくっついている最後の項が理解できない。
後、双対問題から再帰的なアルゴリズムへの変換の辺りがまだだな。


アルゴリズムに用いる遺伝子は、事前にランク付けを行い上位100遺伝子を抽出。
これは前回読んだ論文と同じ。
(2つのクラスの平均の差)/(2つのクラスの標準偏差の和)でランキング。
これは2つのクラスが離れていて、かつクラスはあまりばらついていないことを表している。


結果は非常にきれい。
単純にPCAを用いるよりも、うまく分離できている。
特徴は、クラスラベルをつけ間違っているor外れ値を見つけることができる。


可視化するのはやっぱり見た目的な説得力があるなぁ。