最近のまとめ

現在の手法:被験者の分類の際に必要最小限の遺伝子を選別する。GASVM,New-GASVM。
SVMを用いた分類精度を基準にGA的な処理で高い分類精度を示した遺伝子のサブセットを選んでいく。


この手法の問題点
発現量データの特徴(高次元、サンプル数が少ない)からSVM過学習を起こす可能性がある。
実際、LOOCV(Leave-One-Out Cross-Validation)での評価をGAの適応度としているので上記の可能性はなかなかに高い。
そしてその過学習を起こしている可能性のあるSVMの分類精度のみを根拠にGAが進んでいく。
なので選ばれた遺伝子達の未知データへの信頼性は怪しい限り。


SVMブラックボックス的に使い、出てきた結果を評価している。
そして出てくる答えは実に分類精度が高いんだな。
そこで僕の研究は、ブラックボックス的な部分を明らかにすること。
それはつまり、遺伝子の特徴や、分類の際に最適となる遺伝子数の決定のための定量的な指標を探すこと。
これが実に難しいと頭を悩ませる今日この頃。


一つ目のアプローチ。
SOM(Self-Organized Map)。
似たデータを集め、さらに2次元や3次元にデータを圧縮することができる手法。
これにより、データの可視化に成功した。
分かったことは、生データでは分類がうまくいかないであろうということ。
両方のクラスともに「特徴」がうまく出ていないことが明らか。
さらに、GASVMによって選ばれた遺伝子がうまく「特徴」を表せていることも分かる。
これによって定性的にデータ分布が分かった。


二つ目のアプローチ。
これは現在進行形。
SVM自体を解析する。
分類できているとしても、その超平面からのサポートベクトルのマージンによって、うまく二つのクラスが分離しているかどうかが分かる(はず)。
しかも、マージンなので、距離という定量的な値を扱うことができる。
で、現在はSVMのプログラムと格闘する日々。
SVMをパッケージだよりにしたツケが回ってきた〜
大変だ。