論文読み - 元データ分析の会社で働いていた人の四方山話

『Support vector machine classification and validation of cancer tissue samples using microarray expression data / Terrence S. Fureyら(2000)』を読む。
この辺りの時期からSVMを発現量データの解析に用いだしたと思われる。
発現量データにSVMを用いる研究の枠組みの理解を深めるために読むことにする。

まだ途中だけどメモ。

SVMは線形カーネルを選択
使用したデータは（この時点で未発表の）Ovarian（卵巣）データ、既発表でおなじみののLeukemia、Colonデータ
遺伝子ごとに正例、負例の統計値（平均と標準偏差）を用いてランク付けを行い、ランク上位の遺伝子を用いてサブセットを作成、学習→未知データの分類で評価を行う
一貫して分類が失敗し続けるサンプルはクラスラベルのつけ方が間違っている可能性が高いことがわかる

実験のところをまだ詳しく読み込んでいないのでこんな感じ。
つまりは、事前に手に入っているデータの遺伝子ごと、クラスごとの平均・標準偏差を求めることで、外れ値が見つかるところがポイントなんではなかろうかと思われる。
このときはそのような分類はなかったようだが、分類するならfilter法になるだろう。
一見良い結果が得られそうだが、これもやはり学習データに依存した超平面が学習されそうな予感がする。

SVMのカーネル行列に対して一工夫ありそうだが、その部分はまだ理解できていない。
長野から帰ってから読む。

と思ったらバイトが休みになるとかいうハプニング

なので続きを少々読んでみる。

具体的な手法が見えてきた。

the diagonal factorを使ってカーネル行列のチューニングを行う。これはトレーニングの時のデータの分類エラーを許容するためのテクニックの一つらしい。ソフトマージンみたいなものかな。
ランキングをつけた特徴量から任意の順位までのものを用いてHold-one-out Cross-Validation(おそらくLOOCVと同じ)を行う。
SVMの結果とあらかじめ与えられていたラベルがConsistentlyに一致しなければ、クラスラベルが誤ってる可能性が高い。(Consistentlyが全て一致しないのかどうかなどの条件は不明)
クラスラベルが誤っていると思われるサンプルは、はずれ値と見なし除外する。

こうやって学習に用いるべき遺伝子及びサンプルを選んでいく手法のよう。
サンプルが正しいかどうかを考慮に入れるという考えは今までしてなかったので、今後のヒントになるかも。

ちなみに実験によって得られた結果の生物学的な考察もかなりの分量をさいて行ってくれているので、読む価値は充分にありそう。
もう少し詳しく読む必要を感じてきた。