Bioconductor - 元データ分析の会社で働いていた人の四方山話

研究室で買ってもらって1ヶ月ほど積読していたこいつが案外いいかも知れない。

作者: R.ジェントルマン,V.J.カリー,W.フーバー,R.A.イリザリー,S.ドュドイト,荒川和晴,粕川雄也,川路英哉,河野信,神田将和,鈴木治夫,田中伸也,中尾光輝,長嶋剛史,二階堂愛,宮本真理
出版社/メーカー: シュプリンガー・ジャパン株式会社
発売日: 2007/07/09
メディア: 単行本
購入: 1人クリック: 20回
この商品を含むブログ (19件) を見る

さっき、ふと存在を思い出し、手に取りパラパラとページをめくってみたところ、いいかもしれない、ということに気づいた。
今までいろんなものを読んでいたが、発現量まわり全般の知識は結局よく分からず…orz

どうやらこの本はR及びBioconductorを用いて、発現量を取得するところから書いているようだ。
こういうのを求めてたのかも。
まだ1章しか読んでいないので何とも言えないけど、しばらくは読み進めていこうと思う。

それはそれとして肝心の研究は…

新しく設計したFitnessFunctionは、従来のものより精度が低下することが判明した。
従来法に比べてより詳細に分類状態を記述し、評価しているのに何でだ！

少し分析したところ、overfittingとなっている可能性が高い。
training Phaseで誤分類に対するペナルティーを大きくしすぎたのかもしれない。
ペナルティーを回避しようとして、trainingデータに極端にマッチするような学習をしたようだ。
と、言うことは、ペナルティーを緩和してやればいいのかも。

最初に設計したFitnessFunctionは、ペナルティーを考慮していなかった。
正確には、分類の状態をそのまま評価していた。
すると、わずかに誤分類をしでかしたわずかなマイナスポイントが、たまたまうまく分類できたときの兄弟なプラスポイントにかき消されることとなっていることが発覚。
よって、ペナルティーは必要、と。

こうやって、閾値みたいなのを決めだすと、研究者の恣意的な操作でいくらでも結果変えられるやん、って思ってきて嫌なんだけどな。
でも、結局のところ、使用している手法が全てparametricなものである以上、この部分からは逃げられない、と。
そして、突っ込みの対象でもある、と。