Bioconductor

研究室で買ってもらって1ヶ月ほど積読していたこいつが案外いいかも知れない。

RとBioconductorを用いたバイオインフォマティクス

RとBioconductorを用いたバイオインフォマティクス


さっき、ふと存在を思い出し、手に取りパラパラとページをめくってみたところ、いいかもしれない、ということに気づいた。
今までいろんなものを読んでいたが、発現量まわり全般の知識は結局よく分からず…orz


どうやらこの本はR及びBioconductorを用いて、発現量を取得するところから書いているようだ。
こういうのを求めてたのかも。
まだ1章しか読んでいないので何とも言えないけど、しばらくは読み進めていこうと思う。

それはそれとして肝心の研究は…

新しく設計したFitnessFunctionは、従来のものより精度が低下することが判明した。
従来法に比べてより詳細に分類状態を記述し、評価しているのに何でだ!


少し分析したところ、overfittingとなっている可能性が高い。
training Phaseで誤分類に対するペナルティーを大きくしすぎたのかもしれない。
ペナルティーを回避しようとして、trainingデータに極端にマッチするような学習をしたようだ。
と、言うことは、ペナルティーを緩和してやればいいのかも。


最初に設計したFitnessFunctionは、ペナルティーを考慮していなかった。
正確には、分類の状態をそのまま評価していた。
すると、わずかに誤分類をしでかしたわずかなマイナスポイントが、たまたまうまく分類できたときの兄弟なプラスポイントにかき消されることとなっていることが発覚。
よって、ペナルティーは必要、と。


こうやって、閾値みたいなのを決めだすと、研究者の恣意的な操作でいくらでも結果変えられるやん、って思ってきて嫌なんだけどな。
でも、結局のところ、使用している手法が全てparametricなものである以上、この部分からは逃げられない、と。
そして、突っ込みの対象でもある、と。