終わってねぇし!

プログラムがまだ終わっておらず、予定していたプレゼン直しや論文作成が今までできなかった。
やっと終わったが、やる気がなくなってしまい、今日の作業(何もしていないが…)は終了にしよう。


しかし、待ち時間に昨日見つけた論文をかなり読み進めることができた。


以下、Limg Li, Amrit Pratap, Hsuan-Tien Lin, and Yaser S. Abu-Mostafa, "Improving Generalization by Data Categorization", PKDD 2005, LNAI 3721, pp.157-168,(2005)より


特徴

According to their intrinsic margin, examples can be grouped into three categories: typical, critical, and noisy.
"本来有している差異にしたがって,サンプルは3つのカテゴリーに分類されうる。それはtypical(典型的),critical(重要),noisy(ノイズ)である。"

...treating the three data categories differently in learning can improve generalization.
"三つのデータカテゴリーを学習の際に異なったものとして扱うことで、汎化能力が改善される。"

てなことらしい。
そしてデータのカテゴリー分けをするために3つの手法が提案されている。

the selection cost, SVM confidence margin, and AdaBoost data weight


この"SVM confidence margin"が自分がしようとしていることに近い。
ずばり,SVMにより決められるマージンの値を使ってデータを分類していく。
超平面を超えて反対のクラスに行ってしまうものがnoisy,逆に超平面から遠くはなれたところに位置するものはtypical
そして、超平面から距離「マージン」分だけ離れているサポートベクターがcritical
これは直感的に言えば当たり前だけど、なかなか理論としては難しい。
一般的に用いられているSVMはソフトマージンSVMなので(というかLIBSVMはデフォルトではソフトマージンってだけなのかな?)ここに誤差の概念が必要。
だから超平面からマージンの距離に位置するものがcriticalとなる。


というものらしい。
必要な情報だけ拾い読みしたので現在分かっているのはここまで。
この研究、後々自分の研究に使えそうな予感。


そして、研究の副産物としてできたのが、昨日言ってたLIBSVMでマージンを吐き出すライブラリらしい。
あ〜ざっす。
助かりました。
でも、自分でも少しはソース読んで理解しないとね。