読者です 読者をやめる 読者になる 読者になる

フィッシャーとベイズを軽く試す

僕は情報工学を選考してきた学生ではあるが、残念ながら大学の意味不明なカリキュラムにより,統計確率は必修ではないため、学部自体に確率についてまともに勉強する機会がなく、当然の事ながら大学院入試でも統計確率が試験科目としてなかったため、必要になった時につまみ食い的に統計確率を学ぶ程度で、実は情報系を選考している大学院生であり4月から統計確率バリバリの金融工学な世界に足を踏み入れるのにも関わらず、恐ろしく統計確率の知識が希薄であるというありえない状況である。これはまずいなー、と思っていたところ、証券アナリストの勉強やら何やらで統計確率に触れる時間が増え、読み物的な確率の本から学習をしていってるので、適宜アウトプットしていこうと思います。

何か同僚のブログのコメント欄で紹介されていた本を買って読んでみています。

確率的発想法~数学を日常に活かす
確率的発想法~数学を日常に活かす
NHK出版 2004-02-29
売り上げランキング : 32266

おすすめ平均 star
star学生時代読みたい本
star社会選択論入門とでもすべき内容
star不確実性の世界を生きる

Amazonで詳しく見る
by G-Tools

これが中々面白くて理解しやすい。ベイズを始め、確率という概念が実はよく分かっていなかったんだと思い知らされつつ再学習をするいい機会になっています。公式を暗記しているレベルではやはり楽しくない、ということで、本の途中で出てくる例を自分の手で試したい衝動にかられたのでほぼ同じ条件ですが、若干値を変えるなどして試してみます。

ベイズとフィッシャーを例示していろいろと試す

ベイズと言えば、ベイズの公式くらいの知識だったのですが、改めて考えてみるとこれはけっこう面白い話だなーと思います。上に挙げた本で出ていた例で考えて行くとすごく分かりやすいのですが、今、本物と偽物の2種類のコインがあって、表と裏の出る確率が

コイン
本物 5割 5割
偽物 6割 4割

であるとします。つまりは、コインに細工がしてあって偽物の方が若干表が出る確率が大きいという状況ですね。今、上記の本物か偽物のコインを使ってギャンブルをするとします。果たしてそのコインが本物か偽物かをどう考えるか、という話を頻度主義とベイズ主義の双方の視点で進めてみましょう。

フィッシャーの統計的推定

フィッシャーは頻度主義の人のことですね。つまり、数多く試行を行えば、それっぽい結果になるということです。なので、取り敢えずコインを100回ほど投げてみます。おっと、表が48回でました。

直感的な判断

表が48回ということは裏が52回でほぼとんとん、5分5分です。この確率は本物のコインだろ。ということで、本物と断定します。

数学的な判断

上記を数学的に話を進めた場合を計算すると
本物の場合は、0.5^{48} \times 0.5^{52}
偽物の場合は、0.6^{48} \times 0.4^{52}
となります。実際に計算すると

> # 本物
> 0.5**48 * 0.5**52
[1] 7.888609e-31
> # 偽物
> 0.6**48 * 0.4**52
[1] 4.553859e-32

となり、偽物は本物に比べて10分の1ほどの確率となってしまい、これはつまり偽物であることは本物に比べて10分の1くらいあり得ないこと、つまり、本物である可能性の方が偽物である可能性よりも10倍高いということで、このコインは本物だな、となります。

この辺りは実に直感的にというか、普通のよくある考え方です。

ベイズ推定

さて、上記の設定ではギャンブルをしている、という前提なので、100回もコイントスを見てらんないですね。1回でどーんと本物か偽物かを判断したい。そこで出てくるのがベイズです。

ベイズの前提

まずは本物であるか偽物であるか分からないので、本物であるか偽物であるかの割合は5分5分だと決めてやります。そして一度試行を行います。結果表が出たとします。そのとき,本物のコインである時に表が出た確率と偽物のコインである時に表が出た確率を比べると

本物 偽物
0.5\times0.5 0.5\times0.6

となり,
本物:偽物 = 0.5 0.6 = 56
で,本物である確率=\frac{5}{11},偽物である確率=\frac{6}{11} となります。ということで、始まりであった本物か偽物か分からない5分5分である確率が偽物よりに傾きました。これがベイズの定理から導かれる結論です。フィッシャーのような大数の法則に従って大量の試行の基に結果を下せない分野では大変なアドバンテージですね。しかし、前提条件として5分5分とおいたことが怪しいと思うかもしれませんが、この前提は適当においてもよいのです。(最も場合によってはうまく確率が求まらないかもしれませんが…なので、よっぽど事前知識がない場合は5分5分において置くのが無難でしょう。)

ベイズで大量の試行を行う場合

実はベイズでも大量の試行の基に確率を求めることができます。ベイズの定理には大変便利な逐次合理性という複数の試行による確率の変化を一気に求めることができます。今のフィッシャーの場合と同じ表が48回出たという条件では
本物のコインである確率 = 0.5 \times 0.5^{48} \times 0.5^{52}
偽物のコインである確率 = 0.5 \times 0.6^{48} \times 0.4^{52}
となります。
これを確かめると,

> # 本物である確率
> 0.5 * 0.5**48 * 0.5**52
[1] 3.944305e-31
> # 偽物である確率
> 0.5 * 0.6**48 * 0.4**52
[1] 2.276929e-32

となり,フィッシャーとほぼ同じ結果が得られ,本物である確率が偽物である確率よりも10倍ほど高くなります。

まとめというかベイズって何だろ?

ベイズはイメージするなら,時々刻々変化する確率を試行を行う毎にアップデートすることができるすごく便利なやつです。本来不確定である事前情報を決めてやらなければならないのが慣れるまでは若干「あれ?」と思ってしまうわけですが…

21世紀はベイズの時代とも言われているわけで、ちょくちょく勉強して行こうかと思います。