情報理論を少々学んだ

よくよく考えたら情報理論そのものをほとんど忘れている。
輪講の資料にも情報理論が扱われていて、用語の意味が分からなかったり忘れていたりしていた。
いい機会なので学び直してみる。


以下、厳密な定義というよりも自分の解釈+イメージ

確率分布(Probability Distribution)

事象とそれが起こる確率が対応付けられている状態のこと。
つまり、「○○はどれくらいの確率で起こるか」ということが分かる。
ただし、以下の条件に従う。

p_i \geq 0
\sum_{i=1} ^{n} =1

これは、事象が起こる(確率0以上)でかつ、確率の総和が1になるということ。
サイコロの目の話やコインの裏表で考えるとすぐに理解できる。

確率変数(Random variable)

輪講の資料で単語でなんとなくは類推できたけど、意味までは分からなかった。
確率的にしか定まらない値のこと、らしい。

よく
Pr \{X = \alpha \}
みたいに表記されているXがそれに相当する。
要は、\alphaという事象が起きるということを表している。

情報量

情報の量。
I(p) = -\log_2 p
pは確率。
確率分布の条件と照らし合わせると分かるが、確率0で情報量は無限大、確率1で情報量は0。
これを言い換えると、

  • めったに起こらないことは情報量が多く。
  • よく起こることは情報量が少ない。

ということになる。

情報量の大小関係が確率の大小関係と常に一致しており、これが単調性。
扱う事象を二つに分解できるとき、確率は積の形で分解されるが、情報量は和の形で分解され、これが加法性。
ここに情報量を対数の形で扱う必然性が生まれる。

単調性と加法性を有する関数は\logのみ。
これが今回1番の目からうろこな情報だった。

エントロピー

これもまた情報の量。
H(x) = - \sum_{i=1} ^{n} p_i \log p_i
式の形から分かるように、情報量の分布に対する重み付き平均値を表している。
つまり情報量の期待値を表す。

まとめ

確率の知識(なさすぎ|忘れすぎ)てワロタ。