情報理論を少々学んだ - 元データ分析の会社で働いていた人の四方山話

よくよく考えたら情報理論そのものをほとんど忘れている。
輪講の資料にも情報理論が扱われていて、用語の意味が分からなかったり忘れていたりしていた。
いい機会なので学び直してみる。

以下、厳密な定義というよりも自分の解釈＋イメージ

事象とそれが起こる確率が対応付けられている状態のこと。
つまり、「○○はどれくらいの確率で起こるか」ということが分かる。
ただし、以下の条件に従う。

$p_i \geq 0$
$\sum_{i=1} ^{n} =1$

これは、事象が起こる（確率0以上）でかつ、確率の総和が1になるということ。
サイコロの目の話やコインの裏表で考えるとすぐに理解できる。

輪講の資料で単語でなんとなくは類推できたけど、意味までは分からなかった。
確率的にしか定まらない値のこと、らしい。

よく
$Pr \{X = \alpha \}$
みたいに表記されている $X$ がそれに相当する。
要は、 $\alpha$ という事象が起きるということを表している。

情報の量。
$I(p) = -\log_2 p$
pは確率。
確率分布の条件と照らし合わせると分かるが、確率0で情報量は無限大、確率1で情報量は0。
これを言い換えると、

ということになる。

情報量の大小関係が確率の大小関係と常に一致しており、これが単調性。
扱う事象を二つに分解できるとき、確率は積の形で分解されるが、情報量は和の形で分解され、これが加法性。
ここに情報量を対数の形で扱う必然性が生まれる。

単調性と加法性を有する関数は $\log$ のみ。
これが今回1番の目からうろこな情報だった。

これもまた情報の量。
$H(x) = - \sum_{i=1} ^{n} p_i \log p_i$
式の形から分かるように、情報量の分布に対する重み付き平均値を表している。
つまり情報量の期待値を表す。

確率の知識(なさすぎ|忘れすぎ)てワロタ。