基礎知識:対数の理解度チェック
🧩 対数クイズ
情報量の学習には対数の基本的な理解が必要です。以下のクイズで確認してみましょう。
問題1: log₂ 8 = ?
問題2: log₂ (1/4) = ?
問題3: 2ˣ = 16 のとき、x = ?
正解数: 0/3
📚 段階的導入:なぜ対数なのか?
情報量の定義に対数が使われる理由を、段階的に理解していきましょう。
ステップ1: 「珍しさ」と「情報の価値」
日常生活で考えてみると:
- 「明日は雨が降る」(確率30%)→ まあまあ珍しい → 少し意味のある情報
- 「明日は隕石が落ちる」(確率0.001%)→ 非常に珍しい → 極めて重要な情報
- 「明日は太陽が昇る」(確率99.99%)→ 当たり前 → ほとんど意味のない情報
つまり、確率が低い(珍しい)ほど、情報として価値が高いと直感的に感じられます。
ステップ2: 独立事象の組み合わせ
2つの独立した出来事が同時に起こる場合を考えてみましょう:
- コインで表が出る(1/2)+ サイコロで6が出る(1/6)
- 同時に起こる確率:1/2 × 1/6 = 1/12
- 情報の価値は「足し算」されるべき:I(表) + I(6) = I(表かつ6)
確率は「掛け算」、情報量は「足し算」になるような関数が必要です。
ステップ3: 対数の性質
対数には重要な性質があります:
- log(a × b) = log(a) + log(b)
- これで確率の積→情報量の和に変換できます
- P(A∧B) = P(A) × P(B) → I(A∧B) = -log(P(A) × P(B)) = -log(P(A)) - log(P(B)) = I(A) + I(B)
だから情報量は I = -log P の形になるのです!
🎯 学習の進め方
- 対数クイズで基礎確認 - 上記クイズで3問中2問以上正解を目指しましょう
- 定義の理解 - 次のタブで情報量の正式な定義を学習
- 体感的理解 - 「体感」タブで驚きと情報量の関係を実感
- 計算練習 - 「計算例」タブで具体的な計算に慣れる
- 理論の深化 - 加算性、性質を理解
- 応用展開 - 実世界での活用例を知る
情報量の定義
🌟 豊富な直感例
📰 ニュース・メディア
- ボガートの名言:「犬が人を噛んでもニュースにならないが、人が犬を噛んだらニュースになる」→ めったに起きないほど情報量が大きい
- スポーツ:「王者が勝利」(確率70%) vs 「大番狂わせ」(確率5%) → 後者の方が大きなニュース
- 芸能:「人気俳優の結婚発表」→ 予想外度が高いほど話題性が大きい
🎲 ゲーム・確率
- コイン投げ:「表が出た」(50%) より「立った」(0.01%) はまれ → 情報量が大きい
- サイコロ:「1が出た」(1/6) より「連続で6回同じ目」(1/6⁶) → 後者は驚異的
- 宝くじ:「はずれ」は当たり前、「1等当選」は人生を変える情報
🌤️ 日常生活
- 天気:「晴れの日に雨」→ 予報が外れると情報価値が高い
- 交通:「電車が定刻」は当然、「大幅遅延」は重要情報
- メール:「スパム」vs「重要な連絡」→ 受信頻度の逆数が情報量
💡 学習・発見
- 試験結果:「予想通りの点数」vs「予想外の高得点/低得点」
- 科学的発見:「既知の法則通り」vs「新しい現象の発見」
- AI予測:「高確信度の予測」vs「低確信度だが的中」→ 後者の価値が高い
🔑 重要な洞察
情報の価値 ≠ 情報量:受け手にとっての「価値」と、確率にもとづく「情報量」は区別して考える必要があります。情報量は客観的な尺度、価値は主観的な判断です。
シャノンの定義
事象 a
の生起確率を P(a)
とすると、情報量 I(a)
を
I(a) = - log₂ P(a)
と定義する(単位:bit)。
- 非負:
0 ≤ P ≤ 1
なのでI ≥ 0
- 単調減少:めったに起きないほど値が大きい
- P=1でI=0:確実な事象は情報量ゼロ
I = -log₂ P のグラフ
📊 このグラフの見方
- 曲線の特徴:確率が小さいほど情報量が急激に増加
- 重要なポイント:P=0.5で1bit、P=0.25で2bit、P=0.125で3bit
- 実感のコツ:確率が半分になるたび情報量が1bit増える
比較:y=ax / y=x / y=logₐx
🔧 操作方法
底aを変更して3つの関数の関係性を比較できます。
- 指数関数(青):急激に増加、情報の「爆発的拡散」
- 一次関数(黄):直線的増加、比例関係
- 対数関数(水色):緩やかに増加、情報量の「圧縮効果」
a=2のとき、指数と対数は互いに逆関数の関係にあります。
体感:驚きと情報量の関係
🎲 驚き度体感スライダー
使い方:①シナリオ選択 → ②出来事選択 → ③あなたの驚き度を設定 → ④理論値と比較!
①シナリオを選択:
②出来事を選択:
コイン投げ
普通のコインを投げたとき「表が出た」という結果になった...
この出来事の確率はどのくらいだと思いますか?
実際の確率
理論的情報量
直感の精度
💡 効果的な使い方
- 極端な例を試す:「宝くじ1等当選」vs「コイン表」で驚き度の違いを実感
- 予想してから確認:確率を予想→驚き度設定→答え確認の順で直感を鍛錬
- データを蓄積:「現在の値を記録」でグラフに点をプロット、傾向を可視化
- 対数感覚の訓練:確率が半分になるたび情報量+1bitの感覚を身につける
📊 直感と理論の比較グラフ
あなたの「驚き度」がどれくらい正確か、グラフで可視化して直感を鍛えましょう。
🎯 使い方チュートリアル
コイン、サイコロ、宝くじなど異なる確率の出来事で驚き度を設定
あなたの驚き度と理論値がグラフ上に点として記録される
点が破線(理想線)に近いほど、あなたの直感が正確
練習を重ねて点が理想線に近づくように調整
📖 グラフの読み方
点が破線に沿って並ぶ
あなたの直感は理論とよく一致
点が破線から大きくずれる
対数的感覚を練習しましょう
点が徐々に破線に近づく
継続的な改善が見られる
💡 実践のコツ
- 極端な例から始める:確実な事象(驚き1)と宝くじ級(驚き10)で感覚を掴む
- 中間値を意識:驚き度5-7の範囲で細かく調整練習
- 一貫性を保つ:同じような確率には同じような驚き度を設定
- 定期的にリセット:時々データクリアして成長を確認
🧠 体感のコツ
- 珍しさ = 情報量:めったに起きないほど価値のある情報
- 予想外度 = 驚き:期待していなかったほど驚く
- 対数的感覚:確率が1/2→1/4→1/8と半分になるたび、情報量は1bitずつ増加
- 日常の感覚:「えっ!」「まじで?」「当然でしょ」という感覚が情報量に対応
練習例
確率30% → 1.74 bit
「あ、やっぱり」程度の驚き
確率0.01% → 13.29 bit
「えええ!?」レベルの驚き
確率99.99% → 0.0001 bit
全く驚かない
コイン投げの情報量
確率の入力
事象定義: a₀ = 表、a₁ = 裏、a₂ = 立つ、a₃ = 割れる
プリセット例(クリックで自動入力):
I(a₀)
I(a₁)
I(a₂)
I(a₃)
🧮 計算器の使い方
- 確率入力:各事象の確率を0~1の範囲で設定(合計1になるよう調整)
- プリセット利用:「通常のコイン」「偏ったコイン」等のボタンで典型例を素早く設定
- 計算結果:各ボックスにリアルタイムで情報量が表示、計算過程も確認可能
- 比較分析:異なる確率での情報量を同時比較し、パターンを理解
📝 練習問題
問題1: 基本計算
確率 P = 1/8 の事象が起きたとき、情報量 I は何bitか?
答えを見る
答え: 3 bit
I = -log₂(1/8) = -log₂(2⁻³) = -(-3) = 3 bit
問題2: 現実的なシナリオ
天気予報で「明日雨が降る確率70%」と発表された。実際に雨が降った場合と降らなかった場合、それぞれの情報量は?
答えを見る
雨が降った場合: I = -log₂(0.7) ≈ 0.51 bit
雨が降らなかった場合: I = -log₂(0.3) ≈ 1.74 bit
予想外だった「降らなかった」方が情報量が大きい!
問題3: 情報量の比較
以下の出来事を情報量の大きい順に並べよ:
A) 公正なコインで表が出る (P=0.5)
B) サイコロで1が出る (P=1/6)
C) 年末ジャンボで1等当選 (P≈2×10⁻⁸)
答えを見る
答え: C > B > A
- A: I = 1.00 bit
- B: I ≈ 2.58 bit
- C: I ≈ 25.6 bit
宝くじ1等の情報量は圧倒的!
問題4: 実践計算
上記の計算器を使って、以下のシナリオの情報量を求めよ:
「偏ったコイン」プリセット → a₂(立つ)の情報量は?
ヒント
プリセットボタンを押して、P(a₂)の値を確認してから計算しましょう。
補足
- P=0 のとき
log₂ 0
は未定義だが、理論上 I = +∞ bit(不可能事象が起きた=モデル破綻)。UIでは「∞ bit」と表示。 - 受け手の主観による「価値」と、確率にもとづく「情報量」は区別して考える。
加算性:独立事象が同時に起きたときの情報量
なぜ I(a) = -log₂ P(a) なのか
情報量の定義がこの形になる理由の一つは、加算性を満たすためです。
独立事象 A, B が同時に起きたとき:
- 確率は積:P(A∧B) = P(A) × P(B)
- 情報量は和:I(A∧B) = I(A) + I(B)
この性質を同時に満たす関数は、対数関数 -log P
の形に限られます(定数倍を除く)。
つまり、「独立な情報の組み合わせは、それぞれの情報量の足し算になる」という自然な要請から、シャノンの定義が導かれるのです。
一般の独立事象 A, B
例:マンションの部屋特定
情報量が満たすべき性質
🔻 単調減少性(Monotonicity)
確率が大きいほど情報量は小さく、確率が小さいほど情報量は大きい。
🔴 現在の点:スライダーで動かした確率とその情報量
📈 曲線全体:右に行くほど(確率↑)情報量は下がる
💡 身近な例で理解
P = 1.0 → I = 0 bit
「太陽が昇る」
P = 0.5 → I = 1 bit
「コインで表」
P = 0.01 → I = 6.6 bit
「100分の1の確率」
P = 0.0001 → I = 13.3 bit
「宝くじレベル」
⚡ 連続性(Continuity)
確率が少しだけ変化しても情報量が飛び跳ねない(滑らかに変化する)。
🔧 連続性の確認方法
上の計算器で近い確率値を入力してみてください。確率が近ければ情報量も近い値になることが確認できます。
➕ 加法性(Additivity)
独立事象A, Bについて、I(A∧B) = I(A) + I(B) が成り立つ。
🎲 実例:サイコロ+コイン
事象A:サイコロで6が出る
事象B:コインで表が出る
事象A∧B:両方同時に起こる
🔧 カスタム検証
📏 規格化(Normalization)
基準を決めることでスケールが定まる。通常「P=1/2の事象の情報量を1bit」とする。
🎯 異なる基準での比較
P = 1/2 の情報量
P = 1/4 の情報量
P = 1/10 の情報量
重要:基準が変わっても相対的な関係は保たれます。P=1/4の情報量は常にP=1/2の2倍です。
エントロピー・応用:平均情報量と実世界での活用
📊 エントロピー(平均情報量)の定義
情報源 X の 平均的に得られる情報量(期待値)であり、分布の不確定さの尺度:
H(X) = - Σ P(xᵢ) log₂ P(xᵢ)
- 均等分布ほど不確定さが大きい → エントロピーが大きい
- 確実(1つに集中)なら不確定さがない → エントロピー 0
エントロピー計算器(最大4事象)
エントロピー H(X)
ヒント
- 均等:H が最大(例:4事象なら 2 bit)
- 集中:H が小さい(極端には 0)
⚙️ エントロピー計算器の使い方
- 確率分布の設定:4つまでの事象について確率を設定(合計1)
- リアルタイム計算:入力と同時にエントロピーと計算過程を表示
- 分布の比較:均等分布(0.25, 0.25, 0.25, 0.25)vs 偏った分布(0.7, 0.2, 0.1, 0)で違いを実感
- 応用理解:データ圧縮や暗号強度の理論的基盤を数値で体感
🛡️ エントロピーと攻撃の関係
エントロピー n ビット → 2n 通りの可能性 → 平均 2n-1 回の試行で破綻
例:シーザー暗号(4.7ビット)は26回で、AES-128(128ビット)は宇宙年齢の10²⁰倍の時間が必要。
💾 データ圧縮の原理
情報量とエントロピーは、データ圧縮の理論的基盤です。
圧縮の実例:文字の頻度
文字 | 頻度 | 確率 | 情報量 | 理想符号長 |
---|---|---|---|---|
E | 127 | 12.7% | 2.98 bit | 3 bit |
T | 91 | 9.1% | 3.46 bit | 3-4 bit |
A | 82 | 8.2% | 3.61 bit | 4 bit |
Z | 1 | 0.1% | 9.97 bit | 10 bit |
原理:頻出文字ほど短い符号、稀な文字ほど長い符号を割り当てることで、全体の平均符号長を最小化。
理論限界:平均符号長 ≥ エントロピー(シャノンの符号化定理)
身近な圧縮技術
- ZIP, RAR:LZ系アルゴリズム + ハフマン符号
- JPEG:DCT変換 + 量子化 + エントロピー符号化
- MP3:心理音響モデル + 適応的量子化
- 現代AI:Transformer(GPT)も情報量最小化が目標
🔐 暗号学での情報量
暗号の安全性は、鍵や平文の情報量(エントロピー)で定量評価できます。
パスワード強度
推測回数: 1.5 × 10¹⁴ 回
安全性: 中程度
🔐 パスワード強度計算器の使い方
- 文字数:パスワードの長さを設定
- 文字種類数:使用可能文字の総数(英大小数字記号=95、英数字=62等)
- エントロピー:情報理論的な強度指標
- 推測回数:総当たり攻撃での平均試行回数
目安:40bit未満=弱い、40-60bit=中程度、60-80bit=強い、80bit以上=非常に強い
暗号アルゴリズム比較
暗号 | 鍵長 | 安全性 |
---|---|---|
DES | 56 bit | 破綻済み |
AES-128 | 128 bit | 安全 |
AES-256 | 256 bit | 超安全 |
RSA-2048 | 2048 bit | 安全 |
完全秘匿性(Perfect Secrecy)
シャノンが証明した理想的暗号の条件:
- H(平文|暗号文) = H(平文):暗号文から平文への情報漏洩ゼロ
- 鍵エントロピー ≥ 平文エントロピー:十分なランダムネス必要
- ワンタイムパッド:この条件を満たす唯一の実用暗号
🌡️ 物理学のエントロピーとの関係
情報エントロピーと熱力学エントロピーは深い関係があります。
共通点
- 不確実性の尺度:どちらも「乱雑さ」を定量化
- 対数的構造:S = k log W, H = -Σp log p
- 加法性:独立系では和で表現
- 最大原理:自然は最大エントロピー状態に向かう
相違点
- 対象:情報 vs 物理系
- 単位:bit vs J/K
- 可逆性:可逆 vs 不可逆過程
- 観測者:主観的 vs 客観的
マクスウェルの悪魔
情報と物理エントロピーの関係を示す思考実験:
- 悪魔が分子の運動を「観測」して仕分け
- 観測で「情報」を得る → エントロピー減少?
- 実際は観測に必要なエネルギーがエントロピー増加
- 結論:情報消去には物理的コストが必要
🤖 機械学習・AI での活用
現代AIの多くの技術で情報量が中心的役割を果たしています。
決定木の分岐基準
情報利得 = H(全体) - H(分割後)
最も不確実性を減らす特徴量で分岐
言語モデル(GPT等)
クロスエントロピー損失で学習
次の単語の確率分布を最適化
変分オートエンコーダー
KLダイバージェンスで正則化
情報のボトルネック効果を利用
強化学習
エントロピー正則化で探索促進
不確実性を保つことで局所解回避
情報ボトルネック理論
深層学習の動作原理を情報理論で説明:
- 圧縮段階:I(X;T)を最小化(入力の冗長性除去)
- 汎化段階:I(T;Y)を最大化(出力との相関強化)
- 最適解:圧縮と予測のトレードオフ
🔬 その他の応用分野
🧬 生物学・遺伝学
- DNA配列の情報量解析
- タンパク質構造の予測
- 進化の情報理論的モデル
📊 統計学・データサイエンス
- 相互情報量による特徴選択
- 異常検知アルゴリズム
- 因果推論の情報理論的手法
📡 通信工学
- チャネル容量の計算
- 誤り訂正符号の設計
- 5G/6Gの効率化技術
🧠 認知科学・心理学
- 人間の情報処理能力測定
- 学習効率の最適化
- 意思決定の情報理論的分析