基礎知識:対数の理解度チェック

🧩 対数クイズ

情報量の学習には対数の基本的な理解が必要です。以下のクイズで確認してみましょう。

問題1: log₂ 8 = ?

問題2: log₂ (1/4) = ?

問題3: 2ˣ = 16 のとき、x = ?

正解数: 0/3

📚 段階的導入:なぜ対数なのか?

情報量の定義に対数が使われる理由を、段階的に理解していきましょう。

ステップ1: 「珍しさ」と「情報の価値」

日常生活で考えてみると:

  • 「明日は雨が降る」(確率30%)→ まあまあ珍しい → 少し意味のある情報
  • 「明日は隕石が落ちる」(確率0.001%)→ 非常に珍しい → 極めて重要な情報
  • 「明日は太陽が昇る」(確率99.99%)→ 当たり前 → ほとんど意味のない情報

つまり、確率が低い(珍しい)ほど、情報として価値が高いと直感的に感じられます。

ステップ2: 独立事象の組み合わせ

2つの独立した出来事が同時に起こる場合を考えてみましょう:

  • コインで表が出る(1/2)+ サイコロで6が出る(1/6)
  • 同時に起こる確率:1/2 × 1/6 = 1/12
  • 情報の価値は「足し算」されるべき:I(表) + I(6) = I(表かつ6)

確率は「掛け算」、情報量は「足し算」になるような関数が必要です。

ステップ3: 対数の性質

対数には重要な性質があります:

  • log(a × b) = log(a) + log(b)
  • これで確率の積→情報量の和に変換できます
  • P(A∧B) = P(A) × P(B) → I(A∧B) = -log(P(A) × P(B)) = -log(P(A)) - log(P(B)) = I(A) + I(B)

だから情報量は I = -log P の形になるのです!

🎯 学習の進め方

  1. 対数クイズで基礎確認 - 上記クイズで3問中2問以上正解を目指しましょう
  2. 定義の理解 - 次のタブで情報量の正式な定義を学習
  3. 体感的理解 - 「体感」タブで驚きと情報量の関係を実感
  4. 計算練習 - 「計算例」タブで具体的な計算に慣れる
  5. 理論の深化 - 加算性、性質を理解
  6. 応用展開 - 実世界での活用例を知る

情報量の定義

🌟 豊富な直感例

📰 ニュース・メディア

  • ボガートの名言:「犬が人を噛んでもニュースにならないが、人が犬を噛んだらニュースになる」→ めったに起きないほど情報量が大きい
  • スポーツ:「王者が勝利」(確率70%) vs 「大番狂わせ」(確率5%) → 後者の方が大きなニュース
  • 芸能:「人気俳優の結婚発表」→ 予想外度が高いほど話題性が大きい

🎲 ゲーム・確率

  • コイン投げ:「表が出た」(50%) より「立った」(0.01%) はまれ → 情報量が大きい
  • サイコロ:「1が出た」(1/6) より「連続で6回同じ目」(1/6⁶) → 後者は驚異的
  • 宝くじ:「はずれ」は当たり前、「1等当選」は人生を変える情報

🌤️ 日常生活

  • 天気:「晴れの日に雨」→ 予報が外れると情報価値が高い
  • 交通:「電車が定刻」は当然、「大幅遅延」は重要情報
  • メール:「スパム」vs「重要な連絡」→ 受信頻度の逆数が情報量

💡 学習・発見

  • 試験結果:「予想通りの点数」vs「予想外の高得点/低得点」
  • 科学的発見:「既知の法則通り」vs「新しい現象の発見」
  • AI予測:「高確信度の予測」vs「低確信度だが的中」→ 後者の価値が高い

🔑 重要な洞察

情報の価値 ≠ 情報量:受け手にとっての「価値」と、確率にもとづく「情報量」は区別して考える必要があります。情報量は客観的な尺度、価値は主観的な判断です。

シャノンの定義

事象 a の生起確率を P(a) とすると、情報量 I(a)

I(a) = - log₂ P(a)

と定義する(単位:bit)。

  • 非負0 ≤ P ≤ 1 なので I ≥ 0
  • 単調減少:めったに起きないほど値が大きい
  • P=1でI=0:確実な事象は情報量ゼロ

I = -log₂ P のグラフ

横軸: P (0<P≤1), 縦軸: I=-log₂P

📊 このグラフの見方

  • 曲線の特徴:確率が小さいほど情報量が急激に増加
  • 重要なポイント:P=0.5で1bit、P=0.25で2bit、P=0.125で3bit
  • 実感のコツ:確率が半分になるたび情報量が1bit増える

比較:y=ax / y=x / y=logₐx

y = ax y = x y = logₐ x

🔧 操作方法

底aを変更して3つの関数の関係性を比較できます。

  • 指数関数(青):急激に増加、情報の「爆発的拡散」
  • 一次関数(黄):直線的増加、比例関係
  • 対数関数(水色):緩やかに増加、情報量の「圧縮効果」

a=2のとき、指数と対数は互いに逆関数の関係にあります。

体感:驚きと情報量の関係

🎲 驚き度体感スライダー

使い方:①シナリオ選択 → ②出来事選択 → ③あなたの驚き度を設定 → ④理論値と比較!

①シナリオを選択:

②出来事を選択:

コイン投げ

普通のコインを投げたとき「表が出た」という結果になった...

③この結果にどのくらい驚きますか?

あなたの驚き度: 5

この出来事の確率はどのくらいだと思いますか?

実際の確率
50%
理論的情報量
1.00 bit
直感の精度
80%
驚き度5は情報量1.00 bitにほぼ対応しています。良い直感です!

💡 効果的な使い方

  • 極端な例を試す:「宝くじ1等当選」vs「コイン表」で驚き度の違いを実感
  • 予想してから確認:確率を予想→驚き度設定→答え確認の順で直感を鍛錬
  • データを蓄積:「現在の値を記録」でグラフに点をプロット、傾向を可視化
  • 対数感覚の訓練:確率が半分になるたび情報量+1bitの感覚を身につける

📊 直感と理論の比較グラフ

あなたの「驚き度」がどれくらい正確か、グラフで可視化して直感を鍛えましょう。

🎯 使い方チュートリアル

1
様々なシナリオを試す
コイン、サイコロ、宝くじなど異なる確率の出来事で驚き度を設定
2
「現在の値を記録」をクリック
あなたの驚き度と理論値がグラフ上に点として記録される
3
パターンを観察
点が破線(理想線)に近いほど、あなたの直感が正確
4
直感を改善
練習を重ねて点が理想線に近づくように調整
記録点数: 0

📖 グラフの読み方

理想的パターン
点が破線に沿って並ぶ
あなたの直感は理論とよく一致
⚠️
改善が必要
点が破線から大きくずれる
対数的感覚を練習しましょう
📈
学習中パターン
点が徐々に破線に近づく
継続的な改善が見られる

💡 実践のコツ

  • 極端な例から始める:確実な事象(驚き1)と宝くじ級(驚き10)で感覚を掴む
  • 中間値を意識:驚き度5-7の範囲で細かく調整練習
  • 一貫性を保つ:同じような確率には同じような驚き度を設定
  • 定期的にリセット:時々データクリアして成長を確認

🧠 体感のコツ

  • 珍しさ = 情報量:めったに起きないほど価値のある情報
  • 予想外度 = 驚き:期待していなかったほど驚く
  • 対数的感覚:確率が1/2→1/4→1/8と半分になるたび、情報量は1bitずつ増加
  • 日常の感覚:「えっ!」「まじで?」「当然でしょ」という感覚が情報量に対応

練習例

雨が降る
確率30% → 1.74 bit
「あ、やっぱり」程度の驚き
雪が降る(夏)
確率0.01% → 13.29 bit
「えええ!?」レベルの驚き
太陽が昇る
確率99.99% → 0.0001 bit
全く驚かない

コイン投げの情報量

確率の入力

事象定義: a₀ = 表、a₁ = 裏、a₂ = 立つ、a₃ = 割れる

プリセット例(クリックで自動入力):

合計 P = 1.00000

I(a₀)


          

I(a₁)


          

I(a₂)


          

I(a₃)


          

🧮 計算器の使い方

  • 確率入力:各事象の確率を0~1の範囲で設定(合計1になるよう調整)
  • プリセット利用:「通常のコイン」「偏ったコイン」等のボタンで典型例を素早く設定
  • 計算結果:各ボックスにリアルタイムで情報量が表示、計算過程も確認可能
  • 比較分析:異なる確率での情報量を同時比較し、パターンを理解

📝 練習問題

問題1: 基本計算

確率 P = 1/8 の事象が起きたとき、情報量 I は何bitか?

答えを見る

答え: 3 bit

I = -log₂(1/8) = -log₂(2⁻³) = -(-3) = 3 bit

問題2: 現実的なシナリオ

天気予報で「明日雨が降る確率70%」と発表された。実際に雨が降った場合と降らなかった場合、それぞれの情報量は?

答えを見る

雨が降った場合: I = -log₂(0.7) ≈ 0.51 bit

雨が降らなかった場合: I = -log₂(0.3) ≈ 1.74 bit

予想外だった「降らなかった」方が情報量が大きい!

問題3: 情報量の比較

以下の出来事を情報量の大きい順に並べよ:
A) 公正なコインで表が出る (P=0.5)
B) サイコロで1が出る (P=1/6)
C) 年末ジャンボで1等当選 (P≈2×10⁻⁸)

答えを見る

答え: C > B > A

  • A: I = 1.00 bit
  • B: I ≈ 2.58 bit
  • C: I ≈ 25.6 bit

宝くじ1等の情報量は圧倒的!

問題4: 実践計算

上記の計算器を使って、以下のシナリオの情報量を求めよ:
「偏ったコイン」プリセット → a₂(立つ)の情報量は?

ヒント

プリセットボタンを押して、P(a₂)の値を確認してから計算しましょう。

補足

  • P=0 のとき log₂ 0 は未定義だが、理論上 I = +∞ bit(不可能事象が起きた=モデル破綻)。UIでは「∞ bit」と表示。
  • 受け手の主観による「価値」と、確率にもとづく「情報量」は区別して考える。

加算性:独立事象が同時に起きたときの情報量

なぜ I(a) = -log₂ P(a) なのか

情報量の定義がこの形になる理由の一つは、加算性を満たすためです。

独立事象 A, B が同時に起きたとき:

  • 確率は積:P(A∧B) = P(A) × P(B)
  • 情報量は和:I(A∧B) = I(A) + I(B)

この性質を同時に満たす関数は、対数関数 -log P の形に限られます(定数倍を除く)。

つまり、「独立な情報の組み合わせは、それぞれの情報量の足し算になる」という自然な要請から、シャノンの定義が導かれるのです。

一般の独立事象 A, B

I(A)
I(B)
I(A∧B)

      

例:マンションの部屋特定

I(階の特定)
I(号室の特定)
I(部屋番号の特定)

      

情報量が満たすべき性質

🔻 単調減少性(Monotonicity)

確率が大きいほど情報量は小さく、確率が小さいほど情報量は大きい。

現在 P = 0.5000, I = 1.0000 bit

🔴 現在の点:スライダーで動かした確率とその情報量

📈 曲線全体:右に行くほど(確率↑)情報量は下がる

💡 身近な例で理解

確実な事象
P = 1.0 → I = 0 bit
「太陽が昇る」
普通の事象
P = 0.5 → I = 1 bit
「コインで表」
稀な事象
P = 0.01 → I = 6.6 bit
「100分の1の確率」
極稀な事象
P = 0.0001 → I = 13.3 bit
「宝くじレベル」

⚡ 連続性(Continuity)

確率が少しだけ変化しても情報量が飛び跳ねない(滑らかに変化する)。

I₁ = 1.0000 bit
I₂ = 0.9710 bit
確率差:|P₂ - P₁| = 0.0100
情報量差:|I₂ - I₁| = 0.0290 bit
✅ 連続性が保たれています

🔧 連続性の確認方法

上の計算器で近い確率値を入力してみてください。確率が近ければ情報量も近い値になることが確認できます。

➕ 加法性(Additivity)

独立事象A, Bについて、I(A∧B) = I(A) + I(B) が成り立つ。

🎲 実例:サイコロ+コイン

事象A:サイコロで6が出る
P(A) = 1/6 ≈ 0.1667
I(A) = 2.58 bit
事象B:コインで表が出る
P(B) = 1/2 = 0.5000
I(B) = 1.00 bit
事象A∧B:両方同時に起こる
P(A∧B) = P(A) × P(B) = 0.0833
I(A∧B) = 3.58 bit
検証:I(A) + I(B) = 3.58 bit ✅

🔧 カスタム検証

I(A) = 1.74 bit
I(B) = 1.32 bit
P(A∧B) = 0.12
I(A∧B) = 3.06 bit
I(A) + I(B) = 3.06 bit
一致度:100%

📏 規格化(Normalization)

基準を決めることでスケールが定まる。通常「P=1/2の事象の情報量を1bit」とする。

🎯 異なる基準での比較

P = 1/2 の情報量
1.000 bit
P = 1/4 の情報量
2.000 bit
P = 1/10 の情報量
3.322 bit

重要:基準が変わっても相対的な関係は保たれます。P=1/4の情報量は常にP=1/2の2倍です。

エントロピー・応用:平均情報量と実世界での活用

📊 エントロピー(平均情報量)の定義

情報源 X の 平均的に得られる情報量(期待値)であり、分布の不確定さの尺度:

H(X) = - Σ P(xᵢ) log₂ P(xᵢ)
  • 均等分布ほど不確定さが大きい → エントロピーが大きい
  • 確実(1つに集中)なら不確定さがない → エントロピー 0

エントロピー計算器(最大4事象)

合計 P = 1.0000

エントロピー H(X)


            

ヒント

  • 均等:H が最大(例:4事象なら 2 bit)
  • 集中:H が小さい(極端には 0)

⚙️ エントロピー計算器の使い方

  • 確率分布の設定:4つまでの事象について確率を設定(合計1)
  • リアルタイム計算:入力と同時にエントロピーと計算過程を表示
  • 分布の比較:均等分布(0.25, 0.25, 0.25, 0.25)vs 偏った分布(0.7, 0.2, 0.1, 0)で違いを実感
  • 応用理解:データ圧縮や暗号強度の理論的基盤を数値で体感

🛡️ エントロピーと攻撃の関係

エントロピー n ビット → 2n 通りの可能性 → 平均 2n-1 回の試行で破綻

例:シーザー暗号(4.7ビット)は26回で、AES-128(128ビット)は宇宙年齢の10²⁰倍の時間が必要。

💾 データ圧縮の原理

情報量とエントロピーは、データ圧縮の理論的基盤です。

圧縮の実例:文字の頻度

文字頻度確率情報量理想符号長
E12712.7%2.98 bit3 bit
T919.1%3.46 bit3-4 bit
A828.2%3.61 bit4 bit
Z10.1%9.97 bit10 bit

原理:頻出文字ほど短い符号、稀な文字ほど長い符号を割り当てることで、全体の平均符号長を最小化。

理論限界:平均符号長 ≥ エントロピー(シャノンの符号化定理)

身近な圧縮技術

  • ZIP, RAR:LZ系アルゴリズム + ハフマン符号
  • JPEG:DCT変換 + 量子化 + エントロピー符号化
  • MP3:心理音響モデル + 適応的量子化
  • 現代AI:Transformer(GPT)も情報量最小化が目標

🔐 暗号学での情報量

暗号の安全性は、鍵や平文の情報量(エントロピー)で定量評価できます。

パスワード強度

エントロピー: 47.6 bit
推測回数: 1.5 × 10¹⁴ 回
安全性: 中程度

🔐 パスワード強度計算器の使い方

  • 文字数:パスワードの長さを設定
  • 文字種類数:使用可能文字の総数(英大小数字記号=95、英数字=62等)
  • エントロピー:情報理論的な強度指標
  • 推測回数:総当たり攻撃での平均試行回数

目安:40bit未満=弱い、40-60bit=中程度、60-80bit=強い、80bit以上=非常に強い

暗号アルゴリズム比較

暗号鍵長安全性
DES56 bit破綻済み
AES-128128 bit安全
AES-256256 bit超安全
RSA-20482048 bit安全

完全秘匿性(Perfect Secrecy)

シャノンが証明した理想的暗号の条件:

  • H(平文|暗号文) = H(平文):暗号文から平文への情報漏洩ゼロ
  • 鍵エントロピー ≥ 平文エントロピー:十分なランダムネス必要
  • ワンタイムパッド:この条件を満たす唯一の実用暗号

🌡️ 物理学のエントロピーとの関係

情報エントロピーと熱力学エントロピーは深い関係があります。

共通点

  • 不確実性の尺度:どちらも「乱雑さ」を定量化
  • 対数的構造:S = k log W, H = -Σp log p
  • 加法性:独立系では和で表現
  • 最大原理:自然は最大エントロピー状態に向かう

相違点

  • 対象:情報 vs 物理系
  • 単位:bit vs J/K
  • 可逆性:可逆 vs 不可逆過程
  • 観測者:主観的 vs 客観的

マクスウェルの悪魔

情報と物理エントロピーの関係を示す思考実験:

  1. 悪魔が分子の運動を「観測」して仕分け
  2. 観測で「情報」を得る → エントロピー減少?
  3. 実際は観測に必要なエネルギーがエントロピー増加
  4. 結論:情報消去には物理的コストが必要

🤖 機械学習・AI での活用

現代AIの多くの技術で情報量が中心的役割を果たしています。

決定木の分岐基準

情報利得 = H(全体) - H(分割後)

最も不確実性を減らす特徴量で分岐

言語モデル(GPT等)

クロスエントロピー損失で学習

次の単語の確率分布を最適化

変分オートエンコーダー

KLダイバージェンスで正則化

情報のボトルネック効果を利用

強化学習

エントロピー正則化で探索促進

不確実性を保つことで局所解回避

情報ボトルネック理論

深層学習の動作原理を情報理論で説明:

  • 圧縮段階:I(X;T)を最小化(入力の冗長性除去)
  • 汎化段階:I(T;Y)を最大化(出力との相関強化)
  • 最適解:圧縮と予測のトレードオフ

🔬 その他の応用分野

🧬 生物学・遺伝学

  • DNA配列の情報量解析
  • タンパク質構造の予測
  • 進化の情報理論的モデル

📊 統計学・データサイエンス

  • 相互情報量による特徴選択
  • 異常検知アルゴリズム
  • 因果推論の情報理論的手法

📡 通信工学

  • チャネル容量の計算
  • 誤り訂正符号の設計
  • 5G/6Gの効率化技術

🧠 認知科学・心理学

  • 人間の情報処理能力測定
  • 学習効率の最適化
  • 意思決定の情報理論的分析