信息熵计算公式:
演示数据:
性别(x) | 考试成绩(y) |
---|---|
男 | 优 |
女 | 优 |
男 | 差 |
女 | 优 |
男 | 优 |
X的信息熵计算为:
p(男) = 3/5 = 0.6
p(女) = 2/5 = 0.4
根据上面的计算公式可得:
列X的信息熵 为: H(x)= - ( 0.6 * log2(0.6) + 0.4 * log2(0.4)) = 0.97.......
Y的信息熵计算为:
p(优) = 4/5 = 0.8
p(差) = 1/5 = 0.2
列X的信息熵 为: H(x)= - ( 0.8 * log2(0.8) + 0.2 * log2(0.2)) = 0.72.......
由信息熵引出的条件熵:
条件熵的概念类似于条件概率,就是再给定X的情况的条件下,y的信息熵。
给定性别为男,成绩为优的条件熵:
H(y | x = 男)= 3/5 * -(2/3 * log2(2/3) + 1/3 * log2(1/3)) = 0.55...
H(y | x = 女)= 2/5 * -( 1 * log2(1) + 1 * log2(1)) = 0.0...
H(y | x)= H(y | x = 男)+ H(y | x = 女) = 0.55... + 0.0... = 0.55