熵的物理意义是体系混乱程度的度量。熵可以用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。
信息熵
香农对信息的定义:信息是用来消除随机不确定性的东西。
1948年,香农将统计物理中熵的概念引入到信道通信的过程中,定义为信息熵。信息熵是接受的每条消息中包含的信息的平均值,度量信息的不确定性,熵越大,信源的分布越随机。数学上,信息熵其实是信息量的期望。
熵的单位为比特(bit)。
信息熵有三条性质:
- 单调性,即发生概率越高的事件,其所携带的信息熵越低;
- 非负性,即信息熵不能为负,因此在 $\log$ 前添加负号;
- 累加性,即多个随机事件同时发生存在的总不确定性的量度可以表示为各事件不确定的量度的和。
联合熵
联合熵(Joint Entropy)就是度量一个联合分布的随机系统的不确定度。分布为$p(x,y)$的一对随机变量,其联合熵的定义为:
注: 通过边缘化 $y$ 得到 $- \sum_{x \in \mathcal{X}} p(x) \log p(x)$
条件熵
条件熵(Conditional Entropy)$H(Y|X)$,表示在已知随机变量$X$的条件下随机变量$Y$的不确定性,其定义为:
互信息
对于两个随机变量 $X$ 和 $Y$, 如果其联合分布为$p(x,y)$,边缘分布为$p(x),p(y)$,其互信息可以定义为:
因此:$H(X)-H(X|Y)=H(Y)-H(Y|X)$。
互信息$I(X,Y)$表示为知道事实$Y$后,原来信息量减少了多少。
相对熵
相对熵(Relative Entropy)又称为KL 散度(Kullback-Leibler divergence), 是两个概率分布 P 和 Q 差别的非对称性的度量。假设 P 为观察得到的概率分布,Q 为另一种概率分布来近似 P,它们之间的 KL 散度为:
$H_P(Q)$表示在P分布下,使用Q进行编码需要的比特,$H(P)$表示对分布P所需要的最小比特。因此,$KL(P || Q)$ 的物理意义是使用Q分布进行编码相对于分布P进行编码所多出来的比特。需要注意的 KL 散度是非对称的,$KL(P||Q) \neq KL(Q||P)$。
交叉熵
交叉熵(Cross Entropy)的公式为:
即为相对熵中的$H_P(Q)$。相对熵=交叉熵-信息熵。在机器学习,需要评估真实分布和预测分布之间的差距,可以使用相对熵进行度量差异,而相对熵中的$H(P)$是不变的,因此,一般直接使用交叉熵衡量两个分布的差异以评估模型。
最大熵原理
最大熵原(Maximum entropy principle),认为学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
换句话,最大熵原理遵循:
- 满足已知信息(约束条件)
- 不做任何未知假设(剩下的等概率)
有点像俗语“不要把鸡蛋放在同一个篮子里”。
最小熵原理
最小熵原理是一个无监督学习的原理,“熵”就是学习成本,而降低学习成本是我们的不懈追求,所以通过“最小化学习成本”就能够无监督地学习出很多符合我们认知的结果,这就是最小熵原理的基本理念。
参考资料
- 信息,熵,联合熵
page