2.1.2信息熵
1.信息熵
自信息量是信源发出某一具体消息所含有的信息量,对一个信源而言,发出的消息不同它的自信息量就不同,所以自信息量本身为随机变量,不能作为整个信源的总体信息测度。在大多数情况下,我们更关心离散信源符号集的平均信息量问题,即信源中平均每个符号所能提供的信息量,这就需要对信源中所有符号的自信息进行统计平均。
定义 2-5信源中各个离散消息自信息量的数学期望为信源的平均信息量,也叫信息熵。简称熵,记为H(X),即
注意:熵函数的自变量是大写的X,表示信源整体。信息熵的单位由自信息的单位决定,即取决于对数选取的底,这里取以2为底的对数,单位是比特/符号。
由于这个表达式和统计物理学中热熵的表达式相似,且在概念上也相似,因此借用熵这个名词,把H(X)称为信息熵。
熵具有以下物理意义:
①表示信源输出消息后,每个离散消息所提供的平均信息量;
②表示信源输出消息前,信源的平均不确定度。
【例2-3】 有三个信源X,Y,Z,其概率空间为
解 根据定义计算
H(X)=-0.5log20.5-0.5log20.5=1(比特/符号)
H(Y)=-0.99 log20.99-0.01log20.01=0.08(比特/符号)
H(Z)=-0 log20-1log21=0(比特/符号)
可见,H(X)>H(Y)>H(Z),信源符号的概率分布越均匀,则平均信息量越大,信源X比信源Y平均信息量大,Z是确定事件,不含有信息量。
【例2-4】 有一篇千字文章,假定每个字可从一万个汉字中任选,则共有不同的千字文篇数为N=100001000=104000篇,按等概率计算,平均每篇千字文可提供的信息量为
2. 条件熵
上面讨论的是单个离散随机变量的信息的度量问题,实际应用中,常常需要考虑两个或两个以上的随机变量之间的相互关系,此时要引入条件熵的概念。
定义2-6 条件熵是在联合符号集合XY上的条件自信息量的数学期望,在已知随机变量Y的条件下,随机变量X的条件熵H(X/Y)定义为
要注意条件熵是用联合概率p(xiyj),而不是用条件概率p(yj/xi) 进行加权平均。
下面说明为什么要用联合概率进行加权平均。
在已知yj条件下,xi的条件自信息量为I(xi/yj),按熵的定义,X集合的条件熵H(X/yj)为
上式仅知某一个yj时X的条件熵,它随着yj的变化而变化,仍然是一个随机变量。所以应求出H(X/yj)的统计平均值,这样就得到条件熵的定义式为
相应地,在给定X条件下,Y的条件熵H(Y/X)为
【例2-5】 已知X,Y∈{0,1},XY构成的联合概率为:p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。
解 由全概率公式,可得
p(0)=p(y1=0)=p(x1y1=00)+p(x2y1=10)=1/8+3/8=1/2
同理可求得
p(1)=p(y 2=1)=1/2
再由
得
同理可得
p (1/0)=p(0/1)=3/4
由式(2-8)可得
H(X/Y)=-p(00)log2p(0/0)-p(01)log2p(0/1)-p(10)log2p(1/0)-p(11)log2p(1/1)
=(-(1/8)log2(1/4)-(3/8)log2(3/4))×2=0.812 (比特/符号)
3. 联合熵
定义2-7 联合离散符号集合XY上的每对元素xiyj的联合自信息量的数学期望为联合熵,用H(XY)表示,即
【例 2-6】 二进制通信系统用符号“0”和“1”,由于存在失真,传输时会产生误码,用符号表示下列事件:
u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到,给定概率:p(u0)=1/2,p(v0/u0)=3/4,p(v0/u1)=1/2,求:
(1)已知发出一个“0”,收到符号后得到的信息量;
(2)已知发出的符号,收到符号后得到的信息量;
(3)知道发出的和收到的符号能得到的信息量;
(4)已知收到的符号,被告知发出的符号能得到的信息量。
解 (1)可求出
p(v1/u0)=1-p(v0/u0)=1/4
H(V/u0)=-p(v0/u0)log2p(v0/u0)-p(v1/u0)log2p(v1/u0)
=-(3/4)log2(3/4)-(1/4)log2(1/4)=0.82(比特/符号)
(2)联合概率p(u0v0)=p(u0)p(v0/u0)=3/8,同理可得
p(u0v1)=1/8,p(u1v0)=1/4,p(u1v1)=1/4
=-(3/8)log2(3/4)-(1/8)log2(1/4)-2×(1/4)log2(1/2)
=0.91 (比特/符号)
(4)利用贝叶斯公式可求出
同理可得
p(u 1/v0)=2/5 , p (u0/v1)=1/3 , p (u1/v1)=2/3
所以