2.1.1 离散变量的自信息量
定义2-1 单符号离散信源的数学模型用离散型概率空间表示为
其中p(xi)满足
式中,X表示信源输出消息的整体,xi表示某个消息,p(xi)表示消息xi出现的概率。n是信源可能输出的消息数,信源可能输出的消息数可以是有限个,也可以是可数无限个,通常是有限个,信源每次输出其中的一个消息。
信源发出的消息是随机的,在没有收到消息之前,收信者不能确定信源发出的是什么消息。只有当收信者收到通过信道传输过来的消息后,才能消除不确定性并获得信息。
1. 自信息量
定义 2-2 一个随机事件发生某一结果后所带来的信息量为自信息量,简称自信息。定义为其发生概率对数的负值。若随机事件发生xi的概率为p(xi),那么它的自信息量为
I(xi)代表两种含义:在事件xi发生以前,表示事件xi发生的不确定性的大小;在事件xi发生以后,表示事件xi所含有或所能提供的信息量。
自信息量的单位由对数的底来决定:
① 若以2为底,则单位为比特(bit,binary unit);
② 若以e为底,则单位为奈特(nat,nature unit);
③ 若以10为底,则单位为哈特(hat,hartley unit),这是由Hartley首先采用的;
④ 若以r为底,则为r进制单位。
应用换底公式log2x=logrx/logr2,r可为e或10,可得到它们之间的关系为:
1 nat=log2e=1.443 bit,1 hat=log210=3.322 bit
比较常用的为log2x=1.443 lnx,可用自然对数来计算bit单位的信息量。
比特是信息论中常用的信息量单位,为了书写简洁,可把底数2省略不写;理论推导中或用于连续信源时用以e为底的对数比较方便;工程上用以10为底的对数较方便。
容易证明,自信息量具有下列性质:
(1)I(xi)是非负值
由于0≤p(xi)≤1,根据对数的性质,log2p(xi)为负值,所以-log2p(xi)为非负值。
(2)当p(xi)=1时,I(xi)=0
概率为1的确定事件,其自信息量为0,即不含有任何信息量,发生以后也不会给人以任何信息量。
(3)当p(xi)=0时,I(xi)=∞
概率为0的不可能事件一旦发生,产生的信息量非常大。
(4)I(xi)是p(xi)的单调递减函数
p(xi)取值于[0, 1],所以1/p(xi)≥1,它随着p(xi)的增大而减小。根据对数性质可以看出I(xi)=log2[1/p(xi)]随着p(xi)的增大而减小。小概率事件所包含的不确定性大,其自信息量大,一旦出现必然使人感到意外;出现概率大的随机事件所包含的不确定性小,是预料之中的事件,其自信息量小。即使发生,也没什么信息量。
(5)自信息量也是一个随机变量
xi是一个随机变量,I(xi)是xi的函数,所以自信息量也是一个随机变量。
2. 联合自信息量
两个随机事件的离散信源,其信源模型为
其中
定义2-3 二维联合集XY中,对事件xi和yj,若xi,yj同时出现,可用联合概率p(xiyj)来表示,其联合自信息量定义为联合概率p(xiyj)对数的负数值,即
当xi和yj相互独立时,p(xiyj)=p(xi)p(yj,代入式(2-2)就有
说明两个随机事件相互独立时,同时发生得到的自信息量等于这两个随机事件各自独立发生得到的自信息量之和。
3. 条件自信息量
定义2-4 二维联合集XY中,对事件xi和yj,事件xi在事件yj给定的条件下的条件自信息量定义为条件概率p(xi/yj)对数的负值,即
上式表示在特定条件(yj已定)下随机事件xi发生所带来的信息量。同样,xi已知时发生yj的条件自信息量为
容易证明,自信息量、条件自信息量和联合自信息量之间有如下关系:
【例2-1】 某地二月份的天气的概率分布统计如下:
分别求这4种气候的自信息量?
解 I(x1)=-log2 p(x1)=-log2(1/2)=1(比特)
I(x2)=-log2p(x2)=-log2(1/4)=2(比特)
I(x3)=-log2p(x3)=-log2(1/8)=3(比特)
I(x4)=-log2p(x4)=-log2(1/8)=3(比特)
【例2-2】 英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022。
(1)分别计算它们的自信息量。
(2)假定前后字母出现是互相独立的,计算“ac”的自信息量。
(3)假定前后字母出现不是互相独立的,当“a”出现以后,“c”出现的概率为0.04,计算“a”出现以后,“c”出现的条件自信息量。
解 (1)I(a)=-log20.064=3.96(比特)
I(c)=-log20.022=5.51(比特)
(2)由于前后字母出现是互相独立,所以
I(ac)=I(a)+I(c)=9.47(比特)
(3)I(c/a)=-log20.04=4.64(比特)