NLP课程_张家俊_数学基础

2020-06-29

数学基础

[toc]

一、绪论

二、数学基础

二项分布

指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。

Alt

其实本质就是log2 1/p(x) 的期望。

代表信源发出一个符号所提供的平均信息量。熵描述一个随机变量的不确定性的大小,如果熵越大,那么越不确定,则需要更多的信息量才能确定其值。

事实上,所有可能出现的情况都是等概率的时候,熵是最大的。

联合熵

Alt

条件熵

连锁规则

H(X,Y) = H(X) + H(Y X)
注意:H(X Y) != H(Y X)

熵率

相对熵

相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。

由于不对称,常用两个相对熵来求和衡量。D(p   q) + D(q   p)

交叉熵

交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时,我们的 目的是使交叉熵最小,从而使模型最接近真实的概率分布 p(x)。

困惑度

语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实的语言。其实困惑都和交叉熵是等价的,区别就在于一个指数问题而已

互信息

如果 (X, Y) ~ p(x, y),X, Y 之间的互信息 I(X; Y) 定义为:I (X; Y) = H(X) – H(X Y)

互信息I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量,即Y 的值透露了多少关于 X 的信息量。

例子:汉语分词

互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。