NLP课程_张家俊_数学基础
数学基础
一、绪论
略
二、数学基础
二项分布
指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。
熵
其实本质就是log2 1/p(x) 的期望。
代表信源发出一个符号所提供的平均信息量。熵描述一个随机变量的不确定性的大小,如果熵越大,那么越不确定,则需要更多的信息量才能确定其值。
事实上,所有可能出现的情况都是等概率的时候,熵是最大的。
联合熵
条件熵
连锁规则
H(X,Y) = H(X) + H(Y|X)
注意:H(X|Y) != H(Y|X)
熵率
相对熵
相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。
由于不对称,常用两个相对熵来求和衡量。D(p||q) + D(q||p)
交叉熵
交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。
我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时,我们的
目的是使交叉熵最小,从而使模型最接近真实的概率分布 p(x)。
困惑度
语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实的语言。其实困惑都和交叉熵是等价的,区别就在于一个指数问题而已。
互信息
如果 (X, Y) ~ p(x, y),X, Y 之间的互信息 I(X; Y) 定义为:I (X; Y) = H(X) – H(X | Y)
互信息I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量,即Y 的值透露了多少关于 X 的信息量。
例子:汉语分词
互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!