数学基础

一、绪论

略

指在只有两个结果的n次独立的伯努利试验中，所期望的结果出现次数的概率。

Alt

其实本质就是log2 1/p(x) 的期望。

代表信源发出一个符号所提供的平均信息量。熵描述一个随机变量的不确定性的大小，如果熵越大，那么越不确定，则需要更多的信息量才能确定其值。

事实上，所有可能出现的情况都是等概率的时候，熵是最大的。

Alt

H(X,Y) = H(X) + H(Y|X)

注意：H(X|Y) != H(Y|X)

相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时，其相对熵为0。当两个随机分布的差别增加时，其相对熵也增加。

由于不对称，常用两个相对熵来求和衡量。D(p||q) + D(q||p)

交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时，我们的
目的是使交叉熵最小，从而使模型最接近真实的概率分布 p(x)。

语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实的语言。其实困惑都和交叉熵是等价的，区别就在于一个指数问题而已。

如果 (X, Y) ~ p(x, y)，X, Y 之间的互信息 I(X; Y) 定义为：I (X; Y) = H(X) – H(X | Y)

互信息I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量，即Y 的值透露了多少关于 X 的信息量。

例子：汉语分词

互信息值越大，表示两个汉字之间的结合越紧密，越可能成词。反之，断开的可能性越大。

NLP & ML & DL

NLP

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！