关于“极大似然估计值”和“大数定理”

来源:百度知道 编辑:UC知道 时间:2024/07/04 05:22:47
W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果。wi 是一个词,P(wi)表示wi的出现的概率。在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值。所以P(wi)的极大似然估计值[9]等于词频,有:
P(wi) ≈ki /(k1+k2+k3+...+km)
(其中ki为wi在训练样本中出现的次数)…………………………②
-------------------------------------------------
谁能给我讲讲这里的“大数定理”和“极大似然估计值”
特别是“极大似然估计值”

大数定律有3个,指的是样本很大时的趋势,只具有统计学意义。常用的是伯努力大数定律,也就是你说的那个。数学书中总是给明了一件事发生的确切概率,但实际中我们并不能知道它,比如你怎么知道硬币正面的概率就是0.5呢?所以我们能做的就是随机试验,观察每次试验的结果并纪录,统计某个结果发生的频率。严格的说,频率并不是概率,但大数定律在这里就发挥作用了,数学家们严格的证明了:当你的试验次数足够大时,频率的极限就是概率!!所以大数定律是数理统计的理论基础,统计学的其他结论都是基于此得出的。
至于极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。
打了这么多字累死我了…………其实你可以看看数理统计的教科书,那里面有更详细的分析。

看书比在网上码字讲的清楚

参考高等数学下册.