面试感觉总喜欢问这些基本概念，整理一下概率论的笔记。

大数定理和中心极限定理

略。

参数估计

矩估计：

当样本足够大的时候，样本矩会逼近总体的矩。样本的矩均可以计算，总体的矩用参数表示时：那么各阶矩分别有对应方程，解方程可得到参数。

极大似然估计：

样本的分布（其概率密度函数）L有这些参数：\(\theta_1...\theta_k，x_1,...,x_n\)。考虑\(x_1,...,x_n\)固定把L看作是\(\theta_1...\theta_k\)的函数时，称为“似然函数”。（本质是联合密度函数）函数对不同参数（\(\theta_1...\theta_k\)）的取值，反应了观察结果（\(x_1,...,x_n\)）已知的条件下，(\(\theta_1...\theta_k\))各种值的“似然程度”。

似然是什么意思：观察值\(x_1,...,x_n\)为结果，把参数值\(\theta_1...\theta_k\)当成原因。这些参数显然有值，但是未知，然后又不能称作事件，他们也不是随机变量，所以用“似然”这个词。

思路：参数值可以随便取，对应概率密度函数在变。那L的值也在变。自然应该用L最大时的参数\(\theta^*_1...\theta_k^*\)当成我们的估计值，因为我们的逻辑是这“看起来最像”真的参数值。计算方法：显然L对各个参数求偏导，令均为0，解方程组即可。概率密度函数可以化为累乘形式（多元到一元），所以有时可以取log，转化为和的形式。

贝叶斯法

略。

点估计的优良性准则

有这么多估计方法，好吧，那选谁？

当然是谁的误差小选谁。但是总体参数永远是未知的，就不知道误差有多大，这还不是最主要的。主要问题在于：估计参数值都与样本有关。估计整体的好坏，和估计样本的好坏能力，是可能出偏差的。比如1000学生，一个方法是随机抽一个学生估计，一个方法是随机抽100个平均。这里我们假设随机抽样，当然第二个方案似乎合理。但依然可能方案一抽了一个刚好接近总体平均成绩的学生，而方案二抽了100个很差的学生。

所以，考虑估计量的优劣，是不能以样本来评判的。要从某种整体性能上去评判。

所谓的“整体性能”有两种含义： 1.具有某种特性。有这种特性的估计量就是好的，否则就是不好的。比如『无偏性』。 2.指某种具体的数量性指标。估计量之间比较，指标小者为优。比如『均方误差』。注意第二点的这种比较依然是相对性的，要看问题的具体情况，这里不是绝对的。作为比较准则的数量性指标可以有很多种。

无偏性

设抽出来的样本为\(x_1,...,x_n\)，我需要估计\(g(\theta^*_1...\theta_k^*)\)，g为一已知函数。我构造了\(\hat{g}(x)\)这个统计量去估计。你的这个统计量对任何的\(\theta^*_1...\theta_k^*\)都有\[E_{\theta_1...\theta_k}[\hat{g}(x_1,...,x_n)]=g(\theta_1...\theta_k)\]则\(\hat{g}(x)\)这个统计量无偏。记号\(E_{\theta_1...\theta_k}\)指求期望时，是在各个样本\(x_1,...,x_n\)的分布中的参数为\(\theta_1...\theta_k\)去做的。举例：比如函数为\(x1+x2\)。我要算期望，那如果x取自正太分布均值为\(\theta\)，则显然期望值为\(2\theta\)。所以说求期望需要知道x来源的分布的参数值。

这个式子是样本估计里面那些分母是（n-1）,(n-k)的原因。当均值方差未知时，如果分母是n是不成立的，会低估方差。数学证明见这里。

无偏性的理解：系统误差和随机误差。无偏性要求没有系统误差，可以有随机误差。无偏不等于完全正确。

最小方差无偏估计

无偏估计有时有很多。如何找到最优的，这需要为优良性制定准则。均方误差最小。\[E_\theta[\hat{\theta}(x_1,...,x_n)-\theta]^2\]

估计量的相合性与渐进正态性

略。

陈希孺概率论复习

Contents