陈希孺概率论复习
Contents
面试感觉总喜欢问这些基本概念,整理一下概率论的笔记。
大数定理和中心极限定理
略。
参数估计
矩估计:
当样本足够大的时候,样本矩会逼近总体的矩。 样本的矩均可以计算,总体的矩用参数表示时: 那么各阶矩分别有对应方程,解方程可得到参数。
极大似然估计:
样本的分布(其概率密度函数)L有这些参数:\(\theta_1...\theta_k,x_1,...,x_n\)。考虑\(x_1,...,x_n\)固定把L看作是\(\theta_1...\theta_k\)的函数时,称为“似然函数”。(本质是联合密度函数) 函数对不同参数(\(\theta_1...\theta_k\))的取值,反应了观察结果(\(x_1,...,x_n\))已知的条件下,(\(\theta_1...\theta_k\))各种值的“似然程度”。
似然是什么意思:观察值\(x_1,...,x_n\)为结果,把参数值\(\theta_1...\theta_k\)当成原因。这些参数显然有值,但是未知,然后又不能称作事件,他们也不是随机变量,所以用“似然”这个词。
思路:参数值可以随便取,对应概率密度函数在变。那L的值也在变。自然应该用L最大时的参数\(\theta^*_1...\theta_k^*\)当成我们的估计值,因为我们的逻辑是这“看起来最像”真的参数值。 计算方法:显然L对各个参数求偏导,令均为0,解方程组即可。概率密度函数可以化为累乘形式(多元到一元),所以有时可以取log,转化为和的形式。
贝叶斯法
略。
点估计的优良性准则
有这么多估计方法,好吧,那选谁?
当然是谁的误差小选谁。但是总体参数永远是未知的,就不知道误差有多大,这还不是最主要的。主要问题在于:估计参数值都与样本有关。估计整体的好坏,和估计样本的好坏能力,是可能出偏差的。 比如1000学生,一个方法是随机抽一个学生估计,一个方法是随机抽100个平均。这里我们假设随机抽样,当然第二个方案似乎合理。但依然可能方案一抽了一个刚好接近总体平均成绩的学生,而方案二抽了100个很差的学生。
所以,考虑估计量的优劣,是不能以样本来评判的。要从某种整体性能上去评判。
所谓的“整体性能”有两种含义: 1.具有某种特性。有这种特性的估计量就是好的,否则就是不好的。比如『无偏性』。 2.指某种具体的数量性指标。估计量之间比较,指标小者为优。比如『均方误差』。 注意第二点的这种比较依然是相对性的,要看问题的具体情况,这里不是绝对的。作为比较准则的数量性指标可以有很多种。
无偏性
设抽出来的样本为\(x_1,...,x_n\),我需要估计\(g(\theta^*_1...\theta_k^*)\),g为一已知函数。我构造了\(\hat{g}(x)\)这个统计量去估计。你的这个统计量对任何的\(\theta^*_1...\theta_k^*\)都有\[E_{\theta_1...\theta_k}[\hat{g}(x_1,...,x_n)]=g(\theta_1...\theta_k)\]则\(\hat{g}(x)\)这个统计量无偏。记号\(E_{\theta_1...\theta_k}\)指求期望时,是在各个样本\(x_1,...,x_n\)的分布中的参数为\(\theta_1...\theta_k\)去做的。 举例:比如函数为\(x1+x2\)。我要算期望,那如果x取自正太分布均值为\(\theta\),则显然期望值为\(2\theta\)。所以说求期望需要知道x来源的分布的参数值。
这个式子是样本估计里面那些分母是(n-1),(n-k)的原因。当均值方差未知时,如果分母是n是不成立的,会低估方差。数学证明见 这里。
无偏性的理解: 系统误差和随机误差。无偏性要求没有系统误差,可以有随机误差。无偏不等于完全正确。
最小方差无偏估计
无偏估计有时有很多。如何找到最优的,这需要为优良性制定准则。 均方误差最小。\[E_\theta[\hat{\theta}(x_1,...,x_n)-\theta]^2\]
估计量的相合性与渐进正态性
略。