课程整理:时间序列分析
Contents
王燕版时间序列分析框架整理。
第一章:简介
时间序列分析有两类,一类为描述性时序分析(即直接画图观察,没什么说的),一类为统计时序分析(主流)。统计时序分析下属两大类方法:
频域分析方法
简单说就是各种傅里叶变换,主要在工科领域出现,不在这个课的讨论范围之内。
时域分析方法
这门课讨论的内容。 一般是如下流程: 1. 观察特征:如画时序图,画ACF,PCF等 2. 根据特征选择模型 3. 根据数据确定模型的口径 4. 检验模型,优化模型 5. 推断其他统计性质或预测将来发展
第二章:时间序列预处理
特征统计量
分布函数,密度函数和概率分布族这些当然可以完全刻画序列的所有统计特征,但是这样的概念也就停留在理论,现实中不可能得到序列的联合概率分布。 所以,更简单,实用的描述时间序列统计特征的方法是研究序列的低阶矩,特别是均值,方差,自协方差,自相关系数。它们被称为特征统计量。
时间序列中,我们经常关注两个重要的性质有没有出现在序列里,一是平稳性,二是纯随机性。
平稳性
定义
有宽平稳和严平稳两种定义。
严平稳要求同段时间长度,平移得到的两个序列的联合分布相同。这当然很严,同时也没法计算应用。 宽平稳要求: 1. 方差存在 2. 均值为常数 3. r(t,s)=r(k+s-t),变量均任取。(可推出方差为常数)
宽平稳的思路是,序列的统计性质由低阶矩决定,只要二阶矩平稳,那就基本稳了。
注意:两者不可互推。宽平稳推严平稳需要条件(序列服从多元正态分布,因为此时二阶矩定了密度函数就定了),严平稳推宽平稳也需要条件(序列要存在一阶矩二阶矩)。
统计性质
平稳(以下均指宽平稳)序列的统计性质: 1. 常数均值 2. 常数方差 3. 自协方差函数,自相关函数只与长度有关 4. 延迟k阶自相关系数有规范性,对称性($p _ k=p _ {-k}$),非负定性。
注意:平稳时间序列唯一决定自相关函数,但反之未必唯一对应一个序列。(第三章MA模型的可逆条件)
平稳性的意义$^*$
平稳说了一件什么事情,为什么要平稳: 从数据分析的角度考虑,每个$x _ t$都是一个变量,这个table变量奇多而数据只有一条。这当然是没有办法分析或者拟合模型的。而平稳性的提出,使得我们可以用每一个变量的数据去估计均值,极大减少了随机变量的个数,而且增加了样本容量。
至于怎么用样本计算估计值,公式在P22,不要求掌握。
平稳性的检验
- 时序图检验(瞪眼看:有趋势就不稳,违背均值一定;有周期也不稳,违背方差一定。因为周期的话,取不同窗口方差肯定是不一样的)
- 自相关图检验。(平稳的话:很快衰减为0;趋势:倒三角形状;周期:正弦波动形状)
纯随机性
定义
白噪声:均值一定,协方差函数恒为0(t,s不等时)
白噪声的性质
- 没有记忆,没有规律
- 方差齐性
注意:方差齐性是很重要的限制条件,因为方差齐性时,最小二乘法得到的未知参数估计值才是准确有效的。所以模型拟合时,要检查残差是否满足方差齐性假定。
纯随机性检验
Q统计量 LB统计量 检验同一个假设条件:原假设:p1=…=pm=0,即延迟期数小于或等于m的序列值间相互独立。自相关系数全为0(white noise) 两者均服从自由度为m的卡方分布。m为延迟期数。
不同的是LB统计量适用于小样本下,比Q统计量好。
为什么一般检验6,12期:一般平稳序列有的都是短期相关性。如果短期没有那就是没有相关性了。反之,如果长期没有不能说明短期没有。
纯随机性的意义$^*$
上面这些在干嘛:
拿到一个时间序列,我们画出了时序图,看到了一个折线图。然后我们希望从中找出一些规律,干一些拟合模型解释数据背后的原因啊,做预测啊之类的事情。
这里的前提是,数据本身蕴含着一些规律,数据具有自相关性,让我们提取出来。 那怎么知道提取完了没有,看残差是不是白噪声。是白噪声就说明信息被榨干了。研究到头了。模型已经很好了。
那如果本来数据就是随机抽样毫无规律呢,那数据本身就是白噪声。如果是就说明不用研究了,本来里面就没有任何信息,任何规律可以提取。
这是整本书的思路。不是白噪声,就弄到它是白噪声为止。
第三章:平稳时间序列
这章设计大量计算,这里记录一些公式外的知识点。
方法性工具
差分运算
p阶差分
$\nabla x _ t=x _ t-x _ {t-1}$ $\nabla ^px _ t=\nabla ^{p-1}x _ t-\nabla ^{p-1}x _ {t-1}$
k步差分
$\nabla _ kx _ t=x _ t-x _ {t-k}$
延迟算子
$x _ {t-1}=\text{Bx} _ t$ $x _ {t-P}=B^P x _ t$
p阶差分:$\nabla ^px_t=(1-B)^Px _ t$ k步差分:$\nabla _ kx_t=(1-B^k)x _ t$
线性差分方程
线性差分方程p42,分为齐次或非齐次。
线性差分方程求解: 齐次:写出对应特征方程,得到特征根,根的不同情况对应不同的解 非齐次:先按齐次解,为通解,然后求一个特解。然后相加。
意义何在:时间序列模型和某些模型的自协方差函数及自相关函数都可以视为线性差分方程。特征根的性质对判断模型平稳性有意义。
ARMA模型
这里所有的统计特征量推导略过,计算推导需要动笔才能掌握,打字没有用。
AR
平稳性的判别
有特征根判别(AR模型平稳相当于自回归系数多项式的根在单位圆外,或者说特征根在单位圆内),平稳域判别(背掉即可)两种。
两阶以下用平稳域快速判别,三阶及以上回到特征根法。 其本质就是,AR模型对应的就是特征方程,特征方程的根(根是数列)收敛与否,决定模型是否平稳。数学上是一回事。数列和序列对应。
统计性质
- AR的传递形式:利用公式(极限等比数列求和公式,反过来)把AR模型转化为无穷阶MA模型。
- 自相关系数:以指数衰减。对应拖尾性。
- 偏自相关系数:k>p为0。对应p步截尾性。
以上两点特征决定了如何看ACF,PACF决定出用AR模型。ACF拖尾,PACF截尾。
MA
统计性质
- MA(q)肯定平稳。MA($\infty$)在系数级数绝对收敛时平稳。(证明?)
- 自协方差函数,自相关系数q阶截尾
- 偏自相关系数拖尾
可逆性
不同MA模型可以有同样的自相关系数,不唯一对应就很烦,以后选模型就不知道怎么选。所以增加约束条件:可逆性。
可逆性即MA(q)的系数多项式的根在单位圆外,和AR的平稳性对偶。具体条件背起来一模一样。
逆函数递推形式:把MA(q)化为AR($\infty$)。
ARMA模型
平稳条件与可逆条件
跟上面一模一样,拆开看即可。
递推形式和逆转形式
Green函数和逆函数递推形式类似,自己推导。背掉。
统计性质
各种拖尾。
平稳序列建模
步骤
- 画ACF,PACF
- 选阶数恰当的ARMA(p,q)模型(不止一个满足)
- 估计未知参数
- 检验有效性,不通过回到2。 5.优化模型:所有通过的,选最好的(AIC,SBC)。
- 预测
参数估计
- 矩估计(模糊,信息损失大,因为只用到二阶矩的信息)
- 极大似然估计(计算较复杂,充分利用信息,非常优良)
- 最小二乘估计(最常用,充分利用信息)
模型检验
模型显著性检验
检验残差是否白噪声 Q检验和LB检验
参数是否显著
t检验
模型优化
AIC准则:一个公式通过惩罚参数来约束。 极大似然估计值越大越好(AIC小)和模型未知参数个数越少越好(AIC小)
SBC准则:样本容量很大时AIC公式权重就有问题了。更改使得解决这个问题。
序列预测
预测公式,方差公式,残差公式,预测修正公式,预测修正后方差公式全部推导且熟悉下。
这里使用预测方差最小的原则。
第四章:非平稳序列的确定性分析
分解
wold分解
任何一个离散平稳过程都可以分为一个确定性序列+一个随机序列。 比如arma的均值项和后面一坨残差乘多项式。就是这样的形式。
cramer分解
任何一个时间序列都可以分为确定性趋势成分和平稳的零均值误差成分。
确定性因素分解
序列变化有很多因素,如长期趋势,循环波动,季节性变化,随机波动。 构建加法模型,乘法模型。
趋势分析
根据这个趋势是线性还是非线性: 拟合线性模型,或者二次型,指数型等等如$x _ t=a+at+I$等。
此外可以用修匀技术,平滑的方法来显示规律。如移动平均法,指数平滑法。这里有公式要记忆。
季节分析
计算季节指数。很简单。p114。月平均/总平均得到季节指数。
综合分析
加法,乘法,混合模型等
第五章:非平稳序列的随机分析
确定性因素有问题,第一浪费了随机性信息,第二没法判断四因素间确切的作用关系。
差分运算
实质
使用自回归的方式提取确定性信息。差分就是自回归过程。我理解为类似求导。
差分方式选择
线性趋势一阶,曲线2-3阶,周期以步长差分。
过差分
浪费了信息,精度下降(方差增大)
ARIMA模型
差分后ARMA。 d不等于0时,不平稳。d个单位根。 方差非齐性,时间趋向无穷,则方差趋向无穷。比如random walk。 建模步骤:差分到平稳,然后拟合ARMA检验白噪声。
疏系数模型
比如ACF显示平稳,然后PACF翘着1和4,其他都在标准差内。可以考虑建AR(1,4)模型。
其实也可以视为两个都拖尾,用ARMA(1,1)或者AR(4),或者认为PACF根本就是拖尾,看ACF在哪落入标准差然后建立MA,都可以。
ARIMA的季节模型
简单季节:趋势差分,季节差分。(前后顺序无所谓,上课提问过证明) 乘积季节模型: 当序列短期相关性时,用低阶ARMA(p,q)提取。 当序列有季节效应,季节效应本身有相关性,用周期步长为单位的ARMA(P,Q)提取。 短期相关性,季节效应有乘积关系,实质为ARMA(p,q)和ARMA(P,Q)的乘积。 例子:p159。
残差自回归模型
背景:ARIMA有缺陷,差分是好,但不能直观对模型解释。人们怀念确定性因素分解方法对各种确定性效应的解释。但又因为对残差信息浪费,不敢使用。 $x _ t=T _ t+S _ t+e _ t$确定性回归模型基础上,对残差自回归: $e_t=\varphi _ 1e_ {t-1}+…+a _ t$
残差自相关检验
DW检验: 原假设:E($e _ te _ {t-1}$)=0或者p=0. 即检验残差是否有相关性。和Q,LB一样。 但是当回归因子包含延迟因变量时,有偏。所以第章arima不用这个。 Durbin h检验 修正DW检验的问题,成为延迟因变量常用的自相关检验统计量。
异方差:条件异方差模型
画残差图,残差平方图来看。 条件异方差模型:
ARCH模型
集群效应,用异方差函数来解决。 arch(q):残差平方序列q阶自回归。适用于异方差函数短期自相关。
ARCH检验(残差序列波动性的检验):Portmanteau Q检验和LM检验 Portmanteau Q检验:其统计量为残差平方项的LB统计量 原假设:残差平方序列纯随机。统计量服从q-1的卡方分布。 LM(拉格朗日乘子)检验 原假设:残差平方序列纯随机 服从q-1的卡方分布。
GARCH模型
增加异方差函数的p阶自相关性。 异方差函数自回归,适用于异方差函数长期自相关 AR(m)-GARCH: et不纯随机,有自相关性了。先自回归再考察自回归的残差序列是否异方差。
GARCH衍生模型: EGARCH:指数GARCH模型。异方差函数取ln。 1. 放松了方差必须为正的参数限制。 2. 加入加权扰动函数,非对称处理。
IGARCH(方差garch):无条件方差无界。对应单位根特征的条件异方差。比如随机游走模型。 GARCH-M模型:收益率与波动性相匹配。
第六章:多元时间序列分析
虚假回归:当序列不平稳时,即便两个序列不相关,我们也很有可能检验出相关性,这被称为虚假回归。 所以,当建立多元模型时,需要首先确保两序列平稳。
单位根检验
原假设:序列非平稳。
DF检验:AR(1) 原假设:非平稳(不一样!) 判断出三种不同的非平稳形成机制。 t越小,左边,越拒绝,则平稳。 ADF检验:AR(p) 也是三种类型。 PP检验:异方差 原假设:序列非平稳。
单整与协整
$x _ t$,$y _ t$同阶单整的前提下,俩序列可以构造回归模型。
协整检验: EG检验:检验回归残差序列是否平稳。原假设为非平稳
误差修正模型: 协整度量长期均衡关系,ECM模型解释序列短期波动关系。 ECM表示上一期的估计误差。