您好,欢迎来到锐游网。
搜索
您的当前位置:首页可用统计预测与决策论文

可用统计预测与决策论文

来源:锐游网


统计预测与决策

课 程 论 文

题目:组合预测模型在全国能源消耗总量中的应用

学生姓名: 学 号: 院 系: 专 业: 指导教师:

二O一二年十二月十四日

1

统计预测与决策期末论文

组合预测模型在全国能源消耗总量中的应用

【概要】:能源是国民经济、社会发展的基础和战略资源能源问题已经成为经济社会可持续发展的主要问题。本文以我国1978-2008年的全国能源消耗总量数据为基础,建立了ARIMA预测模型、三次多项式预测模型、灰色预测法和基于这几种模型的组合模型,并进行了精度比较,最后选择最优的组合预测模型对2009-2011年的全国能源消耗总量进行预测。

关键词:单位根ARMA模型能源消费 组合模型 三次多项式 灰色预测法

1 引言:

能源是国民经济发展和人民生活水平提高的重要物质基础,能源短缺曾经长期制约我国经济的发展。近几年由于能源工业的发展,短缺局面虽然得到了缓解,但从长远来看能源供需形势仍然非常严峻,因此做好未来能源消费预测分析,为能源规划及的制定提供科学的依据,对于保持我国社会经济健康、持续、稳定发展具有重要的理论与现实意义。

本文利用《中国统计年鉴》得到31期全国能源消耗总量y的时间序列如下表一所示:

表一:全国能源消耗总量(单位:万吨标准煤) 年份 y 年份 y 年份 y 年份 y 1978 57144 1987 86632 1996 2005 1979 58588 1988 92997 1997 2006 1980 60275 19 96934 1998 2007 1981 59447 1990 98703 1999 2008 1982 62067 1991 103783 2000 1983 66040 1992 109170 2001 1984 70904 1993 115993 2002 1985 76682 1994 122737 2003 1986 80850 1995 131176 2004 1348 137798 132214 133831 138552.6 143199.2 151797.3 174990.3 203226.7 224682 246270 265583 285000 2 预测方法介绍

2.1 ARIMA模型的基本原理

将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。 ARIMA模型全称为差分自回归移动平均模型(Autoregressive

Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移

2

动平均项数,d为时间序列成为平稳时所做的差分次数。

或者说,所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。

p阶自回归过程AR(p)的一般表达式为:

Xt1Xt12Xt2pXtpt 其中t白噪声过程。 q阶的移动平均过程MA(q)可以表示为:

Xtt1t12t2qtq,t为白噪声过程。 ARIMA( p,d, q)模型一般表达式为:

Xt01Xt12Xt2pXtpt1t12t2qtq 2.2 灰色预测法

灰色预测理论是将看似离散的数据序列经数据变换后形成有规律的生成数列 ( 如累加生成、累减生成 ) ,然后对生成数列建立微分方程,得到模型的计算值后,再与实测值比较获得残差,用残差再对模型作修正,然后便可用建立的灰色模型对该问题进行预测。

灰色系统预测主要包括:

1.数列预测,即对系统行为特征值的预测。

2.激励预测,即对在一些突然性因素影响下的行为特征值的预测。

3.突变预测,即对系统的行为特征值超过一定限度而造成“突变”的时间的预测 4.季节突变预测,即在某一特定时期内发生的突变的预测。 5.拓展预测,是对不规则波动系统的行为特征的波形的预测。

6.系统预测,是一种综合预测,即先用不同模型表示变量之间的关系,得到一组模型,然后再进一步采用模型来表示诸模型组之间的关系,得到一个复合模型来进行预测。

2.3组合预测模型

组合预测方法是对同一个问题,采用两种以上不同预测方法的预测。它既可是几种定量方法的组合,也可是几种定性的方法的组合,但实践中更多的则是利用定性方法与定量方法的组合。组合的主要目的是综合利用各种方法所提供的信息,尽可能地提高预测精度。

比如,在经济转轨时期,很难有一个单项预测模型能对宏观经济频繁波动的现实拟合的非常紧密并对其变动的原因作出稳定一致的解释。理论

3

和实践研究都表明,在诸种单项预测模型各异且数据来源不同的情况下,组合预测模型可能导致一个比任何一个预测值更好的预测值,组合预测模型能减少预测的系统误差,显著改进预测效果。

3 全国能源消耗总量的实证分析

3.1 建立ARIMA模型

3.11平稳化处理

用ARIMA模型拟合的时间序列必须是平稳的,如果序列不平稳,则要通过差分或序列变换等先将序列平稳化。绘制原始序列的时序图得到图形如图一所示:

Y300,000250,000200,000150,000100,00050,0001980198519901995200020052010 图一:y时序图

由图可从直观上看出原始序列存在明显的长期递增趋势,原始序列不平稳。利用软件EViews6.0,运用单位根检验方法对序列进行平稳性检验发现原始序列确定不平稳,因此本文先对该序列取对数,令yllog(y),然后对yl进行差分,差分两次之后得到平稳的序列ylii。单位根检验结果如下表二所示:

表二:单位根检验结果 原始序列y 取对数后yl 一阶差分yli 二阶差分ylii

ADF值 1.758582 0.627517 -2.95825 -4.763 P值 0.9995 0.988 0.0529 0.0007 临界值a=1% 临界值a=5% 临界值a=10% -3.619 -3.619 -3.72407 -3.69987 -2.97185 -2.97185 -2.98623 -2.97626 -2.62512 -2.62512 -2.6326 -2.62742 4

由表可知,取对数后再做两次一步差分之后的序列yliiADF检验的p值为0.0007,小于0.05,因此拒绝序列非平稳的原假设,可以接受序列为平稳的备择假设。在此可知ARIMA模型定阶为d=2。也可由图标直观说明序列的平稳性,作出ylii的时序图如图一所示:

YLII.10.08.06.04.02.00-.02-.04-.06-.081980198519901995200020052010 图二:ylii时序图

时序图也显示ylii序列平稳,结果与单位根检验相符。 3.12模型定阶

模型定阶的方法有多中,本文选择基于自相关函数和偏自相关函数的定阶方法确定模型的阶数。首先,考察平稳序列ylii的自相关图和偏自相关的性质,为拟合模型定阶,自相关函数(ACF)和偏自相关函数(PACF)图形如图三所示;

图三:

5

由图形可知,对处理后的序列ylii可以选择建立ARIMA(1,2,1)、ARIMA(1,2,2)、ARMA(2,2,1)、ARIMA(2,2,2)4种模型。分别拟合这四种模型得到结果如表三所示:

模型 ARIMA(1,2,1) ARIMA(1.2,2) ARIMA(2,2,1) ARIMA(2,2,2) 变量 AR(1) MA(1) AR(1) MA(1) MA(2) AR(1) AR(2) MA(1) AR(1) AR(2) MA(1) MA(2) 表三:4种模型拟合结果 伴生概估计系数 T统计量 SC 调整R2 AIC 率P值 -0.37510 -1.22811 0.23040 0.17179 -4.13804 -4.04288 0.74524 3.238 0.00330 0.32632 1.53493 0.13740 0.27357 -4.23696 -4.09422 -0.25253 -1.742 0.09370 -0.73255 -5.34026 0.00000 -0.25552 -0.95215 0.35050 0.18863 -4.15745 -4.01347 -0.23472 -1.22733 0.23160 0.59424 2.30532 0.03010 -0.76684 -5.24699 0.00000 0.200 -4.25798 -4.06601 -0.59005 -3.94857 0.00060 1.24653 20.40994 0.00000 0.92659 20.03634 0.00000 其中只有ARIMA(2,2,2)模型的各系数通过了显著性检验,而且其模型的调整R2是四个模型中最大的,虽然它的AIC,SC的绝对值不是最小的,ARIMA(1,2,1)

模型的AIC最小,ARIMA(2,2,1)的SC最小,但它们的系数都没有通过显著性检验,而且调整R2也较小,所以本文选择ARIMA(2,2,2)模型,模型表达式为:

(1-1.24653B-0.92659B2)etylii'=(1-B)(1-B)log(y)=1+0.76684B+0.59005B2

6

3.13 模型检验

用ARIMA(2,2,2)模型做拟合得到残差序列et,对残差序列进行自相关和偏自相关分析,得到结果如图三所示:

图三

由图可知。残差序列P值几乎都是大于0.05的,说明残差序列近于白噪声,基本没有可提取的信息了,模型已经提取了有规律的信息,说明模型拟合效果较好。 3.14模型预测

利用1978-2008年的时间序列建立的ARMA(2,2,2)模型:

ylii'(1B)B(1(11.2B4653y)log()10.76B6842B0.t92659)来预测2004-2010年的能B02.59005源消耗总量,结果如表四所示:

表四:2004-2010年全国能源消耗总量ARIMA(2,2,2)模型预测值 2004.00 2005.00 2006.00 2007.00 2008.00 2009.00 2010.00 2011.00 年份 203226.68 224682.00 246270.00 265583.00 285000.00 实际值 202971.88 233243.50 2674.47 311049.59 3581.95 413129.35 477104.00 9931.36 预测值 绝对相对误差 0.13 3.81 9.22 17.12 25.68 百分比(%) 3.2 灰色模型预测

根据历史数据序列x(0),做一次累加得到生成序列x(1),对于微分方程

dx(1)ax(1),构造数据矩阵B和数据向量Y,解该微分方程,得到YBA其dt中:

7

X(1)(1)X(1)(2)•••1•)2X(0(2)(1)(1)(0)X(2)X(3)•••1•X(3) Aa  BY2(0)X(1)(30)X(1)(31)X(31)•12进行矩阵运算得到发展灰数a=-0.055673,内生控制灰数=45508.908,得到预测模型为:X(1)'(k1)874576.3e0.055673k817432.3。 3.21残差检验

将得到的序列X(1)'进行一次累减生成预测序列X(0)',将预测值与真实值比较得到绝对误差序列et为:(0)={0、8516.84、7337.171、3478.379、24.069、3479.306、4761.587、6752.808、6917.228、8466.436、10356.31、9561.971、6328.756、

6120.155、5915.771、6827.269、7321.323、9152.556、9938.481、1402.44、11990.47、18629.48、22636.52、27218.27、28376.96、199.22、1831.269、11756.32、21153.92、27578.59、33369.39}

计算相对误差后发现其中有些较大,甚至大于10%,最后五项的平均相对误差为7.36319507%。残差检验没有通过,下面进行关联度检验。当=0.5时,关联度大于0.6时就可以通过关联度检验了。由残差的绝对序列可知min((0))=0,

max((0))=33369.39。然后根据公式

min{i(0)}max{i(0)}i(k)(i1,2,,0.5)计算每个序列值的关联系数,(0)(0)imax{i}再求平均得到关联度r=0.650237。本文取取=0.5,r>0.6,因此模型通过了关联度检验。虽然模型通过了关联度检验,但模型没有通过残差检验,精度不够理想,所以本文对该模型进行残差修正。 3.22模型修正

根据模型得到的残差序列et,去掉第一项得到新的序列e(0),然后进行累加得到序列e(11型:,在此基础上建立相应的GM(1,模

e(1)'(k1)[e(0)(1)aeaekae]e,模型两边求导得到残差修正项为:ueue8

[e(1)'(k1)]'(ae)[e(0)(1)aeaek]e。原预测模型加上此修正项得到修正后的预测ue模型为:X'(1)(k1)[X(0)(1)a]eaka(k1)(ae)[e(0)(1)aeae(k1),其中e]ue1,k2(k1)为修正系数。最后进行累减得到原始序列预测模型:

0,k2X'(0)(k1)X'(1)(k1)X'(1)(k)。根据所得数据,利用Excel软件,得到ae=-0.06924,ue=23.212。根据修正项的计算公式,可得[e(1)'(k1)]'k034e82.,9这2样经过残差修正后的模型为:

X'(1)(k1)874576.3e0.055673k817432.3(k1)(3482.92)e0.06924k其中

(k11k0k,在此序列的基础上进行累减得到2004-2011年的全国能源消)。,2年份 实际值 预测值 相对误差百分比(%) 耗总量的预测值如下表五所示:

表五:2004-2011年全国能源消耗总量灰色模型预测值 2004 2005 2006 2007 2008 2009 2010 2011 203226.7 224682 246270 265583 285000 201439.6 212966.946 2251.6 238040.3 2516.1 266068.2 281297.3 297398.4 0.87 3.3三次多项式 当预测对象依时间变化呈现某种上升或下降的趋势,并且无明显的季节波动,又能找到一条合适的函数曲线反应这种变化趋势时,就可用时间t为自变量,时序数值y为因变量,建立趋势模型:yf(t)。 三次多项式预测模型是趋势外推预测模型中的一种比较常用的模型。为了探究时序数据变化的趋势,作出全国能源消费总量y的散点图如图四所示:

5.21 8.57 10.37 11.69 9

全国能源消耗总量30000025000020000015000010000050000005101520253035系列1

图四:散点图

由图可知全国能源消耗总量无明显的季节波动,而且大致呈抛物线或指数的趋势上升,但经过精度比较之后,三次多项式的拟合的最好,所以本文采用三次多项式模型进行拟合。利用软件Eviews 进行回归得到结果如下表六所示:

表六:三次多项式模型结果 变量 系数 标准差 T统计量 P值 常数项 34209.53 .925 4.001150 0.0004 T 10136.88 2277.300 4.451270 0.0001 T^2 -6.4941 163.9748 -3.9424 0.0005 T^3 18.58298 3.371655 5.511531 0.0000 其中模型的F统计量为345.9252,相伴概率为0.00,小于0.05,所以拒绝原假设,即模型是显著的。而且各系数的显著性检验的P值都小于0.05,通过了显著性检验。模型的调整的R2为0.971825,接近于1,说明模型拟合效果好。因此,建立三次多项式模型如下:

y18.583x36.494x210136.88x34209.53

用该模型对2004-2011年的全国能源消费总量进行预测得到结果如表七所示:

表七:2004-2011年全国能源消费总量三次多项式预测值 2004 2005 2006 2007 2008 2009 2010 2011 203226.7 224682 246270 265583 285000 202380.4 219124. 237698.4 258212.3 280778.2 305507.6 332511.9 361902.6 0.41 3.4组合模型 10

年份 真实值 预测值 相对误差百分比(%) 2.47 3.48 2.77 1.48 以上三种方法有些精度较高,有些精度较低,但由于各自理论的缺陷,会使预测产生系统偏差。为了更充分的提取样本信息,提高预测精度,本文将以上三种预测模型进行组合得到一个组合的预测模型。组合模型的权重有多种,可以等概率取权重,可以采用最小二乘估计法取权重,也可以使权重

wii1mmii.ii11,其中i为残差标准差,m为单一模型的个数,或者使权重m1wiDi1Di1m1,其中Di1为第i个单一模型误差平方和,m为单一模型个数。本文

i采用第三种取取权重的方法,即wii1mmii.ii11。利用Excel软件求得权重m1分别为:w1=0.466858,w2=0.171932824,w3=0.361209557根据预测模型:

ytw1yt1w2yt2w3yt3对2004-2011年的全国能源消耗总量进行预测结果如下:

表八:2004-2011年全国能源消耗总量组合预测值 年份 真实值 预测值 相对误差百分比(%) 2004 203226.68 202142.34 0.53 2005 224682 219328.12 2.38 2006 246270 2384.92 3.13 2007 265583 260010.57 2.09 2008 285000 2009 2010 2011 283571.66 309765.5 338872.9 370931.5 0.50 4 模型精度比较及预测

对预测全国能源消耗总量的各个模型进行评价的指标体系采用平均绝对相

对误差百分比,其计算公式为:

1nYiYi'平均绝对相对误差百分比(MAPE)=100%

ni1Yi各种方法预测结果的精度见表九。

表九:四种方法预测结果的平均绝对相对误差 方法 ARIMA(2,2,2) 灰色模型 三次多项式 组合模型 平均绝对相对误(MAPE) 11.19% 7.34% 2.12% 1.73% 由表可知,在三个单一的预测模型中,三次多项式预测模型的平均绝对相对误差最低为2.12%,预测精度最高。组合预测模型结合了单一预测模型的优势,其精度大大提高,平均绝对相对误差百分比为1.73%,是四种预测模型中最低的。因此本文采用组合预测模型往后作三期预测,得到2009-2010年全国能源消耗总量的预测值如表十所示:

11

表十:2009-2010年全国能源消耗总量预测值 年份 2009 2010 2011 309763388737093预测值 5. 2.92 1. 5 结论

通过对全国能源消耗总量的实例分析,发现基于ARIMA预测模型、灰色模型和三次多项式的预测模型的组合模型的精度最高,组合模型较大限度地利用各种预测样本信息,考虑问题更系统、更全面。因此,利用组合模型对全国能源消耗总量进行预测,为能源规划及的制定提供科学的依据。

参考文献

[1] 中国国家统计局 中国统计年鉴2009

[2] 徐国祥编著.统计预测与决策.上海财经大学出版社,2009

[3] 刘勇,汪旭辉.ARIMA模型在我国能源消费预测中的应用.经济经纬.2007,(5)

[4] 潘志刚,韩颖.组合预测法在我国汽车市场需求预测中的应用.商业研究.2006,(20)

12

13

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ryyc.cn 版权所有 湘ICP备2023022495号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务