第12章中国商品市场综合景气指数指标的数据预处理

书签收藏评论目录封面

由于计算合成指数要求指标序列是剔除了季节性S（SEASONAL FLUCTUATION）变动、不规则性波动I（IRREGULARVARIATIONS）和趋势性T（TREND）之后的序列值，而计算扩散指数也需要季节调整后的数据，所以在分析前先对数据进行预处理。

一、对于异常点的处理

异常点，是指与绝大多数观测数据有很大差异的观测数据。我们通过将数据值与“当年上月”、“上年同期”的值比较发现，有些数据前后不一致，有些数据明显比其他数据大许多，这些数据有可能不是自然波动的结果，它们的存在将会对后面的分析产生较大的影响。因此，在此先将其找出来，然后再根据统计原则对其进行修正。

（一）寻找极值点

大量极端值的存在，势必会影响后续数据处理的效果，在具体分析前，首先将极端值进行处理。这里，采用最常用的方法把正常值界定在［U－3δ，U＋3δ］内，这样做的理论依据是正态分布的规律，即一组呈正态分布的数据中99%的数据值都在［U－3δ，U＋3δ］范围内，95%的数据在［U－2δ，U＋2δ］范围之内。这个过程通过SPSS中的探索性分性（EXPLORE）来实现。首先检查指标时间序列中是否存在异常值，以便在标准化时进行替换。对于小于下限的指标值我们以下限表示，而对于大于上限的指标值以上限表示。

在本书中，使用SPSS中的探索功能（ANALYZE→DEIVE STATISTICS→EXPLORE）分析来寻找各指标列中的异常值。该程序将会找出数据列中的极值。它对于极值使用“*”标记。

通过分析，各指标的极值点如下所示：X10：有3个极值点，分别为2004年3月、2004年6月和2004年11月。

（二）对极值的修正

对于X10，我们可以先将其剔除，该数值左右相邻的数据之间存在较强的联系，故采用SPSS中TRANSFORM→REPLACEMISSINGVAL-UE，根据前面分析，采用其中LINEARTRENDATPOINT和LINEARINTER-POLATION得出的结果差不多，且和预期一样，只不过LINEARINTER-POLATION不能补齐最后一个数据。

二、对于表中缺失数据的处理

我们将原始数据的异常点进行修正之后，还是发现一些指标的数据存在缺失现象：X1缺2006年12月份数据，X4缺2006年1～4月份、7月份数据，X11缺2001年12月份数据、2002年1月份和2002年12月份的数据，X12缺2006年第四季度数据，X13缺2006年1月份和3月份的数据。

我们选用SPSS软件对缺失数据进行补齐。在SPSS软件TRANSFORM菜单下，通过REPLACEMISSINGVALUE命令对缺失的数据进行补齐。SPSS软件有五种缺失数据补齐的方法，分别是系列均值（SERIESMEAN）、附近点的均值（MEANOFNEARBYPOINTS）、附近点的中位数（MEDIANOFNEARBYPOINTS）、线性插值法（LINEAROF INTERPOLATION）和线性趋势法（LINEARTRADEATPOINT）。由于不同指标缺失数据的多少及缺失位置的不同，通过比较我们选用不同的方法对缺失数据的指标进行数据补齐。

对于缺12月份数据的指标，如果用第一种方法，每个缺失值都是用序列的均值来替代，这种方法明显不适合对这些指标的缺失数据进行补齐。在用第二、三、四种方法时，我们无法对最后一个缺失值进行补齐，而选用第五种方法（线性趋势法）时，不但能够对所有数据进行补齐，而且替代缺失值的数据比较好地模拟了原始数据。因此，我们选用了这种方法对数据进行补齐，并用补齐后的数据替代原始数据。

对于X4缺2006年1～4月份数据的补齐，由于缺失的数据比较多，所以采用系列均值和附近点的均值的误差会比较大，所以我们还是采用线性趋势法来补齐数据。而其余的缺失数据我们结合几种缺失数据补齐方法，进行了数据的补齐。

三、季节调整

由于不同的季节对经济活动的影响程度不同，相同的经济活动在不同季节里产生的经济效果也不同，因此不同的子年度指标之间存在不可比的因素。为了使不同季节的指标之间具有可比性，应首先对数据进行季节调整。在景气分析中人们通常采用X－11或X－12季节调整法来消除数据中的季节因素，此处简要介绍采用X－11方法的扩展X11－ARIMA以及X－12这两种方法。

（一）X－11－ARIMA季节调整法

1.X－11季节调整法简介。

X－11季节调整法是美国官方对公布数据进行季节调整的标准方法，同时也被商业部门所广泛采用。该方法的核心思想是对称移动平均和高阶移动平均，通过多次迭代，最终分离出原序列的趋势成分、季节成分和不规则成分，得到剔除季节成分调整后的序列。在本书中，我们假设数据符合乘法模型，因而假定原始序列OT具有如下形式：

OT＝CT×ST×IT×PT×DT

其中，CT是趋势起伏成分；ST是季节成分；IT是不规则成分；PT是先验月度因子；DT是交易日成分。交易日成分还可以进一步分解为：

DT＝DR，T×DTR，T

其中，DTR，T是由先验星期权重导出的交易日因子；DR，T是从交易日回归估计出的残余的交易因子。

标准的X－11季节调整方法由以下步骤构成，这些步骤应用于原始数据或用ARIMA模型延长过的原始数据。

（1）第一步，读入数据，忽略开始的缺失值直到发现第一个非缺失值。如果存在先验月度因子，此过程读入先验月度因子PT，从原始数据中把它们去除掉，得到OT／PT。可以指定7个星期权重来计算月度因子以修正序列中的交易日差别的影响，即DTR，T；随后从原始序列或刚进行完先验修正的序列中把这些因子除掉，得到CT，ST，IT，DR，T。

（2）在第二、三、四步中，进行了三次迭代，每一次迭代都提供了季节项ST，交易日因子DR，T，趋势起伏项CT和不规则成分的估计IT。每次迭代改进了不规则成分中极端值的估计，在极端值被识别出来并修正之后，生成了最终的季节成分、季节调整过的序列、趋势起伏和不规则成分的估计。

（3）根据第一次迭代得到的交易日因子和不规则权重对原始序列进行修正后，再执行与第一次迭代相同的计算。第二次迭代产生交易日因子和不规则权重的估计。

（4）根据第二次迭代得到的交易日因子和不规则权重对原始序列进行修正后，再进行第三次也是最后一次迭代。在最后一次迭代中，X－11形成了季节因子、季节调整后序列、趋势起伏以及不规则成分的最终估计，对最终的调整后序列计算各种变差的概括性量度，并产生此序列的一个移动平均。

但标准的X－11方法有一个明显的不足就是添入新数据以后，对季节因子的估计就要更改。X－11方法用一系列中心化移动平均来估计季节成分，这些移动平均对除起始和结尾处以外的所有观测使用对称权重，但起始处和结尾处只能用非对称权重。非对称权重可以导致季节因子估计不准，因而有了新数据以后就可能造成大的更改。对季节调整过的值的大的更改并不常见，但这种情况还是可能发生的，发生了这种情况就会降低X－11方法的可信度。针对这个问题便产生了标准X－11的修正方法———X11－ARIMA。该方法先把原始序列（如需预调先作预调整）用ARIMA模型预报一期或几期，然后把这个延长了的序列进行季节调整，只不过这时在序列的首尾部分用的就是对称权重了。经实践检验，该方法确实能大大减少新数据到来时对序列的更改。

2.日期调整。

程序还可以根据要求对交易日和假日进行调整。由于假日是以美国为标准，因此该选项对其他很多国家数据不具合理性，不能直接采用。但仍需对日历表中的阶段性变化的影响进行调整。DAVIES（2003）认为，与零售商业指数（RETAILSALESINDEX，简称RSI）有关的数据在一个季度内可以用4、4.5个星期的标准周期来表示，这样就不会受到交易日天数的影响，比如说在一个日历月内有时有4个星期六，而有时有5个。然而标准的周期的确存在着阶段性变化的影响，因为标准的周期与日历月不匹配，与日历月相比它每年都要稍稍地变动一点。与一个日历年的365天（闰年366天）相比，在一个一般意义的年中，一个基准周期包含52个星期或364天。因此，一个标准的周期每年向后滑动一天或两天。每隔5年或6年，报告年为了要与日历年一致，必须多加一个星期，一般是加在一月。

（二）X－12季节调整法

X－12季节调整法是X－11季节调整法的最新改进，是目前进行季节调整的基本方法。在EVIEWS5.0或高版本的SPSS中都可以找到X－12季节调整方法。该方法的核心思想是对称移动平均和高阶移动平均，通过多次迭代，最终分离出原序列（O）的趋势周期（TC）、季节因子（S）、交易日因子（TD）、节日因子（H）和不规则成分（I），得到剔除季节成分的调整后的序列。

在X－12季节调整方法中原始序列（O）既可以写成连乘形式又可以写成连加形式，具体如下：

O＝TC×S×TD×H×I 或 O＝TC＋S＋TD＋H＋I

这个等式不同于最初的皮尔逊公式的新特点，是包含交易日因子和节日因子。交易日调整主要是给定月份中工作日数量的变化，这对零售业及财务交易活动影响重大。至于节日调整，在我国，主要是考虑到由于春节、五一劳动节和十一国庆节等节日而引起的模型变化。X－12季节调整的基本步骤如下：

（1）计算节日因子。在X－12季节调整程序中已经把所有关于节日因子的计算过程都自动化了。

（2）计算交易日因子。X－12程序的交易日调整是通过做每月周工作日数对不规则成分的回归来计算交易日因子的。尽管这样做可能导致概念性问题［例如，蓝色法（BLUELAW）的变化可能使星期天零售额的分量发生改变］，但是该方法具有如下两大优点：第一，比建立一个独立的日活动模型要快得多；第二，据称它能获得更好的调整效果，因为它对多种因子的净影响进行了校正。

（3）计算初步季节因子。一旦整个时间序列都进行了交易日调整，剩下的成分就可以表达为：

O／TD×H＝TC×S×I

然后，X－12程序将季节成分从趋势周期和不规则成分中分离出来，其计算过程是先计算原始序列的12个月中心移动平均，然后在此基础上计算2个月移动平均，这样就产生了趋势周期。为了排除一些随机事件的影响，异常值用3个月移动平均的3－期平均值（3×3MA）替代。对于不落在这个范围内的值，则用那一点之前后的两个值的平均值替代。序列的最后一个值用它前面三个值的平均值替代，序列的第一个值用它后面三个值的平均值替代。

当异常值都被替换之后，对初步季节模型作如下调整：由于12个月中心移动平均（意味着将丢失6个值）而导致时间序列的第一个值和最后一个值丢失，那么，用来年的季节因子取代序列第一个值，用头年的季节因子取代序列的最后一个值。然后，将这些初步因子调整到每年的季节因子总和为1200（按月观察），这意味着任何12个月的平均值将等于全年调整数据的平均值。

下一步就是用这些初步季节因子来调整原始数据。

（4）确定最终季节调节因子。先将经过初步季节调整的时间序列经过又一次平滑，以排除任何的季节性和不规则成分的影响。然后，将季节调整、交易日调整和节假日调整结合起来得到最终的调节因子。

（5）计算下一年的季节因子。下一年的季节因子由下面的外推公式得到：

SFN＋1＝SFN＋（1／2）×（SFN－SFN－1）

式中，SFN表示第N年的季节因子，第N－1年指的是一年前的同一时期（月、季、星期等）。例如，今年一月份的季节因子等于去年的季节因子加上前年与去年之差的一半。

根据中国商品市场的特点可以看出，部分指标存在较高的季节波动性和十分明显的假日经济特点，鉴于以上特点，为了保证我国商品市场景气指数编制中尽可能少地受到季节因素的影响，所以在数据的季节调整方面，对于交易日调整和假日因素调整都是采用“显著”给予处理（IFSIGNIFICANT）。本书中，季节处理都将采用EVIEWS5.0中的X－12季节调整法实现。

（三）季节指数

运行EVIEWS5.0中的X－12季节调整法程序，得到季节指数：

（四）消除已季节调整后的指标的长期趋势

我们采用EVIEWS5.0中的X－12季节调整法，去除季节因素和不规则因素的影响，可以得到最终趋势和周期的乘积。由于在景气分析中，只需对循环要素进行分析，故而要消除时间序列中的趋势。传统上，人们有三种方法来对时间序列的趋势进行剔除：回归分析法、移动平均法、阶段平均法。阶段平均法处理数据会准确一些，但是这里数据的长度达不到它的要求。如果采用阶段平均法对数据的趋势进行剔除，至少会损失11期数据，相对于原数据的72期来看，损失的信息过多，故此处不采用此种方法。通过对数据作时序图发现，大部分指标呈现出非线性的增长趋势，因此在此我们选用回归分析方法来对数据进行处理。由于其中的两个价格指数指标没有明显的长期趋势，故对这些指标不进行调整。

1.回归分析法的简介。

如果经济时间序列呈现较强的线性趋势，即该指标样本的曲线随时间的推移呈直线型增加或减少，则可设T表示时间，其一般形式表现为，（T＝0，1，2，…，N）。对于这种类型的经济时间序列可用线性回归方程模拟其长期趋势。设A＾、B＾是由最小二乘法得到的A、B的估计值，则趋势T可近似地由下式给出：

T＾＝A＾＋B＾×T，（T＝0，1，2，…，N）

若经济时间序列具有非线性趋势，需用非线性回归分析求趋势要素。或者对于适合的方程进行线性变换，如指数曲线，将其化为线性方程进行处理，例如对指数曲线两边同时取自然对数便可将其化为线性方程。其他的处理方法与一般线性方程同步，不过在最后进行剔除时要转化为原非线性形式。需要注意的是，使用该方法时要求数据有较强的线性趋势，否则对于长期趋势的剔除效果不是很明显。在确定了长期趋势T之后，从X序列中消除趋势T，便可以得到循环要素C：

C＝（X／T）×100（乘法模型）；C＝X－T（加法模型）。

2.计算结果。

在实际处理中，我们使用SPSS中“曲线拟合”的程序来进行回归分析，以找出适合各指标的趋势方程。一般来说传统的回归方程有以下几种：

（1）LINEAR：拟合直线方程，在此实际上与二元直线回归相同；

（2）QUADRATIC：拟合二次方程X＝B0＋B1T＋B2T2；

（3）拟合复合曲线模型X＝B0×B1T；

（4）GROWTH：拟合等比级数曲线模型X＝E（B0＋B1T）；

（5）LOGARITHMIC：拟合对数方程X＝B0＋B1LNT；

（6）CUBIC：拟合三次方程X＝B0＋B1T＋B2T2＋B3T3；

（7）S：拟合S形曲线X＝E（B0＋B1／T）；

（8）EXPONENTIAL：拟合指数方程X＝B0EB1T；

（9）INVERSE：数据按X＝B0＋B1／T进行变换；

（10）POWER：拟合乘幂曲线模型X＝B0TB1；

（11）LOGISTIC：拟合LOGISTIC曲线模型X＝1／（1／U＋B0×B1T）。

通过对以上几个方程进行分析，发现CUBIC是其中最适用于所分析指标的。用CUBIC对各指标数值进行拟合所得方程所示。由于在此我们不是要对数据拟合回归方程，只是用它来拟合趋势，所以在表中RSQ。只用来比较以上11种方法的拟合好坏程度。虽然RSQ。的值有时十分的小，但通过相关趋势拟合图来看，效果还是比较理想，因此仍采用它们。

（五）最终循环结果

以上分别对序列消除日期影响、季节影响，进行趋势剔除，剩下不规则影响和循环要素。现通过程序运行得到不规则序列，将得来的序列除以不规则序列，就只有我们分析所需要的循环要素了。

即为2001年1月～2006年9月期间中国商品市场综合景气指数指标的时序图（除X4、X8外）。

第12章 中国商品市场综合景气指数指标的数据预处理

第12章中国商品市场综合景气指数指标的数据预处理