书城经济中国商品市场景气与预警研究
34644700000007

第7章 数据处理的基本方法

通常我们拿到的数据是没有经过处理的数据,这些数据我们称为原始数据。由于在数据收集过程、数据录入过程中可能存在失误,这些原始数据是不能够直接拿来分析的。为了避免这些原始数据对数据分析结果造成的损害,我们首先必须对原始数据进行处理,剔除一些“不可靠”的数据,使新的数据更能反映真实的情况。

一、原始数据处理的基本方法

在测度景气循环时,我们使用的一般都是月度数据或季度数据,由于这些数据计算时间相对较短,数据相邻月份或季度的差异大,而且很可能发生缺失部分数据的情况,因此在计算景气指数前,必须对取得的原始数据进行一系列的加工处理。

(一)缺失数据的补齐

对于缺失数据的补齐可以有多种方法,下面主要介绍SPSS软件里使用的五种数据补齐方法。在SPSS软件TRANSFORM菜单下,通过 REPLACEMISSINGVALUE命令可以对缺失的数据进行补齐。SPSS软件共有五种缺失数据补齐的方法,分别是序列均值法(SE-RIESMEAN)、附近点的均值法(MEANOFNEARBYPOINTS)、附近点的中位数法(MEDIANOFNEARBYPOINTS)、线性插值法(LINEAROF INTERPOLATION)和线性趋势法(LINEARTRADEATPOINT)。

1.序列均值法(SERIESMEAN)。

序列均值法是指用整个序列的平均值去替代系列中缺失的数据。对于数据间相互差异比较小的数列,平均值能比较好地反映每个数据的情况,用序列平均值去替代缺损值,可以保证替代值与缺损值之间的差异相对较小,提高调整后数据的可靠性。此外,如果缺失的数据处于有稳定增长过程序列的中间部分,也可以采用这种方法对原始数据进行补齐。但是,如果序列不属于上面两种情况,使用序列均值法去替代缺失数据可能会造成替代值与相邻数据差异比较大,进而可以推断替代值与原始值差异较大,从而影响数据的准确性。

,我们选取2003年1月~2005年12月的北京市城镇居民人均可支配收入(元/人)作为原始数据,利用序列均值法算出这36个数据的均值为1308.94元/人,于是,我们用这一个数据补齐缺失的数据,得到一列新的数据。

2.附近点的均值法(MEANOFNEARBYPOINTS)。

附近点的均值法是指用缺损值附近点的均值去替代缺失的数据。在SPSS命令中,可以根据需要或数据模拟效果而选择使用附近几个值的均值去替代原始数据。对于很多序列,尤其是时间序列,相邻值之间有很强的相关性,连续几个值之间存在比较稳定的递增或递减关系。对于这类时间序列,使用附近点的均值去替代缺失数据能比较好地模拟原始数据,以保证数据的可靠性。在对时间序列进行缺损值补齐的时候,通常选用这种方法。但是,因为这种方法是用缺失数据前后几个值的平均值去替代缺失数据,故这种方法不能对第一个数据进行补齐,如果序列的第一个数据缺失,则不宜采用这种方法。

,我们选取2003年1月~2005年12月的北京市城镇居民人均可支配收入(元/人)作为原始数据,利用附近点的均值法补齐缺失的数据,得到一列新的数据。

3.附近点的中位数法(MEDIANOFNEARBYPOINTS)。

附近点的中位数法是指用缺失数据附近几个点的中位数去替代缺失数据。这个方法与附近点均值法相类似,对于大多数序列,两个方法替代结果也比较接近。在比较使用这两个方法时,我们要先判断对于特定序列,究竟是平均值能比较好地反映相邻几个点,还是中位数能比较好地反映。与附近点均值法相同,这种方法也不能对第一个数据缺失的序列进行补齐。

,我们选取2003年1月~2005年12月的北京市城镇居民人均现金收入(元/人)作为原始数据,利用附近点的中位数法补齐缺失的数据,得到一列新的数据。

4.线性插值法(LINEAROFINTERPOLATION)。

线性插值法是指用缺失值前后两时点数据的某种线性组合进行填补,是一种加权平均。,我们选取同样一组数据作为原始数据,利用线性插值法补齐缺失的数据,得到一列新的数据。

5.线性趋势法(LINEARTRADEATPOINT)。

线性趋势法是指用该序列的线性趋势值去替代缺失的数据。

请注意,如果序列的第一个和最后一个数据为缺省值,只能利用序列均值和线性趋势法处理,其他方法不适用。,我们选取同样一组数据作为原始数据,利用线性趋势法补齐缺失的数据,得到一列新的数据。

总的来说,在对缺损值进行替代时,应该综合考虑原始数据的特点,不同特性的序列采用不同的方法去补齐数据。通常最好的办法是先使用五种方法对数据进行补齐,通过观察补齐数据与原始数据模拟程度的好坏来选择最佳的替代数据。

(二)极端值的剔除

由于某些特定的政治、经济原因,或者由于出现数据录入错误,原始数据很有可能存在一些极端值,而大量极端值的存在,势必会影响景气指数编制后续数据处理的效果,在具体分析前,必须对极端值进行处理。

通常情况下,可以通过SPSS中的探索功能(ANALYZE→DE-IVESTATISTICS→EXPLORE)分析来寻找各指标列中的异常值。该程序将会找出数据列中的极值。它对于极值使用“*”标记。上极值点上的变量值超过了第75百分位点与第25百分位点上的差值的3倍;下极值点的变量值小于第75百分位点与第25百分位点上差值的3倍。

对于极值点,首先要先对极值出现的情况进行分析,如果是因为数据错误,则应该删除原始数据,并通过缺损值补齐来修正。如果是由于特定的政治、经济条件造成的极值,通常可以通过比较该数据近几年同期的数据,寻找这些数据间的相互关系,选用合适的值(可以是上一年同期的值,也可以是前后几年同期值的均值)来替代该极值。总而言之,对于极值的处理,没有一成不变的万能方法,要具体问题具体分析,其最终目的是在尽可能减少原始数据损失的情况下,剔除某些极端值对指数编制的影响。

我们选取2003年1月~2005年12月的北京市商品房销售面积(万平方米)数据作为原始数据,利用线性趋势法补齐缺失的数据,得到一列新数据。

我们选取这列新数据的均值加减2倍标准差作为正常值的上下限,通过SPSS的探索性分析(ANALYZE→DEIVESTATISTICS→EX-PLORE),发现这列新数据存在异常值,新数据的均值为375.12,标准差为506.6,正常值的上限为1388.2.于是,2005年1月、2月、3月的数据我们用1388.2来替代,这样我们就剔除了极端值。

二、时间序列处理的基本方法

(一)时间序列的基本概念

在编制全国商品市场景气指数时,我们使用的数据都是一系列的时间序列,因此,首先简单介绍以下时间序列的基本概念和分类。

1.时间序列。

时间序列(TIMESERIES)是指按时间顺序排列的,描述同一事件的一系列数据。我们可以将一个时间序列记为一个数值的集合{XT:T=1,2,…,N}。

时间序列按照数据统计时间是否连续可以分为连续时间序列和非连续时间序列;非连续时间序列按照数据统计的时间间隔又可以分为等距时间序列和非等距时间序列;等距时间序列按照数据统计的频率又可以分为月度时间序列、季度时间序列、年度时间序列。

2.连续时间序列。

它是指数据统计的时间是连续的时间序列。例如,在许多物理现象中,令人感兴趣的基本物理量往往是由连续演变的机制所控制的,因而观测到的数据在时间上就是连续的。在经济领域,某一特定小段时间(比如1个小时)里的股票交易价格也可以近似认为是连续时间序列。

3.非连续时间序列。

它是指数据统计的时间是非连续的时间序列。非等距时间序列是指数据统计的时间间隔是非等距的。例如,若时间序列是某一证券的日收益率,由于在非交易日没有数据可以统计,所以该时间序列就是非等距时间序列。等距时间序列是指数据统计的时间间隔是相等的。

(二)时间序列处理的基本方法

1.移动平均、移动差分与移动中位数法。

在时间序列模型分析中经常遇到的问题是难以清楚地区分周期运动、季节运动与趋势运动。为了突出这三种基本模型而过滤过程中的噪音,最普遍的方法就是采用移动平均或移动中位数法,或者有时为了排除某种趋势而采用移动差分法。在很多情况下,对于移动平均法/移动中位数法/移动差分法的选择往往是特定的。尽管如此,在选择一种平滑程序时有以下两点值得考虑:平滑过程不可以歪曲原始模型和平滑以后的模型不能由于外部扰动而出现负面影响;也就是说,这种方法必须是稳健的。

现在出现了很多复杂的平滑程度,其中最常见的有以下五种:斯本瑟移动平均法、亚历山大移动平均法、移动差分法、移动中位数法、锥形(移动修正)均值或中位数法。但它们都是为了一个共同的目的———突出基本模型(有时称为信号)而淡化随机波动(有时称为噪音)。

1904年,斯本瑟提出一种剔除时间序列中趋势的方法,他用的是一系列移动平均法。按照斯本瑟的计算公式,最终得到一个十五项移动平均,其平均数计算中两端项的权重为负数。

特别地,斯本瑟曲线由5×5×4×4移动平均计算而来。所谓5×5×4×4移动平均是指,先四项移动平均、再四项移动平均,然后又五项移动平均、再五项移动平均,最后一次移动平均时各项被分别赋予权重-3/4、3/4、1、3/4、-3/4.以下就是斯本瑟曲线的推导步骤:

(1)计算四项移动平均。用符号表示如下:

MA41=(X4+X5+X6+X7)/4(3.1)

MA42=(X2+X3+X4+X5)/4(3.2)

MA43=(X3+X4+X5+X6)/4(3.3)

MA44=(X4+X5+X6+X7)/4(3.4)

式中,MA4I,代表一个四项移动平均,XI代表时间序列的值。

(2)计算MA4的四项移动平均。它们采用与公式(3.1)~(3.4)相类似的公式:

MA4×4=(MA41+MA42+MA43+MA44)/4(3.5)

将公式(3.1)~(3.4)代入公式(3.5):

MA4×4=[(1/4)X1+(2/4)X2+(3/4)X3+(4/4)X4+(3/4)X5+(2/4)X6+(1/4)X7]/4

合并同类项得:

MA4×4=(X1+2X2+3X3+4X4+3X5+2X6+X1)/4(3.6)

(3)计算MA4×4的五项移动平均。公式如下:

MA5×4×41=(1/80)(X1+3X2+6X3+10X4+13X5+14X6+13X7+10X8+6X9+3X10+X11)

同理可得MA5×4×42、MA5×4×43、MA5×4×44、MA5×4×45.

(4)计算MA5×4×4的五项移动平均。最后一步是公式(3.6)的加权五项移动平均值,其公式如下:

MA1=(-3/4)MA5×4×41+(3/4)MA5×4×42+MA5×4×43+(3/4)MA5×4×44+(-3/4)MA5×4×45(3.7)

将公式(3.6)代入公式(3.7)得到第一项的结果如下:

WAS=(-3/320)X1+(-6/320)X2+(-5/320)X3+(3/320)X4+(21/320)X5+(46/320)X6+(67/320)X7+(74/320)X8+(67/320)X9+(46/320)X10+(21/320)X11+(3/320)X12+(-5/320)X13

反映了这个平滑过程的结果权重。一旦这些权重推导出来以后,计算斯本瑟曲线只需最后那条公式就行了。虽然这个推导过程冗长而乏味,但它提供了一种可用于推导其他任何平滑过程的技术样板。最后,所有的移动平均值都包含其中(也就是说,计算结果被放在观测时间区段的中点上),这样可以防止确定周期时间时的歪曲。

另一种复杂的平滑公式是由亚历山大提出的七项移动平均法,其公式可表述如下:

(5XT+4XT-1+3XT-2+2XT-3+XT-4-XT-5)/14

这相当于用一个二阶多项式对7次连续观测值进行拟合,这种移动平均法用于计算具有易变倾向的扩散指数。

除了移动平均法以外,还有移动中位数法以及移动差分法也能用于突出某周期模型。移动中位数法与移动平均法相比具有一大优点,那就是移动中位数法较少受外部因素的干扰。移动差分法在时间序列分析中也能用得着,尤其适合于具有长期趋势的时间序列,它提供了一种剔除长期趋势影响的方法。

另一种适用于中心趋势的稳健估计称为修正均值或修正中位数法(或者从移动的角度来说,称其为锥形均值或锥形中位数法)。为了计算修正均值,需要先将序列值从低到高进行排序,然后修正或去掉该序列的预定部分。在计量中心趋势时,这种方法对于剔除极值(由于政治事件、气候或其他扰动而引起的)影响很有帮助。

2.可变长度移动平均法(VARIABLE-LENGTH MOVINGAVERAGE)。

基于标准移动平均值概念的一种变形是,要求调整移动平均值的时间跨度,这种平滑过程就是所谓的可变长度移动平均法(VARIABLE-LENGTH MOVINGAVERAGE,简称VLMA)。VLMA的逻辑思想是:如果均值的最近一次变化比它以前的变化显著不同的话,这可能是趋势发生变化的一种迹象,因此,我们需要调整移动平均的时间跨度。VLMA的计算需要更多的思索和努力,但其回报是获得更逼真的趋势结果。

构造一个VLMA需要以下几个步骤:

(1)确定需要调整移动平均时间跨度的边界。这可以通过主观判断或对历史数据的筛选而得到,例如,我们可以说由此而得到移动平均的范围是在40~85个月之间。

该方法一个很有用的地方就是用来确定NBER增长周期的趋势。该增长周期是相对于趋势的偏差,从概念上讲,它应该并入弹性趋势。可变长度移动平均应达到这样的目的:使增长周期的趋势计算能够使用任何移动平均,包括从持续时间最短到持续时间最长的增长周期的移动平均,而且能够作基于某些预定要求的变换。

(2)计算均值和标准差。样本容量应不小于最长的移动平均跨度。

(3)确定移动平均跨度需要改变时的临界点或触发点。确定临界点的规则之一是用均值加、减标准差作为上、下调整可变跨度长短的标准,当然,我们也可能设定一个可接受的最长和最短跨度。

(4)设置用来确定区间边界的框架。例如,一个四边界框架可能是:

区间边界A=均值-1.5×标准差

区间边界B=均值-0.5×标准差

区间边界C=均值+0.5×标准差

区间边界D=均值+1.5×标准差

对区间边界个数的选择稍微有点随意性,但我们可以通过统计检验来观察分界点是否使各个分区之间的偏差达到最大。

(5)当超出各区间所在范围时,移动平均就发生变化,这时需要预先设定观测值的个数。移动平均跨度变化的基本思想是:以新观测值到均值的距离为基础。当新观测值与均值相差甚远时,应选用较短的移动平均,因为这样可以增加移动平均的灵敏度;相反,当新观测值落在均值附近的正常范围之内时,可以加长移动平均的跨度以减少其灵敏度。

(6)对于每一个时期,根据更新了的移动均值和标准差计算移动平均的新跨度。

(7)重新计算区间边界,并据此计算下一个时期的移动平均跨度。重复第(6)步和第(7)步直到用完所有的数据。

3.皮尔逊时间序列分解方法。

对时间序列进行分析的最早方法是将时间序列分解为各种类型的变化模式。瓦伦·M·皮尔逊是最早提出将时间序列分为四部分的学者之一,按这种分解,一个时间序列由四部分组成:季节、长期趋势、周期以及不规则部分。从概念上讲,时间序列可以被定义为(T+C+S+I)之和,也可以定义为(T×C×S×I)之积。其中,T为长期趋势;C为周期;S为季节性;I为不规则部分。将时间序列分解为这些组成部分决不是一个毫无价值的游戏,整个预测方法体系已经依时间序列分解法而公式化了。有时,对长期趋势或周期进行单独预测的统计技术要比对整体指标进行预测更加可靠。虽然时间序列的分解方法可能比较复杂,但是下面这个例子提供了对本概念的一个简单介绍。考察美国零售连锁店的销售状况数据。从数据本身来看,除了能看出12月份由于圣诞节而销售旺盛之外,我们很难再分辨出任何有意义的模式,然而时间序列分解法能够突出数据的特征。下面这个简单的说明,从概念上展示了如何将长期趋势、周期、季节性以及不规则部分区别开来。

(1)计算季节比率。计算时间序列季节变动成分的最简单方法是移动平均比率法,即采用12个月跟踪移动平均法(如果数据是按季度采集的话,则用四季度跟踪移动平均法,其他类推),其计算过程是用当前观测值除以12个月跟踪移动平均值。

例如,1981年1月的季节比率为:81.7/126.784=0.644.式中,值126.784由当前值加上前11个月的值之后再求平均而得到。所有月份的计算结果。

(2)季节因子归一化。这些季节因子的年平均值不等于1.从定义上说,季节因子必须是中性的,即季节因子的全年均值必须为1,因为季节模型仅在一年内起作用。因此,我们必须对其进行调整,调整的办法是:用每个月的季节因子除以全年的平均季节因子。季节因子归一化结果。

(3)用原始数据除以季节因子。每个观测值除以对应的值,其结果产生一个粗略的按季节调整的时间序列。

(4)计算长期趋势变动成分。此处计算长期趋势变动成分的方法是,利用季节调整后的序列值,计算每月变化百分比的几何平均增长率。可以看出,整个序列的几何平均值是每月0.81%,这就是序列的长期趋势变动成分。

(5)计算周期和不规则部分。周期性与不规则性的联合变动部分由下面这个关系式决定:

CI=R-S-I加法模型

乘法模型

式中,CI为周期与不规则部分的联合变化百分比;R为原始时间序列的变化百分比;S为季节变动成分的变化百分比;T为长期趋势变动成分的变化百分比;它们在前文都有定义。上式计算结果。

(6)将不规则变动成分与周期分开。我们可以用5月中心移动平均增长率来定义周期组分,这可以用公式表示如下:

C=CI的移动平均

式中,C为周期变动部分的变化百分比;CI定义同前。上式计算结果。

(7)计算不规则变动部分。最后,不规则变动或未解释部分可以通过下面的分解恒等运算得到,即:

I=T0-S-T-C

式中,T0 为总的变化百分比;其他符号同前。计算结果。

尽管这种技术对于介绍分解方法很有帮助,但它还是显露出简单方法的局限性。我们一眼就能看出,按季节调整后的时间序列中仍然有一些波动极大的值,比如1983年1月的骤增,或者说1984年1月的骤减。现在已经发展了多种技术用来修正由于节假日或其他不规则因素而引起的月度数据波动。按照时间序列的四大组成部分———周期、季节、长期趋势与不规则部分来思考是很有用的。下面将分别研究长期趋势、周期以及季节模型的计算方法。

4.增长率的计算。

最简单的增长率计算公式是:

G1=[XT/XT-1-1]×100%

式中,G1为简单增长率;XT为时间T处的序列值。例如,按人民币不变价(2003年)计算,2003~2004年间的国内生产总值年增长率计算如下:

G1=[(XT/XT-1)-1]×100%=[(3940.6/3611.9)-1]×100%=9.10%

然而如果时间跨度多于或少于1年,那么年率比较就显得很有用了。若增长率以年率表示,则允许它与季率、月率及多年率直接相比较。其公式为:

G2=[(XT/XT-1)M/N-1]×100%

式中,G2为年度化的增长率;M为一年中的时期个数;N为所跨时期总数。例如,如果月度数据被年度化,则M=12(一年有12个月),如果季度数据被年度化,则M=4;其余依次类推。如2005年第1~2季度实际GDP的年度化增长率计算如下:

G2=[(XT/XT-1)M/N-1]×100%=[(1048.1/1023.87)4-1]×100%=9.8%

增长率计算的另一种变形是求某一个时间跨度的几何平均,几何平均的计算公式如下:

G3=(R1×R2×R3×R4×…×RN)1/N

式中,增长率RI经过连乘之后再开N次方。尽管这个公式看起来很可怕,但是只需最常用的计算器就能很容易地解决它的计算问题。另外,公式G3还可以转换成对数形式G′3,而且在某些情况下,这种对数形式更简单易行:

在等式G′3,希腊字符名∑是对增长率R的自然对数进行求和。作为该算法的一个例子,我们计算一下从2003年第四季度到2005年第四季度之间GDP的平均增长率:

5.几何平均的计算。

为了计算平均增长率,首先把第一列各项加1而使增长率转变成发展速度。例如,0.6%的增长率变为1.006的发展速度。这样做的原因是:如果某一项为负值,则连乘之后仍为负数,那么负数的N次根将导致一个虚数,通过上述变换就可避免出现虚数,因为一个负数被转换成为小于1的正数。例如,若增长率为-5%,则转换后成为[1+(-0.05)],即0.95.发展速度连乘的13次根为1.042,或者说,其几何平均增长率为4.2%。

对所有点计算几何平均的第一个优点是,它在反映平均变化百分点时,比简单地计算两点之间的算术平均更具有现实意义。对于后者,计算结果受起始点与终止点选择的影响。采用几何平均而不用简单算术平均(尽管本例中它们的结果是一样的)的第二个优点是,几何平均法能消除算术平均法中可能出现的数学误差。

增长率计算的另一种变形是平滑增长率法。杰弗里·H·穆尔和维克多·扎尔诺维茨设计了这种算法,用来使百分点变化时的内在不稳定性平滑,而且尽可能保持原来的周期性。平滑增长率的计算公式如下:

月度平滑增长率被表述为6个月平滑年度化增长率(SIX-MONTHSMOOTHEDANNUALIZEDRATE,简称SMSAR),其平均滞后为6.5个月(因跨度为13个月,它的一半即为平均滞后)。因此,指数中的除数就是6.5.同理,公式G5称为2———季度平滑年度化增长率(TWO-QUARTERSMOOTHEDANNUALIZEDRATE,简称TQSAR),其平均滞后为2.5个季度。

采用上面这种计算方法计算北京市工业增加值(销售收入500万元以上)的SMSAR增长率的例子(用公式G4),其数据和计算步骤,其中(A)列为工业增加值经过缺失数据补齐后的新数据,(B)列为标准的年度化增长率(用公式G2计算所得)。(B)列仅用于比较,以便观察对于每一个给定的月份,SMSAR增长率与年度化增长率有何不同。例如,2005年10月SMSAR增长率为34.6%,然而用公式G2 所得计算结果为-31.9%。其他列[从(C)列~(F)列]详细描述了跟踪移动平均的计算步骤(移动平均计算被置于各时间段的最后一个月),然后就可以推导出SMSAR增长率。

所有用来平滑经济信号的增长率移动平均计算公式都存在一个共同的重要事实,那就是,除非移动平均被居中于时间跨度的中点上,否则所得到的周期转折点可能受到歪曲。然而,居中的移动平均也有一个缺点,即它会降低观测结果的现实意义。因此,必须有一个使现实性与平滑性达到平衡的折中方案。

6.长期趋势的计量。

现在已经有许多计算时间序列长期趋势的方法,但所有这些方法的目的都是为了概括长期发展模型,其中最简单的方法就是计算序列起点与终点之间的增长率。然而,尽管该方法计算简便,但结果却可能不能很好地反映长期趋势,因为计算结果受两个端点选择的影响很大。一种较为理想的替代是计算所有时期增长率的几何平均,它能更好地反映平均增长的长期趋势。尽管如此,这种方法还是有它的缺陷,因为它假定整个时期内长期趋势保持不变。在作样本的线性回归以确定趋势路径时也暗含着同样的假定。如果长期趋势随时间而发生变化,那么,用移动平均或高阶多元回归来确定长期趋势也许会更加理想。

在确定增长周期转折点时,NBER发现75个月中心移动平均有助于剔除序列中的长期趋势成分,然而对移动平均跨度的选择,就显得稍微有点随便。NBER选择75个月的基本思想是,75个月足以消除大多数的周期性波动,从而使得基本的长期模型保持不变。但是,即使是这种方法也还有其不足之处。尤其是当我们需要完全消除1995~2005年之间长期趋势变化的周期影响时,用固定长度周期75个月来计量增长周期的长期趋势将会遇到问题,因为该周期超过75个月。因此,长期趋势的计算不可避免地要受到周期摆动的影响。如前所述,针对某些长期序列尚可采用可变长度移动平均法。

计算长期趋势的另一种截然不同的方法叫高—低中点法。它的计算步骤是:①从原始数据中选出高值和低值;②在每对邻近的高值与低值之间使用内插法进行插值;③对插值后的序列计算高值与低值之间的平均值。下面以新房屋开工数据为例演示该方法的计算过程。

由于人口统计模型的变化,新房屋开工数据反映了一种波动的长期趋势,所以,新房屋开工数未必就只有单一趋势率的变化。因此,这种分段趋势分析法尤其适合于新房屋开工数据。列出了从1959~1991年间每年的新房屋开工数据。分离不同趋势的第一步就是确定序列中各个交替变化的高值与低值。所有的高值放在第(二)列,低值放在第(三)列。第二步,用线性插值法填充两个邻近的高值以及两个邻近的低值之间的缺省值。为了计算第一个高值(1517.0)与第二个高值(1603.2)之间的缺省值,先计算该时间段的发展速度(1603.2/1517.0=1.0568),再将其调整为年度化的发展速度。由于这两个连续高值之间的时间跨度为4年(1959~1963年),所以其年度化发展速度为(1.0568)(1/4),即1.0139.从1960~1962年间的缺省值等于1.0139乘以相应前一年的数值,因此,1960年的值等于1.0139×1517.0,即1538.1;1961年的值等于1.0139×1538.1,即1559.5;其余依次类推。最后,计算第(二)列与第(三)列的平均值,并将结果置于第(四)列。计算所得趋势线为实际曲线的形态。