一种改进的T型灰色关联度及应用研究

2011-10-18 10:32冯鹤林陈勇明
统计与决策 2011年5期
关键词:关联系数增量关联度

冯鹤林,陈勇明

(成都信息工程学院数学学院,成都610225)

一种改进的T型灰色关联度及应用研究

冯鹤林,陈勇明

(成都信息工程学院数学学院,成都610225)

文章通过对唐五湘和孙玉刚提出T型关联度思想与灰色关联度几何意义的分析,对于某些目标序列和各因素序列量纲相同的系统,无需对每组数据都进行标准化处理,提出了灰色T型关联度的一种改进模型,改进后的T型关联度既能反映正、负关联度,特别是在总体上能够体现两序列的相关程度。最后给出了改进算法的一个应用实例。

T型关联度;标准化处理;整体;正、负关联度;占里

0 引言

灰色关联度不仅是灰色系统理论的重要组成部分,并为灰色系统分析、预测、决策奠定基础。灰色关联分析的工具是灰色关联度,所以对灰色关联度进行研究具有重要的意义。其主要就两序列之间的几何相似程序进行比较,描述其相近程度。序列越接近,关联程度越大。自邓聚龙教授[1]提出邓氏关联度以来,灰色关联度就得到很大的发展和改进。1995年唐五湘[2]通过增量来刻画两序列的关联度,提出T型关联度,用来度量正、负相关性;1997年查金茂[3]就唐五湘提出的T型关联度,提出一系列问题如不满足规范性以及增量为零时没有意义,但并未提出解决方法;1998年张吉峰[4]在T型关联度的基础上引入了周期;2003年沈明宇[5]就唐五湘提出的T型关联度的缺陷在两增量为0时,以及其中一序列为常数列时产生问题,提出了解决方案并修正了T型关联度;2008年孙玉刚[6]则进一步改进了T型关联度,在唐五湘的基础上重新给出新的T型关联系数,并给出了改进的关联度的性质。本文进一步分析唐五湘和孙玉刚的T型关联度的缺陷,并给出改进的算法,并通过实例验证该方法的可行性。

1 预备知识

1.1 T型关联度的思想

唐五湘[2]提出的T型关联度的基本思想如下:按照因素的时间序列曲线的相对变化势态的接近程度来计算关联度。对于离散时间序列,所谓两曲线的相对变化势态的接近程度,是指两时间序列在对应各时段△tk=tk-tk-1(k=1,2,…n)间原始变量经标准化后的增量的大小来判定,若在时段△tk间两增量相等或接近于相等,则这两时间序列在时段△tk间的关联系数就大;反之,就小。两时间序列的关联度定义为:各时段△tk间的关联系数的加权平均值,权数为△tk。

1.2 T型关联度的计算方法

按照T型关联度的思想方法,唐五湘[2]给出T型关联度的计算方法。对于时间区间[a,b],b>a≥0,令△tk=tk-tk-1,k=2,3,坌k两原始时间序列在[a,b]间各点的取值分别为:

X1={X1(t1),X1(t2),…X1(tn)}和X2={X2(t1),X2(t2),…X2(tn)}

步骤1:标准化。

标准化的目的是使各序列之间具有可比性。具体的作法是

步骤2:求增量序列

△y1={△y1(tk)=y1(tk)-y1(tk-1),k=2,3,…n}

△y2={△y2(tk)=y2(tk)-y2(tk-1),k=2,3,…n}

步骤3:计算各时段的关联系数

孙玉刚改进的T型关联系数计算公式

在式中,sgn(△y1(tk).△y2(tk))确定关联系数ξ(tk)的符号,当ξ (tk)>0时,表示X1和X2在tk-1点到tk这时间段内是同方向变化的,即正关联,反之,若ξ(tk)<0,则负关联。

步骤4:计算总体的关联度。记原始时间序列X1和X2的关联度为r(X1,X2),则

2 T型关联度的缺陷分析

为了说明T型关联度的缺陷,我们先证明一个定理

定理1:当X2={X2(t1),X2(t2),…,X2(tn)}序列与X1={X1(t1),X1(t2),…,X1(tn)}存在线性关系时,不妨记为X2(tk)=aX1(tk)+b,k=1,2,…,n,a≠0时,按照唐五湘的T型关联度计算得到的关联度r (X1,X2)=±1

注:用孙玉刚的T型关联系数计算,可得到当序列与存在线性关系时,也得到的关联度。

证明:

步骤1:求标准化序列

步骤2:求增量序列

步骤3:计算各时段的关联系数

X1和X2在tk-1点tk到这时间段内的关联度ξ(tk)为

当a>0时,ξ(tk)=1,当a<0时,ξ(tk)=-1

步骤4:计算总体的关联度r(X1,X2)

故当X2={X2(t1),X2(t2),…,X2(tn)}序列与X1={X1(t1),X1(t2),…,X1(tn)}存在线性关系时,关联度r(X1,X2)=±1。

同理,换用孙玉刚定义的T型关联系数计算会得出当X2序列与X1存在线性关系时,关联度r(X1,X2)=±1。

通过下面的几个问题,来说明T型关联度的缺陷。

问题一:根据灰色关联度的思想,当两序列形状相近或相似时,其关联程序就越大,对于X2序列与X1存在线性关系,从这种角度来分析,它们形状绝对不是完全相同(相反)。结合定理1,这说明这样定义T型关联度过程中都存在一定的问题。归结其原因,导致这样原因在于,采用了消除量纲的方法,最终导致量化后的序列△y1与△y2间的增量|△y1|与|△y2|相等或相反。由于T型关联度研究的对象是各序列增量之间的相互情况。如果不分具体情况对所有的数据进行量纲化处理,反而会弱化或放大某些增量间的关系,导致错误的结论。

考虑到这个问题,我们必须思考是不是有必要对所有的数据进行量纲化处理。为了说明其实不然,我们再来看一个例子:

两原始时间序列在[a,b]间各点的取值分别为:X1= {0,3,4,6}和X2={1,3,4,6},按照灰色关联度的思想,这两个序列在后面的△t2,△t3这两部分不仅是平行的,更是完全重合的,其关联系数ξ(tk)在△t2,△t3内应该为ξ(t2)=ξ(t3)=1,按唐五湘提出的T型关联度的思想,对其做标准化处理后的数据相对应的关联系数为:这与灰色关联度的思想不相符。由此可以看出不是每个序列都要对其做标准化处理。在下面的讨论中,主要是对量纲相同,意义完全一样的序列进行分析,不需要采取标准化处理

问题二:计算序列X1和X2的关联度r(X1,X2)采用关联度只能正确反映出局部关联系数间的关系,即只是对各区间段关联系数进行简单的求平均,并不能反映出各区间之间增量的差异。若不同区间内两序列关联系数一样,但这些区间内增幅程度并不完全相同,其关联度按孙玉刚或唐五湘提出的关联度的计算方法和公式并无本质区别,对于区间之间的差异没有进行充分描述,不能体现出整体差异。举例说明:

已知X1={0,3,4,6},X2={0.9,3,4,6},X3={0,3,4,5.2}

求X1分别与X2,X3的T型关联度。

增量序列为:△X1={3,1,2}△X2={2.1,1,2}△X3={3,1,1.2}

按孙玉刚给出改进后的T型关联系数公式可求得:

若按唐五湘,孙玉刚给出的T型关联度计算公式将得出,

但参照图1和图2:

序列2和序列3在[2,3]这段与序列1完全重合,要比较它们与序列1之间的关系实质就是要比较序列2与序列1在[1,2]这段与序列3与序列1在[3,4]这段的近似程度。虽然在[1,2]这段序列2与序列1的关联系数ξ12与在[3,4]这段序列3与序列1的关联系数ξ13相等,即相对接近程序相同,但总体来看,序列3与序列1之间的差距只有0.8,但序列2与序列1的差距却有0.9,这样序列3比序列2更接近于序列1,其关联度也应该更大些。具体分析原因就是,在[1,2]区间上,序列2和序列1的关联系数相对于区间[3,4]上序列3与序列1的关联系数一样,即相对接近程序一样,但由于在[1,2]区间上,原始序列1的增幅程度却大于在[3,4]区间上的增幅程度,所以在[1,2]区间上影响大于在[3,4]区间上的影响,即在[1,2]区间上所占的权重要大于在[3,4]区间上的权重。在[1,2]区间上序列3与序列1重合,但序列2与序列1却存在差异,在[3,4]区间上所以这段上序列2与序列1重合,但序列3与序列1却存在差异,这两段区间关联系数是相等的,但权重不等,据此,可得出序列3与序列1的关联度要大于序列2与序列1的关联度。但若采用r(X1,X2)=这种方式来度量其关联度,则将这种区别完全消除了。

3 量纲和意义相同的两序列的T型关联度改进

在量纲相同和意义一样的两时间序列,按照因素的时间序列曲线的相对变化势态的与原始序列的接近程度来计算关联度。对于离散时间序列,所谓两曲线的相对变化势态的接近程度,是指两时间序列在对应各时段△tk=tk-tk-1(k=2,3,…, n)间原始变量的增量的大小来判定,无须进行标准化处理,若在时段△tk间两增量相等或接近于相等,则这两时间序列在时段△tk间的关联系数就大。两时间序列的关联度定义为:相同时段△tk间的关联系数的加权平均值,权数为△X1(tk)。

对于量纲和意义相同的两离散时间序列X1={X1(t1),X1(t2),…X1(tn)},X2={X2(t1),X2(t2),…X2(tn)}间T型关联系数可采用下列步骤:

步骤1:求增量序列

△X1={△X1(tk)=X1(tk)-X1(tk-1),k=2,3,…n}

△X2={△X2(tk)=X2(tk)-X2(tk-1),k=2,3,…n}

步骤2:求两序列间的关联系数

设[a,b]上的两时间序列分别为△X1={△X1(t1),X1(t2),…X1(tn)}和△X2={△X2(t1),X2(t2),…X2(tn)},称

为序列X1与X2的在从tk-1到tk时间段△tk内的关联系数,

min△X(tk)=min(|△X1(tk)|,|△X2(tk)|),max△X(tk)=max(|△X1(tk)|,|△X2(tk)|)

步骤3:求两序列X1={X1(t1),X1(t2),…,X1(tn)},X2={X2(t1),X2(t2),…X2(tn)}间的关联度,称为X1与X2改进的灰色T型关联度。

r不仅能够反映正负关联程度,更能够确切的表明某一时间段△tk内,增量对整体相似的贡献程度。避免了以前所定义的T型关联程度出现的,局部关联系数不同,但总体关联度可能相同,对应的图形与事实相差甚远的情况。

4 改进的T型关联度应用实例

下面就贵州占里的生育问题分析给出改进后T型关联度的一个应用实例,分析不同阶段占里生育状况、观念的动态变化情况。调查统计的有关数据见表1。

表1 占里数据表

依次记29-59年、60-75年、76-90年出生的户主所构成的序列分别为

X1=(3.736842105,30.26666667,4.857142857);X2= (2.438095238,24.926055,5.473683);X3=(3.3,25.30769231,4.6).

可求得:

△X1={26.5298,-25.4095};△X2={22.4880,-19.4524};△X3= {22.0077,-20.7077}

求得关联系数:

ζ21(t1)=0.3229,ζ21(t2)=0.2442,ζ23(t1)=0.7995,ζ23(t2)=0.6031计算关联度为=0.7084

因此,r21与r23的关系应该为r23>r21:

将60-75年出生的家庭(记为第二代)和76-90年出生的家庭(记为第三代)生育情况对比60-75年出生家庭和29-59年出生的家庭(记为第一代)的生育情况,前者比后者更为接近。从数据分析结果看,虽然第三代和第一代与第二代在平均孩子间年龄差上有一定的差异,但差异不大。其部分原因是,76-90年这一代正是刚结婚不久的一代,有一定的可变性,有些家庭还没有第二个孩子,统计到的家庭应该是结婚偏早和初育年龄偏小型的数据。相比第二代和第三代家庭与配偶的年龄对比第一代和第二代要相近得多,更重要的是初育年龄十分接近,甚至没有什么较大的改变。从社会因素的角度来考虑,外界对占里的影响越来越大,信息的交流和思想的改变也正在逐渐影响占里,赖以生存的社会基础发生的变革,一些传统民俗日益淡化,生育习俗的活动阵地缩小,传统节日逐步被现代节日代替,传统节育药物和医术的失传,再加上科学的进步和市场经济的发展,文化生活日益丰富,村民外出打工,参加祭祀活动减少,一般情况下,中青年比老年更容易受新事物影响,占里生育状况也随之逐渐有所变化。

[1]刘思峰,党耀国,方志耕等.灰色系统理论及其应用[M].北京:科学出版社,2008.

[2]唐五湘.T型关联度及其计算方法[J].数理统计与管理,1995,14(1).

[3]查金茂.T型关联度的缺陷[J].武汉交通科技大学学报,1997,21(2).

[4]张吉峰.基于能量关联度的时间序列周期分析[J].系统工程理论与实践,1998,(9).

[5]沈明宇,胡宝清.修正T型关联度及其在证券市场中的应用[J].系统工程理论与实践,2003,(5).

[6]孙玉刚,党耀国.灰色T型关联度的改进[J].系统工程理论与实践, 2008,(4).

(责任编辑/亦民)

N941.5

A

1002-6487(2011)05-0160-04

教育部人文社会科学青年研究基金(10YJCZH157);四川省哲学社会科学重点研究基地民间文化研究中心资助(MJ09-03);成都信息工程学院引进人才科研启动基金(KYTZ201001)

冯鹤林(1986-),男,湖北黄冈人,硕士研究生,研究方向:应用统计、灰色系统。

陈勇明(1972-),男,四川成都人,博士研究生,副教授,研究方向:应用统计、灰色系统、数据挖掘。

猜你喜欢
关联系数增量关联度
导弹增量式自适应容错控制系统设计
提质和增量之间的“辩证”
基于灰色关联度对山东小麦新品种(系) 综合表现评价分析
应用灰色关联度法分析稠油热采油井生产主控因素
“价增量减”型应用题点拨
中国制造业产业关联度分析
中国制造业产业关联度分析
沉香挥发性成分与其抗肿瘤活性的灰色关联度分析
大豆产量及主要农艺性状的相关性及灰色关联度分析
基于均衡增量近邻查询的位置隐私保护方法