基于决策树的劳动关系和谐度评判*

2010-12-18 09:01杨河清陈天学
中国劳动关系学院学报 2010年1期
关键词:全额决策树工资

杨河清,陈天学

(首都经济贸易大学 劳动经济学院,北京 100072)

基于决策树的劳动关系和谐度评判*

杨河清,陈天学

(首都经济贸易大学 劳动经济学院,北京 100072)

以劳资双方签订集体合同的条件作为变量,通过Weka软件进行决策树分析,在劳动关系和谐度评判方法上,体现了劳动关系主体中劳资双方的评判组合,这是双方对劳动关系的心理契约的客观反映,为判断劳动关系和谐与否提供了一种科学的决策方法。

决策树;劳动关系;和谐度

在已有的劳动关系和谐度的评判中,主要采用综合灰色关联度、构建指标体再进行实证分析、数理模型等方法,由于这些方法所采用的数据不包含劳资双方对劳动关系的评价,所以这些方法能不能更客观地反映劳动关系构成的主体——劳资双方?特别是劳动者一方对劳动关系的和谐度的认知,这是值得探讨的。

本文所讨论的评判劳动关系和谐度 (只确认和谐与否,不设等级)的决策树方法是建立在劳动者与雇佣者双方各自判断的基础之上的,这个评判结果直接来源于劳动关系主体的自身感受。

这种评判方法的优点在于可以针对不同的时间段,不同地区,不同行业从业人员和雇用者双方对劳动关系和谐性的认可作出快速判定。

一、决策树法 (decision tree—based method)

决策树 (decision tree)一般都是自上而下生成的。每个决策或事件 (即自然状态)都可能引出两个或多个事件,导致不同的结果。

决策树由决策结点、机会结点与结点间的分枝连线组成。决策树是确定方案的一条简捷的途径。决策树不仅可以帮助人们理解问题,还可以帮助人们解决问题。决策树是一种通过图示罗列解题的有关步骤以及各步骤发生的条件与结果的一种方法。近年来出现的许多专门软件包可以用来建立和分析决策树,这样,利用这些专门软件包,解决问题就变得更为简便了。

二、案例数据来源说明

表一的数据来自渥太华大学斯坦恩.马特温产业信息中心提供的劳动关系和谐度调查表,它概括了加拿大在 1987-1988年劳资协商得到的集体协议结果①Collective Bargaining Review,monthly publication,Labour Canada,Industrial Relations Information Service,Ottawa,Ontario,K1A 0J2,Canada,(819)997-3117,本数据集为加拿大当地居民在1987年到 1988年第一个季度的商业和服务业领域的全部集体劳动协议,涉及的员工类型包括中小学教师、护士、大学全体教职工、警察等,从业行业、雇用双方种类等,达 500之多。这个数据集有 40个样本作训练集,还有 17个变量作测试集,这 57个集体协议数据,就形成了本Weka研究的 57个案例 (instances)。在每个案例中,又有合同期、第一年工资增长等 17个属性,其中一些未知或残缺的值用问号来标记。

数据的准备工作:通过数据清理 (data cleaning)、数据变换 (data transfor mation)、数据归约 (data reduction)后,类别分为:百分率、小时数、天数等数值型属性, {无,高,低}、{无,全额,半额 }、 {有,无}、 {低,平均,高}、{无,半额,全额}、 {不和谐,和谐}等名词性属性。

表一 劳动关系和谐度调查表

三、C4.5决策分类原理

设 S是训练样本的集合,其中每个样本的类标号都是已知的,假设存在两个类 P和 N,并且训练集 S中包括 x个属于类 P的记录和 y个属于类N的记录。那么,用于确定记录集 S中某个记录属于哪个类的所有信息量为:

假设使用变量D作为决策树的根节点,把训练集 S分为子类 {S1,S2,…,Sk},其中每个Si(i=1,2,…,k)中,包括 x1个属于 P类的记录和 y1个属于类 N的记录。那么,用于在所有的子类中分类的信息量为:Info(D,S)=

假设选择变量D作为分类节点,那么它的信息增量值一定大于其他变量的信息增量值,变量D的信息增量为:Gain(D) =Info(S) -Info(A,S)。

由此可以给出信息增益函数的通用定义:

在本案例中,Info(S) =Info(37,20) =0.862“第一年工资”的所需的期望信息为 Info

=0.356,因此,“第一年工资”的信息增益为:

类似可得:Gain(合同期),Gain(住房补贴),Gain(养老金)等 16个字段的信息增益值。

由于“第一年工资”的信息增益值最大,因此,构造分类树时,第一次分割选择了第一年工资字段作为根结点分裂成两个分支,然后把每个分支当作数据集 S,重复上述过程,进一步对每个分支进行分割,最终得决策树如下:

图一 劳动关系和谐度决策树一

四、基于Weka软件的决策树分析

1.Weka格式数据准备

Weka存储数据的格式是 ARFF(Attribute-Relation File Format)文件,这是一种 ASCII文本文件。表一中所示的二维表格转换成 ARFF文件如下:

伪代码:

@relation劳动关系和谐度调查表

@attribute合同期 numeric

@attribute第一年工资增长 numeric

@attribute第二年工资增长 numeric

@attribute第三年工资增长 numeric

@attribute住房补贴 {无,高,低}

@attribute每周工作时数 numeric

@attribute养老金 {无,全额,半额}

@attribute加班费 numeric

@attribute晋升级差收入 numeric

@attribute培训津贴 {有,无}

@attribute法定假日天数 numeric

@attribute休假水平 {低,平均,高}

@attribute残疾抚恤 {有,无}

@attribute牙疗补助金 {无,半额,全额}@attribute丧亡抚恤金 {有,无}

@attribute保健 {无,半额,全额}

@attribute和谐与否 {不和谐,和谐}

@data

1,5,?,?,?,40,?,?,2,?,11,平均,?,?,yes,?,和谐

2,4.5,5.8,?,?,35,全 额 ,?,?,有 ,11,平均 ,?,全额 ,,全额 ,和谐

?,?,?,?,?,38,半额 ,?,5,?,11,高 ,有 ,半额 ,有 ,半额 ,和谐

3,3.7,4,5,低 ,?,?,?,?,有 ,?,?,?,?,有 ,?,和谐

3,4.5,4.5,5,?,40,?,?,?,?,12,平均 ,?,半额 ,有 ,半额 ,和谐

………………………………………………………………………

2.决策树的修剪

我们为了得到和谐与不和谐这两种类型,对各属性进行局部贪婪算法,出现了法定假期和每周工作时间两个子节点,在子节点健康计划出现有全额与没有健康计划都为不和谐的分类,从图一中我们发现,决策树模型有 “过度拟合 (overfitted)”现象,特别是“全额”健康计划反而成为不和谐因素。

定型数据中的细微差异过于敏感,冗余的工作时间和健康计划造成的分叉较多,不利于分类器的模式识别,增加了分类器的结构复杂度以及分类的计算时间,将会降低和谐性识别的准确率,将会产生把其它与样本数据稍有不同的案例,决策树就会全都认为不属于这个类别,于是不能进行正确分类。

图一中的决策树“过度拟合”现象的原因是由于我们使用 C4.5决策树算法对劳动关系和谐度调查数据建立起分类模型,运用产生规则的时候采用了局部的贪婪方法,每次只选取一个属性进行分析构造决策树,所以它们在产生的分类规则时候就相当复杂,由于分类器过于复杂,则它可能会过于适应噪声,从而导致过度拟合的问题。解决过度拟合的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。图一中的决策树降低了作为一个独立的测试数据集时的性能,经过 C4.5算法修剪后的决策树如图二:

图二 劳动关系和谐度决策树二

3.决策树的测试及评估

由于本调查数据集既不是通过专家打分得到,也不是通过测量估算而来,因此适合于机器学习型软件进行分析,特别适合于对二元选择类型进行实验设计。针对本数据集,利用不同的分析方法,从不同角度来进行研究的学者主要是英国学者伯格达罗 (Bergadano),马特温(Matwin),密切尔斯基 (Michalski),他们在格拉斯哥的欧洲工作会议上提出了概念定性研究,在北荷兰 IS M IS’88会议上作了“基于学习法的拟合和结果不精确性分析”学术阐述。他们利用本案例采取机器学习法进行研究,在机器学习模拟上进行了探索性研究。鲁迪 (Rudy Setiono)建立了前馈性神经网络进行了归类研究,安德鲁等(Endre Boros)进行了 Logical回归分析,奥亚(Oya Ekin)等建立的空间状态模型也引用了此数据集。他们引用这个数据集,主要是为了说明计算方法和数学原理,但对劳动关系的内容探讨较少。

本案例运用 Weka软件,采取 C4.5算法对57个案例进行决策树分析,其中有 42个案例得到了正确的分类,准确率达到 73.6842%,评估是通过分层 10折交叉验证得到的,在训练集中有 14+28=42个协议合同被正确分类,在测试集中有 19+31=50个协议合同被正确分类,正确率达 87.7193%,混淆矩阵见表二:

表二 决策树的混淆矩阵

因为 57个案例中的协议是由加拿大产业劳工谈判代表最终认同结果,所涉及的各变量的具体数值,包括和谐与不和谐的各种变量,虽然每一个案例不能作为和谐不和谐的代表,但把整个数据集通过 C4.5的分类算法来计算信息熵 (information gain)后,就能归纳基本规律,找到决定因素,得出和谐与否的主要变量。使用信息增益进行属性选择,把具有高信息熵的变量作为节点,选择具有最高信息增益的属性作为给定集合就能形成决策树。在训练集中 28个案例在决策树中属于和谐变量,14个属于不和谐变量,在分类正确率达 70%以上是可以被接受的。因此利用此决策树来作为测量预处理协议和谐与否的模型具有可行性,本测试集中 31个和谐协议,19个不和谐协议被正确分类,实现了判定劳动关系协议和谐与否的正确分类。

协议是劳资双方对劳动和谐与否的共同认可,协议的分类计算结果具有加拿大产业劳工谈判代表意见的最高信息熵,因此决策树是判定和谐劳动关系的重要工具之一,并能为决策者找到主要决定因素,在本例中,通过决策树找出了在第一年工资增长大于 2.5%,且法定假期多于 10天为核心因素时能促成劳动关系和谐的逻辑结果。这样,决策树就直观、清晰地表达了寻求决策方案的逻辑要求。

五、结束语

在判断劳动关系和谐与否或选择促进劳动关系和谐的方案时,可以利用图二中劳动关系和谐度决策树来进行决策,为了改善劳动关系,首先要保证第一年工资增长要高于 2.5%,否则劳动关系就不和谐,其次要保证多于 10天的法定假期,如果实在不能保证 10天的法定假期休息,那么就要保证第一年工资增长要高于 4%,这样也能建立在劳资双方共同满意的劳动关系。

为了提取规则更浅显明了,用简明的伪代码可写作:

1.If第一年工资增长 >2.5%and法定假期>10 then劳动关系和谐

2.If法定假期 <10 and第一年工资增长 >4%then劳动关系和谐

利用决策树的方法来解决劳动关系中的不和谐因素,可以独立来考虑跨行业、跨地区、跨时期等因素的影响,在经济危机中,不同性质的企业,不同规模的公司,怎样和职工一道克服困难?共度困难时期?与职工达成一条线,齐心合力险中取胜?这是作为决策者必须要考虑的课题。如果能借用决策树这种数据挖掘的形式来研究劳动关系,就能在保持企业与职工心理契约曲线一致性的状态下,帮助我们发现问题,解决问题,最终促进和谐劳动关系的发展。

[1]吕晓玲,谢帮昌 .数据挖掘方法与应用 [M].北京:中国人民大学出版社,2009.

[2]Ian H.W itten,Eibe Frank.数据挖掘实用机器学习技术[M].北京:机械出版社,2006.

[3]Bergadano,F.,Matwin,S.,Michalski,R.,Zhang,J.,Measuring Quality of Concept Descriptions,Procs.of the 3rd European Working Sessions on Learning,Glasgow,October 1988.

[4]Rudy Setiono.Feedfor ward Neural Network Construction Using CrossValidation.Neural Computation,13.2001.

[5]Endre Boros and Peter Hammer and Toshihide Ibaraki and Alexander Kogan and EddyMayoraz and Ilya B.Muchnik.An Implementation ofLogicalAnalysis ofData.IEEE Trans.Knowl.Data Eng,12.2000.

[6]Oya Ekin and PeterL.Hammer and Alexander Kogan and Pawel W inter.Distance-Based Classification Methods.Report RUTCOR ffl Rutgers Center forOperations Research ffl RutgersUniversity.1996.

The Judges on the Harmony Degree of Labor Relations Based on Decision Tree

YANG Heqing,CHEN Tianxue
(Capital University of Econom ics and Business,Beijing,100026,China)

This article takes the conditions of reaching collective agreement between the laborers and the capital as the variables,using the decision tree analysis by the software ofWeka.This reflects a judge combination of both employers and employees,and this is an objective reflection of the psychological contract of both sides.This provides a scientific approach to decision making to judge har monious degree of labor relations.

decision tree;labor relations;harmony degree

F249.26

A

1673-2375(2010)01-0029-05

2009-11-20

杨河清 (1951—),男,北京人,中国人力资源开发研究会副会长、首都经济贸易大学劳动经济学院院长、教授、博士生导师;陈天学 (1971—),湖北荆门人,首都经济贸易大学劳动经济学院在读博士生。

[责任编辑:寸 言]

猜你喜欢
全额决策树工资
这种情况下未续订劳动合同是否应当支付二倍工资
取之有道
决策树和随机森林方法在管理决策中的应用
光伏:扶贫项目优先上网和全额收购
电力:可再生能源配额办法出台 确保风光水全额消纳
基于决策树的出租车乘客出行目的识别
不用干活,照领工资
基于模糊关联规则和决策树的图像自动标注
生意太差
基于肺癌CT的决策树模型在肺癌诊断中的应用