基于CART决策树算法的企业研发项目绩效评价研究

2022-12-12 05:28博士生导师
财会月刊 2022年24期
关键词:决策树绩效评价算法

程 平(博士生导师),晏 露

一、引言

推动企业高质量发展的关键在于科技创新,提升企业科技创新能力的主要抓手在于研发创新。伴随着人民生活水平的提高,人民消费偏好和消费方式日益更替,新产品的迭代速度越来越快,企业的竞争压力加剧,这对企业的研发创新工作提出了巨大挑战。由于研发创新工作的复杂性和产出的不确定性,如何对其绩效实施科学化的管理是学界和业界一直在探索的问题。绩效管理工作主要由绩效计划的制定、绩效沟通、绩效评价、绩效反馈以及绩效结果的应用五部分组成。其中,绩效评价作为绩效管理工作的重中之重,在项目管理中是基于预期的目标,依据一定的流程和标准,对项目实施过程及其结果的效率、效果、程序等进行客观、公正的判断,旨在通过有效的评价过程,提升项目运作的透明度、明确项目的合理性、提高项目的质量。企业的研发活动是科技创新的动力源泉,如何对研发工作的绩效做出科学合理的评价对于评估企业的高质量发展效果亦十分重要。

伴随着人工智能等新一代信息技术的不断发展,机器学习方法在财会领域已经有了较为成熟的研究和应用,主要集中在财务风险评估、风险管理、客户信用评估、成本控制、收入预测等领域,这些研究为机器学习方法应用于绩效评价领域奠定了坚实的基础。在项目绩效评价研究方面,张爱华和黄明惠[1]采取理论与实证相结合的方法对软科学项目绩效评价指标体系进行研究,通过确定软科学项目绩效评价指标及其权重,结合德尔菲法和模糊综合评价法,构建我国软科学项目绩效评价指标体系,并对软科学研究类项目进行了实证分析。程平等[2]从项目投入和产出要素入手,提出规划设计类项目绩效评价方法,构建了规划设计类项目绩效评价指标体系,并引入数据包络分析法以及机器学习算法,设计出基于DEA-CART模型的项目绩效评价模型,为规划设计类项目绩效评价提供了借鉴。王忠等[3]研究发现,在科研项目分类绩效评价体系中,科研人员、科研经费和固定资产作为统一的资源投入,科研人员和科研经费重要程度较高,是开展科研活动必不可少的资源投入。于宗绪等[4]运用层次分析法和模糊综合评价法,对北京某区水环境治理PPP项目3个项目片区的11个子项目进行绩效评价并提出相关建议,为城市水环境治理PPP项目绩效评价体系的构建提供了参考。吴东平等[5]从项目特征、经济评价、管理控制及产出影响四个方面,选取24个KPI指标,建立了基于BP神经网络的PPP项目绩效评价方法,具有较高的应用价值。曾凡龙等[6]从财务和非财务角度构建了我国上市物料企业绩效评价体系,并通过熵权—VIKOR算法确定了各评价指标的权重以及各样本企业的期望绩效值,同时构建了基于AGA-BP神经网络的企业绩效评价和预测模型,并对模型进行训练和测试,以验证模型的实用性和有效性。

综观上述研究,现有文献对项目绩效评价研究采用的方法主要有层次分析法、模糊评价法、熵权—VIKOR算法等,运用机器学习算法对项目进行评价的研究较少,且鲜有涉及研发项目绩效评价方面的研究。机器学习方法作为人工智能的核心领域,在处理复杂数据以及构建模型方面具有显著的优势,其已广泛应用于不同的研究领域。邱泽国等[7]以中国银联信用数据为研究样本,采用随机森林、决策树等信用评估分类算法,构建了个人信用风险评估体系。朱文会等[8]研究发现,决策树算法应用于区域风险管控模式预测是可行的。杨东红等[9]以网络评论信息有用性为研究对象,使用7种目前比较常用的机器学习算法,构建网络评论信息有用性预测模型,结果表明随机森林和决策树算法的预测准确率比较理想。周宝建[10]建立了基于决策树算法的个人信用数据分析模型,结果表明该模型可对个人信用状况做出较为准确的预测。王明等[11]为实现养殖互联网平台用户的自动化运营,防止用户流失,采用区间估计和决策树算法建模,对猪场用户的平台使用情况进行用户流失分析,为养殖互联网平台的猪场用户研究提供可靠的数据模型。周毓萍等[12]运用梯度提升决策树、BP神经网络等算法构建了针对商业银行的个人信用评价模型,进一步提高了个人信用评价的准确性。

有鉴于此,本文针对A企业研发项目绩效评价存在的主要问题,引入CART决策树机器学习算法,提出了一种研发项目绩效评价方法,并从项目投入、项目过程管理、项目产出以及项目预期效果四个方面建立了研发项目绩效评价指标体系。借助机器学习工具对数据进行特征提取,构建了基于CART决策树算法的研发项目绩效评价模型,并对模型结果进行了分析和应用。

二、A企业研发项目绩效评价现状与问题分析

(一)研发项目绩效评价的现状描述

A企业成立于2015年7月,是我国新能源汽车的制造商,主要从事豪华智能电动车的设计、研发、制造和销售。为了遵循企业“用科技改变出行,让更多人受益”的发展理念,A企业战略性地专注于研发价格在20万元至50万元范围内的新能源汽车。A企业研发项目选择的大多是自研模式,主要研究方向包括:汽车性能模拟技术、电机配置、车载智能操作系统、混合动力汽车技术、自动辅助驾驶系统、发动机燃烧过程分析等。为了加快企业高质量发展步伐,A企业近几年加大了研发项目投入,为确保研发投入得到有效产出,建立合理有效的绩效管理体系已成为A企业研发项目管理工作的重中之重。

现阶段,A企业研发项目绩效评价遵循《A企业研发项目绩效考核办法》,主要围绕产品研发的工作目标,旨在按计划实现各阶段目标,为项目组成员的薪酬分配提供依据,激发企业的创新活力。经过调研发现,A企业主要从研发项目的完成程度以及项目成果评估两个维度进行绩效考核,其中项目完成程度的权重为40%,项目成果评估的权重为60%,现行研发项目的考核工作由绩效监督管理委员会牵头完成,项目组成员的奖金分配机制由项目负责人提出,并经研发总监审核。同时,A企业现阶段仅针对已结题的项目进行考核,无固定的考核周期,一般在项目完成后的一个月以内进行。

(二)研发项目绩效评价存在的问题

A企业目前的研发项目绩效管理对研发项目质量和效率的提升有一定作用,但是客观来讲,A企业研发项目的绩效管理仍处于较低水平,存在研发项目绩效管理流程缺失、激励机制不完善等问题。

1.绩效评价侧重点失衡,忽略了投入与产出的比例。A企业当前是通过研发项目完成程度和项目成果评估两个维度进行绩效考核,涉及的二级指标包括研发项目计划完成率、研发周期控制情况、产品市场销量、专利申请数量等。企业目前对研发项目的绩效考核侧重于结果考核,这与研发工作的性质相违背,忽略了高质量发展下投入与产出的比例。依据上述评价标准无法全面了解研发项目的进展以及实施情况,可能会造成项目执行过程中某些关键信息的流失,在一定程度上也可能造成研发经费的浪费。

2.绩效评价方法主观因素大,考核结果反馈程度低。现阶段,A企业研发项目绩效评价的指标权重是由绩效监督管理委员会根据经验共同商讨决定,这种评价方式主观性较强。同时,A企业的绩效监督环节流于形式,在绩效应用环节,由项目负责人根据团队成员的表现确定项目奖金的分配系数。由于项目负责人对研发团队成员容易产生刻板印象,亦会参杂一些人情世故,未尽可能地对团队成员进行量化评价,得到的评价结果难以令人信服,对研发人员的激励作用亦有限。

三、研发项目绩效评价体系构建

(一)设计思路

针对A企业研发项目存在的绩效评价侧重点失衡、考核主观性强等问题,为了建立科学、有效的研发项目绩效评价体系,需要梳理出A企业研发项目实施过程中的关键控制点,同时将绩效评价指标与关键控制点进行匹配。基于评价指标、评价流程和评价方法的A企业研发项目绩效评价框架设计如图1所示。

图1 研发项目绩效评价框架

如图1所示,在绩效评价指标方面,本文提出从研发项目投入、研发项目过程管理、研发项目产出、研发项目预期效果四个方面去构建。在绩效评价流程方面:根据A企业研发项目的特点,首先确定研发项目绩效评价指标;然后完成有关数据的采集和预处理操作,构建基于机器学习算法的研发项目绩效评价分析模型,运用训练集和测试集数据对模型进行训练和验证,从而得到研发项目的绩效评价结果。在绩效评价方法方面:首先从研发项目投入、研发项目过程管理、研发项目产出以及研发项目预期效果等维度确定本次研发项目绩效评价的指标;其次将评价指标作为CART算法的特征提取;最后构建基于支持CART算法的研发项目绩效评价模型,得到对绩效评价结果产生影响的各因素重要特征排序,将此排序结果作为绩效评价权重确定的参考值,同时作为绩效监督环节关注的重点。

(二)研发项目绩效评价指标体系构建

研发项目绩效评价指标体系的构建需要以推动企业高质量发展为导向,指标选取的合理性直接影响模型结果的准确性。同时,指标应反映研发项目的整体情况,并遵循可执行性、计量性以及可比性的原则。本文结合A企业研发项目的特点,从研发项目投入、研发项目过程管理、研发项目产出以及研发项目预期效果四个方面设计了研发项目绩效评价的指标体系,如图2所示。

图2 研发项目绩效评价指标体系

研发项目投入是高质量发展背景下衡量企业创新投入的指标,是评估企业高质量发展的重要因素,其主要包括人力和财力两个方面的投入,研发经费的落实和项目团队成员的配置都会对研发项目的进度、质量等产生影响,进而影响研发项目的绩效评价结果。遵循指标选取的可操作性原则,本文选取资金到位率和项目组综合学历两个指标衡量研发项目的投入力度。对于研发项目而言,项目过程管理主要体现在资金管理和项目进度管理两方面:资金管理主要表现在项目经费使用的合规性上;项目进度管理表现在完成及时率和团队协作程度两方面,完成及时率可以反映研发项目在时间成本上的投入和项目组的工作效率。

研发项目产出是高质量发展背景下衡量企业创新产出的指标,亦是企业关注的重点,主要体现在成本节约率、质量达标率、项目文档资料归档率等方面。其中,成本节约率体现了研发项目经费的预算执行情况,同时与高质量发展下倡导的资源节约理念相呼应。由于研发工作的特殊性,项目资料是企业的无形资产,为了提高项目资料的完整性,将项目文档资料归档率纳入项目绩效评价体系。产品质量直接影响市场销量,对研发项目成果质量的检验亦是研发管理工作不可或缺的一部分。预计利润贡献额、专利申请数量以及技术通用性是研发项目预期效果在经济效益、科研成果等方面的表现,在一定程度上可以反映研发项目的价值。

(三)决策树算法原理与研发项目绩效评价方法

决策树是一种基于概率统计的有监督学习的机器学习方法,它衡量的是对象属性和对象值之间的一种映射,树中的每个内部节点表示对每个属性的判断,如果符合判断条件,便会对其进行分支处理,判断条件越多,树枝越茂盛。目前C4.5、ID3和CART算法是三种常用的决策树算法,其中CART算法的预测结果为概率值,可以同时解决分类和回归问题。分类是不断降低不确定性的过程,本文研究的研发项目绩效评价是一个分类问题,相对于ID3和C4.5,CART在构建分类树时不再采用信息增益或者信息增益率,而采用基尼指数作为节点分裂评价准则,由此简化了大量的对数运算过程。基尼指数反映了样本的不确定性,基尼指数越小,样本之间的差异越小,数据集的纯度越高。

本文将CART算法应用于研发项目绩效评价中,主要是考虑到决策树易于理解和解释的特点,并可呈现可视化结果示意图,容易提取到各特征的规则。由于研发项目绩效评价的影响因素之间是相互独立的,没有关联性,CART算法能够高效地处理这些不相关的特征。考虑到A企业研发项目绩效评价维度较多,CART算法与回归树在面对A企业此种问题时相比其他决策树显得更加稳健。CART决策树最终会计算出各个特征的熵值,本文根据熵值计算各个绩效评价指标的相对重要程度,由此作为绩效评价权重设置的参考值,以解决A企业研发项目绩效考核主观性较强的问题。因此,本文采用CART决策树算法构建研发项目绩效评价模型具有可操作性和合理性。

(四)研发项目绩效评价流程

基于CART决策树算法的A企业研发项目绩效评价流程主要由四个步骤构成:首先是采集研发项目绩效评价指标所涉及的项目成本、项目团队成员概况、项目进展和成果等相关信息;其次需对数据进行预处理操作;然后对研发项目绩效评价指标进行特征提取;最后构建基于CART决策树算法的研发项目绩效评价模型,对模型进行训练,并对模型结果进行分析。具体流程如图3所示。

图3 基于CART算法的研发项目绩效评价流程

如图3所示的绩效评价流程,首先需要完成数据的准备工作,包括数据的采集和预处理操作,从ERP系统、项目管理系统以及人力资源系统采集研发项目绩效评价相关的项目成本支出明细、项目进度信息、项目预期成果信息以及项目团队成员的基本信息等数据。然后运用SQL语句对数据进行数据类型转换、数据格式统一、数据量化等数据清洗和数据转换操作。最后通过数据的抽取,得到研发项目绩效评价整合的数据表。

完成数据的处理工作后,进入特征提取的工作阶段。主要通过研发项目投入、研发项目过程管理、研发项目产出以及研发项目预期效果四个维度对研发项目绩效评价指标所涉及的数据进行特征提取,同时建立研发项目绩效评价数据集。为了检验模型的有效性,此处将数据集分为训练集和测试集。

接下来构建基于CART算法的研发项目绩效评价模型,选择基尼指数进行特征选择。为了使模型所得结果达到最优化,首先需运用大量的数据对研发项目绩效评价模型进行训练。然后代入测试集数据至模型中进行验证,将误差降低到最小范围,最终获得对研发项目绩效评价结果影响因素相对重要程度的特征排序,为研发项目绩效评价的权重设置提供参考。

四、实例分析

(一)研发项目绩效评价数据来源与数据预处理

1.数据来源。A企业研发项目绩效评价的数据主要来源于ERP系统、项目管理系统和人力资源管理系统等多个信息系统。从ERP系统可以查看各研发项目的资金情况,包括研发项目资金到位金额、资金使用的明细、实际使用资金的数额,可作为项目成本支出相关的数据来源。研发项目团队成员学历信息可从人力资源管理系统获得。项目管理系统的项目进度跟踪数据表记录了项目在各关键时间节点的进展情况和项目的实际研发周期;研发项目产出综合考评表记载了与本项目相关的资料归档情况;质量检验的达标情况可从项目管理数据表获得;从研发项目成果数据表可获得项目的成果评价信息,包括专利申请数量、预计利润贡献额以及管理层对技术通用性的打分情况。将这些数据以数据库文件的格式导出,方便后续在MySQL数据库管理系统中对数据进行预处理操作。为了提高所构建模型的精确性,本文选择A企业2017~2021年已结题的研发项目相关数据作为原始数据。

2.数据预处理。从各系统采集的财务和项目管理等相关数据存在数据冗余、数据类型不一致、数据缺失等情况,需对数据进行清洗、转换等预处理。首先,建立一个研发项目绩效评价数据库,将采集的数据导入此库中,通过项目编号连接各数据表,运用SQL语句修改各字段的数据类型、数据长度,并删除信息重复的字段。其次,为了实现数据的统一以及后续使用的便捷性,在此数据库中新建研发项目绩效评价整合数据表,用于存储研发项目绩效评价指标的各项数据,如表1所示。最后,运用SQL语句从此库中的其他相关数据表抽取需要的数据,并插入此数据表中。

在数据抽取过程中,需要通过SQL语句对数据进行计算、统计、比对等处理才能得到表1所需要的数据。由于项目组成员学历存在差异,此处只考察团队成员学历的整体水平,将项目组综合学历分为高等学历、中等学历和低等学历三个标准。其中,项目组成员70%及以上的学历为硕士及以上,则定义该项目组综合学历水平为高等学历;50%及以上的学历为本科及以上,则定义该项目组综合学历水平为中等学历;其余则定义为低等学历。研发项目的绩效评价水平分别用字母a、b、c、d表示。其中,a表示绩效等级为优秀,b表示良好,c表示合格,d表示不合格,部分原始数据如表2所示。

表1 A企业研发项目绩效评价整合数据表设计

表2 研发项目绩效评价原始数据示例

为了使数据更好地适应算法模型,需对数据的呈现形式做量化处理。项目组综合学历水平有高等学历、中等学历、低等学历,分别用数字1、2、3表示,以方便决策树算法识别。团队沟通协调能力表现在强、中等、一般、差四个方面,分别用数字1、2、3、4代表。对于资金使用合规性实行扣分制,每出现一次违规扣5分。技术通用性总共有优秀、良好、一般三个标准,分别用数字1、2、3代替。在数据库中通过SQL语句依次对上述数据项进行更新操作。经过处理后得到216条数据,最后呈现的详细数据如表3所示。

表3 处理后的研发项目绩效评价数据

(二)研发项目绩效评价模型构建

CART算法采用一种二分递归分割的技术,最后生成的决策树是二叉树。获得A企业研发项目绩效评价的数据后,通过定义变量、决策树生成、决策树剪枝三个步骤构建基于CART算法的研发项目绩效评价模型,具体内容如下:

1.定义变量。对变量进行指定是决策树建模的基础工作。首先,将分析对象中的输出变量定义为目标变量,也称作因变量;其次,将对结果产生影响的因素定义为输入变量,也称自变量。在本文中,将A企业研发项目的绩效评价水平指定为目标变量,将完成及时率、成本节约率、资金到位率、项目文档资料归档率等11个指标选定为输入变量。

2.决策树生成。决策树生成是输入训练集数据,设置参数条件,最终输出二叉树的过程。CART算法在构建分类树时,采用基尼指数(Gini)作为节点分裂评价准则进行特征选择。基尼指数可用来量化数据的混乱程度,表示样本集合中随机选中的样本被分错的概率,基尼指数越大表示数据集合中随机被选中的样本出现被分错的概率就越高,也说明此数据集的混乱程度较高、数据不纯,反之数据的混乱程度较低、数据的纯度较高。假设集合中所有样本个数为m类,Pm表示第m类样本被选中的概率,基尼指数的计算公式如下:

3.决策树剪枝。决策树是考虑了所有数据点而生成的复杂树,如果树的结构过于复杂,表明其存在过拟合的可能性较大,进而会降低模型的准确度,此时必须设定停止条件对其进行剪枝处理,使其结构简单化,否则决策树枝会不断生长,不利于数据的分类。剪枝的方式分为预剪枝和后剪枝,本文选取后剪枝方式进行剪枝处理。后剪枝的过程是先输入验证集数据到决策树算法生成一棵完全生长的决策树;然后自底层向上层进行剪枝操作;最后通过损失函数确定在哪些结点进行剪枝。损失函数形式如下:

C(T)表示决策树模型与训练数据集的拟合程度,|T|为子树的叶子结点个数,表示模型的复杂程度,α是权衡二者的参数。较大的α使得模型训练过程倾向于选择结构简洁的决策树,对模型复杂程度的惩罚较大;反之,较小的α意味着模型训练过程倾向于选择更加复杂的树,对模型复杂程度的惩罚较小。

(三)模型测试与结果分析

选取A企业2017~2021年的数据对模型进行训练和验证,按照7∶3的比例将数据分为训练样本和测试样本。由于需要避免因数据集划分不合理而导致的拟合问题,则需要通过K折交叉验证法对模型进行选择,将数据集划分为k个子集,每次将其中的一个样本集作为测试集,剩余的k-1个子集的并集作为训练集,并进行k次交叉验证,以找到最优决策树。本文基于预处理过后的数据样本,采用7折交叉验证的方法对模型进行训练和测试。

本文采用7折交叉检验的方式,将数据划分为7份,其中6份作为训练样本,一份作为验证样本,反复重复该过程共计7次。为了避免决策树过拟合,通过多次交叉验证,人工调节模型的参数,并得到最终的参数值。其中,节点分裂准则选择Gini,由于本案例涉及的样本量不大,因此特征划分标准设置为默认值best。内部节点分裂的最小样本数为2,叶子节点的最小样本数为4,树的最大深度为10,叶子节点的最大数量设定为50,最终得到的结果如图4所示。

图4 A企业研发项目绩效评价决策树

通过对模型进行训练和验证,得到训练集数据绩效评价结果实际值与预测值的混淆矩阵热力图,如图5所示。该图展示了研发项目绩效评价结果测试值和真实值的分布情况:横轴代表数据的真实归属类别,即研发项目绩效评价结果的真实值;纵轴表示研发项目绩效评价结果的预测值。不难发现,当研发项目绩效评价结果真实值为a时,预测值的正确率为92.98%,当目标变量的真实值分别为b、c、d时,其模型预测值与对应的真实值完全相等。总体来看,该决策树模型构建良好,可为A企业研发项目绩效评价提供参考。

图5 混淆矩阵热力图

为了获得各研发项目绩效评价指标特征对于结果的重要性比率,决策树计算了各特征的熵值,根据熵值计算各特征的相对重要程度,如表4所示。

通过表4可知,对A企业研发项目绩效评价结果产生重要影响的前三个特征分别是完成及时率、预计利润贡献额和资金使用合规性,随后是成本节约率、质量达标率、资金到位率、项目文档资料归档率等。其中,完成及时率体现了项目研发过程的时效性,在技术不断更替的时代,新产品作为研发项目的直接成果,其研发过程的时效性直接影响产品进入市场的时间和可能获得的市场份额,进而影响企业迈向高质量发展阶段的速度,因而其对A企业项目研发绩效评价结果影响最大。预计利润贡献额是对研发产品所创造价值的直接衡量。高质量发展背景下对资金使用的合规性提出了较高要求,企业各项目需确保资金使用的合理性,将其引入研发项目绩效评价指标体系,可加强对研发经费使用的事中和事后监督。

表4 各特征的重要程度

成本节约率反映了高质量发展背景下资源节约情况。质量达标率是检验研发项目成果的指标之一,其对研发项目绩效评价结果的影响处于中等水平。不难发现,项目文档资料归档率对结果的影响大于专利申请数量,说明相较于外在的荣誉等软实力,A企业更加注重自身内在研发经验的积累,积极提升自身的硬实力。项目组综合学历对结果的影响程度较小,说明企业研发团队学历差异不大。值得注意的是,团队协作程度对模型结果的影响为0,说明并不是所有的特征都被选择。该结果可作为A企业研发项目绩效评价权重设置的参考,亦可为A企业针对研发项目绩效的监督提供方向。

五、结语

绩效评价是企业研发项目创新管理的核心内容,科学、有效的研发项目绩效评价,对企业的投融资管理和战略发展起着重要作用。本文通过对A企业研发项目绩效评价现状和问题进行分析,针对A企业研发项目存在的绩效评价指标单一、考核主观性较强等问题,从研发项目投入、研发项目过程管理、研发项目产出以及研发项目预期效果四个维度出发,选取了成本节约率、完成及时率、专利申请数量、团队协作程度、项目组综合学历、预计利润贡献额、资金到位率等11个指标,构建了基于CART决策树算法的研发项目绩效评价模型。通过对模型的训练与实例分析,发现并不是所有的特征都被选择,完成及时率是对模型结果影响最大的特征,为A企业在绩效监督和反馈方面提供了参考。期望本文的研究思路和研究方法能够强化企业高质量发展下管理会计的职能,并为企业建立一套科学、规范的绩效评价体系提供指导。

猜你喜欢
决策树绩效评价算法
PPP项目绩效管理与绩效评价探究
Travellng thg World Full—time for Rree
进位加法的两种算法
决策树和随机森林方法在管理决策中的应用
基于因子分析的传媒上市公司绩效评价研究
决策树多元分类模型预测森林植被覆盖
绩效评价在委托管理酒店中的应用
基于决策树的出租车乘客出行目的识别
一种改进的整周模糊度去相关算法
基于《企业绩效评价标准值》的医药全行业绩效评价及预测