大数据下工程造价的数据挖掘问题分析

2021-11-23 09:52袁雄

商品与质量 2021年20期

袁雄

株洲市盘龙湖建设投资开发有限公司湖南株洲 412000

在大数据背景下，工程造价数据呈现出数据类型、数据来源和数据表现形式多样化的特点，增加了工程造价数据的海量性和繁杂性，易对工程造价管理决策带来诸多干扰因素。基于此，工程造价管理可以运用数据挖掘技术，提取出有价值、可靠性强的数据信息，辅助完成造价管理决策。工程造价数据挖掘流程主要包括数据获取、数据清洗、数据建模分析三个环节，在数据挖掘过程中需要重点解决各个环节面临的技术问题。

1 大数据下工程造价数据挖掘存在的问题

1.1 数据获取问题

数据获取是工程造价数据挖掘的前提条件，直接影响着数据挖掘算法计算结果的准确性。基于大数据环境下，工程造价数据获取要重点解决数据来源问题。当前，大部分工程造价数据来源于实地调查，通过实地走访获得数据信息，从中选取可信度较高的信息[1]。但是，由于实地调查获得的数据易受调研机构能力、调研人员素质、数据采集方式、数据选取标准等因素的影响，造成数据可靠性偏低。

1.2 数据清洗问题

在工程造价数据采集之后要进行海量数据清洗，抽取出适合数据建模分析的数据结构。在数据清洗中，系统会自动随机抽取海量数据中的样本数据，可能会出现数据错误、数据缺失等问题，降低数据的可用性和准确性。具体表现为：数据属性不全、数据特征值缺失、数据格式不一致、数据表现形式不同、数据本身错误等[2]。

1.3 数据建模问题

数据建模是工程造价数据挖掘的关键环节，需要采用适当的算法进行建模，提高数据分析的准确性，为工程造价决策提供依据。但是，由于工程造价具备多维复杂性的特点，数据形式多样，表现形式各有不同，并且数据变化程度也不尽相同，所以增加了数据建模的难度，很难通过采用一种算法解决工程造价中所有类型价格信息的建模问题。

2 解决对策

2.1 数据获取——内外部平台获取

为解决数据获取可靠性不足的问题，建议剔除实地调查方法，通过内部数据平台与外部数据平台采集数据，将数据可靠性控制在可接受的范围内。

（1）内部平台采集。建筑企业自主建立工程造价数据库，在内部平台上采集同类型工程项目的造价信息，将采集后数据信息导入新建的数据库中进行备用，并将其转换为直接可用的目标造价数据信息。在数据采集中，可以通过设置规范字段筛选出数据库中相同字段的信息，提高数据采集效率。

（2）外部平台采集。工程造价人员将本地数据库对接相应的平台接口，创建统一的数据交换格式，将外部平台上的业务数据转变为本地数据库规范的数据格式，完成数据采集。外部平台主要是指具有一定权威性的工程造价官方网站和专业化程度高的工程造价信息网等[3]。

2.2 数据清洗——数据预处理

针对数据清洗中存在的问题，可采用以下方法进行数据预处理。

（1）处理数据缺失。在数据抽取中，可以采用以下两种方法解决数据缺失问题：①舍弃元组。在数据抽取后，若数据元组缺失值超过总样本数量的40%时，则必须将元组舍弃，不考虑该元组对数据挖掘的影响；②中心度量值填充。在元组符合可用条件后，填充处理缺失数据，填充方法为中心度量值法。

（2）处理噪点数据。在处理噪点数据时结合工程造价数据的特点以及数据采集方式，采用分箱平滑法。由于工程造价变化受市场经济总体变化的影响程度较高，其变化呈现出时间连续性的特点，在市场不发生较大波动的情况下，工程造价变化具有一定的规律性。所以，将工程造价数据的年度变化阈值范围设置为20%，即超过平均值20%的数据视为噪点，需要在采样区间内重新计算数据，修正数据。

（3）处理数据格式。造价人员可以建立起数据采集模板，运用采集模板处理符合模板格式要求的数据，以保证数据格式一致。如，人工单价费用模板格式为：①编号，格式“XXX”；②单价，格式“XX.XX”；③时间，格式“yyyy-mm-dd：hh：mm：ss”；④来源，格式“……”。

2.3 数据建模——K-means 聚类算法

在工程造价中，材料费用占工程造价的比重最高，约为70%左右，这使得材料费用数据在工程造价决策中占据中重要地位。为此，本文重点研究材料价格的数据建模，结合材料数据的特点采用K-means聚类算法进行建模，并利用Hadoop技术解算模型。聚类算法具备操作简便，能够处理异构类型的大规模数据，且无需提前进行数据分类标签，可以大幅度提高数据处理效率。该算法的运算流程为：①随机抽取M个样本，将样本数据作为中心点，即M个中心点，将中心点存入一个文件中，作为全局变量；②依次采用Map函数、Combine函数、Reduce函数进行求解，迭代出最优解，最终解算出对应节点的多维坐标总和，求和后计算出样本新的坐标值。例如，在复合硅酸盐水泥采购中，共有20家供应商提供报价，单价范围从316元-486元不等。采用聚类分析法生成初始数据集，比较数据集中每个样本之间的距离，选择与其他距离最远的点作为初始中心点，重新分类数据，确定K值。通过数据建模，确定中心点共4个，分别为X1、X2、X3、X4对应4、3、3、10个聚类数量，对应的数值分别为316、402、486、427。由于X4对应最多的聚类数量，所以初步判定复合硅酸盐水泥的市场真实价格为427元。

3 结语

综上所述，在工程造价管理中运用数据挖掘技术有利于辅助做出正确的投资决策。在运用数据挖掘技术时要重点解决数据获取、数据清洗以及数据建模中的问题，完善数据挖掘技术应用流程。在数据挖掘后，工程造价管理人员可以根据数据建模得出的计算结果，分析数据的可靠性，筛选出最有价值的造价数据。