公共资源交易数据仓库的构建

2022-05-12 09:25付宏燕
现代计算机 2022年5期
关键词:数据仓库公共资源主体

付宏燕

(国家信息中心公共技术服务部,北京 100045)

0 引言

公共资源交易,包括公共部门对公共资源的购买,如政府采购、政府投资或国有资金投资的建设工程招投标等;也包括公共部门对公共资源的出售行为,如国有土地的招拍挂、矿业权和矿产品出让、国有林权和林产品的出售、 国有文化企业(股权、实物、无形资产)权益出售等交易,以及其他涉及公众利益、公共安全领域的公共资源的销售行为。公共资源交易是我国政府创新配置资源方式的重要体现,是现代市场经济体系的重要组成部分,属于政务公开的范畴,也是衡量我国营商环境的晴雨表。

根据《国务院办公厅关于印发整合建立统一的公共资源交易平台工作方案的通知》(国办发〔2015〕63号文件)要求,全国公共资源交易平台进行了深化整合,各地公共资源交易系统产生的交易数据也初步完成了从地市上行到省、国家公共资源交易服务平台的汇集。但是目前所汇集数据的准确性、全面性等数据质量,以及数据的应用等方面仍不尽如人意,例如因权威数据共享不足,各省、地市评标环节核验投标主体的资质、业绩信息时,仍以投标主体提交的纸介质材料为主,判定材料的真实性无法判定,对于省外投标企业的真实信息更是难以获取;数据分析等应用未达到国家级、省级从宏观层面对于交易领域整体视角的市场化、产业化分析支撑,未真正发挥在公共资源交易监管中的作用。如何从国家层面将汇集到的海量公共资源交易数据提升质量,从业务、技术和使用角度合理整合重组,为最大限度地发挥大数据的作用夯实基础,是迫切需要解决的难题。

1 公共资源交易数据仓库概念建模

1.1 公共资源交易的业务主线

公共资源交易数据以项目进场、招标、投标、评标、中标、合同的业务环节,形成项目的链条式结构化数据,涉及到的市场主体包括招标人/采购人/出让人、投标人/供应商/意向受让方/竞买人、中标人/成交人/中标供应商/受让人、代理机构。每个交易领域都有相应的业务流程。公共资源交易数据仓库需要关注不同领域市场主体构成与交易、资源配置的分析,无须具体到每个项目细节。因此,业务主线按工程建设招投标、政府采购、土地使用权出让、矿业权出让、国有产权交易五个交易领域划分,每个业务主线对应分析的业务主题,如图1。

图1 公共资源交易的业务主线图

1.2 公共资源交易的概念模型

数据仓库的数据模型设计应支持公共资源交易业务范围的扩展,分离出底层技术的实现和上层业务的展现。当上层业务变化时,底层技术实现可轻松完成业务的变动。

图1显示,市场主体是公共资源交易招投标的主力军,相关市场主体数据和交易数据共同组成公共资源配置分析的关键。将五个业务主线的核心部分抽象处理,用交易事实表存放大量的交易业务度量值,作为历史交易数据的存档,通过获取描述业务过程的度量来表达业务过程;用维度列表给出事实表的粒度定义,并确定出度量值的取值范围。围绕交易事实组合不同粒度的多个维度,形成公共资源交易数据仓库雪花模式的概念模型,如图2所示。交易事实表的统一交易标识码,对应每笔交易活动,可提高对交易事实的过滤查询效率,作为退化维提高事实表的易用性和性能。

图2 公共资源交易数据仓库的概念模型

概念模型中主体基础信息、主体资质信息、交易领域、时间、地域和交易事实组成了主体在不同时间、不同地域、不同交易领域、不同交易类别的招标/采购和成交的系列分析主题,如政府采购领域,某年度在某采购类别的总采购规模、总成交额和总合同额,可支持分析政府在某国民经济行业分类的投资与执行情况;同时与交易角色的关联,又组成了交易角色在交易领域、时间、地域维度的系列交易分析主题,如某年京津冀区域异地中标主体占比,可分析京津冀交易市场融合发展等主题。

2 数据的多来源和质量问题

2.1 主体数据

地方的市场主体数据来源于全国619个交易系统,依托国家电子政务外网级联式汇集,由地市级交易平台报送至省级,31个省级交易服务平台将地市级、省级数据,共同报送到国家公共资源交易服务平台。国家公共资源交易服务平台汇集了近三年的工程建设招投标、政府采购、土地使用权和矿业权出让、国有产权交易等交易领域的市场主体信息,以及主体参与的招投标项目信息、中标(成交)信息等,映射到具体数据表为法人信息表、招标(采购)项目表、中标(成交)结果表。交易主体日增3000家,成交项目日增6000个。

来源于有关部门的法人信息主要包括国家市场监管总局的企业基本信息、商务部的外商投资企业信息、住建部的建筑类企业资质信息以及国家法人库信息,作为对全国公共资源交易主体信息的校核与补充,涵盖了企业、事业、机关、社会组织、外资企业等性质。其中,企业基本信息超过7000 万条,工商续存信息超4300 万条,事业单位信息125 万条,机关信息31 万条,社会组织信息99 万条,建筑工程类企业资质信息45 万条。此类数据采集方式为接口实时调用,通过稳定的轮询机制修正更新,均为主管部门发布的权威信息。

2.2 交易数据

交易概念为最小粒度的双方成交行为,如标段或子包成交。在全国公共资源交易数据的级联汇集过程中,用标段编号串联交易的前后行为,但标段编号全国范围内并不唯一,故采用统一交易标识码对应每一笔交易。

2.3 数据的质量问题

招投标全流程电子化是我国公共资源交易发展的主要趋势。目前全国只有少数交易系统实现了全流程自动产生交易数据,大多数仍由市场主体(含代理机构)在交易系统中录入,存在较高的误填率或缺失率,如某地所有主体统一社会信用代码均填同一个、中标金额填成手机号等。由系统自动产生的数据质量相对较好,但依然存在金额和单位不一等问题。错误的数据必然导致错误的数据分析结果,有必要对级联式汇集到的数据进行整合治理,提升正确率和全面率,达到数据分析服务的要求。

3 数据的整合治理架构

不同来源的数据整合治理架构图如3 所示,针对主体数据、交易数据的特点不同分别做处理。

图3 数据整合治理架构

3.1 主体数据的整合重组

多来源的主体数据整合重组逻辑如图4 所示。数据源需要经过先后三次对主体名称的匹配验证、补全信息的操作,以及一系列的去重、打标签等处理,形成主题层完整、干净、具有一致性的主体基础信息表、主体资质信息表。

图4 多来源主体数据整合重组逻辑

从公共资源交易的招标(采购)项目表、中标结果表中提取主体名称和交易领域标识;匹配法人基本信息表中的法人名称,对统一社会信用代码、法人类别、法人角色、法人机构类别、行政区域代码等信息进行初次整合重组;重组后的主体名称去除非法字符、统一括号为全角等规范化处理,形成主体临时表1。

浮标站位于城区东南方富春江江面上,119°55′~120°02′E,30°01′~30°03′N,海拔5.0 m。北面为城区国家气象站,东南面分别为新沙岛站以及江南站。

利用国家法人库信息镜像表对不同性质的主体信息进行第一次验证和补全。将主体临时表1的公共资源主体数据,通过主体名称与法人信息镜像表中的信息对比匹配,修正错误属性,补全机关、事业单位、社会组织等不同性质的主体属性,如业务范围、注册资本、登记状态等,形成主体临时表2。

利用有关部门接口数据对企业信息进行第二、三次验证和补全。将主体临时表2中未匹配上法人信息库的企业名称,调用市场监管总局的企业基本信息接口,补全企业信息,形成主体临时表3;将主体临时表3 的非内资注册类型的企业名称,调用商务部外商投资企业信息接口,补全非内资企业的投资国别、投资总额、投资机构信息,形成主体基础信息表。

住建部接口的建筑类企业资质,与公共资源交易领域交叉在工程建设。将公共资源交易工程建设招投标领域的招投标人、中标人统一社会信用代码,通过住建部的企业资质接口获取相应匹配的建筑类主体资质数据写入主体资质信息表中,为对应的主体添加资质名称和证书号信息,形成主体资质表。

3.2 交易数据的核验与纠正

交易额是资源配置分析的重要数据,也是需要重点纠错的部分。对照每交易领域成交公示文本,统一成交金额单位;参考上一年单笔成交金额设置上限值,汇集的成交金额数据超出上限时,标识待定异常值;然后启用文本分析,与项目成交公示中金额进行核验,如不一致,则取出文本型成交公示的金额替换结构化的成交金额数值。

交易数据带有成交时间、所属行政区划标识,以表明交易环节的历史时期信息和地域信息,方便对交易规模、交易趋势、资源配置做出分析和预测。交易数据的核验与纠正操作在临时存储层完成。

3.3 数据的其他处理

由于数据的多来源和级联式汇集的不可控性,有必要在整合重组过程中进行主体信息的单来源去重、合并去重。对于单张表去重,按照主体名称对重复数据选择时间戳最新的一条保留;对于单个接口数据去重,按照调用接口的时间取同一主体的最新数据。合并去重的重要操作是统一字段名称,如将主体名称字段统一为furname,将主体统一社会信用代码统一为uniscid等。

标签主要作用在于为后续统计和分析提供标识。主体机构性质是统计分析重点,对应字段机构性质名称jgxz、机构性质代码jgxz_code打标签处理。如企业的jgxz 字段代码设置为“00”,“机关”设置为“01”。从数据的追踪和应用考虑,关键字段数值的来源、主体参与交易时的角色等也均需标签处理。

对于接口来源数据,通过主动定期全量与不定期增量轮询机制保证主体信息与来源部门的一致性,全部交易主体信息每周到部门接口轮询一遍,新增交易主体马上到接口调用结果并做标识保存。在质量检查和对账管理机制上,每天自动生成新增、更新主体数和总数,资质新增、更新以及总数等,以周为单位呈现出周期性变化的更新数据可反映出是否异常。

4 数据汇总与表归并

4.1 按粒度层次汇总数据

按粒度层次汇总数据,可支撑钻取、切片、切块等多维分析操作和多维报表的展现。取公共资源交易数据中的招标、代理、中标主体,计算出年、季、月不同时间粒度的招标次数、招标金额、交易额、交易量、代理次数等统计指标值,形成主体交易统计表。

按招标人、中标人、代理机构不同交易角色,计算出不同交易领域年、季、月不同时间粒度,以及国家、省、市、重点区域不同地域粒度的主体数量、招标/采购/出让次数、招标/采购/出让金额、交易额、交易量、代理次数等统计指标值,形成角色交易统计表。

4.2 主体交易综合宽表

在大数据的组织和应用过程中,存储空间和运行时间是一对矛盾,考虑到存储的相对易得和用户的使用体验,可以适当牺牲空间换取时间。主体交易是统计和分析频率非常高的数据集,为了提高多维查询性能和便捷操作,将主体交易分析主题相关的指标、维度、属性关联形成一张特殊的宽表,按主体名称对主体基础信息表与主体交易统计表进行关联,按统一社会信用代码对主体基础信息表与主体资质信息表关联,三表相互补全62个字段组成主题层的主体交易综合宽表。

主体交易综合宽表具备主体性质、主体属性、资质属性、时间属性、地域属性、参与领域、交易成交等不同层次的主题分析特征,是根据主题分析建立的一个逻辑数据体系,极大地方便了多维度多层次数据使用。由于结构简单,避免了跨表关联操作,海量数据的情况下极大地提升了运行效率。综合宽表的应用可大大提高数据挖掘模型迭代训练的效率。

5 数据仓库的表构成

数据仓库分为主题层和临时存储层。主题层为参与数据统计、数据分析、数据挖掘、数据共享的表,包括主体综合宽表、主体交易统计表、角色交易统计表、主体基础信息表、主体资质信息表、交易事实表、地域表等;临时存储层为中间处理过程表,数据仓库表构成如图5所示。

图5 数据仓库表构成

6 结语

数据仓库的建模方法有多种,如何高效地将大数据按需处理、有序组织和存储,在性能、成本、效率和质量之间取得最佳平衡,进而支撑公共资源交易大数据的分析与挖掘应用,深入的业务理解和建模技术缺一不可。目前,国家公共资源交易数据仓库已重组了407万市场主体的交易信息,其中仅2019年和2020年就有161万参与了公共资源交易活动,平均每月8万多主体活跃在交易市场,呈持续上升趋势。在实际应用中,基于数据仓库开展了新能源、公共卫生等行业资源分配和京津冀区域经济关联的分析研究,主体交易综合宽表正在支撑着全国公共资源交易业绩查询系统的日常运行和统计分析,其中权威的企业基本信息、资质信息和交易成交信息已通过接口方式向地方交易平台开放,逐步服务于全国各地的全流程电子化交易。

“数据”和“创新”已成为公共资源交易领域促进业务创新增值、提升交易平台核心价值的重要驱动力。“大数据+公共资源交易”必将进一步改善政务办公水平,提高公共服务质量,推动有效构建中国营商新环境,为全球营商环境优化提供良好借鉴。

猜你喜欢
数据仓库公共资源主体
论碳审计主体
磨课活动中多元主体需求的深度挖掘
基于数据仓库的数据倾斜解决方案研究
何谓“主体间性”
盆景乎?风景哉?
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
数据仓库系统设计与实现
广东:基本建成公共资源交易平台
北京市公共资源交易平台信息系统项目