多源异构核电数据管理系统设计

2021-01-25 03:39罗钊航
科技创新与应用 2021年5期
关键词:异构核电组件

韩 超,罗钊航

(中国核动力研究设计院,四川 成都 610213)

引言

多源异构数据是大数据时代的产物,有着多元化、非结构化的特点,大数据应用的基础是多源异构数据管理。目前,多源异构数据管理在网络安全[2]、气象系统[3]、电网工程[4]等众多领域有广泛应用。核电数据具有数据来源多方面、数据类型、特征多样的特点,是典型的多源异构数据[1]。

目前,针对核电数据多源异构的特点,为解决核电数据的数据规范、数据采集、数据融合、数据存储和数据分析应用等多方面问题,提出多源异构核电数据管理系统。系统主要功能有:原始数据管理、数据采集、数据互联互通、数据存储、数据服务和数据挖掘。

1 系统设计总体思路

核电站产生的各专业数据来源广泛,结构不同,为多源异构数据,拟提出多源异构核电数据管理系统建设方案,解决多源异构反应堆数据的原始数据管理、数据采集、数据存储、数据服务和数据挖掘问题,实现满足统一平台、容灾备份、安全控制、接口调用的专业平台。

图1 展示了多源异构核电实验数据管理系统建设的总体技术路线和总体框架,关键技术主要包括:

(1)制定原始数据产生规范,设计实验装备接口管理方案,设计原始实验数据的不同粒度的编码规则,设计数据全生命周期管理系统,设计适应于数据采集组件和数据存储组件的多源核电数据融合机制和方案。

(2)从原始数据产生设备中采集不同专业类型,不同平台来源的多专业、多平台的多源实验数据,提供设备数据库采集组件,工控机网络接口采集组件、实时数据采集组件和文件数据采集组件。

(3)在高性能存储集群上设计多专业、多平台实验数据的多源异构数据库,满足核电各个专业数据库的数据共享和数据融合,满足各专业数据库模式多样化,支持静态数据存储和实时数据存储。

(4)在多源异构数据库基础上,提供数据索引、数据治理、数据建模、数据查询、数据计算和数据可视化功能,为数据分析和数据挖掘提供数据支撑。

(5)结合多源异构数据库和数据服务内容,提供专业领域知识下的关联分析、时序分析、文本挖掘、表征学习、机器学习和深度学习,为实验人员提供实验决策支持。

自从我国经济进入“新常态”时期以后,企业更加注重可持续化的发展和持续的经济增长,很多程度上推动了财务公司的快速发展。产业链金融作为财务公司现阶段重要的金融服务,能够对企业集团的资源进行科学地整合与配置,同时还能够根据企业集团的运营特点来拓展运营的业务范围,进一步延长和拓宽企业集团运营相关的产业链,有利于企业集团提高整体的竞争能力同时为集团企业战略发展提供条件。财务公司应当加强对产业链金融的研究并明确产业链金融的服务定位和细节,通过科学的产业链金融服务来帮助企业集团和上下游企业的完成融资和适当的发展计划制定,提高企业集团的资源利用效率并推动企业集团更高水平地发展。

在多源异构核电数据管理系统中,利用数据采集组件获取实验台架等数据产生装备的多源数据,利用多源数据进行数据服务,利用数据融合技术进行数据挖掘。其次,多源异构核电数据管理系统具有容灾备份、安全控制和接口调用的能力(如图1)。在第2 节,将重点介绍各个功能的设计思路和设计方案。

图1 多源异构核电数据管理系统技术路线

2 重要功能设计

2.1 数据采集

根据实验数据多专业、多平台的特点,数据采集拟采用数据库采集、工控接口采集、实验数据采集和文件数据采集多种采集方式融合的方案,采集具体过程如下:

(1)数据库采集

若各个实验装备系统有各自数据库,可考虑进行数据库采集,根据数据库是否在同一服务器上可分为直接融合和链接融合。在同一服务器上的数据库,配置其访问权限,直接进行数据融合;在不同服务器上的数据库,利用外围数据库进行链接,配置其访问权限进行数据融合,从而获取完整的实验数据。数据库采集流程如图2 所示。

(2)工控接口采集

若各个实验装备系统有各自数据接口,可考虑进行工控接口采集。如图2 所示,根据各个数据库接口的协议和模式设计,确定接口对接和数据融合方案,并进行测试和验证数据的正确性。

(3)实时数据采集

图2 数据采集流程

针对实验台架实时数据传输的特点,考虑采用基于专用缓存的实时数据采集方案。引入专用缓存的目的是为了避免并发存储大导致服务器崩溃,因此专用缓存的设计是实时数据采集的重点。拟计划采用增量采集的专用缓存方案,关键步骤有:首先实时数据形成消息队列,每次以增量形式进入缓存区;其次当缓存区存满后,向数据库写入数据;当缓存区有空闲容量时,实时数据继续存储,直到存储完毕。具体流程如图3 所示。

(4)文件数据采集

实验数据包括大量的设计系统和仿真系统产生的测试数据和仿真运算数据,通过常用的PDF、图片等电子文档格式保存,因此考虑基于OCR 识别及机器学习技术,定制开发OCR 文件采集功能,针对文件数据的收、管、存、用等管理操作,完成文件扫描档案的文本信息识别、特征提取、数据检索与应用,达到真正的数字化档案应用。利用OCR 识别技术自动判断、拆分、识别和还原各种通用型印刷体表格,自动分析文稿的版面布局,识别结果还原成扫描文稿,支持文档转换,使得文件非结构化数据转换成数据库可存储、存储节点可计算的结构化数据。

图3 实时数据采集流程

2.2 数据服务

(1)数据索引

在多源异构数据库基础上,建立专业领域知识下的数据索引,如建立各专业知识下的核电数据概念层次网络HNNE(Hierarchical Network of Concepts on Nuclear Reactor Experimental Data),进而可以保障数据查询、数据分析的效率。在核电数据中,按照学科类型和实验类型进行第一层划分,得到第一层层次节点;在第一层的层次节点上,按照设备、实验工控等进行第二层划分,得到第二层层次节点,根据需要可拓展更多层的层次节点。

(2)数据治理

在多源异构数据库基础上,为实现核电数据治理和核电数据质量评价,建立数据生命周期管理体系,主要包含:数据质量评价模型,数据风险分析模型,数据标准规范模型。数据质量评价模型主要对于实验序列数据和实验非序列数据进行评价。利用Markov 等机器学习模型对实验序列数据异常点、孤立点进行质量评价,利用深度神经网络对实验非序列模型进行数据相似匹配。结合设备、工况等,建立数据风险分析模型,满足实验数据偏离预警、实验数据存储优化等。数据标准规范模型是元数据规范、数据融合规范、数据字典等内容,支持粗粒度和细粒度的数据清洗和预处理。

(3)数据查询

多源异构核电数据管理系统一方面提供数据库查询中的精准查询、模糊查询功能。另一方面,利用推荐系统算法进行用户画像,提供相似查询,如一用户持续关注热工水力方面的实验数据,则利用Doc2Vec 等模型对核电数据表征学习,利用相似度计算在数据库中找出相似的实验数据,然后给用户推荐合法合规的相似数据。需要指出的是,相似查询和精准查询、模糊查询不同,相似查询依赖于用户操作数据库的记录,推荐结果因不同兴趣的用户也不同,有着较强的专业性、安全性。

2.3 数据挖掘

结合多源异构数据库和数据服务内容,提供专业领域知识下的数据挖掘,设计实验序列数据中频繁模式挖掘、周期模式挖掘、对比模式挖掘、闭合模式挖掘的关联分析组件,设计时序数据中的时序关系挖掘、时序预测等的时序分析组件,设计文本数据中的非结构化数据处理、文本语义分析等的文本挖掘组件,设计多专业、多平台实验数据的特征提取、特征学习、高维特征降维等的表征学习组件,设计多专业、多平台的回归模型、分类模型、聚类模型等机器学习方案,设计实验图像分析、实验音频处理等多场景的深度学习模型。

3 结论

为解决多源异构核电数据的数据规范、数据采集、数据融合、数据存储和数据分析应用等多方面问题,本文提出多源异构核电管理系统,并对各个模块功能进行设计。在未来,将结合实际核电实验对多源异构核电数据管理系统进行实施和广泛验证。

猜你喜欢
异构核电组件
ETC拓展应用场景下的多源异构交易系统
无人机智能巡检在光伏电站组件诊断中的应用
试论同课异构之“同”与“异”
Kistler全新的Kitimer2.0系统组件:使安全气囊和安全带测试更加可靠和高效
第四代核电 高温气冷堆
核电工程建设管理同行评估实践与思考
百年初心精神 点亮核电未来
一种嵌入式软件组件更新方法的研究与实现
多源异构数据整合系统在医疗大数据中的研究
吴健:多元异构的数字敦煌