油气田工程技术服务企业大数据基础平台设计研究

2021-09-18 14:10冷炜镧
中国管理信息化 2021年17期
关键词:工程技术结构化基础

张 媛,李 海,冷炜镧,丁 婕,江 涛

(中石油川庆钻探工程有限公司,成都 610051)

0 引言

油气田工程技术服务企业主营钻井工程、录井、固井、储层改造、试修井及油气合作开发等业务。生产经营业务活动中涉及工程实时监控分析、经营分析、供应链管理等数据应用。企业对全量数据挖掘、全局数据分析,实时数据查询、即席自助分析的需求日益迫切,传统的数据库系统方法已经无法满足更高、更快、更灵活、更个性的业务需要,企业对数据共享、数据价值的挖掘提出了更高的要求,希望能够进一步打破数据的孤岛,希望看到更全面的数据并能灵活地按需取用数据以及更快捷地实现各领域的业务及数据的应用需求,传统的建设方式和技术手段已经无法满足当前的需求。从成本和服务复杂度考虑,建设企业集中的大数据基础平台是满足需求的必然选择,能够实现数据驱动业务创新。通过大数据基础平台建设[1],统一规划、统一建设,将数据复用能力沉淀下来,实现数据标准化、数据模型重用,灵活、高效地提供数据服务。包括从数据汇聚、存储、治理、开发到数据服务的一整套数据使用的机制以及政企的数据运营的能力。

1 工程技术大数据应用场景

工程技术服务企业存在多个维度的大数据应用场景。各个场景根据业务域的不同划分为工程实时分析、智慧供应链、项目全生命周期管理、集团企业经营分析、企业流程优化。

1.1 钻井工程实时分析

油气田工程技术服务的主营业务——钻井工程技术服务会产生大量的工程数据,以往只用于基础的日报采集、实时监测,以后可利用大数据技术进行跨系统的数据共享、数据交互,结合高性能计算和数据挖掘分析[2],支撑钻头优选、事故预测、事故诊断及处理、钻进轨迹分析、设备智能诊断等以往需要专业软件才能实现的应用场景,利用大数据海量存储和实时处理技术,也可以显示多个钻井现场乃至整个区域的钻井数据并实现交互式实时分析,大大提高数据分析的精度及准度。

1.2 智慧供应链

工程数据服务企业供应链包含物资采购、仓储管理、物流管理三大环节,但这3 个环节由不同的部门和专业公司负责,系统及数据相互独立,传统供应链的敏捷性较低,基于传统供应链信息系统如ERP、条码管理系统在智能化升级时也较困难,无法适应工程技术服务定制化、灵活化的特点。利用大数据技术可以赋予企业生产供应链高度的定制化,用于生产计划与采购计划关联分析、采购及供货周期方案预测、物资库存物料需求影响因素分析、仓储共享及自动平库、智慧物流等[3]。

1.3 项目全生命周期管理

工程技术服务企业业务活动经常采取项目制,项目过程产生海量的结构化及非结构化数据,利用大数据技术将项目数据进行整合并提炼,形成项目管理的数据平台,积极地利用云计算和数据挖掘技术、分析技术建立各类数据之间的关联模型,利用数据分析发现可能存在的问题[4]。用于项目预算方案编制、过程控制、项目后评价分析等。

1.4 集团企业经营分析

传统经营数据分散于ERP、FMIS 等多个信息系统,同时由各专业公司分别管理,无法快速地统计和分析。跨专业、跨部门的企业级经营分析工作效率比较低。利用大数据技术可以消除跨部门、跨专业数据孤岛,构建灵活的数据统计共享,实现场景模拟、可视化规划、企业快速画像展现等,为企业领导层制定战略决策提供支撑,提高辅助决策能力。可应用于全面预算、规划分析、预警/预判、可视化决策、战略情报分析、市场运营分析等[5]。

1.5 企业流程优化

工程技术服务企业重视流程化管理,企业管理需要实现多个流程系统数据整合,规范流程数据基础,保证数据准确性。在数据整合的基础上,构建流程效率分析、问题诊断、预警监控平台,实现对OA、ERP、BPM 等系统流程数据的统计、分析和预警,输出多指标多场景分析报告,消除堵塞流程、冗余流程,实现业务流程常态化运营。

2 大数据基础平台功能架构设计

大数据基础平台需要为工程技术服务公司各类应用提供海量数据整合、存储、计算、查询、分析、展现等基础性支撑功能[6]。平台核心分布式存储与计算组件采用Hadoop 技术体系中分布式存储(HDFS、HBase、Hive 等)、分布式计算框架(Spark),结合数据抽取(ETL)、大数据搜索引擎(ElasticSearch)、数据挖掘分析(SAS、SPSS 等)、数据可视化(BI)等技术,构建起企业大数据应用服务生态。

图1 大数据基础平台架构设计

2.1 数据汇聚

大数据基础平台系统数据主要来源于生产经营相关信息系统,例如FMIS 系统、电子采购系统、专业系统等,数据库类型有oracle、mysql、SQLserver 等,针对不同的数据类型,采用不同的数据采集策略。通用数据采集方式包括OGG、Kafka、ETL工具、离线文件等方式,根据源系统的特点以及对外提供的数据接口类型选择合适的方式进行数据采集,数据可按需进入HDFS、Hive、Hbase 数据库中进行存储。企业半结构化/非结构化数据包括日志文件、XML 文档、JSON 文档、Email、报表、图像和音频/视频信息等文件数据,这些数据分散在不同的系统或硬件设备之上,可采用抽取工具或者接口进行采集,例如Kafka、离线文件、REST api 接口等方式,数据采集完成后统一存储管理。

2.2 数据存储与计算

数据存储设计按照数据类型分为结构化数据存储和非结构化数据存储,不同的存储方式对应着大数据分析平台不同的数据区域,结构化数据一般存储在Hive、Hbase 数据库中,非结构化数据存储在HDFS 文件系统、MongoDB 中。结构化数据从业务系统采集到大数据基础平台,统一存储在贴源数据区中,贴源数据与源系统数据基本保持一致;主题模型明细区数据根据不同的业务主题对数据进行归类,主题模型汇总区按照一定的计算逻辑进行数据汇总,通过合并计算数据量大幅降低;数据集市区分为公共类集市和专题类集市,支撑不同的数据分析应用。非结构化数据存储需要进行数据的解析、数据识别及数据结构化处理,支持图处理和自然语言识别。利用大数据分析技术进行图处理和自然语言的识别,并对信息进行结构化处理,统一存储在主题数据区中进行分析,也可与结构化数据进行关联分析。

数据计算是数据分析的基础,数据计算包括离线计算、流计算等。数据计算功能由大数据分析平台中的软件工具提供,可作为公用的资源供不同的数据分析应用使用。开发过程中,可根据业务场景的不同,选择不同的数据计算方法进行数据处理。

2.3 数据分析与展示

大数据分析平台按照用户数据分析的需求,提供敏捷分析、报表开发、智能分析、SQL 查询能力;支持拖拽式敏捷开发模式,让业务或数据分析人员无须了解代码,即可构建数据分析模型,提供多种图形展示组件;支持普通报表的开发能力;支持智能分析模型开发,支持机器学习和深度学习框架,提供从数据处理、模型训练、服务部署到预测的一站式服务;支持可视化的SQL 开发、数据预览、交互式查询、复杂分析、探索分析的自助分析能力。

2.4 任务调度模块

提供一个图形化的任务配置、编排、监控平台,支持开发人员进行工作流设计、任务调试、调度和分析;支持Shell 脚本、SQL 节点(hive、impala、spark、oracle)、存储过程、JDBC、HTTP、Python 节 点等任务类型,可自定义Java 任务;支持任务状态监控,提供丰富的分析能力,如依赖关系、执行历史、甘特图等,帮助开发人员诊断工作流的执行状况。

2.5 数据管理模块

数据管理包括数据共享、业务目录、技术目录、数据血缘、质量管理以及元数据管理。在元数据管理中主要针对大数据分析平台内存储的数据进行元数据抓取,并实现元数据集中存储,在元数据基础上进行血缘分析,依照平台内各类人员需要在权限满足的情况下提供元数据应用程序编程接口(API)。在业务目录中提升目录搭建、业务对象管理、表视图关联便捷度,通过业务目录定位业务对象,支持数据预览、血缘查看,以便进一步理解业务对象。在技术目录中,按照贴源层、基础层、通用层、应用层定位自动实现各层目录创建,在权限允许的情况下可通过技术目录查看预览数据及血缘分析结果。在质量管理中依照数据标准,对质量管理规则定义,预设检查点,执行检查任务,定期出具检查报告。

2.6 基础管理模块

基础管理模块主要是面向大数据基础平台的管理和运维人员,该模块是其他模块运行的基础,主要负责运行环境支持和安全保障,具体包括用户管理、权限管理、流程管理、安全管理、运营管理等功能模块。

2.7 平台门户模块

平台门户为大数据基础平台提供了统一的用户访问界面,企业人员可通过门户访问大数据平台的各类数据表、应用、软件。平台门户提供桌面PC 端web 浏览器访问和移动APP 访问两种方式。PC 应用门户提供全面的数据集成、数据处理、数据共享和应用、基础管理等功能,大数据分析平台开发及应用均可利用PC 端门户来实现。移动APP 端门户提供轻量级的应用功能,例如指标、报表、流程审批及查询等功能支持APP在线查看。

3 应用设计

大数据分析平台应用架构从用户视角分四个层次,分别是平台层,应用层、交互层、用户层。其中平台层是基础支撑层,提供应用运行的核心引擎,采用分布式部署方式。包括大数据存储、大数据计算引擎、容器云服务引擎、系统管理控制服务。应用层为各类用户提供应用资源,第一类是企业管理类应用,主要服务于企业的管理层用户;第二类是跨职能业务部门、专业公司业务的大数据应用;第三类服务于平台管理、数据管理、应用开发和数据产品开发等人员,用于数据汇聚、数据分析、数据管理、用户管理、系统管理与监控、任务调度等数据开发和管理工作。

图2 大数据基础平台应用设计

4 结论

油气田工程技术服务企业大数据分析平台的建设有助于提升企业数据应用水平,促进数据应用创新与共享,有助于通过辅助管理提升实现降本增效,同时为工程技术服务企业实现数据共享和数据分析提供强大支持,并可为后续大数据分析与人工智能融合奠定基础。

同时,企业大数据基础平台建设是一个庞大且长期的工程,既要达成实现数据驱动管理的目标,又要注意建设内容符合公司业务实际,细致规划。避免大而全、一次性建设造成投资浪费。挑战与风险并存,建议采用明确场景、结果导向、小步迭代的建设策略。基于业务先行,系统支撑的原则,根据公司特点发现和实现价值。

猜你喜欢
工程技术结构化基础
“不等式”基础巩固
“整式”基础巩固
工程技术矩阵
工程技术研究院简介
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
“防”“治”并举 筑牢基础
基于图模型的通用半结构化数据检索
对磁浮工程技术的一些思考
逆向工程技术及应用