进口铁矿品质信息数据仓建设及其数据挖掘

2015-11-24 01:57王振新余春晖李雪莲杨东彪应海松
大众科技 2015年11期
关键词:铁矿石铁矿数据挖掘

王振新余春晖李雪莲杨东彪应海松

(1.中国检验认证集团宁波有限公司,浙江 宁波 315012;2.北仑出入境检验检疫局,浙江 宁波 315800)

进口铁矿品质信息数据仓建设及其数据挖掘

王振新1余春晖2李雪莲2杨东彪2应海松2

(1.中国检验认证集团宁波有限公司,浙江 宁波 315012;2.北仑出入境检验检疫局,浙江 宁波 315800)

随着计算机技术的发展,数据积累急剧增长,为利用积累的大数据进行知识再发现创造了条件,数据仓和数据挖掘是近几年来发展迅速的大数据信息化技术,也是知识再发现的最有效手段。上世纪国内开始大规模进口铁矿石以来,一些口岸进口铁矿石检验的机构也逐渐积累宝贵品质信息资源,但这些信息资源是凌乱的、甚至是跨越不同数据库的。进口铁矿品质的数据仓建设就是利用检验检疫系统的信息优势,通过相关的数据挖掘技术建立进口铁矿品质信息收集方式,为进口铁矿检验和国家相关政策法规的出台提供技术支持,为国内钢铁企业了解进口铁矿的质量特性而有选择地采购进口铁矿提供重要提供技术参考,为国外供货商改进工艺提高铁矿质量提供对比数据。

铁矿;信息;数据仓;数据挖掘

1 前言

数据仓是面向主题的、集成的、稳定的、随时间不断变化的数据集合,数据挖掘就是从大量的数据中挖掘出新的知识。铁矿石是一种涉及国计民生的极其重要的战略性资源,其质量优劣直接关系到我国钢铁工业的健康发展,也关系到国家经济建设和宏观调控。我国的铁矿资源多为贫杂矿,需要花大量人力、财力进行精选,而多数进口铁矿为高品位富矿。自我国于二十世纪七、八十年代开始进口铁矿始,至近几年进口量迅速飙升,目前我国铁矿进口量已为世界第一,进口依赖度超过50%。但在进口铁矿石价格持续上涨的同时,其质量却难以得到保障。近几年多数口岸的进口铁矿不合格率超过 60%,以废充好,掺杂使假,有毒有害元素超常的现象屡屡发生。在国务院“关于加强铁矿石进口协调和管理,整顿和规范铁矿石经营秩序”的总体要求下,按照质检总局“质量和安全年”活动要求和全国检验监管工作会议的统一部署,进一步完善进口铁矿质量管理体系,提高监管的针对性和有效性,切实加强质量综合分析和风险监管,提高决策支持和风险防范水平,严防各类欺诈行为发生,有效地维护国内钢铁企业的权益。为此需要构建信息平台。各地检验机构现有的进口铁矿石质量监控手段基本为批批检验,大量检验数据和检验结果在完成出证和年度质量分析后作为档案库存,没有被进一步深度挖掘利用,因此未能形成基础性的综合质量数据仓和数据挖掘方式以支撑风险分析和管理,并科学地调整检验监管的方式。在进口铁矿贸易中,我国常处于较为被动的地位,使国家经济利益得不到应有的保障、国内企业遭受不菲的损失。为此,通过进口铁矿质量数据仓建设,通过数据挖掘技术为不同类型的用户提供风险分析和实时预警,以防止贸易欺诈,维护国家经济安全,从而为国家制定进口铁矿相关政策提供决策支持,为国内钢铁企业选购进口铁矿石提供质量信息,为进口铁矿检验技术发展的提供必要的基础。积极营造数据文化,提高数据意识,是质检系统行政执法技术保障的重要建设方向[1-3]。

2 进口铁矿石品质信息数据仓基本原理

数据仓是一种环境,是提供用户用于决策支持的当前及其历史数据,这些数据在传统的操作型数据库中很难或不可能找到,数据仓是应数据分析处理要求而建设的分析型数据库基础。由于进口铁矿石是法检商品,所有入境的铁矿都要通过入境口岸的检验检疫机构重量与品质检验,因此口岸检验检疫机构能够收集信息齐全的数据,这为进口铁矿品质信息数据仓的建设创造了条件。数据仓是数据挖掘的基础。

2.1进口铁矿石品质信息数据仓构成

根据进口铁矿石检验的不同工作性质,可以建立不同的数据库,将不同的数据库作为元数据库进行整合建立数据仓,可将静态的的历史信息以不同的主题进行再利用。数据仓可支持多维分析,可根据不同需求以多种形式输出分析情报信息,为不同类型的用户提供形式丰富、内容真实、功能完备的浏览和查询,满足不同的需求输出。

2.2数据仓的数据组织管理

数据仓的数据可从上述分散的数据库提取,数据在进入数据仓之前,必须要将其进行转换、统一与综合。数据仓数据的生成即可从元数据库提取生成,也可进入数据仓后经过计算、综合生成,它不是对数据简单存储,而是进行再组织。数据仓的组织需要考虑数据的粒度,根据不同的需要,可以选择按时间段综合数据的粒度和按采样率高低划分的样本数据库。为了提高数据处理效率,需要将数据仓数据分割到各自的物理单元。进口铁矿石信息数据仓的数据组织可以采样简单堆积,可以按相应的主题集成为数据仓的记录。

2.3数据仓的设计

首先在原有数据库基础上进行概念模型设计,先要对原有数据库进行分析理解,要界定系统边界、确定主题域;然后进行确定数据仓各项性能指标的技术评估和技术环境准备,主要涉及数据存取、重组、收发、装载等,估算内容包括数据量、程序冲突、数据通讯量,环境准备包括软硬件配置,如存取设备、网络、操作系统、软件界面、数据仓管理软件;第三进行逻辑模型设计,包括分析主题域、确定当前装载主题、确定粒度层次、确定数据分割、确定关系与记录的系统定义;第四是物理模型设计,主要是数据的存储结构、确定索引策略、数据存放位置、确定存储分配;第五是数据仓生存,包括接口设计、数据装入;最后为数据仓的维护,即进一步完善数据仓系统、维护数据、进行决策系统的应用开发。

3 进口铁矿石品质信息数据挖掘

大数据科技背景下,数据已成为一种重要的资源,数据的应用已不是简单的数据汇总,而是将其按科学方法进行挖掘。数据挖掘是从大量的数据中抽取出潜在的、有价值的知识、模型、规律等,现代大数据的数据挖掘涉及人工智能、机器学习、统计分析等多种技术,它能自动分析、归类、推理、建立新的业务模型,最终达到业务和决策支持目的。

3.1数据挖掘的准备

数据挖掘可从大量不完全的、带噪声的、模糊的、随机的数据中,提取隐含其中有价值的信息和知识工程。因此数据准备就相当重要。主要工作首先要确定业务对象,然后进行数据选择、数据预处理和数据转换。

3.2数据挖掘功能

功能包括对数据之间的关联规律进行分析、数据聚类、偏差分析、趋势预测等,常用方法有:聚类分析、决策树、人工神经网络、小波分析、统计分析等。

3.3数据挖掘工具

常用数据挖掘工具有:Intelligent Miner、SQL Sever、SPSS、SAS、MATLAB等,这些工具包括专用数据挖掘工具、数据库自带工具、社会统计学软件包和智能处理软件。

4 进口铁矿石数据仓建设及数据挖掘实例

自计算机技术普及人们的日常工作生活以来,质检系统已经建有数量庞大的各种业务数据库,就铁矿石检验业务而言,在一个单位就有七八种之多,它们之间有些是完全独立的信息孤岛,有些为仅两两关联的数据库或信息半岛,但这些数据库都已经经过多年建设,并已积累大量数据,进口铁矿石品质信息数据仓数据是围绕品质评价这一主题组织、展开的,因此这些原有的资源为目的实施提供了条件[4]。

4.1可利用的数据库资源

进口铁矿信息元数据库包含进口铁矿质量信息平台、进口铁矿石检验综合业务系统、CIQ2000系统、数字实验室系统、取制样管理系统、水尺计重管理系统所含数据库。

4.1.1CIQ2000系统

CIQ2000系统为全国检验检疫综合业务系统,系统以检验检疫业务流程为主线,以出入境检验检疫管理为重点,功能包括受理报检、签证、统计、计收费、检验检疫及其鉴定、包装等业务管理。数据库为ORCALE,主要存储检验检疫检务信息、检验检疫业务信息及其证稿证书。

4.1.2数字实验室系统

该系统是宁波检验检疫局在检验检疫系统推广的LRP2000基础上开发的实验室管理系统,系统以实验室流程管理为主线,专门为实验室业务管理设计,功能包括报检受理、质量体系管理、检测、方法与标准、计收费、项目管理等,部分信息采用 CIQ2000,与其他多数相关系统互联互通或互相读写,对仪器设备进行物联。数据库为SQL Sever 2008,主要存储实验室检测结果、报告、标准、收费标准等。

4.1.3进口铁矿质量信息平台

能实时采集全国各口岸进口铁矿的质量信息以及相关进口铁矿贸易信息,是一个进口铁矿全方位信息的数据库,作为进口铁矿质量基础数据信息查询、统计、分析平台。能读取CIQ2000和数字实验室系统的数据。数据库为ORCALE,存储内容包括进口铁矿石品质信息、重量信息。

4.1.4进口铁矿石检验综合业务系统

该系统为《检验检疫综合管理系统》,即CIQ2000在进口铁矿石检验管理的补充,因CIQ2000为追求软件运行的速度和效率,选取涉及检验检疫各个业务的基本共性,代表性地对检验检疫业务进行记录和管理。系统以ORCALE为主机数据库,使用ASP.NET汇编语言,能完成进口铁矿品质及贸易数据录入、检验出证、计收费、统计分析和系统维护等功能。该系统目前已经被进口铁矿质量信息平台替代,但存有多年的数据积累。

4.1.5大宗散货综合业务管理信息系统

该系统将宁波检验检疫局原开发的取制样管理系统、水尺计重和品质管理等业务系统进行有机的整合,并增加衡器计重、报检录入、任务维护、工作动态、工作提醒、手机平台、粮食检疫结果查询等模块,形成标准统一、功能完善、安全可靠的业务管理平台,该系统提高信息资源共享程度,减少重复工作,提高工作效率,加强过程监控,使检验检疫业务向自动化和即时化方向发展。主要目标达到:节省人力与设备费用;提高业务处理速度;提高过程监控能力;改进管理信息服务;改进决策支持系统;提高人员的工作效率。系统由三个数据库构成,分别采用 Win2000 Server、SQL Server2000、Office2000,开发工具采用Delphi7.0 和VBA,存储数据主要为进口铁矿石取制样信息、水分粒度检测信息(含每个份样)、水尺鉴定及其常用船舶常数,数据能实现远程传输。

4.1.6进口铁矿石多港分卸网上操作平台

该系统为配合进口铁矿石多港分卸检验模式研发。由于进口铁矿多港分卸中的数据多,创建者、时间不确定,使得资料会产生大量重复再现,造成在品质分析或数据统计的诸多不便。因此,为加强文件资源信息共享,开发一套适合于多港分卸的直观有效的平台,使系统具有对同批货的多港分卸的水尺报告分析进行快捷签发,系统拥有对进口铁矿石化学成分及物理特性进行加权求值,软件具有可扩展性、可移植性。技术构架上采用REDHAT LINUX 9作为服务器的操作系统平台。在应用层服务器和数据库服务器的选择上,针对平台的客户需求,采用 Tomcat作为应用层服务器,MySQL作为数据库服务器的平台组合方案。后台服务器层架构上采用Spring、Struts、Hibernate作为J2EE应用的MVC框架,对于前台的表现层则采用Sun公司的JSP技术以及时下流行的成熟技术,如AJAX、Mashup、RIA等。

4.2联机分析

数据仓从各系统数据库中提取数据并对其进行预处理,然后通过联机分析处理(OLAP)将数据仓的数据进行分析操作。联机分析指的是应用人员能多维度分析从原始数据转化出来、能为被用户理解的、能反应用户决策目的的信息,并对其进行快速交互存储,从而获得新的知识信息一类软件。推荐采用SQL Sever作为联机分析工具,在SQL Sever高版本软件中,可以建立数据仓并新建数据源。

4.3系统模型

如图 1所示,数据从面向应用的相应业务系统数据库提取,进入数据仓并转化后,利用数据挖掘技术解决不同问题。

图1 系统模型图

4.4应用实例

4.4.1铁矿检验质量风险评估

随着检验检疫工作职能的转变,风险管理及预警评估越来越成为对出入境检验检疫管理的重要手段。检验检疫作为国家出入境货物的法定管理机构,承担着日益繁重的监管任务,但是目前我国检验检疫的人力、物力、财力投入无法满足监管业务量不断增长的需要。通过风险分析,对监管对象进行分类管理,可以突出监管重点,合理配置有限的人力、物力,从而实现有限资源的最佳配置。利用数据库的信息,可以根据不同用途建立在线和离线两种评估方式,在线评估指利用大型进口铁矿石质量信息平台的数据库存储的信息,利用嵌入相关的软件通过互联网发布或交互平台,在线输出预警评估结果,离线评估同样利用大型进口铁矿石质量信息平台的数据库存储的信息,利用先进的技术建立相关固定模型或特殊的临时模型对数据进行分析评估。步骤为:(1)进口铁矿石风险影响因子的识别;(2)风险评估的神经网络建立,样本数据的来源可从全国进口铁矿石质量数据库获得,训练目标可从实际发生的不诚信供货方和国外检验机构调查名单所得;(3)风险管理和预警评估网络设计,口岸检验机构通过对国外铁矿公司和国外装货港检验公司及供货方的全面情况进行评估,核定供货方及检验公司的信誉程度,设置A、B、C、D等4个管理类别,以便实施不同的管理措施。网络采用BP神经网络。也可以选取相应的样本集,对所选样本集的警示阈值进行精确计算,得出对应于不同阈值的警示级别,如不发警报、一级警报、二级警报等。一般采用BP网络[5]。

4.4.2基于SOM网络的企业分类管理

对进出口企业进行分类管理也是检验检疫管理新模式的一种,其目的是为引导企业树立质量主体责任意识,加强企业自律,督促企业建立健全质量和诚信管理体系,加强和规范企业分类管理,提高检验检疫执法把关和监督管理的质量和效率,对于不同的钢铁企业和代理企业,可根据它们的资信情况划分一定的类别,进行不同的监管方式。数据来源为CIQ2000,来源数据需要预处理,目的是采集到的数据可能会存在着大量的冗余,也可能存在着数据不准确、不完整、不一致,甚至有些数据可能根本就不适合,数据预处理主要是通过对这些数据的浏览、验证、选择、集成、转换等过程,提高数据质量,降低数据维数,形成适合数据挖掘的数据集合。采用自组织特征映射(SOM)网络,输入变量的选择通常有静态数据和动态数据。静态数据指的是通常不会经常改变的数据,包括企业的基本资信。动态数据指的是经常或定期改变的数据,如检验费拖欠、提供假单证等等。利用数据准备阶段形成的数据集输入已经建立的 SOM网络进行网络训练,将训练结果的聚类赋予一定的意义。将聚类的企业根据所赋的定义分别设计不同的监管方式。分类结果可以用来分类管理类别划分的依据,信用评估是利用SOM模型对企业的一些不诚信行为进行监测,SOM模型可以建立正常信用度模型,当数据输入时,SOM模型会对异常的企业信息出异常警告。企业的一些行为变化,如提供假单证、检验费拖欠等,客户分类模型可以及时辨别,同时作出类别降格而加大监控力度的决定,有些甚至将它们放入黑名单严加监控。

4.4.3品位波动应用

品位波动可由因矿山矿体、采矿方法、选矿方法、堆积和采取的方法、装/卸的方法、交货批的质量的变化而改变。因此,任何矿石的品位波动应经常校核以确定上述变化的影响。一般矿产品的取样标准都必须引用品位波动结果来确定所采取样品的品位是选择“大”、“中”或“小”,不同的选择直接影响采用的代表性样品的质量,也影响工作人员的实际工作量,以往的方法大都采用人工作业,劳动强度大,时间周期长。用神经网络方法建立数学模式来判断铁矿的品位波动,可以将原本需要大量人工劳力辅助的铁矿石品质波动评定,成为只需计算机运算的模拟处理,使品位波动评估大大简单化,也使铁矿石取制样人员不再将品位波动评估认为负担,可以规范铁矿石取制样程序,大大降低实验成本。采用BP网设计一个状态分类器,利用数字实验室和进口铁矿石检验综合业务系统数据库数据,每交货批进口铁矿石的成分分析结果作为状态样本数据,分别对应品位波动的大、中、小,最终达到能够判别品位波动的目的。也可以利用大宗散货综合业务管理信息系统和进口铁矿石多港分卸网上操作平台数据库,将在线粒度水分检测、重量鉴定结果,能在取样之初能够发现品位波动情况,并对取样方案依照实际品位波动情况进行调整。

4.4.4神经网络在铁矿品质特性分类

利用上述数据库,将利用历年来积累的进口铁矿检测数据,用神经网络技术分析其品质特性情况,并对未知矿种进行特性分类,为确定产品的归属提供依据。所有铁矿石品质特征,就是铁矿石本身所具有的化学、物理、矿物性质。这些品质特性有些是铁矿石原矿固有的,有些是经过加工后,原矿的化学、物理及矿物性质发生了变化,形成了新的品质特性。采用自组织竞争网络,该网络是各网络竞争层的各神经元通过竞争来获得对输入模式的响应机会,最后一个神经元为竞争胜利者,并将与获胜神经元有关的各连接权值向有利于其竞争方向调整。竞争型网络可分为输入层和竞争层。

5 结论

进口铁矿品质信息数据仓建设和数据挖掘技术能将看似杂乱无章,但采用相关的方法进行评估、解析,就可得出有规律的信息,可以针对进口铁矿检验,利用原先已有的数据库数据,采用挖掘技术高效、自动完成铁矿检验业务辅助、质量分析、预警监控、决策支持、操作控制等。它可以将人从繁重的体力、脑力劳动中解放出来,不仅将检验操作人员的注意力在微观的角度起到放大效应,还可使检验管理人员的目光从短期转向长期、从战术转向战略。对促进进口铁矿石的宏观监控、指导进口铁矿石贸易、传播知识起到关键的作用。

[1] 张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2011.

[2] 赵尔丹,张照枫.基于数据仓库和数据挖掘的决策支持系统的研究与应用[J].河北软件技术职业学院学报,2005, 1(7):47-50.

[3] 方富贵.数据仓库与数据挖掘探析[J].信息系统工程,2012, (9):118-119.

[4] 应海松,朱波.铁矿石商品的检验管理[M].北京:冶金工业出版社,2009.

[5] 应海松.小波神经网络在铁矿石检验中应用[M].北京:冶金工业出版社,2010.

Construction of data warehouse and data mining for import iron ore quality information

Along with computer technology developing, the datum are accumulating quickly and it is possible for knowledge to be re-created by use of big data. Data warehouse and data mining has been big data IT developing rapidly during these years, and also is important tool for knowledge recreation. Since last century, China began import iron ore with large-scale, the valued quality information resource of iron ore has been pile up in many iron ore inspection institutions. But these information are all disorder and inter-database. It is by use of advantage of information for CIQ to construct import iron ore quality data warehouse, the methods of information collection is set up through technology of data mining, in order to support releasing of national policy and import iron ore inspection. Using these data, he Chinese steel plants could realize quality of import iron ore and purchase selectively, the oversea iron ore companies could improve technology.

Iron ore; information; data warehouse; data mining

F407

A

1008-1151(2015)11-0020-04

2015-10-10

国家质检总局计划项目(2012IK045)。

王振新(1965-),男,浙江宁波人,中国检验认证集团宁波有限公司总经理,研究方向为大宗资源产品检验监管。

杨东彪(1978-),男,浙江诸几人,北仑出入境检验检疫局副研究员,从事大宗资源矿产品检验监管工作。

猜你喜欢
铁矿石铁矿数据挖掘
大红山铁矿找矿前景分析
6.58亿吨
探讨人工智能与数据挖掘发展趋势
漫画与幽默
基于并行计算的大数据挖掘在电网中的应用
冀东南部铁矿区重力异常特征
一种基于Hadoop的大数据挖掘云服务及应用
铁矿石中全铁测定的探讨
无轨斜坡道在大红山铁矿中的应用
基于GPGPU的离散数据挖掘研究