基于聚类和案例推理的煤与瓦斯突出动态预测*

2016-10-13 05:39屠乃威
传感技术学报 2016年4期
关键词:案例库瓦斯检索

阎 馨,付 华,屠乃威

(辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛125105)

基于聚类和案例推理的煤与瓦斯突出动态预测*

阎馨*,付华,屠乃威

(辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛125105)

为了实现对煤与瓦斯突出快速、准确和动态预测,考虑煤与瓦斯突出多种影响因素,提出了一种基于聚类和案例推理(CBR)的煤与瓦斯突出预测方法。利用通过一种基于PCA的描述案例特征权值确定方法所得的描述案例特征权值,对案例库案例进行聚类,使同类案例间具有较高的相似度;以案例聚类结果为基础,进行高效案例检索与匹配,以提高煤与瓦斯突出预测的快速性。利用实测数据对所提方法进行验证,实例验证结果表明,所提方法预测结果的准确性高,预测所用平均时间是已有煤与瓦斯突出预测案例推理方法预测所用时间的40%。

煤与瓦斯突出;动态预测;快速预测;案例推理;案例聚类

EEACC:7230doi:10.3969/j.issn.1004-1699.2016.04.014

煤与瓦斯突出是严重威胁煤矿安全生产的重大自然灾害之一。进行煤与瓦斯突出快速、准确和动态预测对有效防治矿井煤与瓦斯突出灾害尤为重要。目前,煤与瓦斯突出危险性预测方法有很多,有传统预测方法,如D指标方法和钻屑量指标法;有近几年开展研究的新方法,如电磁辐射监测方法[1]、支持向量机方法[2]、人工神经网络方法[3-6]、贝叶斯方法[7-8]和案例推理方法[9-10]等。案例推理(CBR)是一种基于经验知识进行推理的人工智能技术,它是用案例来表达知识并把问题求解和学习相融合的一种推理方法[11-13]。案例推理(CBR)已被应用到煤矿安全决策等多个领域[14-16]。阎等人考虑影响煤与瓦斯突出的多种因素,利用融合了专家知识的案例推理方法对煤与瓦斯突出危险性进行智能化预测,通过实验验证了所提预测方法的有效性[9];由于该方法采用基于专家确定的特征权值进行案例检索与匹配,导致预测结果直接受专家的主观影响,最终预测结果的准确性难以保证,因此阎等人又该方法的基础上,给出了一种基于PCA(主元素分析)的案例描述特征权值确定方法,提高煤与瓦斯突出预测准确率,通过实验验证了所提预测方法的有效性[10]。案例的检索与匹配是实现案例推理的关键,直接关系到案例推理的性能和运行效率。上述两种煤与瓦斯突出的案例推理预测方法均采用最近邻方法针对案例库中所有案例进行案例的检索与匹配,然而案例库中需要存储大量的案例来满足用户对知识的需要,随着案例库中案例的增加,案例检索与匹配的效率会逐渐降低,从而增加煤与瓦斯突出的预测时间,最终难以保证煤与瓦斯突出预测结果的实效性。

本文在上述研究基础上,将聚类引入到煤与瓦斯突出预测的案例推理方法中,对案例库案例进行聚类,基于聚类结果给出一个高效的案例检索与匹配算法,在保证预测结果下降低案例检索与匹配所需时间,实现对煤与瓦斯突出快速、准确和动态预测。

1 基于聚类和案例推理的煤与瓦斯突出预测

煤与瓦斯突出的影响因素是多方面的,主要包括瓦斯压力、瓦斯放散初速度、地质构造、煤层坚固性系数和开采深度等。而且这些影响因素与突出事件之间的相互关系具有不精确性或模糊性。因此矿井煤与瓦斯突出的预测难道非常大,严密的逻辑推理无能为力。

案例推理是一种基于记忆的推理,具有持续不断的自学习能力。利用案例推理对矿井煤与瓦斯进行准确预测,需要大量有效案例才能得以保证。随着案例库中案例的增加,常规案例检索与匹配算法的效率会逐渐降低,从而增加煤与瓦斯突出的预测时间,最终难以保证煤与瓦斯突出预测结果的实效性。为解决该问题,本文将聚类引入到煤与瓦斯突出预测的案例推理方法中,对案例库中案例进行聚类,利用聚类结果进行高效的案例检索与匹配。基于聚类和案例推理的煤与瓦斯突出预测的结构如图1所示。

图1 基于聚类和案例推理的煤与瓦斯突出预测

案例库案例各不相同,而每次预测往往只有少量的案例与当前检测到的煤与瓦斯突出多种影响因素数据所描述的新问题X相似或匹配。因此利用案例推理对矿井煤与瓦斯进行预测时,没有必要使案例库中每个案例都参与案例的检索与匹配过程。为此,通过对案例库案例进行聚类,形成多个案例类,保证每一类案例中的案例间具有很高的相似度,再综合每一类案例中的多个案例产生一个案例(记为代表案例)作为案例类索引。突出预测的案例检索与匹配过程(见图2)。

图2 案例检索与匹配过程

首先根据当前检测到的煤与瓦斯突出多种影响因素数据所描述的新问题X,找出与X相似度较高的代表案例;然后针对所获代表案例所对应的案例类中案例库案例,进行进一步检索与匹配,找出新问题X的相似案例与匹配案例。

图2所示的案例检索与匹配过程中,只有部分案例库案例(与X有较高相似度的案例)参与的案例检索与匹配过程,在保证检索与匹配质量条件下,避免了案例库中所有案例与新问题进行相似度比较的过程,大大缩小了案例检索与匹配范围,大大降低了比较相似度的次数,提高案例检索与匹配效率,从而提高媒与瓦斯突出预测的效率。

考虑到煤矿井下环境恶劣,干扰信号很多,采用多个传感器检测某一信息数据并利用基于均值的分批估计融合方法[9-10],对检测到同一信息的多传感器数据进行融合,获得煤与瓦斯突出多种影响因素的准确测量数据,以提高煤与瓦斯突出预测的准确性。

预测时,利用案例库案例聚类结果(案例类及其代表案例),根据当前检测到的煤与瓦斯突出多种影响因素数据获得相似代表案例(即具有高相似度代表案例),检索和匹配出相似案例与匹配案例;再依据相似度阀值进行重用,得到当前煤与瓦斯突出多种影响因素数据描述的案例解,即煤与瓦斯突出的预测结果;最后通过煤与瓦斯突出的实际结果与案例推理的估计结果进行误差分析和精度评价,如达不到预期的精度,就进行案例修正,若精度符合要求的,则根据相应规则进行案例存储。

1.1案例的表示

案例表示是案例推理研究的基础和核心。煤与瓦斯突出预测的初始案例可以利用煤与瓦斯突出历史数据来构建。

对于第k条案例Ck,是由案例描述特征Tk和案例解Sk所组成,即Ck={Tk,Sk}。其中,Tk=(tk1,tk2,…,tko),tki(i∈{1,2,…,o})为煤与瓦斯突出的影响因素,如瓦斯压力、煤层坚固性系数和开采深度等,o为判别煤与瓦斯突出的影响因素数量,Sk表示煤与瓦斯突出危险性。Sk=1,2,…,4,Sk的不同值代表了煤与瓦斯突出的不同危险程度。

1.2案例聚类算法

聚类是一个没有任何先验知识可用的无监督分类,同类内实体是相似的[17-18]。按照图2所示的检索与匹配过程,在提高媒与突出预测速度的同时,要保证预测的准确性,对案例库案例聚类得到每一类案例中的案例间必须具有很高的相似度。

由于一个案例需要o个(多个)的特征量来描述,因此两个案例的相似程度需要从这o个特征角度进行综合衡量。两个案例间某一特征差异(有量纲)反映了在该特征角度上两个案例的相似程度。这里基于综合评价思想,采用先得到两个案例间每一特征差异,再对每一特征差异进行无量纲化处理,最后对每一特征差异的无量纲化量进行加权求和,从而获取两个案例间的相似度。案例Ck和案例Ck-间的相似度的定义如下:

式中,θi为第i个案例描述特征权值,sim(tki,tk-i)为案例Ck的描述特征tki与案例Ck-的描述特征tk-i的相似度,当tki和tk-i为布尔型数据时采用式(2)计算sim(tki,tk-i),当tki和tk-i为数值型数据时采用式(3)计算sim(tki,tk-i)。

式(2)和式(3)是案例Ck和案例Ck-间第i个特征差异无量纲化的表达式。sim(tki,tk-i)∈[0,1],sim(tki,tk-i)越大,在第i个特征角度上两个案例的相似程度越高。

由于简洁和高效,在当前聚类算法中,k均值聚类算法应用最为广泛。但常规的k均值聚类算法根据对象与聚类中心间欧式距离进行对象归属类的划分,当对象的不同属性(如本文中案例的不同描述特征)之间的差别不等同看待时,这种对象分类方式就不适合;初始聚类中心选择是随机的,一旦初始聚类中心选择的不好,很可能无法得到有效的聚类结果。因此必须对常规的k均值聚类算法进行必要改进,才能求解案例库案例聚类问题。具体改进之处如下:

①由于案例的不同描述特征对煤与瓦斯突出影视程度是不同的,因此不能根据案例与聚类中心间欧式距离进行案例归属类的划分。这里根据公式(4)计算得到待划分类的案例Ck与聚类中心Zj(第 j个聚类中心)间的相似度进行案例所属类的划分。式(4)中权值θi采用基于PCA的特征权值确定方法进行客观科学获取[10]。

式中,pji为聚类中心Zj的第i个特征。

②为提高算法的稳定性,初始聚类中心选则不采用随机方式,而采用启发式方法获得。该方法过程具体如下:

Step 1按式(1)计算任意两个案例库案例间的相似度,从而找出相似度最小的两个案例作为头两个聚类中心。

Step 2找出与已有聚类中心相似度最小的案例作为下一个聚类中心。案例Ck与已有聚类中心间的相似度=。n′为找到的聚类中心个数。

Step 3重复Step 2,直到找到n(聚类总数)聚类中心。

上述方法实质是要找到彼此间相似度最小的n个案例作为初始聚类中心。

③案例归类过程中采用相似度最大原则,即将案例归类到与之相似度最大的案例类中。为了快速找出新问题的相似案例与匹配案例,同一类案例相似度高且案例解相近,各类案例的数量尽量相近。其中涉及的规则如下:

Rule 1如果案例Ck有多个聚类中心Zj(j=1,2,…,n″,n″≤n,n″为类个数)与之有最大相似度,则案例Ck归类到类Zj′(类Zj′中的案例解平均值与案例Ck的案例解间差值最小)中。

Rule 2如果按Rule1对案例Ck归类时,有多个案例类符合条件,则案例Ck归类到类Zj″(类Zj″中的案例个数最少)中。

综上,案例聚类算法的步骤如下:

Step 1从案例库的m个案例中,按启发式方法选取n个案例作为初始聚类中心。

Step 2按公式(4)计算案例库中每个案例与各聚类中心的相似度。

Step 3根据最大相似度对案例库中每个案例进行归类。

Step 4重新计算聚类中心,即将每类案例的描述特征平均值作为新的聚类中心。

Step 5重复Step 2~Step 4直到聚类中心不再发生变化,即前后聚类中心差值不超过规定值(文中取规定值为1.0×10-6)。

Step 6结束聚类过程,输出聚类结果,并将各案例类的聚类中心构成代表案例集(作为案例类的索引)。

案例聚类算法的流程如图3所示。

图3 案例聚类算法的流程图

1.3基于案例聚类的二级案例检索与匹配

案例检索与匹配算法的求解效率直接影响到案例推理的性能和运行效率。最近邻方法是当前案例检索与匹配的一种常用有效方法。常规情况下,最近邻方法将计算所有案例与新问题之间的相似度,找出与该问题最相近的相似案例,但随着案例增加效率会降低。为此,在利用CBR进行突出预测时,为了快速获取检索与匹配结果,在案例聚类基础上,进行二级检索与匹配,即先对案例聚类得到代表案例进行检索与匹配,获得一定数量的代表案例;再对与所获代表案例所对应的案例库案例进行检索与匹配,最终获得检索与匹配结果(见图2)。

案例检索与匹配算法求解过程具体如下:

①第1级检索与匹配

Step 1获得当前检测到的煤与瓦斯突出多种影响因素数据所描述的新问题X=(x1,x2,…,xo)。

Step 2按式(5)计算 X与 n个代表案例Yj=(zj1,zj2,…,zjo,j=1,2,…,n)间的相似度SIM(X,Yj)。

上式中,θi和sim()的含义同式(1);zji为第j个代表案例Yj的第i个特征。

②第2级检索与匹配

Step 1按式(6)计算D中所有案例与X的相似度。

上式中,θi和sim()的含义同式(1)。

案例检索与匹配算法的流程如图4所示。

图4 二级案例检索与匹配算法的流程图

2 实例验证

采用国内某矿井中的20组典型的煤与瓦斯突出实测数据(通过多个传感器并行测得),对本文提出的方法进行验证,并在效率方面与基于PCA的案例推理方法[10](记为PCBR方法)进行对比。利用前15组数据构建煤与瓦斯突出预测的初始案例库,利用后5组数据作为测试数据。初始案例库中的各案例描述特征和案例解如表1所示,而测试数据如表2所示。

表1 案例库中的各案例描述特征和案例解

表2 测试数据

对表1所示案例的描述特征数据,利用基于PCA的描述案例特征权值确定方法得到的描述案例特征权值为:θ1=0.246 2、θ2=0.146 5、θ3=0.258 4、θ4=0.212 1和θ5=0.136 7。

令案例聚类个数n=4,利用文中所提案例聚类算法,所得案例聚类结果如表3所示。

表3 聚类结果

表4 案例检索与匹配结果

表5 预测结果

从表5可以看出,本文方法和PCBR方法所得预测结果一致,非常很接近实际值。而采用本文提出方法得到预测结果与实际结果间相对误差的平均值仅为0.154%,采用模糊神经网络方法得到预测结果与实际结果间相对误差的平均值为4.91%,可见本文方法在预测精度上远好于模糊神经网络方法。PCBR方法在针对每组数据预测时都要考虑案例库中的全部案例,而本文方法则不同,针对5组测试数据在进行案例检索与匹配时,所考虑案例库案例个数分别为6、5、4、6和9,所占比例分别40.0%、33.3%、26.7%、40.0%和60.0%,所占比例的平均值为40.0%。PCBR方法预测消耗平均时间为13 ms,神经网络方法预测消耗平均时间为2 s。如果忽略案例重用时间(相比案例检索与匹配时间很短),本文方法进行煤与瓦斯突出预测时,所用时间最多是PCBR方法所用时间的60%,而所用时间最少是PCBR方法所用时间的26.7%,而平均所用时间是PCBR方法所花费时间的40.0%,本文方法的效率更高。

3 算法的有效性分析

3.1算法的精确度分析

本文提出基于案例聚类的案例检索与匹配算法使案例与聚类中心间具有较高的相似度,也就间接保证同一类间两两案例都具有较高的相似度,从而保证与新问题X有较高相似度的案例库案例几乎都会被在第1级检索之后被检索出来,而未被检索的与X有较高相似度案例库案例(所对应的代表案例与X间相似度较小)可能性很小,最终保证X的相似案例和匹配案例几乎不会缺失,也就保证了煤与瓦斯突出预测结果的准确性。从实例验证结果看,本文方法与已有案例推理方法[10](所有案例库案例参与检索与匹配过程)最后检索出相似案例一致,没有缺少相似案例,从而保证本文方法和已有案例推理方法的预测结果相同且与实际结果一致,说明本文所提算法的具有较高精确度。

3.2算法的时间复杂度分析

对于煤与瓦斯突出预测问题,已有案例推理方法[10]在案例检索与匹配过程中所有案例库案例均要参与。其中案例检索与匹配算法的时间复杂度为O(m),随着案例库案例规模m的增大而增加。而本文提出案例推理方法在案例检索与匹配过程中进行二级检索与匹配,只让案例库中一部分案例参与。其中案例检索与匹配算法的时间复杂度为O(n+m′),随着案例库案例聚类个数n与对应被检索出代表案例的案例库案例个数m′之和增大而增加。正常情况下,n<<m,被检索出代表案例个数n‴<n,m′<m,(n+m′)<m,从实例验证所得的本文方法预测时间来看,也验证了这一点,特别是案例库案例规模m很大时,(n+m′)<<m,本文高效率特点更为突出。

4 结论

针对矿井煤与瓦斯突出预测问题,本文提出了一种基于聚类和案例推理的煤与瓦斯突出预测方法。

①考虑矿井煤与瓦斯突出的多种影响因素,克服了以往以单因素为主的指标经验判断法导致的煤与瓦斯突出预测不准确的问题。②给出一种高效的案例聚类算法,使得同类案例间具有较高的相似度,提高案例检索与匹配结果的准确性,确保矿井煤与瓦斯突出危险性的预测准确性。③在案例聚类基础上,给出了基于案例聚类的案例检索与匹配算法,进行高效案例检索与匹配。④利用案例推理、聚类、主元素分析(PCA)及数据融合实现对矿井煤与瓦斯突出危险性的快速、准确、动态、智能化预测。通过实例验证表明,本文所提方法预测结果准确,而且具有较高的效率。

[1] Wang Enyuan,He Xueqiu,Wei Jianping,et al.Electromagnetic Emission Graded Warning Model and Its Applications Against Coal Rock Dynamic Collapses[J].International Journal of Rock Mechanics and Mining Sciences,2011,48(4):556-564.

[2] Liu June,Zeng Fanlei,Guo Zhanglin,et al.Gas Outburst Risk Analysis Based on Pattern Recognition of RS-SVM Model[J].Procedia Engineering,2012,29:170-173.

[3] Chai Yanli.Study of Coal and Gas Prediction Based on Improvement of PSO and ANN[J].Springer Berlin Heidelberg,2011,97: 695-702.

[4] Wang Fuzhong,Liu Weizhe.Prediction Strategy of Coal and Gas Outburst Based on Artificial Neural Network[J].Journal of Computers,2013,8(1):240-247.

[5] 付华,王馨蕊,王志军,等.基于PCA和PSO-ELM的煤与瓦斯突出软测量研究[J].传感技术学报,2014,27(12):1710-1715.

[6] 郭金栋,王恩元.基于量子免疫遗传算法的煤与瓦斯突出神经网络预测[J].山东科技大学学报,2014,33(6):69-75.

[7] Li Yang,Mao Shanjun,Xie Hong,et al.Technique of Dynamically Warning of Coalmine Gas Outburst Based on Bayesian Network [C]//Geoinformatics,2011 19th International Conference on. IEEE,2011,1-4.

[8] Wang Chao,Wang Enyuan,Xu Jiankun,et al.Bayesian Discriminant Analysis for Prediction of Coal and Gas Outbursts and Apllication[J].Mining Science and Technology,2010,20(4):520-523.

[9] 阎馨,付华.基于案例推理和数据融合的煤与瓦斯突出预测[J].东南大学学报,2011,39:59-63.

[10]阎馨,付华,屠乃威.基于PCA和案例推理的煤与瓦斯突出动态预测[J].传感技术学报,2015,28(7):1028-1034.

[11]Elaheh Sayari,Mahdi Yaghoobi.A Model Presented for Classification ECG Signals Base on Cased-Based Reasoning[J].Journal of Soft Computing and Application,2013,2013:1-9.

[12]Nesrine Ben Yahia,Narjes Bellamine,Henda Ben Ghezala,et al. Integrating Fuzzy Case-Based Reasoning and Particle Swarm Optimization to Support Decision Making[J].International Journal of Computer Science Issue,2012,9(3):117-123.

[13]He Binbin,Chen Jianhua,Chen Cuihua,et al.Mineral Prospectivity Mapping Method Integrating Multi-Sources Geology Spatial Data Sets and Case-Based Reasoning[J].Journal of Geographic Information System,2012,4(2):77-85.

[14]王娟,李丽琴.基于CBR的瓦斯爆炸案例分析系统设计与应用[J].煤炭工程,2015,47(1):143-145.

[15]靖可,唐亮,赵希男.基于效果域匹配的自适应案例推理决策模型[J].东北大学学报,2011,32(5):758-760.

[16]袁晓芳,李红霞,田水承.煤矿重大瓦斯案例推理应急决策方法[J].辽宁工程技术大学学报,2012,31(5):595-599.

[17]Sunila Godara,Amita Verma.Analysis of Various Clustering Algorithms[J].International Journal of Innovative Technology and Exploring Engineering,2013,3(1):186-189.

[18]Chaudari Chaitali G.Optimizing Clustering Technique Based on Partitioning DBSCAN and Ant Clustering Algorithm[J].International Journal of Engineering and Advanced Technology,2012,2 (2):212-215.

阎馨(1978-),女,辽宁沈阳人,硕士,研究方向为智能检测与智能控制,主持国家自然科学基金子课题项目和辽宁省教育厅项目各一项,发表论文10余篇,yanxin781204@126.com;

付华(1962-),女,辽宁阜新人,博士(后),教授,博士生导师。主要从事智能检测和数据融合等方面的研究。主持国家自然基金2项、主持及参与国家863和省部级项目30余项,发表论文50余篇,申请专利24项,fxfuhua@163.com。

Dynamic Prediction of Coal and Gas Outburst Based on Clustering and Case-Based Reasoning*

YAN Xin*,FU Hua,TU Naiwei
(Faculty of Electrical and Control Engineering,Liaoning Technical University,Huludao Liaoning 125105,China)

In order to realize the accurate,quick and dynamic prediction of coal and gas outburst,considering multiple influencing factors of coal and gas outburst,a prediction method based on clustering and case-based reasoning(CBR)was proposed.Using case system feature weights by an approach of solving weights allocation based on PCA(principal component analysis),Cases in the case base are clustered,which can gather the cases whose higher similarities as one class.Based on clustering results,an efficient process for case retrieval and matching is done to improve the quickness for prediction of coal and gas outburst.The proposed method was validated using practical measured data.The simulation example shows that the proposed method provides more accurate prediction results,the prediction average time of the proposed method is only 40%ofthatofthe existing CBR method for prediction ofcoaland gas outburst.

coal and gas outburst;dynamic prediction;quick prediction;case-based reasoning;case clustering

TD713

A

1004-1699(2016)04-0545-07

项目来源:国家自然科学基金项目(61202266,51274118,50874059);辽宁省教育厅科学技术研究项目(2008281);辽宁工程技术大学基金项目(2010073)

2015-09-27修改日期:2016-01-14

猜你喜欢
案例库瓦斯检索
心血管外科教学案例库的建设及应用研究
国内首个海事司法案例库正式上线
基于实践应用的基坑工程设计案例库建设研究
11采区永久避难硐室控制瓦斯涌出、防止瓦斯积聚和煤层自燃措施
MTI朝鲜语同声传译教学案例库建设研究
高瓦斯矿井防治瓦斯异常涌出措施的应用
专利检索中“语义”的表现
煤与瓦斯突出防治技术途径探讨
哈瓦斯与埃及考古学
国际标准检索