李薇
(沈阳市勘察测绘研究院有限公司,辽宁 沈阳 110004)
公式(1)中分类器T 为真实,其中分类误差率P 属于未知数,而在GIS 大数据耦合数据的验证中通常将样本集D 内的任一样本进行删除,并且不会对T 的泛化误差产生任何的影响。
通常样本集D 内的样本数量是一定的,因此T 及D 将无法达到相互独立存在的形式,由此,通过对模型预测性的实施评价后,若是能够将交叉验证评价所获得的泛化误差率作为模型计算中的真实误差率,那么将会产生较高的误差值,而此误差数值可通过置信区间进行评价[3]。
式中:Za/2 为在分割标准正态分布过程中获取的右边尾部面积的a/2 处分割位置的Z 值;W 为置信区间的宽度。
通过上述的计算验证可以确定,依据大数据增益的原理能够反真实的的评估、反馈出评估准则的可行性,并且对精确率及召回率具有更好的评估能力,但是相对而言准确率却稍差;另外,由于在进行GIS 与大数据的耦合后将会产生更大范围的增益应用范围,但置于F 测量准则可更加适合不平衡比例的样本数据集[4]。
在正常状态状态下,随着样本数m 的逐渐增大,GIS 大数据分析技术验证置信度也随之上升,不过这一正相关关系并不是无限制的。研究发现,若仅仅只是对m 进行单纯的增加,则容易造成交叉验证的渐进出现较大偏差。由此可见,若保证有效性,则要增加D 与T 的独立性[5]。
假设x1,x2,…,xk是第1 组样本,表示模型X 在不同数据集上的估计值,假设y1,y2,…,yk是第2 组样本,表示模型Y 在不同数据集上的估计值,x1与y1相互配对,二者是采用相同的数据而产生的样本,x2与y2相互配对,二者是采用相同的数据而产生的样本,x3与y3也是如此,按照这样的配对方式,直到最后一个样本。用μ1来表示是第1 组样本的平均值,用μ2来表示是第2 组样本的平均值。有了平均值之后,若对两个模型进行比较,则直接看平均值是否有显著的差别。两个实验模型在实验的过程中进行了一定的配对,故而也称为配对的云数据技术测试。表1 所示为在样板本比较少的情况下所进行的配对云数据技术检验方法。
表1 小样本情况下配对云数据技术检验方法
定义4 给定分类模型f1与f2,若IG(f1)>IG(f2),则对于不确定性的减少,f1比f2更有优势。
常常采用4 种模型对云数据技术问题进行解决,第1 种模型是准确率;第2 种模型是精确率;第3 种模型是召回率(Recall);第4 种模型是F 测量。
在yes 与no 二分类过程中,同一模型将会得到4 种不同结果,依次对应为正确的肯定(true positive,TP)、正确的否定(true negative,TN)、错误的肯定(false positive,FP)、错误的否定(false negative,FN)。
准确率、精确率、召回率和F 测量的计算可以采用如下公式。准确率:
对于一些更为综合的模型,其预测性能的评估指标就可以采用大数据增益,从本质上来说,大数据增益类似于非线性的方式,它以这种非线性的方式对各种准则进行相应的平衡,因此采用大数据增益进行评估,可以得出其他相关的大数据,具体如下。
(1)根据大数据增益的原理,可以对有关评估准则具备的实际评估能力进行一定程反映。尤其是依据精确率和召回率,可以发现更多的大数据。相对来说,精确率和召回率的评估能力更强,准确率则相对较弱[6]。
(2)相比之下,大数据增益准则的使用范围更宽。对于采用F 测量准则的情况,其比较适用于具有不平衡比例的样本数据集。
随着经济全球化的推进及其GIS 大数据危机在世界范围内的影响,关于GIS 大数据分析技术,得到了越来越多的专家关注,同时也已经成为GIS 大数据核心内容之一,关于GIS 大数据分析技术,在国际上并没有形成统一的标准,很多人在对实际问题进行解决的时候,往往只是凭借自己的主观经验或者以往经验,通过经验来解决实际问题,往往会出现较大的盲目性,鉴于此,有效利用科学技术,对云数据技术创新能力培养的准则与方法采用科学的模型进行解决势在必行。
基于这样的背景,本文在GIS 大数据分析技术与应用中引入了纠正重复取样云数据技术测试的云数据技术,通过专业的方法,提出了基于云数据技术的GIS 大数据分析技术,通过实验研究表明,从云数据技术中可以发现一些规律,若采用的规则矩阵不同,则结果也不同。