基于教育区块链的大数据分析方法研究

2018-06-09 11:35邱昊天罗春水
成才之路 2018年15期
关键词:区块链分析方法大数据

邱昊天 罗春水

摘 要:文章利用区块链具有去中心化、高可信度和数据不可篡改的特性,解决了传统大数据不具备的安全性和不可篡改的问题,为区块链技术在教育行业的应用提供成熟的解决方案。接着,提出一个让所有学校及培训机构能够公开的包括学位学历证书、获奖荣誉、学习成绩等在内的所有教育信息且能够被第三方机构或个人查询和验证的区块链证书颁发方案,并利用数据挖掘思想,提出基于集对分析算法的学生综合成绩的分析算法。最后,以某中学生的成绩为样本,利用该算法与普通算法评定结果的差异,较好地分析出学生在不同阶段的综合表现。

关键词:区块链;大数据;模型;分析方法;综合表现

中图分类号:G434;G424.1 文献标志码:A 文章编号:1008-3561(2018)15-0024-03

一、引言

区块链(Blockchain)是新兴的以金融科技领域衍生的热门研究领域,指的是通过去中心化和去信任的方式统一维护一个可靠数据集合的技术方案。这个技术方案主要是让参与系统中的任意多个节点通过使用密码学方法产生一串相关联的数据块(block)。其中每个数据块中包含了一定时间内的系统全部信息交流数据,并且使用生成的数据指纹可以用于验证其信息的有效性以及链接(chain)下一个数据库块。目前区块链在各个领域都开始了区块链的应用研究,在教育领域内也有相关的研究。本文通过追踪、检索有关区块链技术发展应用方面,对区块链的共识算法对比研究,提出构建教育区块链的方法,并在构建教育区块链的基础上,对其产生的数据进行清洗分析,利用一种机器学习算法,通过构建教育区块链,解决数据可信问题,并在数据可信的基础上构建教育区块链的大数据分析新应用。

二、相关工作

通过建立教育区块链,从高中阶段起,记录学生社会实践活动、学生成绩、发表的文章情况等,从德、才、日常点滴记录学生的成长轨迹,形成学生人力资源大数据,并利用数据进行建模学习,通过大数据技术,为高效选拔人才提供可信全面数据。同时,教师也可以通过机器学习进行对比,用大数据分析学生的知识结构,找出突出问题进行针对性的指导和教学,从而提高人才的质量。

区块链技术是以比特币为应用代表的数字加密货币体系的核心支撑技术,其核心优势是去中心化,利用信息记录时间戳、分布式共识、数据加密等手段,在节点之间无须相互信任的分布式系统中实现去中心化的点对点交易、协调与协作,为解决中心化机构普遍存在的高成本、低效率和数据存储不安全等问题提供了解决方案。区块链的去中心化、信息不可篡改、自治性三个特点对于改善上述学生行为综合评价体系中数据的缺陷和不足有非常大的借鉴意义。

在建好区块链并进行数据记录之后,基于集对分析算法的思想对其进行分析应用。X=(x1,x2,x3,…xn),Y=(y1,y2,…,yn),n为各集合的特征个数。X和Y间的映射关系度定义见公式(1)。

在公式(1)中,S表示集合X、Y两个集合共有特征,P为这两个集合之间相互互斥的特征,则F=n-S-P个特征既不互斥也不共有,即差异性特征;得出υ为不确定系数,在不同情况下取值于(-1,1)区间的,体现了确定性与不确定性之间的相互关系;υ为互斥系数,υ≡1。令k=S/n,称为统一函数,P=F/n为差异函数,q=P/n称为互斥函数,则公式(1)化简为公式(2)。

μw=k+P μ+qμ (2)

式中k、p、q分别表示了集合X和Y所呈现出的相同的和相异相斥的关系,所以k+p+q=1。k、p、q三个系数的反映集合X和Y的关系情况。

三、区块链模型设计

1. 教育区块模型链的基本结构

模型中初始化、更新、評估、传递四种标志分别表示输入输出点对教育区块链模型采取的行动。在模型传递过程中,模型的哈希表和模型本身的数据被更新,以此来减少区块所占用的储存空间。大家可以把所有包含学习活动区块看作一个分布式数据库,其中每一个被授权的教育机构或者用人单位都是可以进行读写的。

2. 面向学习过程记录的区块创建机制

教育区块链记录了学生从高中开始的学习过程。每一区块记录以下几个方面:唯一数、区块大小标记、区块头信息、学习活动信息、学习活动计数。下一个新区块计算值的参考目标数根据上一个区块头信息的计算值得出,区块中的学习活动信息详细记录了该区块中所有学生的学习活动。每当出现一个新的学习活动,系统会自动创建一个区块,不同的学习活动都记录在不同的区块上,机制如图1所示。

3. 模型链上的部分模型传递机制

在本文中展示部分模型更新和传递的一个运行实例,如图2所示。其中有四名参与的教师想在私有区块链网络上检查学生的学习活动的正确性。Mst代表t时刻在教师s上学生活动的模型,Est代表t时刻教师s上学生活动的误差。在初始阶段(t=0),每个教师使用自己的数据检查学生的区块,所有这些模型中拥有最小误差的模型将被选中为初始模型。约定M10是从教师1到教师1的自身“传递”。然后,选定的模型(M10)被提交给教师2、教师3和教师4。

当t=1时,每名教师使用本地数据评估模型M11(与模型M10相同)。假如教师2具有最大的误差(E21=70%),鉴于教师2的数据对模型M11来说最不可预期,就认为教师2包含了最丰富的信息可以改善模型M1。因此,教师2赢得了“信息出价”,于是模型M11在区块1中被传递给教师2。

当t=2时,教师2更新学生学习活动模型为M22。同理,教师2发送M22到其他所有教师,接下来一个拥有最大误差的教师将赢得“信息出价”得以在本地更新模型(如本文中的教师3)。这一过程会一直重复,直到某一名教师更新模型,并发现自己比其他教师误差都大。

4. 模型链上的数据更新机制

在任何教师添加新数据的情况下,网络并不需要重新训练整个模型,而是通过信息证明算法以确定是否应该使用新的数据更新模型。如图3所示。假设目前的共识模型是M44,并且新的数据接入教师1,在时间t=5,教师1使用更新后的数据(包括旧的数据和新的数据)来评估模型M45(该模型与M44相同),当意识到误差E15大于当前更新中的教师(教师4误差E45= 30%)时,教师1再次赢得“信息出价”,并且模型M45现在被传递到教师1进行更新。重复图2所示的过程,直到识别一致模型为止。

类似的机制可以用于一个新教师的加入,如图4所示。新加入教师的数据都是全新的,一旦加入网络,该教师首先从区块链中获取最新的模型(例如M44)在本地评估,如果评估后的误差为当前最大(教师4误差E45=60%),则由该教师负责就地更新模型,否则,模型仍为一致共识模型,模型的传递过程不需要继续进行。

当教师离开私有区块链网络时,基于区块链机制,不需要立即处理教师离开的情况。如果教师离开时没有更新模型,这种离开的影响可能被忽略。此外,如果教师在更新模型时离开,仍然可以忽略它,这是因为模型的传递只是概念上的。

四、基于集对分析的学生综合成绩预测算法

依据区块链采集到的数据,使用集对分析算法可以对学生的整体成绩进行预测并进行成绩分级。预测算法的本质是把学生整体成绩(C)与划分标准(L)构成映射,即构成一个对应关系F(C,L),然后将集对F(C,L)进行分析,再将学生整体成绩中的各个成绩数值与成绩划分标准S中的评价标准范围进行比较,最后通过比较对学生成绩进行最终评定。

算法的核心是计算出每个学生的学习成绩与等级划分标准间的关系来确定影响因子,即计算出同关系度函数、异关系度函数和反关系度函数。根据学生的成绩数据,选择能够反映出学生分类等级特征的综合指标x1,x2,x3,…xj(j为指标数目)。划分标准[L(m-1,j),L(m,j)](分类等级数目;j=1,2,…),其中,l(m-1,j),l(m,j)指的是第j个科目指标的第m等级学生整体成绩分类的等级下限和上限。

预测算法通过比较学生各科的成绩C(i,j)和指标区间[L(m-1,j),L(m,j)]的关系来计算关系度A(m,j)(公式3),在公式3的基础上进行改进得到A(m,j)的最终公式,如式(3)~(5)所示。

A(1,j)=1,C(i,j)≤L(1,j)1-,l(1,j)<(i,j)≤s(2,j)-1,其他 (3)

A(k,j)=1-,L(k-2,j)≤C(i,j)

A(m,j)=1,C(i,j)≥L(m-1,j)1--1,其他,L(m-2,j)≤C(i,j)

公式(4)中,k=2,3,…,m-1。根据式(3)~(5)计算出来学生各科成绩与每个成绩整体级别之间的联系度A(m,j)后,根据各科成绩的权重W={ω(j)},计算联系度U(i,m),ω(j),U(i,m)公式如式(6),(7)所示。

在学生的成长过程中,学习的科目重要性也不同,教师在预测算法中需要评定出不同科目在学生的整体成绩中所占的权重值。在公式(6)中预测算法将学生不同科目成绩分配权重ω(j),x表示第j科目在学习后所获得的成绩。如某学生某学期参与四门科目(学习成绩、社会实践、竞赛、体育)学习,各科目的成绩依次为70、80、90、95,则各类目的权重分别为0.4、0.2、0.1、0.3。

(6)

(7)

式(7),Z(i,m)表示第i个学生和等级m的关系度;

若max(p)=max{Z(i,m)},p=1,2,3,…m (8)

则第i个学生的整体成绩等级评定为P级。

本文中所阐述的关于学生综合成绩算法伪码如下所示。

算法:基于集对分析的学生整体成绩预测算法

上述算法的时间复杂度为T(n)=0(n)。因此,该算法可行。

五、模型应用

如表1,以某中学学生的整体成绩数据作为研究对象,学生整体成绩按照5个等级来进行评定:等级Ⅴ为优秀(90分~100分),等级Ⅳ为良好(80分~89分),等级Ⅲ为中等(70分~79分),等级Ⅱ为及格(60分~69分),等级Ⅰ为不及格(0分~59分)。

根据上述公式A(m,j)得出学生A各学习类别成绩与各等级的影响因子如表2所示。通过公式(7)得到该学生A的成绩与各个等级的影响因子如表3所示。这样,可得出等级Ⅲ的影响因子值为五个等级值中最高的,根据公式(8)计算这个学生利用预测算法对其综合成绩等级评定为中等。同理,对学生B进行成绩(表1中的第5列)评定得出的结果也是中等。

采用常规的加权均值法(公式9)对学生进行成绩预测,就能得出学生A的成绩为等级Ⅱ(及格),学生B的成绩为等级Ⅲ(中等),但是却与学生实际的成绩情况不符了。同时从预测后的学生整体成绩可以看出,虽然部分学习科目(如升学成绩、中学分科考试、中学联考成绩、中学社会实践等)学生B的成绩高于学生A,但是偏科比较严重,而学生A各成绩间相对稳定。综上可以得出,在学生综合成绩测评时,预测算法相对于绩效均值方法更加优越。

常见的加权均值法和均值法如下:

(9)

(10)

式中x1,x2,x3,…xn是各学习类目的成绩,n是所学类目的数目,ωi是通过第i门类目后获得的成绩。

六、总结

本文针对教育区块链中的大数据分析方法,提出了建立教育区块链,并进行大数据分析的算法解决方案。首先定义了教育区块链的构建以及教育区块链的数据结构,接着给出了教育区块链的数据产生与采集分析清洗方法,然后给出了大数据分析的算法,最后给出了评价结果,进而说明使用本文采用的方法的效果与实际应用。

当然,本文还存在着许多不足之处,教育区块链搭建以及大数据分析算法都有待进行更多的运营实践去检验。因此,利用教育区块链技术,改善教育教学资源投入、提升科教水平将是未来很好的研究方向。

参考文献:

[1]王芳.大数据分析下的教育成绩分析[J].时代教育,2015(06).

[2]孫华富.漫谈教育教学体系中的大数据分析[J].中小学教学研究,2013(09).

[3]韩艳敏,郑卫荣,张杨,等.混合式学习中预测学习绩效的教育大数据分析研究[J].教育现代化,2018(06).

[4]胡火星.大数据及其关键技术的教育应用实证分析[J].远程教育杂志,2015(05).

猜你喜欢
区块链分析方法大数据
基于EMD的MEMS陀螺仪随机漂移分析方法
一种角接触球轴承静特性分析方法
中国设立PSSA的可行性及其分析方法
区块链技术的应用价值分析
“区块链”的苟且、诗和远方
用“区块链”助推中企走出去
核安全设备疲劳分析方法与步骤