自适应基因表达式程序设计在远程教育招生数据分析中的应用研究

2015-09-10 07:22朱翠云等
中国远程教育 2015年2期
关键词:招生远程教育建模

朱翠云等

【摘 要】 随着互联网技术的发展,远程教育在现代教育中起到越来越重要的作用。本文以远程教育招生数据为研究对象,提出一种自适应基因表达式程序设计算法。该算法能自适应调整算法的杂交和变异概率,从而有效避免人为设置初始参数的敏感性。算法在分析现有招生数据的基础上,预测未来几年的招生规模,有利于招生单位做出有针对性的调整,并针对我校近几年的招生数据,有效地对以往数据进行建模,预测未来的招生规模。

【关键词】 远程教育;招生;基因表达式程序设计;建模;预测

【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009—458x(2015)02—0067—06

一、引言

随着互联网技术的快速发展,远程教育也得到了快速发展,在现代教育中的作用也越来越重要[1]。作为远程教育第一个环节的招生工作,具有十分重要的作用,但竞争日趋激烈[2]。因此,对已有招生数据进行挖掘分析,建立有效的模型,可以对未来的招生形势进行预测,以提供有效的决策分析手段。

远程教育招生人数与国家政策、教育资源、高校排名等有很大关系。招生数据是典型的时间序列数据,具有高度的非线性、不规则性和季节性等特点。针对招生数据建立有效的分析和预测模型,对未来招生形势的分析具有十分重要的作用。有鉴于此,本文以我校远程与继续教育学院近5年春秋两季的招生数据为对象,提出一种自适应基因表达式程序设计(Gene Expression Programming, GEP)算法,对已有数据进行建模,并根据所建模型预测未来的招生人数。为了避免人为设置参数对所求解问题敏感性的不足,采用自适应参数控制技术实现杂交概率和变异概率自适应控制。结果表明,该算法能建立较准确的模型,实现对未来招生形势的良好预测。

二、相关工作

1. 基因表达式程序设计

葡萄牙科学家C. Ferreira于2001年提出了基因表达式程序设计算法。该算法是一种新的非线性程序设计技术,是演化算法的一种[3]。通过实验分析,C. Ferreira讨论了GEP在问题求解、时间序列预测、函数发现、分类规则、符号回归等问题中的应用。与遗传规划算法不同,在基因表达式程序设计中,个体采用具有固定长度的线性串(基因组或染色体)进行编码,并被表示成具有不同大小和形状的非线性实体(表达式树)。该算法已在多个领域取得了成功的应 用[4][5][6]。

Zhou等研究表明,GEP能够挖掘出更精简、更有效的分类规则[7];Lopes和Weinert研究了GEP在符号回归问题中的应用,并提出了一种新的分析符号回归问题的系统:EGIPSYS[8];Zuo等利用GEP进行时间序列预测,提出了GEP-SWPM(即GEP滑动窗口法)和GEP-DEPM(即GEP常微分方程组法)两种预测方法[9],实验结果表明,两种方法在太阳黑子的预测上均取得很好的效果;黄晓冬等提出了一种基于GEP的函数关系发现方法——MEM方法,即分域表达式挖掘。该方法能处理具有一致表达式的关系和具有不同分域表达式的复杂函数关系,并论证了它具有对数数量级的复杂度[10];汪锐等利用GEP实现了多项式函数分解,提出了GPF方法。该方法能把任意多项式函数关系,按指定精度分解若干低次多项式函数的乘积[11];元昌安等在把GEP用于函数挖掘时分析了算法的收敛性,根据收敛性定理提出了残差制导进化算法RGEA,并通过对GP、GEP、RGEA算法进行比较实验,表明RGEA比前两种方法具有更好的性能[12];Cai等在预测瓦斯涌出量时,把GEP与模拟退火算法和MPI并行机制相结合,以模拟退火算法来增强算法的搜索能力,以多群体并行策略来优化算法的性能,形成了混合并行GEP算法HPGEPSA。结果表明,与传统的GP和基本GEP相比,HPGEPSA具有更好的适应性、可扩张性和更高的预测精度[13]。此外,GEP还运用到神经网络的设计[14]、仿真[15]和文本挖掘[16]中,都取得了较好的效果。

2. 基于数据挖掘的远程教育分析

数据挖掘(Data Mining)一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程[17]。把数据挖掘技术应用于远程教育中已受到广泛的重视[18]。王菁菁把STING聚类技术应用于远程教育系统学生分类中,取得了较好的效果[19];陶灵奴等介绍了数据挖掘技术在远程教育学生考试成绩分析上的应用和用ID3算法构造决策树的方法,分析了远程教育中成功应用数据挖掘的思路和模式[20];肖勇等使用C4.5数据挖掘算法分析过程考核中采集的数据,研究过程考核实施中存在的问题和过程考核指标的改进方向[21];程华等提出基于K-means聚类方法的多项考核指标分析技术,并研究了考核指标与学习者的终结性评价之间的关系;针对目前远程教育中个性化教学水平较低的问题,温泉等提出了一种基于粗糙集的Web学习者聚类算法,提高了远程教学网站的个性化教学水平[22][23];王新颖等把基于关联规则的聚类技术应用到远程教育的Web网页和用户数据分析中[24];孙莹等采用数据挖掘方法分析了自主学习行为特征等现状,从而有利于教师及教学管理人员有目的地引导学生的学习[25];郑春香和韩承双研究了关联规则分类算法,应用关联规则Apriori算法,对远程教育考试系统数据样本进行数据分析,从分析的结果中发现有价值的数据模式,寻找其中存在的关系和规则,可以为教学和考试环节发挥调节、控制、指导作用,为远程教育管理提供合理、科学的决策支持[26];以自贡电大2009级近百名本科学员基本资料及学习记录为采样数据,毛布等利用动态聚类的方法进行了有效的学员细分及数据分析,并在此基础上提出了相应的建立适合远程教育的资源库的策略[27];朱祖林等运用t检验、方差分析、灰关联分析等统计分析技术,通过典型抽样和便利抽样等方法对远程教育数据进行挖掘分析[28];侯月姣等使用K-means算法对学生的属性数据和相应课程的成绩进行了聚类数据挖掘,发现学习者群体的特点,结合聚类结果的特性和差异,为课程资源建设及教学过程的改进提供帮助[29];张晓芳把网格聚类思想应用于远程教育系统中,具有良好的聚类性能以及运算速度[30];白若微等以CNKI数据库为样本来源,借助Citespace II信息可视化分析软件,对我国远程教育领域中应用数据挖掘技术的相关研究进行基于科学知识图谱的可视化分析,以期为数据挖掘有效促进远程教育的研究提供参考[31];周圆等以西南交通大学网络教育学院2008-2012年所有学生的学籍数据为研究对象,采用关联、求和、百分比、标准差等多种统计方法,系统分析了该学院五年间学生辍学的整体情况和变化趋势,并比较挖掘了多视角下辍学率变化的情况差异和发生规律,揭示了影响远程教育辍学率的多重因素[32];周剑云以Moodle网络课程管理系统为研究基础,分析并提出有针对性的数据挖掘方法构架,以对课程建设情况和学生学习情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持及方法借鉴[33]。

三、自适应基因表达式程序设计

基本的GEP算法对于杂交概率(包括单点杂交概率和两点杂交概率)和变异概率都是人为根据经验设置固定的值。然而根据不同问题设置最优的杂交概率和变异概率是很困难的。此外,由于演化算法本身的动态特性,设定固定不变的参数值也是不合理的。为了避免人为选择最优参数困难和参数敏感性的不足,本文采用自适应参数设置技术动态控制GEP算法的杂交概率和变异概率,提出了改进算法——Adaptive Gene Expression Programming,简称AGEP,具体设计如下:

1. 个体的编码及表示

4. 算法流程

AGEP的算法流程和GEP相似,具体如下:

(1)随机产生初始群体,群体中的个体是一些具有固定长度的线性串,串中的符号是由表示问题的函数和终结点随机组合而成的;

(2)用表达式树表示个体,执行每个程序,并评价它们的适应度值;

(3)根据公式(4)和公式(5)计算每个个体的变异和杂交概率;

(4)判断程序是否达到终止条件(终止条件可以是最大演化代数或问题求解精度),如果达到终止条件则程序终止;否则,执行后面的步骤;

(5)保存当前群体中最好的个体;

(6)执行遗传操作,包括选择、变异、变换、重组等,形成新的群体;

(7)返回步骤(2)。

四、实验结果与分析

基于上述改进,本文把所提出的AGEP算法应用于我校远程与继续教育学院近5年春秋两季的招生数据建模与预测中,以验证所改进算法的有效性,并且为远程教育中其他数据分析提供有效的工具。

1. 参数设置

2. 数据描述

采用我校远程与继续教育学院2010年到2014年春秋两季招生录取人数作为实验数据(共9个),具体如表2所示。

3. 实验结果

4. 实验数据分析

AGEP算法根据表2的实验数据建立模型得到最优适应值981.42,与理论最优值1000相当接近。此外,所得到的R=0.99999999965表明,建模数据与实际招生数据十分接近。从表4的AGEP模型预测数据与实际数据对比可知,预测数据对2012年秋季到2014年春季的预测数据与实际招生数据的预测误差均为0,表明改进的AGEP算法能较准确地利用原有招生数据建立模型,有效预测下一季度的招生数据。

表4中AGEP算法对2014年秋季的预测招生人数为7764人,表明在这一季度的招生人数有可能下降较快,这对招生单位起到一定的警示作用,需要通过一定的政策调整来刺激招生,避免该趋势的出现。需要指出的是,如果通过相应的政策调整和招生宣传,2014年秋季的招生人数期望得到提升,在下次使用AGEP算法建立模型的时,只需要重新运行算法,得出相应的预测模型即可。

五、结论

本文以我校远程与继续教育学院近年来招生录取人数为研究对象,提出了改进的自适应GEP算法,采用自适应参数控制技术不仅可以避免人数设置参数的敏感性,而且增强了有效性。实验表明,AGEP算法能够准确建立预测模型,所得模型预测数据与实际招生录取人数的预测误差为0。通过本文提出的AGEP算法建立的模型可以为招生单位下一季度的招生提供有效参考,并据此进行相应的政策调整和招生宣传,起到良好的参考作用。

虽然AGEP较好地克服了基本GEP手动设置杂交概率和变异概率的不足,但是,与GEP一样,AGEP也存在固有的不足:如何较好地设置模型的常数,如何确定基因头部的长度等。把AGEP应用于其他领域的数据预测也是将来的一个研究热点。

[参考文献]

[1][19] 王菁菁. 远程教育系统学生分类的数据挖掘研究[D]. 辽宁工程科技大学硕士学位论文,2010.

[2]肖贻裕. 对新形势下远程教育招生工作的思考[J]. 科技资讯, 2012,( 22):209-210.

[3] C. Ferreira. Gene expression programming: A new adaptive algorithm for solving problems[J]. Complex Systems, 2001, 13(2): 87-129.

[4] 李曲,蔡之华,朱莉等. 基因表达式程序设计方法在采煤工作面瓦斯涌出量预测中的应用[J]. 应用基础与工程科学学报,2004,12(1): 49-54.

[5] 郑皎凌,唐常杰,徐开阔,杨宁,段磊,李红军. 用态势模型预测基因表达式编程的进化难度[J]. 软件学报,2011,22(5):899-913.

[6] 周倩,王红,姚震. 基于基因表达式编程的规则分类[J]. 计算机工程与设计,2013,34(10):3492-3496.

[7] C. Zhou, W. Xiao, T. M. Tirpak, et al. Evolving Accurate and Compact Classification Rules With Gene Expression Programming [J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 519-531.

[8] H. S. Lopes, W. R. Weinert. EGIPSYS: An Enhanced Gene Expression Programming Approach for Symbolic Regression Problems [J]. Int. J. Appl. Math. Comput. Sci. 2004, 14(3): 375-384.

[9] J. Zuo, C. Tang, C. Li, et at. Time Series Prediction based on Gene Expression Programming [C]. International Conference for Web Information Age, 2004.

[10] 黄晓冬,唐常杰,李智等. 基于基因表达式编程挖掘函数关系[J]. 软件学报,2004, 15(增刊):97-106.

[11] 汪锐,唐常杰, 段磊等. 基于GEP的多项式函数关系分解[J]. 计算机研究与发展,2004,41(增刊):442-448.

[12] 元昌安,唐常杰, 左劼等. 基于基因表达式编程的函数挖掘——收敛性分析与残差制导进化算法[J]. 四川大学学报(工程科学版), 2004, 36(6).

[13] Z. Cai, S. Jiang, L. Zhu, et al. A Novel Algorithm of Gene Expression Programming Based on Simulated Annealing [C]. International Symposium on Intelligent Computation and its Application, Wuhan, China, 2005, 605-610.

[14] C. Ferreira. Designing Neural Networks Using Gene Expression Programming [C]. The 9th Online World Conference on Soft Computing in Industrial Applications, 2004.

[15] C. Ferreira. Analyzing the Founder Effect in Simulated Evolutionary Processes Using Gene Expression Programming [J]. Soft Computing Systems: Design, Management and Applications, 2002, 153-162.

[16] Z. Xie, X. Li, W. Xiao, et al. Using Gene Expression Programming to Construct Sentence Ranking Functions for Text Summarization[C]. In Proceedings of the 20th International Conference on Computational Linguistics, 2004.

[17] J. Han, M. Kamber. 范明,孟小峰等译. 数据挖掘——概念与技术[M]. 北京:机械工业出版社,2004.

[18] 陈登科,胡翠华. 数据挖掘技术在远程教育中的应用[J]. 情报科学, 2003, 21(4):445-448.

[20] 陶灵奴,孙继银,李智,郭文普. 远程教育考试成绩分析决策树的构造方法[J]. 计算机工程与设计,2006,27(6):976-978.

[21]肖勇,程华,孙莹. 决策树方法在远程教育过程考核中的探索[J]. 远程教育,2008:53-56.

[22] 程华,夏宁,肖勇. 基于聚类分析的远程教育过程考核体系研究[J]. 华东理工大学学报(社会科学版),2008,(2):112-117.

[23] 温泉,江美英,覃俊. 远程教育中基于粗糙集的聚类算法[J]. 中南民族人学学报(自然科学版),2007,26(1):84-87.

[24] 王新颖,王向丽,张文华. 基于关联规则的聚类挖掘在远程教育中的应用[J]. 现代远距离教育,2008,(4):12-14.

[25] 孙莹,程华,万浩. 基于数据挖掘的远程学习者网上学习行为研究[J]. 中国远程教育,2008,(5):44-47.

[26] 郑春香,韩承双. 关联规则研究及在远程教育考试系统中的应用[J]. 计算机技术与发展,2009,19(8):186-188.

[27] 毛布,田林,谢汶. 基于动态聚类的网上学员细分实证研究[J]. 四川理工学院学报(自然科学版),2010,23(6):682-685.

[28] 朱祖林,毕磊,齐新安,李莹,陈彦彦,宋阳. 现代远程教育辍学率的挖掘分析——基于安徽地区1999-2009年数据[J]. 远程教育,2011:18-26.

[29] 侯月姣,李青,王晓军,李晓丽. 基于K-means聚类算法的远程学习者效果分析[J]. 北京邮电大学学报(社会科学版),2011,13(1):104-109.

[30] 张晓芳. 聚类分析算法在远程教育系统中的应用研究[J]. 科技通报,2013,29(4):106-108.

[31] 白若微,张夏,周榕. 远程教育中数据挖掘技术的研究热点与发展趋势——基于Citespace II的可视化分析[J]. 2013,27(5): 512-516.

[32] 周圆,罗霄,应松宝. 远程教育辍学情况的统计分析及数据挖掘——基于西南交通大学网络教育学院2008-2012年数据[J]. 中国远程教育, 2014,(8):62-66.

[33] 周剑云. Moodle平台网络课程数据挖掘模式分析[J]. 中国远程教育,2014,(9):68-71.

[34] 龚文引,蔡之华,刘亚东,基因表达式程序设计在复杂函数自动建模中的应用[J]. 系统仿真学报,2006,18(6):1450-1454.

[35] M. Srinivas and L. M. Patnaik. Adaptive probabilities of crossover and mutation in genetic algorithms [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1994, 24(4): 656-667.

收稿日期:2014-09-15

作者简介:朱翠云,硕士;贺亚锋,硕士;成中梅,博士,副院长。中国地质大学(武汉)远程与继续教育学院(430074)。

龚文引,博士,副教授,中国地质大学(武汉)计算机学院 (430074)。

责任编辑 日 新

责任校对 日 新

猜你喜欢
招生远程教育建模
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
教育信息处理在远程教育中的应用
从《远程教育》35年载文看远程教育研究趋势
网络远程教育学习行为及效果的分析研究
基于IPoverDVB—S单向传输模式的远程终端系统与数据维护技术
基于PHP招生管理信息系统
基于Android的招生报名系统设计与实现 
三元组辐射场的建模与仿真