生物大数据时代高血压数据挖掘分析平台构建研究

2019-05-22 10:27贾泽宇李宗瑾
电脑知识与技术 2019年6期
关键词:数据挖掘

贾泽宇 李宗瑾

摘要:针对生物大数据时代高血压基础研究面临数据量庞大、类型复杂、数据挖掘困难等问题,提出一种基于生物大数据的高血压数据挖掘分析平台的构建方案。该平台拟整合国际数据库中高血压相关的基因组、转录组、蛋白质组等分子数据,收集国内外高血压前沿科研成果,构建高血压医学组数数字资源库;同时集成主流数据分析方法和软件,打造高血压数据挖掘分析平台,为科研工作者及临床医学研究者提供专业、精准、高效的数据查询检索、数据比对分析及成果可视化展示等服务,满足不同科研工作者的多样化需求,提供一站式的高血压大数据云服务,为高血压精准医学研究提供最可靠的数据支持与保障。

關键词:生物大数据;高血压云服务;数据挖掘;分析平台构建

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0268-02

1 引言

生物信息学(Bioinformatics)是伴随着人类基因组计划(Human Genome Project,HGP)而迅猛发展的一门交叉学科,其涉及生物学、统计学及计算机科学等多个学科。生物信息学通过对生物信息数据获取、处理、储存、分析和解释,揭示生物信息数据包含的生物学意义。随着高通量测序技术、生物信息数据挖掘技术的飞速发展,R和Python语言在数据挖掘广泛应用,加之基因组、蛋白组、转录组等海量组学数据指数型增长。同时高通量测序实验技术成熟发展,生物医学实现由单一组学时代向多组学融合时代的跨越。这昭示着我们已经进入生物大数据时代。

在生物大数据时代,生物医学组学数据主要呈现出数据多元化、增速快、数据结构复杂且标准化程度低、数据分布零散难以整合分析等特点。目前,生物医学研究面临主要问题有:(1)数据碎片化、管理分散、难以实现有效整合分析;(2)数据安全无保障,缺乏交流平台,是世界最大组学数据输出国;(3)数据缺乏标准化机制且管理混乱,质量参差不齐,缺乏同国际交流的平台与窗口,受国际、国内的政策与技术的限制严重。

高血压作为一种常见的慢性非传染性疾病,是目前我国居民健康的主要威胁之一,也是我国生物医学领域的研究重点和热点。随着生物大数据时代来临,高血压生物医学研究面临新的机遇与挑战。以基因组、转录组、蛋白质组为代表的各种组学蓬勃发展为高血压生物医学研究提供了新的研究方向与研究方法,与此同时,由于组学数据量大增速快、种类繁多结构复杂、数据分散难以共享等特点,使得高血压研究面临严峻挑战。

本文提出一种高血压大数据分析平台构建方案,该方案借助云存储技术和虚拟化技术构建高血压生物医学大数据资源库,拟解决生物大数据时代高血压医学数据分散、结构复杂、不易存储等问题;借助云计算技术、数据挖掘技术打造高血压数据分析平台,弥补现阶段高血压医疗数据存储分散难以共享不足,为科研和医疗工作者提供专业化的高血压数据共享云服务,为高血压精准医学研究提供精准数据支持和平台支撑。

2 生物大数据时代高血压大数据分析平台设计

随着生物大数据时代到来,高血压生物医学数据爆炸式增长,为满足高血压大数据发展需求,弥补传统数据存储模式和数据管理分析技术成本高、部署困难、不易扩容、数据处理速度慢等不足。本文提出一种基于MVC架构的高血压数据挖掘分析平台构建方案,该方案利用MVC架构低耦合的特点实现图形界面和数据挖掘分析组件优势组合,用户通过视图将数据服务请求传递给控制器,控制器根据不同服务请求调用相应模型,模型将封装的数据参数及业务需求传递给数据挖掘分析系统,系统在接收到数据参数后从高血压数据资源库中提取数据,调用数据处理程序进行挖掘分析,最后将数据分析结果通过视图展现给用户。该平台将高血压数据资源和数据挖掘分析组件部署于云服务器,通过负载均衡来策略协调用户对数据挖掘系统的访问,从而提升系统的计算效率,使用户在服务体验、系统的交互性、可靠性等方面相对于传统的数据挖掘平台皆有很大提升。该平台架构图如图1所示。

1)高血压数据资源库设计实现

高血压数据资源库是基于云存储技术设计实现的,在不改变现有物理存储设备基础上借助分布式存储技术、虚拟化技术以及计算机网络技术构建虚拟数据云服务,基于PostgreSQL数据库技术构建高血压数据资源库,并采用先进I2B2数据管理方法,实现对高血压数据的有效管理。资源库内的数据主要分为结构胡数据和非结构化数,结构化数据包括:基因组学数据、蛋白质组学数据、转录组数据和表观遗传组数据等分子数据;非结构化数据主要包括:病例数据、科研文献以及其他类型数据。高血压数据资源库结构如图2所示:

2)高血压数据挖掘分析系统设计实现

高血压数据挖掘分析系统是整个高血压大数据分析平台的核心与灵魂。数据挖掘分析系统采用模块化设计思想,整个系统分为数据选取、数据预处理,算法模型及可视化四部分,各模块又细分若干子模块,模块之间相互独立,通过统一API访问接口向外提供服务,当用户需求改变时,只需修改相关的模块的业务参数即可,其他模块不受影响。采用这种模块化结构设计模式,能够使系统的扩展性和健壮性大大提高。

3 数据挖掘平台关键技术

高血压数据挖掘分析平台构建关键在于平台架构设计和算法实现两个方面,平台设计方案的合理性和健壮性决定了平台系统的稳定性;算法的健壮性和可靠性决定了用户体验。现针对平台建设中涉及的关键技术进行研究,详细内容如下:

1)云计算技术

云计算技术是一种借助互联网技术整合大量计算数据与处理器资源并向提供可用的、便捷的、按需的资源访问模式,其具有功能强大、运行成本低、安全性高、可共享等优点,是高血压数据挖掘分析平台的核心技术之一,在平台构建过中,主要运用分布式存储技术、虚拟化技术、并行云计算技术。

(1)分布式存储技术。该技术借助网络技术优势将分散的、碎片化存储空间构建成一个虚拟的整体,并将数据存储于虚拟空间中。借助此方式可以将碎片化的、零散的物理存储设备构建成虚拟的、高扩容性的存储空间,在此基础上构建高血压数据资源库,适应高血压分子数据增长趋势。

(2)虚拟化技术。该技术可将多台服务器设备有效连接起来构成一个高效的服务资源池,从而优化资源配置,使服务器资源得以最大化利用。运用该技术将高血压数据分析系统多个算法模块分别部署在不同服务器中,保证各个数据分析模块相互独立,互不影响,从而提升高血压数据挖掘分析平台数据处理能力和处理效率。

2)MVC框架技术

MVC(Model-View-Controller,模型-视图-控制器),是一种当前主流软件设计模式,该模式将数据、业务逻辑以及前端分割成相互独立三部分,各部分通过控制器实现数据交换、业务传递,细化分解软件开发工作,大大提升软件系统开发效率。采用MVC架构的高血压数据挖掘分析系统具有维护成本低、耦合性低、重用性高等特点。该架构实现了平台中前端展示界面和数据挖掘分析组件的解耦,将两者相互独立,在开发过程中前端工程师不需要关心具体的数据挖掘分析流程;而后台业务流工程师也不必关心展示界面,大大提高了数据挖掘分析平台的开发效率。

3)分布式并行计算技术

分布式并行计算技术是将数据分布、任务并行、任务调度等技术细节进行封装,在实际的应用中,用户并不需考虑这些内容,而知识能够在终端操作应用满足自身的需求。利用分布式并行计算技术有利于提高数据挖掘的效率,同时降低企业数据挖掘平台维护的成本。高血压数据挖掘分析平台构建采用分布式并行计算方法协调数据与分析模块关系。当用户使用时只要在终端开启执行数据运算的指令就可以实现数据的操作,它对数据的分析以及任务的并行执行有着推动的作用。

4 结语

随着生物大数据时代来临,高血压分子数据呈现爆炸式增长,对高血压数据有效整合与利用可以促进高血压精准医学研究发展,实现数据资源到数据财富转化。本研究依托云计算技术、MVC框架技术、分布式并行计算技术构建高血压数据资源库以及数据挖掘分析平台,服务于广大医疗及科研工作者,满足不同群体不同需求,实现高血压数据资源的共享,高血压研究者提供一个专业化信息交流平台,进一步促进高血压精准医学研究发展,实现更大的经济效益和实用价值。

参考文献:

[1] 胡莹石,陈家晨,徐菱.云计算下数据挖掘平台架构及技术探究[J].无线互联科技,2018,15(12).

[2] 王晓妮,段群.基于MVC模式的数据挖掘平台设计与实现[J].信息与电脑(理论版),2018(15):53-55.

[3] 王俊,郭丽,吴建盛,汤丽华,等.大数据背景下的生物信息学研究现状[J].南京邮电大学学报(自然科学版),2017,37(04):62-67.

[4] 张国庆,李亦学,王泽峰,等.生物医学大数据发展的新挑战与趋势[J].中国科学院院刊,2018,33(08):853-860.

[5] 丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(01):53-56.

[6] 樊紅珍.基于云计算的数据挖掘平台架构及其关键技术[J].电子技术与软件工程,2017(05):196.

[7] 赵友杰,曹涌,熊飞.基于林业大数据的生物信息云平台的构建研究[J].电脑知识与技术,2018,14(01):23-25.

[8] 李国妮.tranSMART转换医学平台的本地化及其深层次的开发[D].长安大学,2016.

[9] 陶庆.基于云计算的MVC架构数据挖掘平台的研究与设计[J].集宁师范学院学报,2018,40(03):53-57.

【通联编辑:代影】

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议