数据仓库下基于知识库的虚拟实验平台构建

2017-09-23 06:27吴兴蛟傅强段云彪胡劲
软件 2017年6期
关键词:数据仓库知识库规则

吴兴蛟+傅强+段云彪+胡劲

引言

虚拟实验室主要是一种为了模拟现实实验的一个分布式的,基于网络的分布式,可以提供在线教学,技术交流,共同研究,实时交流的一个信息平台。目前虚拟实验室的定义大致分为两种,一种是基于计算机创建的虚拟平台,实验者可以通过平台可以在里面实现预设实验,形成最后的分析结果。另一种是创造一个交互环境作为引导模拟实验的场所。然而不论是哪种定义,总的来说。虚拟实验室是一种为了替换现有实验方式,扩展实验实现条件的。节约实验成本的一种新型实验教学方式。虚拟实验室主要由模拟部分,数据分析部分构成。现行的虚拟实验室一般分为三大类:基于网络应用云计算技术,基于虚拟现实,多人协作虚拟实验室。对于虚拟实验室的改进一般是在技术上的更新。现在虚拟实验室还具有一个最严重的的缺点,可扩展性不足,只能针对某个领域实现,并且实现出来的实验室不具有学习分析功能,例如胡文成在基于网络平台虚拟实验室技术的研究和实现一文中提出的基于C/S的虚拟实验室实验内容的还不够丰富,在仿真环境的逼真程度上,还需要有进一步的改进。张小平在基于EDA虚拟实验室中心值法的研究一文中只是针对于单机进行试验。结合现在大数据的技术在此基础上提出数据仓库下基于知识库的虚拟实验平台构建设想。

1总体架构

为了克服现在虚拟实验室通用性低、构建成本高,学生创新性难以得到拓展这个问题。基于现在数据仓库,云计算的背景下。使用人工智能技术构建一个能提高学生动手能力,培养学生创造才能的虚拟实验平台是一件具有极大意义的工作。

曾雪辉在虚拟实验室中用户注册组件的设计与实现一文中提出了组件的概念。

虚拟实验室核心采用应用服务器集群进行运算处理,使用B/S架构。实现瘦客户端运行,从而提高软件平台运行兼容性。使用javaee技术开发,项目实现部分开源,从而提升项目的可维护性以及可拓展性。虚拟实验在核心仿真模块的支撑下,采用组件技术分离实验场景,实验组件。使用XML配置耦合模块,不仅从软件开发的角度实现了复用,同时为创新实验室,研发实验室提供可靠的组件。

虚拟实验室的主要功能还是不能摆脱为用户提供真实互动的实验功能。虚拟实验室在构建初期主要是为用户实现普通实验的模拟。该虚拟实验的构建值得指出的一点是,改实验室不同于市面上的专注于一种或者一类实验。这是一个实验平台,实验平台构建之后,主要会为一定用户提供开源服务,一些具有初步编程知识或者想融合到开发中的人员就会慢慢丰富平台实验。在实验提供以后测试之后就会在平台分权限开放。从而支撑一部分实验模拟练习。

在普通实验的支撑下,用户可以任意组织实验。最初使用专家打分等方法实现对于实验数据的分析以及分析。在数据积累到一定数量的时候采用机器学习的方式从数据仓库中进行挖掘与学习,从而形成规则库,在规则库的反馈下机器就能不断的成长同时呈现出相对精准的结果。这样的话无论对于用户兴趣探索还是科研初期雏形都是有意义的。

传统数据生成之后,经过分类之后会存人数据数据仓库。创新实验经过分类之后也会存人数据仓库。这里的数据库不局限于现在的分布式数据库。也包含分布式数据库,同时数据库磁盘也会使用阵列进行支撑。从而从物理上保证数据的完整性。

数据仓库内被打上标签的数据会用挖掘工具进行训练,形成规则库。规则库内规则反作用于实验。形成了有效闭环。

该虚拟实验室主要是基于规则学习的知识库反馈组合平台,实验室建设主要分为模块匹配库以及实验知识库。在此基础上通过应用服务器集群为外界提供普通实验室,创新实验室以及研发实验室接口。通过这三个接口为外界提供服务。其中普通实验室主要是整合那些可以在实验室完成普通实验,创新实验室主要是通过规则库以及构件库的支撑对外提供跨学科以及跨领域的组合实验。研发实验室是一个服务于少数具备一定业务知识以及编程人员的接口,这个实验室可以对外提供一些自己研发以及构建的实验。

实验数据主要分为两类,一类是传统实验数据,这类数据主要是针对普通实验而言的。这类实验数据具有一定区间标准,可以通过编程实现分析,从而将分析结果展现给用户。同时将数据进行检验留底,从而为后面分析留下依据。另一类是自己组合实验产生的数据,这类数据是一些新兴数据,以及不可预计的结果,这类结果可以提供给那些致力于创新實验的用户,一方面用于数据分析。另一方面可以提供给实验专家,作为打破实验创新瓶颈的参考。最后将数据进行标识以及分类放入实验知识库。

知识库通过智能算法分析组合产生规则。此类规则主要用于反馈实验组合,为自主实验者提供原始数据。从而指导创新。

知识库还可以作为后面分析的数据仓库实现对于实验规律的探究。由于数据是不规则的,可以考虑使用mongodb等非结构化数据库存储。

2数据仓库数据流转

数据是构成实验平台的关键所在,由于数据众多,同时数据的种类不一致,同时数据的结构迥异,所以在分析前应该将数据进行相应的处理。这就涉及到了数据挖掘的相关知识以及概念。

ETL:ETL是Extract-Transform-Load的缩写,翻译为中文指的是数据的装载,转换以及加载。说简单一点就是,生产系统将数据存入对应的数据库,在数据ETL工具以及ETL引擎的集合下。通过一系列数据转化工程,进过数据的清洗处理从而将数据存入数据仓库。

数据仓库:数据仓库简单来说就是存储数据的关系数据库以及多维数据库的集合。与数据库不同的是,数据仓库建立的数据集市是面向主题的。同时数据仓库数据是固化的非易失的。数据主要用于经营分析。

OLAP服务器实现的是在现在的数据仓库基础上对于数据进行多维分析,面向主题操作的操作指令集合执行系统,主要负责数据的处理。

数据挖掘服务器:在处理以后的数据基础上,对于规则的探寻。将一系列算法运用于数据集上就要借助数据挖掘服务器进行处理。endprint

知识库的构建是一个数据仓库的构建过程,首先从数据的来源肯定是传统数据。组合数据以及标记数据几个生成数据库。这些数据来自于试验后的生产系统,通过ETL进行数据的去重,去噪以及转换缺失,数据插补一系列操作。最后形成增量数据供分析。通过写好的OLAP服务进行操作或者人工分析以后将结果进行保存。分析后的数据可以使用报表技术进行展示或者形成相应的分析报告。同时提供对外的分析接口供其他人来调用,实现在线分析使用。

3规则库学习

规则库的学习主要是采用多工具数据交换处理方式。与现在方式不同之处在于,这种方式下组合更加灵活,同时可以根据不同的工具制定不同的处理计划。对于软件工具取长补短。唯一不足在于还需人工干预,不能自动完成。支撑工具运行的是官方或者自己编写的算法库。这些算法针对不同的规则以及场景展开,从而辅助分析。不同的工具对于中间结果的处理数据格式是不同的,在这采用XML数据岛进行处理。有效的加快了数据处理速度。最后完善规则库。

数据仓库的数据是一堆并不能真正体现价值的一堆数字集合,并不能真正用于反馈调节组合试验。要让数据得到使用就得将数据进行处理使之成为规则。

形成的规则就是所谓的能区分数据的集合组,通过这些规则就可以对于简单的组合形式进行区分。例如末端淬火试验中就可以通过已知的数据通过遗传算法推断出实验不同数据下的淬透性曲线。

规则的挖掘可以采用外界工具,例如MATLAB以及SPSSMODELER工具或者其他,那我们在系统架构的过程中就要为其预留相应的接口。同时为挖掘工具提供一套封装的智能算法仓库接口。由于生成数据的格式存在差异,所以在这些数据进入规则庫之前应该预留相应的数据交换单元,例如使用XML数据交换文件或者使用中间转换程序。这样就可以实现数据的转换。

4云端实验室

在B/S架构的支撑下,平台可以很简单的为不同用户以及场景提供支撑。在这构建了两种接入方式,一种是使用中心机房的形式使用内网直接为实验室提供服务。另一种是对于有需求的科研用户以及认证后的用户提供服务。

5结语

虚拟实验室是一项由来已久的模拟现实实验的技术,虚拟实验室主要为保障实验者安全。跨越实验平台物理性缺陷,实现科研探究的实时性的一项辅助实验的技术。现行的虚拟实验室一般趋向于画质的渲染、环境模拟以及专业领域的模拟。在现在大数据,人工智能的导向下,实现一个基于组装式,基于知识库学习的虚拟实验平台尤为重要,本文提供的是一种组织架构,希望在以后的研究中不断实践。endprint

猜你喜欢
数据仓库知识库规则
数独的规则和演变
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于数据仓库的住房城乡建设信息系统整合研究
让规则不规则
TPP反腐败规则对我国的启示
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
基于数据仓库的数据分析探索与实践