校园数据仓库建设思路及方法

2015-12-19 09:53何冬梅
卷宗 2015年11期
关键词:数据仓库校园

何冬梅

摘 要:随着现代信息技术的发展,各大校园采用先进的信息技术来构建数字化校园,从而提高管理效率、强化教学质量、促进科研教研、提升服务水平。这其中最主要的核心就是数据的处理,数据处理环节又以数据存储为基础,如何搭建一个良好高效的数据仓库,不仅有利于数据的存储,对提高数字校园的运作也将有很大的帮助。

关键词:校园;数据;仓库;建设

1 数据中心总体架构

微软公司的数据仓库解决方案,可以支持灵活地选择将整个DW的不同部件部署在同一台服务器上,或可以将任意几个不同部件部署到不同的服务器上,也可以将其中一个部件分布到由多台服务器进行并行处理;以下为对各个组成部分的描述:

财务系统源数据:源系统可以是各种异构数据库或文本文件。

ETL数据抽取:使用微软公司的Integration Service工具,该工具为微软數据库产品SQL Server2015的一个组件。

财务BI系统数据库:采用SQL2015数据库作为整个财务BI系统数据库

财务系统应用层:建议采用SQL Server2015 analysis service分析服务组件作为多维数据库;

门户展现层:使用微软的SQL Server 2015的report service 或微软的Excel Service ,或其它第三方提供的分析工具。

2 数据整合设计

2.1 数据抽取及预处理

数据的提取(Extract)、加载(Load)与转换(Transformation)对应着数据转换子系统和数据加工子系统。它是数据仓库建设过程中比较重要和比较耗时的一项工作。该过程负责从各个相关的数据源提取数据并对数据进行转换。下图说明了ETL的过程。

ETL过程比较复杂,数据导入的过程中可能会遇到各种错误,以致不能正确的导入到数据仓库和多维数据集中。故而需要专门的管理程序对对ETL过程的管理,包括日志管理、调度管理、错误监控与恢复等。

任何商业智能(BI)解决方案的核心是数据整合过程。在SQL Server 2015中为您提供了一个新的数据整合引擎:整合服务(Integration Services),已经预备好解决企业中的数据整合需求。

SQL Server 2015中新提供的数据整合引擎,把这样的服务带到了一个新的高度。以下列举的整合服务(Integration Services)所具有的特性,是我们升级到SQL Server 2015的原因所在。

它的处理架构组件和在此之上的企业级提取、转换和装载(ETL)工具,并且很容易学习使用。通过这些工具,能够马上添加新的功能以满足企业中大量的数据处理请求。

2.2 数据仓库关系型存储

SQL Server 2015中的数据库引擎为支持您的商业智能关键业务系统能每周7天、每天24小时运行,SQL Server 2015中的核心关系型引擎包含以下新的特性:

数据库镜像提供了一种低成本,可行的、容易的备份方案。

更多可联机操作的数据库任务,例如联机索引和动态配置等,这能除去您为了完成日常的维护工作,不得不将应用程序切换到脱机状态的要求。

改进的安全模型使用数据加密、强制密码策略和其它数据安全管理工具来保护数据的机密性、完整性和有效性。

利用Transact-SQL上的改进和公共语言运行时,您会有更好的工具来更快、更有效的解决的复杂的商业问题。

2.3 多维数据存储

多维数据库中的数据以多维的方式进行存储和查询。数据仓库中的维表映射为多位数据库中的维度,维度和事实表结合在一起构成多维数据集(Cube)。相关的多维数据集的集合构成多维数据库。多维数据库的建设是OLAP系统建设的重点,其结构决定了能够进行分析的类型。

在分析服务(Analysis Services)出现后的七年多时间中,它已经占领了商业智能(BI)联机事务处理(OLAP)引擎市场。那这是什么原因促成的呢?Analysis Services 2000提供了一个高性能、低成本的联机事务处理(OLAP)引擎,并且这个模型很容易实现。而SQL Sever2015中的分析服务,在功能性和性能上已经走的更远,诸如更多的企业分析方法、高级的数据挖掘、提供一致访问接口以开放关键业务评价标准的的业务特性。

3 数据展示

经常见到一些报表与分析工具厂商,通过演示其图文并茂的工具而快速抓住用户的眼球,获取用户的青睐;但其实,实践证明往往证明,一个好的报表、分析与展现服务平台远不只是这些图文并茂的图表。企业的报表、分析与展现平台应服务于企业内高层决策人员、中层业务经理、业务分析员、一般的业务操作员,以及IT技术人员等,而各个层面的人员对报表、分析的展现与操作需求是不一样的:

高层决策人员:Web方式的KPI/计分卡,综合型报表,业务趋势图表,可视化预警,企业门户中仪表板方式展现;

中层业务经理:Web方式的部门KPI/计分卡,业务趋势图表,可简单交互的业务分析视图,部门门户中仪表板方式展现;

业务分析员:丰富的交互式关联分析,快速定制图文并茂的图表,简便地分发图表到企业与部门级门户,分享给决策人员与业务经理;

业务操作员:即席查询,条件化数据检索,日常办公工具(如Office Excel)即可访问、获取业务数据,自我定制简单报表;

IT技术人员:工具平台的数据、报表安全性管理,并发性处理,扩展能力,服务组件的可管理能力,以及同企业门户及其它应用系统的集成与交互能力;

可见,快速定制图文并茂图表往往仅是业务分析员所需,平台选型时应兼顾到各层面人员的需求,充分考虑其对KPI/计分卡/仪表板、即席查询、大数据量统计性综合报表、门户集成、并发处理、扩展与安全管理等方面的支持与实现能力。

微软这些年通过自身的技术研发,以及并购整合,已具备了完善的报表、分析与展现服务平台与技术,可充分满足企业不同层面人员的业务报表与分析服务需求。

4 数据挖掘

数据挖掘试图使用一种自动化或者至少是半自动化的过程从大量数据中总结出模式,这些模式有助于企业统计分析出对业务执行有指导性意义的信息。相对于回答固定的业务问题,数据挖掘侧重于发现蕴涵在大量数据中的意义,因此,数据挖掘在知识发现上很有用处。

在微软数据仓库解决方案中,数据挖掘采取两种模式:

聚合模型-聚合模型用于将数据按照规定的属性进行归类,聚合模型有助于分类业务的对象

决策树模型-决策树是目前常用的数据挖掘模型,它可以用于数据归类,也可以用于数据预测,从以往的历史数据中总结出模式和规律,并将这些模式和规律应用于新的数据以期望得出预测。决策树的层次是按照考察对象(Case)的各个属性对于业务问题的决定性程度来排列的。

5 数据中心管理

Microsoft SQL Server 2015提供了一个完整的、可伸缩的BI平台,它可以为您提供您需要的特性和功能,以便将具有时效性的关键性信息跨机构传达给您的员工。通过报表、数据集成、部署工具和丰富的分析功能中提供的创新技术,SQL Server 2015使您可以对您的企业数据和分析应用程序的值进行扩展,从而帮助您的公司做出更好、更快的决策。

5.1 针对数据仓库的优化

SQL Server 2015的关系型数据库管理系统同之前的版本相比有了巨大改进,因此在创建、管理以及查询大型数据仓库时的性能会更好。下面这部分内容将详细说明表1中所列出的关系型数据库管理系统在数据仓库方面的改进。

5.2 开放式的数据整合平台

SQL Server 2015提供了一个全新的数据ETL平台——SSIS。在早前的SQL Server版本中,SSIS被称为数据转换服务(DTS)。SSIS已经进行了重新设计,以提供企业ETL平台所需的功能以及可高度伸缩的性能。对于大量数据,SSIS能够以高速进行复杂的数据集成、转换及合成,这样您就可以更加容易地集成和分析来自多个信息源的数据。SSAS具有完全的可编程性、可嵌入性和可扩展性——这些特点使它成为了一个理想的ETL平台。

5.3 二次开发环境

Business Intelligence Development Studio提供了第一个集成开发环境,该环境是专门为商业智能开发人员设计的。Business Intelligence Development Studio是在Visual Studio 2015的基础上构建的,它提供了一个功能丰富的普通设计环境,可用于创建BI解决方案——数据库引擎、分析服务组件、集成服务组件和报表服务组件。BI平台的所有组件都可以进行调试、源控制以及脚本和代码开发。您也可以将多个项目作为一个单元管理,并查看和修改项目中的对象属性。

5.4 数据挖掘与分析

SQL Server 2015 Analysis Services (SSAS)创建了一个简单易用的、可扩展的、灵活的平台,并藉此将数据挖掘技术引入到以前从未考虑使用数据挖掘解决方案的机构中。

例如,SSAS提高了对具有时效性的关键业务数据的访问功能。通过使用多维存储,SSAS可对大容量的复杂数据集进行快速而精密的分析。SSAS还可为各个方面的业务问题提供定制的、数据驱动的解决方案,这是因为SSAS具有以下特性:企业级的架构;与SQL Server家族的BI工具的深入集成;丰富的工具、API和算法集。

5.5 数据报表

SQL Server 2015 Reporting Services (SSRS)使用了灵活的订阅和传递机制,可使您更容易地创建传统报表和交互式报表,并且将它们发送给大量人群。SSRS将集中管理的报表系统的优点与桌面和Web程序的灵活性及即需即用的特性进行了合并。

通过使用Web Services进行嵌入和管理操作,SSRS提供了一个基于服务器的企业报表环境。您可以對报表进行个性化处理,将它以多种格式发送并提供多个交互性和打印选项。复杂的分析可以通过报表的分配(报表充当了下游商业智能的数据源)影响大量的受众。

有了SSRS,您就可以完成以下操作:通过简单易用的向导和设计器快速地创建报表;报告来自多个数据源(包括关系数据集和多维数据集)的数据;指定灵活的报表格式和工作状态;直接从Report Designer(报表设计器)中预览和发布报表。向导和设计器使这一切变得更加简单、更加方便。

6 结束语

站在全校统一管理的角度,整合管理、教务、学习业务,实现数据整合与管理,以数据仓库为基础,整合现有工作流程,分别面向教师与学生提供教学管理、学习服务的综合服务是校园系统建设的关键所在。

参考文献

[1](美)Ralph Kimball Margy Ross 《数据仓库工具箱》 清华大学出版社 2015.01

[2]于宗民 刘义宁 《数据仓库项目管理实践》 人民邮电出版社 2006.03

猜你喜欢
数据仓库校园
四行仓库的悲壮往事
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用
消防设备