基于R语言的大数据审计方法研究

2016-12-27 12:12羌雨
中国管理信息化 2016年21期
关键词:数据可视化大数据

羌雨

[摘 要] 大数据时代的到来,给国家审计模式、取证方法等方面都带来一定程度的改变,大数据审计也因此应运而生。研究内容旨在从数据可视化角度出发,以专门将统计计算与绘图功能集于一身的R作为分析工具,探索其在分析数据时的原理、优势,以及R在审计领域应用的可行性,为审计人员更直观、便利地分析数据提供基础的理论参考。

[关键词] 大数据;大数据审计;数据可视化;R

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 022

[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2016)21- 0046- 04

0 引 言

随着信息技术的发展,大数据(Big Data)时代的到来为大数据审计的开展带来了机遇和挑战。因为随着被审计单位信息化的日益普及,审计对象的信息化使得审计信息化成为必然,审计信息化对审计人员和审计工作的开展也因此提出了更高的要求。对我国来说,在信息化环境下如何审计被审计单位的电子数据,发现大案、要案,是国家审计的一项重要任务。本文将通过研究R分析数据时的原理,同时与其他分析工具进行比较,总结R自身特点以及优势,探究R在实施大数据审计中的实际应用价值,为审计人员更直观地分析大数据提供支持。

1 大数据审计的主要技术方法

1.1 大数据技术的分类

由于信息化水平的提高,国家审计人员能否获得审计线索越来越依赖于他们所接触到的被审计单位数据,因为在分析数据过程中,审计人员通过对数据的筛查、比对和分析,可以通过发现明显不同寻常的数据或分析数据之间的相关关系,进而获得审计线索或确立审计重点,而因此提高审计效率效果。而相关审计线索的获得依赖于大数据技术的应用。总的来说,大数据技术主要分为8类:数据采集、数据存储、基础架构、数据处理、统计分析、数据挖掘、模型预测以及结果呈现。

而按照不同的计算模式,大数据技术又可以以批处理、流处理以及交互分析分为三类。

1.1.1 离线批处理(Batch Processing)技术

批处理是指数据分析者将一批作业提交给操作系统后就不再干预,由操作系统控制它们自动运行。这类数据处理技术以MapReduce和Hadoop系统为代表。

1.1.2 实时流处理(Stream Processing)技术

流处理是应对流数据(大多是日志流)实时分析的数据处理模式,包括数据实时采集到数据实时计算,以及最终实现实时查询服务三个阶段,代表系统有Yahoo的S4系统、Twitter的Storm系统等。

1.1.3 交互式分析(Interactive Analysis)技术

应用交互式分析技术可允许使用者以图表的方式查询、比较以及分析数据,方便数据使用者更直观地获取数据所传达的信息,具有前瞻性,以谷歌的Dremel系统、R等为代表。

大数据技术众多,大数据分析工具更是不胜枚举。本文旨在针对大数据可视化技术,对R语言的原理、特点等进行分析,特别是探索其在审计领域中对数据可视化方面的实际应用价值。

众所周知,伴随着信息化水平的不断提高,大数据时代的不可逆转,审计人员面对着日益庞杂的数据,如何从已获得的原始数据中提炼分析其背后隐藏的信息,获得所需要的审计证据,这成为当今审计工作的热议话题。包括笔者有幸参与的审计署驻济南特派员办事处的审计工作中,在开展审计项目时,审计项目组会成立专门的数据分析组,同时审计人员都首先从数据分析过程中查找问题,并因此作为审计线索或确立审计重点,为后续的审计工作树立了更明确的目标。

可视化技术是大数据应用的重点之一。研究表明,人类从外界获得的信息约有80%以上来自于视觉系统,当大数据以图形的方式直观地呈现在审计人员面前时,无论从审计效率还是审计效果角度来说,二者都得到进一步的提高,可视化审计分析方式能够以其直观的展现方式帮助审计人员快速有效地交互分析大量的数据,所提供的洞察力有助于审计人员更快、更准确地从复杂的被审计数据中发现审计线索。

2 R语言的原理、特点及其优势

2.1 R语言进行数据分析的原理

R(官网:http://www.r-project.org)是S语言(S语言是由AT&T?贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言)的一种实现,最初S语言的实现版本主要是S-PLUS,但S-PLUS作为一种商业统计软件,因其昂贵的价格并不被广泛接受。后来由Auckland大学的Robert Gentleman和Ross Ihaka及其他志愿者开发出R语言,作为S语言的另一种实现并免费供数据分析者使用共享。此外,R作为软件包统计软件,目前已包含多达5 000+的包(packages)供使用者选择运行不同功能。同时任何人都可以在R平台开发包,提交给R语言官方,通过测试后便可发布网络供全球的R语言使用者分享。包的功能包罗万象,涵盖数学算法、数据挖掘、生物学、社会学、神经网络等不同领域,可在镜像(CRAN)上根据需要自行下载使用,CRAN除了可以下载R本身软件包以外,也可以下载各种扩展包。

图1描述了数据分析的基本流程以及各个环节所需的基础技术方法,以图示箭头方向,首先通过对原始数据的获取,储存至数据仓库或者数据集市(指规模较小的数据仓库)中,之后利用统计学、查询等分析方法,进行数据挖掘,获取重要信息,展现最终结果,比如可视化技术的应用,以图表或者报表的呈现方式供信息使用者进行分析决策。而数据分析与数据挖掘的最大区别在于:前者所应用的统计学方法清楚,分析目标比较明确,而后者因为其目标、技术、手段等的模糊而增大了处理难度。

R进行数据分析时,主要涉及图1中,数据分析—数据挖掘—数据展示三个步骤。在进入大数据时代的今天,R能将其分析结果通过图形方式展现,因其强大的数据可视化功能而备受关注。

2.2 R语言的特点及其处理大数据的优势

在2016年第17届KDNuggets网站(数据挖掘的专业网站,专门用于大数据、数据挖掘以及分析信息等方面知识共享)年度投票选举最佳数据分析软件中,所抛出的一个问题:在过去的12个月中,你所使用的用于数据分析、数据挖掘、数据科学、机器学习等项目的分析工具是什么?该项投票吸引了很多参与者,包括数据分析和数据挖掘等社区网站的学者专家以及一些软件供应商等,参与的2 895人将从多达102种不同软件的列表中选出他们所青睐使用的工具。相比较Python、SQL、Excel等常用统计软件,R以49%的投票结果高居榜首,2015年KDNuggets网站投票结果中,R同样成为最受青睐的数据分析工具。

虽然选取的参与人群或者选取规模可能在一定程度上有失偏颇,但其投票结果毕竟代表了在数据分析、数据挖掘领域的分析工具的不同流行程度,尤其在语言角度代表了某一人群的使用偏好。从投票结果来看,R以大比重的优势稳居第一,与其强大的数据分析以及数据可视化能力是分不开的。

大数据时代,海量的政府服务数据在云端汇集,层出不穷的大数据使得审计人员在开展审计工作时很容易就陷入信息盲区。如何有效处理和理解这些数据,成为人们无法回避的挑战之一。目前市场上存在各种挖掘软件,主流的商用挖掘工具如Unica、SAS/EM、Insightful Miner、IBM IM和SPSS等,这些软件面向通用挖掘问题,功能较为完善,具备较好的性能。但一般都存在可扩展性不强、成本较高等缺点。同时,目前市场上也还没有针对审计专用的可视化数据分析软件,当前可视化数据分析软件往往侧重于具体的应用领域。比如Excel操作简单,提供了基本二维图形分析能力,但能处理的数据量有限。而R软件是一款集成了数据操作、统计和可视化功能的优秀开源软件,有效克服了商用数据挖掘工具的缺点,同时具备强大的数据可视展现能力。R软件的一大优势是分析人员可利用简单的R程序语言描述处理过程,构建强大的分析功能,并应用其可视化技术以更直观地方式展示分析结果。总结来说,R具备以下特征:

(1)R是完全免费的共享资源。由于日前数据的急速膨胀,对数据分析工具的需求也随之增长,但市场上一些商业软件由于其高昂的价格常常让许多数据分析者望而却步。R语言作为免费资源,同时以其强大的数据分析以及图表展现的强大功能而广受好评;

(2)R 软件有RGui和RStudio两种不同的常用界面,足以满足不同数据分析者的使用偏好。与RGui比较而言,RStudio的使用界面相对较为友好,使用也较为方便,而RGui界面则较为精简,使用者能够依据自身喜好进行不同选择。

(3)R的软件包短小精悍,R只需占50Mb左右的内存,相比之下,很多商业统计软件都非常庞大,下载有2-3G之大,占较多内存空间的同时,给系统运行也带来一定负荷。

(4)R作为开源软件,开放性好,此外,R与其他程序的兼容性也非常理想。比如,使用者可通过C语言、Java开发R的一些子程序,这些子程序又可在R里面无障碍运行。同时,R的开放性也反映在具有不同功能的包上,比如目前同样使用广泛的具有强大查询功能的SQL语句,对于有SQL背景的R语言学习者而言,R的sqldf包可帮助使用者在R中使用SQL命令。此外,R的函数和各种包的透明性极好,使用者只需调出各种包的使用说明,便可掌握该包的基础运行操作。

(5)作为本就专门为统计和数据分析目的而开发的R软件,除了具备各种强大的不同功能的包以及函数帮助运行程序进行数据分析之外,R还可绘出很多漂亮且灵活的图形,具备强大的可视化功能,为便利使用者更直观地分析数据。

R的可视化功能强大源于其拥有众多的绘图软件包,比如被广泛接受且使用的“ggplot2”包。“ggplot2”由一系列独立的图形部件组成,并能以多种不同的方式进行组合,这使得“ggplot2”不会局限于一些已经定义好的统计图形,而是可以根据使用者不同的需要量身定做。在具备绘制很多美观的图形之外,“ggplot2”还可以避免诸多繁琐的细节,例如添加图例等。用“ggplot2”绘图时,图形的每个部分可以依次进行构建,之后还可以进行编辑。此外,“ggplot2”还精心挑选了一系列预设图形,因此在大部分的情形下使用者可以快速地绘制出许多高质量的图形。如果在格式上还有额外的需求,也可以利用“ggplot2”中的主题系统进行定制。R因其功能强大、设计人性化的软件包,使得R在实际应用中作为数据可视化的工具越来越被数据分析者所广泛认同及青睐。

在数据日益庞杂的今天,审计领域也受到大数据的冲击。如果审计人员掌握数据可视化技术,从视觉角度直观感知,利用图形展现数据之间相关关系,更能做到对获取的数据一个整体、宏观的把握。而R语言就作为一门专门用于统计计算和作图的工具,能够满足审计人员对于数据分析的诸多基础预期。通过R的数据可视化处理技术可将被审计数据转化为审计人员可以分析观察的图形和图像,同时审计人员再结合自己的审计背景知识,通过视觉系统对可视化的图形和图像进行分析、观察和认知,从而从总体上系统地理解和分析被审计数据的内涵和特征。另外,审计人员交互地改变输出的可视化图形和图像,从不同的方面获得对被审计数据的理解,从而全面地分析被审计数据。

3 结 语

由于经济社会的不断发展,数据可视化技术的优势及其需求被不断放大,同样,在审计领域,也越来越受到国家审计的高度重视。笔者在参与的多个审计署视频会议以及工作培训中,培训中都谈到R语言在可视化方面所创造的巨大价值,在实际审计应用工作中,审计人员通过R语言建模,对数据分析结果所绘制出的精美图形,足以让人眼前一亮,审计线索也更加清晰明了,无疑给审计工作的开展提供了强有力的支持。当然,R语言拥有众多其他统计软件无法匹及的优势之外,也有自身固有的缺陷,但它与其他工具之间良好的兼容性足以弥补这些不足,而且R独特且堪称完美的数据可视化功能也足以使其成为数据分析者青睐的理由。虽然,日前R语言应用于审计实践的案例还不是很多,但有理由相信,它完全可以凭借其势不可当的优势在审计行业中得到越来越多的推广与使用。

主要参考文献

[1]陈伟.计算机辅助审计原理及应用[M].北京:清华大学出版社,2016.

[2]陈明奇.大数据国家发展战略呼之欲出——中美两国大数据发展战略对比分析[J].人民论坛,2013(15):28-29.

[3]张卓,宣蕾,郝树勇.可视化技术研究与比较[J].软件学报,2003(10):1717-1727.

[4]任磊,杜一,马帅,等.大数据可视分析综述[J].软件学报,2014(9):1909-1936.

[5]陈伟,SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016(1):8-13.

猜你喜欢
数据可视化大数据
移动可视化架构与关键技术综述
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
数据可视化概念研究
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究