计算机技术在审计数据预处理中的应用

2014-01-29 02:37陈晓梅
太原城市职业技术学院学报 2014年12期
关键词:数据仓库数据挖掘预处理

陈晓梅

(三明学院外国语学院,福建 三明 365004)

随着信息化的快速发展和会计电算化的广泛普及,计算机审计逐渐步入人们的视野。特别是在审计署的金审工程之后,计算机审计得到充分的重视和广泛的应用。

在计算机审计实践中,对数据的处理至关重要,甚至决定着审计的成败。然而,计算机技术在实际审计中并未得到充分的运用,目前的审计软件仅仅把手工审计流程计算机化,没用充分利用先进的信息和数据处理技术,尚不能对源数据进行快速充分整合,更难以从原始数据中提取一些隐藏的信息。造成以上问题的原因有以下三个方面:一是被审计单位行业跨度大,审计人员拥有的经验和知识无法处理跨专业的问题;二是随着不同行业数据量的不断增长,审计经验往往落后于数据量增长的速度,审计经验与数据量增长的非同步性增加了审计失败的可能性;三是计算机审计技术和工具的落后,难以承担复杂、繁重的审计工作。

区别于传统的手工审计,采集完数据后如何运用计算机技术从庞大而零散甚至难以理解的数据中提取完整和有价值的信息(即运用计算机技术对审计数据进行预处理)是审计人员面临的最大困难,而这正是计算机审计成功的关键步骤。

一、审计数据预处理的必要性

审计数据预处理是指在完成对源数据采集后,对庞大、不完整的脏数据进行转化和清理,使之变成符合标准格式的审计初始数据,以满足审计数据分析的需要。审计数据预处理是把杂乱的数据整理成符合审计工具标准格式要求的数据,这个过程突出一个“预”字,是数据处理过程中的前提和准备。

随着计算机技术的发展,加之各行中业务方式的不同,实际市面上使用的会计软件种类繁多,由此形成的凭证的格式也各不相同。这就造成了审计软件与会计软件的数据格式不统一,给计算机审计带来了很大的困难。在进行计算机审计时,审计人员除了要面对会计软件的可审计性问题外,还必须按审计工具将会计软件中的数据变换格式。这不仅加大了审计人员的工作量,还存在数据输入的风险。由于系统的原因,在输入过程中难免造成数据的丢失与篡改。

数据的预处理清洗了现实中不完整的脏数据,为整个审计过程提供了完整的原始数据,提高了后续审计工作的效率,甚至直接或间接地影响了审计的效果。因此,对审计数据进行预处理是十分必要的,这为审计工作的顺利开展提供了可靠的保障。

二、计算机技术在审计数据预处理中的应用

充分运用现有技术,不断探索和完善审计数据预处理的技术,建立一套完整的数据预处理体系,对审计工作的开展有着深远的意义。根据权威标准,首先对原始会计数据的标准化输入和存储,以形成源数据。然后通过清理与集成,把源数据存入数据仓库;在联网专家系统的辅助下,形成标准格式的初始数据。最后进行数据挖掘,找出隐藏的信息,输出标准格式的审计初始数据,完成数据预处理。数据预处理过程如图1所示。

图1 数据预处理过程

1.利用网络,进行会计数据的标准化

虽然我国出台的《信息技术会计核算软件数据接口》规定了会计核算软件的数据接口要求,规范了文本格式和XML格式的数据接口,但仍存在一些盲点,不够完善。大多数商业财务软件没有考虑到与其他管理信息系统的数据兼容问题,因此也就难以实现数据的共享。如果从源头抓起,使原始会计数据的输入和存储标准化,将做到数据的完整、准确和减少冗余。

国家财政相关部门可以结合电子商务和ERP系统,共同建立一个共享的财务信息网站平台,根据不同行业的特点制定财务软件的标准,并分行业设计具有权威性的财务软件,采取对原始会计数据的标准化输入和存储。

用户根据自己行业选择并下载相应的财务软件,这些软件数据接口一致,采取统一的数据标准和格式,使得不同行业、部门可以实现数据共享。

这种具有强制性的国家财会软件标准规范了原始数据的输入和存储格式,保证了数据质量,减少了计算机审计过程中的数据处理工作,进而提高审计的效率和效果,为计算机审计提供强有力的支持和保障。

比如淘宝网就把阿里旺旺软件分为买家版和卖家版(如图2),用户根据自己身份下载需要的软件,买家版和卖家版相互间可以实现对接,共享数据和信息。

图2 阿里旺旺软件下载页面示意图

2.数据仓库的运用

现在数据可以存放在不同类型的数据库中,如SQL、ACCESS、ORACLE等,对这些异源数据进行有效整合,可以利用数据仓库技术。数据仓库是数据库技术的一种新型应用,它将多个异种源数据以一致的模式存储在单个站点,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理。数据仓库不同于现有的操作型数据库,它有效集成了对多个异构数据源,并按照主题进行了重组,是用于支持决策,面向分析型数据处理的新型数据库。

在数据仓库技术中,数据清理至关重要。它可能要占全过程60%的工作量,包含缺失值筛查和处理、异常值核查和处理、逻辑错误筛查和处理,还有数据格式的转换,最后输出完整、标准格式的数据。

数据库技术中运用最广的是SQL查询语言,它方便、快捷,操作简单,有着强大的查询功能。审计人员熟练掌握和运用SQL语言,能快速地筛选数据,提高数据预处理的效率和正确度。

例如:现有一个名为Name_income的表,如表1所示。

表1 Name_income

假设我们需要筛选当INCOME小于1000时的NAME和INCOME信息,并将输出结果根据INCOME由大到小排序,则输入以下SQL语言:

SELECTNAME,INCOME

FROM Name_income

WHERE INCOME<1000

ORDER BY INCOMEDESC

输出结果是:

NAME INCOME George 800 Abby 700

3.建立联网专家系统

专家系统是一个智能计算机程序系统,其内部含有各领域海量的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域的问题。专家系统根据某领域专家提供的知识和经验进行分析和判断,解决那些需要人工处理的复杂问题。

基于规则的产生式系统是目前实现专家系统知识运用的最基本方法,包括综合数据库、知识库和推理机三个主要部分,分别提供了世界范围内的事实和断言、“if,then”形式表达的知识规则,以及运用控制策略来寻找规则的程序。

总之,联网审计专家系统能够利用审计领域、会计领域、法律领域专家的知识和经验,对初始数据自动选择与转换,让审计软件与其自动核对、处理、审查,输出符合标准审计格式的数据。联网专家系统地开发和使用,对实现审计数据处理的智能化具有重要的意义。

4.运用数据挖掘技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊或随机的源数据中提取需要的、完整的,甚至是隐含在其中的有意义的信息和知识的过程。

数据挖掘通过自动化地分析每个数据,做出归纳性的推理和总结,从中挖掘出潜在的模式。其主要包括三个步骤:第一,数据准备,从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集合;第二,规律寻找,采用多种分析,在杂乱的源数据中寻找其隐含的规律;第三,规律表示,把规律以用户可视化的方式表示出来(如数据或图表)。

5.数据预处理过程利用人机交互界面

目前的计算机审计工作要求审计人员有较高的计算机知识和审计专业知识,但跨专业型人才又比较匮乏。运用人机界面设计技术可实现数据预处理过程中的人机交互,如运用对话框、填表等形式。这些操作简单易懂,比较直观,对审计人员的计算机水平要求也不高,这样可以充分发挥人机的各自特点,方便快捷地处理数据,提高工作效率。

根据审计工作的特性和任务,设计数据预处理过程中的人机交互可视化操作界面,必要时形成系统操作手册、训练文件和用户指南,实现操作的全面性和准确性。人机交互界面有多种实现类型,这些类型各有优缺点,如附表1所示。

在人机交互界面的运用方面做的最成功的是Windows窗口操作系统,它为DOS环境提供了通俗易懂、方便实用的图形用户界面。Windows的出现,极大地促进了计算机的普及,并为计算机技术的发展做出不可替代的贡献。把人机交互界面运用在计算机审计数据预处理过程中,简化审计人员的操作,是一个可行的方案。

随着计算机技术的快速发展,数据处理的技术也日新月异。计算机审计工作应以计算机技术为依托,充分利用信息处理技术,快速、高效、准确地预处理数据,为计算机审计提供强有力的工具和支持,不断提高审计工作的效率和效果,满足审计工作不断变化的需求。同时,随着计算机技术的不断进步,可以对审计行业特定的需求进行更匹配的定制,进一步完善和促进计算机审计的发展。

附表1 人机交互界面实现类型及其优缺点

[1]王媛.基于数据仓库与数据挖掘技术的计算机审计模型及其应用研究[D].东北财经大学硕士论文,2011.

[2]嵇俊康,金光华,李占国.会计数据和信息的标准化与充分利用[J].会计之友,2006(9).

[3]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2012.

[4]杜艳君,陈晨,李湉湉.大规模数据清理的相关问题与探讨[J].环境与健康杂志,2014(4).

[5]黄学琼.IPTV故障诊断专家系统设计[D].华南理工大学硕士论文,2012.

[6]林丽.数据挖掘技术在高校教务管理系统中的应用[J].轻工科技,2012(4).

猜你喜欢
数据仓库数据挖掘预处理
求解奇异线性系统的右预处理MINRES 方法
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
高COD二噻烷生产废水预处理研究
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据仓库的住房城乡建设信息系统整合研究
基于预处理MUSIC算法的分布式阵列DOA估计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
基于膜过滤的反渗透海水淡化预处理