可视化分析技术在审计中的应用构想

2021-07-30 05:43邱灵峰
中国管理信息化 2021年12期
关键词:模型库结构化数据中心

肖 茂,邱灵峰

(1.中国人民解放军陆军勤务学院,重庆 401331;2.重庆市梁平区审计局,重庆 405200)

0 引言

随着信息技术的飞速发展,各行业都在新技术的推动下积极推进自身数字化、智能化转型,产生的数据量越来越大。面对海量电子数据,传统的验证型审计方式并不能满足审计工作扩大审计广度、审计深度的发展需求,审计工作需要向探索型、发掘型审计方式转变,而可视化分析技术不失为一种可行途径[1]。可视化分析技术能够以其直观的展现方式帮助审计人员交互分析大量数据,通过采用不同的可视化分析技术来揭示数据的分布、趋势或相关性,审计人员可以更快地从复杂数据中发现疑点线索[2]。可视化分析技术作为一种新的审计数据分析技术,研究其在审计领域的应用,对审计人员在大数据时代工作的开展有重要意义。

1 可视化分析技术的概念

从可视化分析技术的本质属性来看,审计领域应用可视化分析的主要目标是帮助审计人员获得更好的见解,得出更好的结论并最终产生假设。在对可视化分析技术本质属性理解的基础上,可视化分析技术的概念可以做如下概括。一是指信息技术层面,支持分析过程的人机交互方式与技术。可视化分析主要指依托一定的工具(分析平台、软件或者编程语言)来实现对电子数据的可视化分析。二是指经验或知识层面,有效融合计算机的计算能力和人的认知能力,基于实务工作的总结提炼而出的分析方法、模型、技巧[3]。

2 审计领域应用可视化分析技术的需求分析

随着信息技术在各行各业的推广应用,年度审计工作中需要采集的数据也越来越多,根据数据采集的类型,可以将数据分为两类,即结构化数据与非结构化数据。

2.1 结构化数据审计对可视化分析技术的需求

结构化数据即行数据,以固定格式存储在数据库里。它通常包括弹性分布式数据集和表格数据。随着审计监督的广度和深度越来越大,采集的数据越来越多,传统的审计方法手段不足以应对审计深度发展的要求,审计数据分析的信息化手段必然要得到补充和加强。对此,可视化分析技术不失为一种解决方案,通过以能够吸引人类认知和视觉能力的方式呈现信息,可以减少处理和分析大数据相关的信息过载的影响。此外,通过利用数据可视化的解释性和探索性,审计人员可以在探索过程中获得更好的见解,并在解释过程中实现更有效的信息传达。

2.2 非结构化数据审计对可视化分析技术的需求

非结构化数据是指信息没有以一个可用的预设数据模型或没有以一个预设好的定义方式来排列。内容上包括所有格式的办公文档、各类报表、图文、图像以及音视频信息等。

随着审计领域工作的不断拓展深入,尤其是在政府审计领域中的经济责任审计工作中,审计内容覆盖了领导干部任职期间履行经济管理责任的众多情况,需要查阅大量文档、文本或者纸面记录,这些都是非结构化的数据。传统的审计查阅方式主要是通过大量阅读来发现问题线索或者依据此来评价领导干部依法履职尽责的情况,主观性强。但随着被监督者的法纪意识不断增强,审计评价在这方面的说服力略显不足。通过引入可视化分析技术,运用其中的文本可视化分析方法,可以在这一方面有所突破。通过将这些文件记录进行可视化分析,可以直观地展示领导干部研究经济工作的重点内容和频率等情况。

3 可视化分析技术在审计中的应用目标

可视化分析技术在审计中的应用目标可以分为两类,一类是信息技术层面的目标,主要是实现分析工具平台化和分析过程智能化;另一类是知识或思维层面的目标,主要是实现分析方法模型化。

3.1 分析工具平台化

分析工具平台化,即可视化分析技术在审计中应用的远景目标,其要求构建起审计可视化分析平台,使可视化分析技术集成到软件内作为一个单独模块嵌入该平台。考虑到审计实际的发展,该平台的开发应综合考虑联网(因特网或专网)和单机(物理隔离或小范围局域网)应用两种环境。联网应用是在审计数据中心建立的基础上,以审计数据中心的数据为数据源,审计人员可以依托网络开展在线的数据可视化分析。单机应用主要是考虑到部分被审计单位信息化支持程度不高,在保持平台主体功能设计不变的情况下,将该平台搭建在单个服务器上,便于审计人员在现场审计过程中运用可视化分析技术开展审计工作。

3.2 分析过程智能化

进一步应用可视化分析技术的目标是实现分析过程智能化,也就是将机器学习中的异常检测技术应用于联网环境下的审计可视化分析平台中,实现可视化分析过程的智能化。异常检测技术是一种用来发现欺诈情况,也就是识别某一用户/群体行为不符合预期模式的技术,在审计中可以结合可视化分析技术运用的场景主要有两种。一种是审计人员通过采集某一类项目或者某一类业务的数据,利用可视化分析技术来发现数据的特征,如相关数据的走势情况,之后通过构建相关异常检测模型来发现疑点;另一种是在特征尚未发现的情况下,通过利用高斯分布来构建异常检测算法,再利用可视化分析技术来观察需检测数据在带入异常检测算法后的离群情况,从而判断是否属于异常数据。

3.3 分析方法模型化

分析方法模型化,就是将成熟的可视化分析技术应用方法用数据公式或图形等形式显示出来。可视化分析模型是通过R、Python 等编程语言或者审计可视化分析平台对成熟的可视化分析思路所进行的固化,可视化分析模型库是来自不同审计事项可视化分析模型的集合。建立可视化分析模型库与可视化分析作为探索性分析的本质并不冲突,模型库的作用是将审计人员成熟的审计经验、审计方法通过信息技术固定下来,以便在今后的审计项目中直接调用,节省审计项目用时,便于快速发现审计疑点线索,其本质仍是对数据的一种探索性分析(因为分析的结果是不确定的),只是建立在前人探索经验的基础上。模型库必须是可扩展且保持动态更新的,因为随着审计人员对数据的了解,随着审计整体数据分析能力的提升,势必会涌现出更多的分析模型。

4 可视化分析技术在审计中的应用原则

可视化分析技术在审计中的应用原则主要是安全性、灵活性、可交互性、可扩展性[4]。

4.1 安全性

安全性应用原则主要出于对数据分析平台应用系统性风险的考虑。随着审计技术方法体系的不断更新,对数据的采集要求越来越高,数据采集量也不断增加,数据分析过程中的安全影响因素也日益增加,主要体现在3 个方面:一是数据访问的安全性;二是电子数据存储的安全性;三是数据管理的安全性。

4.2 灵活性

灵活性应用原则主要出于数据采集的考虑,主要体现在两个方面。一是数据采集方式的灵活性,数据分析平台需要在联网和单机两种环境中使用,需要考虑联网采集和人工采集两种方式的需要;二是数据接口的灵活性,各种信息系统产生的数据其数据结构不一,数据分析平台需要根据不同的数据结构,采取不同的数据采集接口,确保采集数据归档后的标准化,同时从联网审计的角度考虑,数据接口的灵活性也是数据采集自动化的基础之一。

4.3 可交互性

可交互性主要出于可视化分析其探索性分析的本质,它需要交互式的可视化界面来辅助审计人员对复杂、大量的数据进行探索性分析和推理,主要体现在两个方面:一是需要通过交互性探索来发现某一类业务的数据特征;二是需要通过交互性探索来从数据中发现异常值。这也是可视化分析技术能够成功应用的必然要求。

4.4 可扩展性

可扩展性主要是从数据分析平台建设的长久性出发考虑,其主要体现在3个方面。一是审计思路和模型的扩展。在可视化分析应用的目标中,有一个重要的部分就是可视化分析模型库,审计人员在将其应用于实践时,可以根据具体情况提出优化完善的建议,同时,对于未来审计工作中总结出来的成熟可推广的可视化分析思路和可视化分析模型,需要及时添加到可视化分析模型库中。二是数据采集接口的扩展。在确保数据采集标准统一的前提下,要兼顾考虑各行业信息系统逐步发展的实际,数据采集接口要能够适应未来审计需求,在最初建立时就要考虑为未来的数据采集留有空间。三是审计数据中心的物理扩展。随着采集数据的不断增加和可视化分析模型库的不断扩充,今后审计人员面对的将是海量数据和大型算法模型库,为保证平台运行的稳定性和效率,在建设过程中势必要留有更新及扩展的余地。

5 可视化分析技术在审计中应用的框架设计

基于上文提及的可视化分析技术在审计中应用的目标和原则,对可视化分析技术在审计中应用的框架做初步探讨。

5.1 应用的主体框架

可视化分析技术在审计中的应用主要体现在审计可视化分析平台的构建方面。审计可视化分析平台架构按照数据采集与存储、数据处理和数据分析的思路来设计,主要包含3 个层面:一是发挥数据支撑层作用的审计数据中心,二是发挥数据管理层作用的分布式搜索引擎,三是发挥技术应用层作用的可视化分析软件[5]。同时,数据安全和标准规范体系作为必须遵守的要求贯穿其中。具体结构如图1所示。

图1 审计可视化分析平台

5.2 审计可视化分析平台的具体功能

5.2.1 审计数据中心的功能

数据中心主要进行数据的采集与存储,采集到的数据需要基于ETL(即Extract、Transform、Load)工具进行标准化处理后存入相应类型数据库中。数据采集的来源主要有两类。一是从各行业业务系统中导出的数据,基本上都是结构化数据;二是从线下收集的各类办公文档、图件、各类报表、音频等资料。数据存储主要依托两类数据库,一类是关系型数据库,是指采用了关系模型来组织数据的数据库,主要代表有SQL Sever、Oracle、Mysql 等,主要用来存储经过ETL 工具处理后的结构化数据;另一类是Nosql 非关系型数据库,基于键值对来存储,结构不固定,主要代表有MongoDB、CouchDB 和Redis等,主要用来储存经过处理后的非结构化数据。

5.2.2 分布式搜索引擎的功能

搜索引擎采用分布式架构,既可以部署在数据中心,供数据中心数据分析团队使用,也可以部署在移动端,通过个人电脑调用数据中心的数据。分布式搜索引擎应该具有两个功能:一是全类型数据搜索功能,也就是不仅要能够搜索结构化数据,也要能够建立算法实行非结构化数据的搜索;二是主题数据聚合功能,也就是建立审计业务所需的主题数据库或索引,在通过搜索功能从数据中心调出所需要的数据库后,利用数据聚合功能,建成可供可视化分析使用的主题数据库,建成的主题数据库一般存储在移动端,以确保源头数据不可更改,下一步可视化分析则可以直接调用该主题数据库。

5.2.3 可视化分析软件的功能

可视化分析软件主要由可视化分析模型库、机器学习模块、可视化交互分析界面组成。

可视化分析模型库可以分为集成可视化分析仪表盘和单个可视化分析模型。集成可视化分析仪表盘是指根据审计事项的不同,将某一事项下使用可视化分析技术模型固化下来,通过设计优化相关链路,以实现单类审计事项所涵盖业务的动态实时可视化分析。单个可视化分析模型,主要是在个人客户端调用,方便审计现场作业,减轻现场作业工作量。

机器学习模块,目前设想主要是通过使用经过处理的正向数据来发现某些单位或某些事项的共同特征,并据此建立优化异常检测算法模型,通过与集成可视化分析仪表盘的结合使用,可以在数据中心实现异常数据的实时监测发现。

可视化交互分析界面提供一个操作环境,数据分析人员通过筛选器对分析界面的横纵坐标分别定义不同的对象,再辅以相对应的可视化图形库,通过调用这些相对应的图形来观察数据的趋势和发现离群值。在进行交互分析时,不同结构的数据需要使用不同的可视化分析技术。可供使用的结构化数据可视化分析技术比较多,有折线图、热力图、散点图、饼图等;可供使用的非结构化数据可视化分析技术比较少,目前应用的领域主要集中在文本类数据的分析上,主要使用的是标签云技术。

同时需要指出的是,数据安全和标准规范体系需要贯穿整个平台。为了保证数据分析安全,必须建立相应的安全规范,对数据的调用、数据的存储、处理权限、访问权限等做出体系化设计;对于数据采集标准,可供参考的有2019 年审计署通过国际标准化组织发布的“审计数据采集”国际标准。

6 结语

当前,可视化分析技术在审计中的应用还处于初步探索阶段,在审计实务中应用还不多,主要是受制于审计人员自身素质和信息技术发展的影响。为使可视化分析技术在审计中的应用能够平滑展开,可以首先在审计人员比较熟悉的Excel 软件中推广使用数据透视图功能进行可视化分析,之后逐步推广到使用R 语言、Python 等编程工具进行可视化分析,待审计人员信息化素质以及信息技术发展到一定阶段后,审计可视化分析平台的应用会是大数据环境下审计数据分析领域不可或缺的工具。

猜你喜欢
模型库结构化数据中心
酒泉云计算大数据中心
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
民航绿色云数据中心PUE控制
基于模型库系统的金融体系流动性风险预警机制研究
基于图模型的通用半结构化数据检索
基于云计算的交通运输数据中心实现与应用
基于模型库的现代成本会计计量系统研究
Overlay Network技术在云计算数据中心中的应用
基于软信息的结构化转换