网络爬虫技术在大数据审计中的应用

2019-05-31 01:43张露
合作经济与科技 2019年7期
关键词:网络爬虫数据采集

张露

[提要] 在大数据审计面临着诸多机遇和挑战的大背景下,有效清晰的数据在审计过程中发挥着重大作用,本文分析不同的审计数据的特点以及采集审计数据的方法。在传统数据采集方法基础上研究如何基于Python利用网络爬虫采集审计数据,以为大数据审计技术的发展提供支持。

关键词:网络爬虫;数据采集;审计分析;Python

本文为2017年安徽财贸职业学院“内涵提升全员行动计划”科学研究项目(人文社科):“大数据在审计分析程序中的运用研究”(项目编号:2017nhrwc15)

中图分类号:F239 文献标识码:A

收录日期:2019年1月18日

一、引言

无论是国家审计还是民间审计,在当今社会经济发展过程中都起到了十分重要的作用,为经济发展“保驾护航”。大数据目前也是各国研究的重点和热点,并将大数据的研究和应用上升到了战略层次。美国注册会计师协会(AICPA)在2014年就对大数据可能对审计产生的影响进行了分析。在全球信息化的大背景下,如何利用大数据降低审计风险,提高审计效率仍然是一个非常重要的命题。2015年中共中央办公厅、国务院办公厅《关于完善审计制度若干重大问题的框架意见》及配套文件中明确提出“构建大数据审计工作模式,构建国家审计数据系统和数字化审计平台,探索建立审计实时监督系统,实施联网审计”。刘国城、王会金(2017)将大数据审计平台分拆为采集、预处理、分析和可视化四个子平台,基于方法支撑、过程建模和运行机理等方面对各个子平台作以专项研究,旨在为大数据审计实践提供建设性思路。秦荣生(2014)指出大数据、云计算技术的产生和发展,正在逐渐影响审计技术和方法的发展。

大数据具有数据体量巨大、处理速度快、数量种类多和商业价值高的特点。被审计对象的信息化促使审计人员在审计方法上更加的信息化,如果将这些大量的、散落的、无序的数据进行集中化、结构化,将其变成能够方便获得可读取的审计数据,并通过审计分析程序发现更加有效和清晰的审计线索,那么大数据将会发挥重大的商业价值。由此可见,数据是审计分析的重要前提,获取高质量数据往往能够帮助审计人员快速发现风险点进行应对,大大提高审计的效率和效果。目前,尚未有成熟的审计大数据收集与整理技术,这影响了大数据在审计中使用的效率。本文将基于目前大数据的研究现状,主要探讨审计人员应当如何利用网络爬虫技术从网络渠道获取所需审计数据,从而扩充审计数据的范围,获得更多的审计线索,提高审计分析效果。

二、审计大数据采集分析

(一)审计大数据类型。大数据审计区别于传统的审计模式,传统审计模式倾向于依据被审计单位提供的相关资料去鉴证其是否真实可靠。而大数据审计是一种实时审计,强调审计人员应当主动地去获取企业内部和企业外部的数据,企业内部的业务数据主要依靠被审计单位提供,而外部数据,比如法律、银行、税务、供应商、客户、物流等其他数据需要审计人员去挖掘和分析。从目前来看,审计大数据可以分为两类:一类是结构化数据,它由明确定义的数据类型组成,比如数字、货币、日期等,其模式可以使其易于搜索。这种数据一般储存在数据库里,比如企业ERP系统中的销售数据、生产数据、财务数据等;另一类是非结构化数据,是指那些不方便用数据库二维逻辑来表现的数据,如办公文档、文本、图片、HTML图像等,审计人员需要的外部数据以非结构化数据类型居多。

图1 基于Python 的网络爬虫代码示例

(二)审计大数据采集方法

1、直接拷贝读取。审计人员首先判断出自己需要的审计数据,然后根据被审计单位使用的财务软件(如金蝶、用友)的使用特点,利用软件数据库已经预设好的指令去提取转换审计人员所需要的数据,并将其保存为Excel等格式。

2、开放数据互联(ODBC)。如果被审计单位与审计人员使用的是可以对接的数据库,可以通过相关的数据访问接口访问被审计单位所使用的业务系统数据库,并将数据进行还原后转出,成为审计人员可以直接利用的数据。

3、中间文件采集。指审计人员与被审计单位约定好数据的格式,被审计单位按照要求将自己的相关数据转换成约定的格式,比如说文本文件格式,这种大部分数据库都能够直接读取的格式,从而省去了两种不同数据库对接的问题。

4、网上采集。除了被审计单位或者上级审计机关提供的相关数据以外,审计人员仍然需要从被审计单位外部获得相关的工商、税务、行业、媒体等公开数据以进行多方面的审计分析,这些数据并不是被直接提供的结构化数据,需要审计人员采用一定的方法从网上进行采集。

目前,审计数据采集大部分采用的是上述的前三种方法,往往依托一定的数据库基础,能够获得的信息大多基于被审计单位,最后一種网上采集数据的方法由于没有统一的方法和技术,耗费大量时间和经历,往往难以实现,这大大限制了审计人员进行审计分析的范围,同时也使审计的取证率难以达到预期,从某种程度上提高了审计风险。在大数据审计背景下,审计人员执行分析程序不能仅仅将眼光局限于内部数据,更应当从网络公开数据中获取更加全面的信息,但是这些信息大多以网页等格式存在,难以被审计人员直接用于分析,所以本文提出可以利用网络爬虫技术抓取网页上的信息,并整理成一定的格式,方便审计人员从海量数据中发现审计线索,使审计分析程序发挥更大的效用。

表1 基于Python 的网络爬虫结果示例

猜你喜欢
网络爬虫数据采集
炼铁厂铁量网页数据获取系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究