巧用八爪鱼采集器开展政务公开审计

2019-12-04 05:17丹江口市审计局
审计月刊 2019年11期
关键词:翻页采集器列表

◆吴 涛/丹江口市审计局

随着政务公开的逐步推行,今后将有越来越多的信息会在网络上公开,审计部门数据采集的途径也将会发生改变,掌握一种网络数据采集工具将是每位审计人员必须具备的能力。在此,笔者以使用八爪鱼采集器开展部门预决算公开审计为例,简述思路和方法,供审计同仁参考。

一、应用背景

在开展丹江口市财政预决算政务信息公开审计过程中,审计人员发现所有预决算信息公开数据均由各预算单位按照财政部门要求上传到该市人民政府网站。由于各预算单位上传时间先后不一,且该版块还公开有其它信息,审计取证时需要审计人员逐一核对统计出预决算公开的数量、时间及内容,工作强度较大。如图1所示。

图1 预算信息公开示例

二、工具介绍

八爪鱼采集器是一款通用型网页采集软件,采用可视化所现即所得操作,无需专业人员和编程能力,就可采集任意网页数据。并且可以将采集结果保存为EXCEL格式,便于根据审计需要进行数据处理。

三、应用步骤

步骤一:查看采集内容范围。打开信息公开网址(http://www.djk.gov.cn/zwgk/xxgkzl/xxgkml/?itemid=40498),找到待采集数据,并察看数据存放范围,发现2018年预算公开信息存放在第5-9页。

步骤二:打开八爪鱼采集器,输入数据存放网址。这里使用“自定义模式——使用向导模式采集”,在输入框中输入待采集数据存放网址。如图2所示。

图2 输入待采集数据网址

步骤三:选择采集网页类型。根据网页上数据保存的方式,选择采集的网页类型,如图3所示。此处是通过页面列表链接到详细页,因此选择“网页列表中每个链接页的详细内容”。

图3 选择采集网页类型

步骤四:链接列表信息采集。选中数据区域中的第一条信息,点击鼠标右键软件就会自动获取第一条链接信息,然后对第二条信息进行同样的操作,软件就自动获取该页全部链接信息。如图4所示。

图4 链接列表信息采集

步骤五:链接页翻页设置。根据前面对待采集数据观察可知,此处需要采集前9 页数据,因此选择“需要翻页”。用鼠标单击页面列表后面的指定“翻页按钮或链接”,并指定翻页9次后停止。如图5所示。

图5 链接页翻页设置

步骤六:详细页待采集字段设置。在打开的详细页里,在页面待采集项上点击鼠标右键选择采集字段。在这里由于存在附件,因此分别采集了附件名称和附件链接,进一步对附件内容进行审核。如图6所示。

图6 详细页待采集字段设置

步骤七:采集数据到EXCEL。选择“启动本地采集”即可采集网页数据,并将结果保存到EXCEL表格中。采集结果如图7所示。

图7 数据采集结果

步骤八:整理采集数据。对采集的数据按审计需求进一步整理,剔出无用数据,发现部分单位存在信息公开时间不符合规定,未上传信息公开规定的相关表格等问题。如图8所示。

图8 整理后的采集结果

四、存在不足

该工具虽然解决了审计人员批量获取网页数据的难点,但也存在以下不足:一是不能限定采集页面的起始范围,只能采集一定范围内的所有页面数据。二是不能自动过滤关键词,需对采集结果进行二次处理。三是只能抓取附件名称和链接,而不能自动下载附件。

猜你喜欢
翻页采集器列表
树一直在旅行(外一首)
COVID-19大便标本采集器的设计及应用
学习运用列表法
扩列吧
打字机
让“翻页”成为艺术
基于Cortex-M4的油气管道微功耗数据采集器软件设计应用
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
自动翻页乐谱架