政府审计工作动态及趋势研究

2021-08-02 09:49黄佳佳吕捷李鹏伟
会计之友 2021年13期
关键词:计量分析

黄佳佳 吕捷 李鹏伟

【关键词】 审计署官网; 新闻文本; 计量分析; 主题分析; 主题河流; 审计工作重点

【中图分类号】 F239.44  【文献标识码】 A  【文章编号】 1004-5937(2021)13-0119-06

一、引言

随着信息技术的发展,人们想要获取与政府工作相关的最新、最权威信息,浏览政府网站或其微信公众号新闻是其中最有效的渠道。国家审计在国家治理过程中越来越重要,“中华人民共和国审计署”网站(以下简称“审计署官网”)作为传播政府审计信息的重要平台,其公开信息不仅保障了公民对各类审计结果公告的知情权,还可以为审计工作者带来最新动态讯息,帮助审计工作者明确工作发展方向,找准审计工作重心。人们只需打开“审计署官网”的页面,即可按需浏览网站公布的时政新闻、审计要闻、审计动态以及审计结果公告等板块信息,甚至可以将获取的信息通过网络共享给他人。在网站的公众互动模块中,人们还能够与政府机关的领导展开交流。可以说,审计署官网的新闻报道有助于引导人们理解我国审计制度和审计结果,也提高了政府审计信息的透明度及其在人民群众心中的形象。

与其他政府网站相类似,审计署官网的信息使用效率并不高[1]。这是由于该类网站具有新闻量大、更新速度快等特点,仅依靠人工阅读难以在有限时间内捕捉到重点信息;同时,网站中的新闻存量大、跨度时间长,人们很难在短时间内从中理清相关政策的发展脉络。因此,若能对网站平台上的所有新闻数据信息加以自动收集与智能分析,进一步挖掘其蕴含的内在价值,将能更好地发挥官方网站的信息宣传引导作用[2]。

为此,本文利用文本挖掘及可视化技术对审计署官网的所有新闻文本进行智能分析,以期总结归纳出政府审计在近年的审计工作重点及其变化趋势。具体来说,本文首先对审计署官网2015—2018年审计公开新闻信息进行统计,对比分析其在各时间段和涉及各省的发文量;其次运用LDA模型对新闻信息进行主题挖掘,总结归纳出审计工作的热点领域;最后利用Themeriver可视化技术[3]展示审计工作主题近三年来的演变,并对未来的政府审计工作重心进行预估。

二、文献综述

政府信息公开对提升政府沟通效率,保障人民群众参与权、知情权与监督权意义重大。在政府审计信息传递过程中,审计署官网发布的审计新闻能够降低信息的不对称性,提高审计工作透明度,有助于审计更好地发挥“免疫系统”功能[4]。

(一)关于政府审计公开信息的研究

我国学者对政府审计公开信息的研究开始较早。冯梅笑[5]收集了2000—2007年度审计公告并对其披露的审计实施情况进行了分析。肖瑞利[6]探讨了我国政府审计在信息公开的内容、质量和监督方面存在的问题。此外,李■帆[7]和李剑鋒[8]分别对政府审计公告和云南省审计厅公开信息进行理论分析并指出当前审计信息公开存在的问题,如公开观念落后、公开效果不够理想、审计建议针对性不强以及相关法律制度亟待完善等。在上述文献中,均对政府审计的发展提出了政策建议,如加大审计宣传力度、完善法律法规和公开机制等。

(二)关于文献计量法的研究

内容分析法[9]即将文本内容转化为定量表示,是研究政府政策、公开文献的重要研究方法。为充分利用已有信息,更好把握某一领域的发展方向和未来趋势,文献计量法被广泛运用在公开文本分析工作中,如学术文献、新闻报道等。文献计量法主要使用统计学和文本分析法对研究文献的文本量、词汇表达、主题内容、情感态度等特征进行计量分析。以审计文献研究为例,多数专家学者以CSSCI数据库中的政府审计论文为样本,利用CiteSpace技术对其进行文本挖掘,最后以知识图谱等可视化形式展现政府审计研究热点领域和变化趋势[10-11]。文献计量法还被运用在医学[12]、电子政务[13-14]、农业[15]等领域,主要通过收集相关文献,从论文作者、关键词、研究角度等方面总结该领域的研究热点和发展趋势。

尽管文献计量法已广泛运用于文献研究中,但很少运用在政府审计的公开信息中。当前对政府审计公开信息的研究主要以人工阅读和归纳为主,涉及的研究样本量较少,难以深入分析大规模长篇文本的语义信息及其之间的关联关系。本文以文献计量法中常用的统计技术和文本分析为手段,对较大规模的政府公开信息进行系统性分析,以期揭示我国政府审计网站在一个时期内公开发布的新闻报道在发文量、地理分布、报道内容等方面的现状以及在新闻内容的上关联性与时间上的延续性。

三、数据来源与领域词典构建

(一)新闻数据来源

审计署官网作为政府审计信息公开的重要门户网站,发布实时讯息,共享审计信息资源是其重要职责。本研究数据来源于审计署官网2015年1月至2018年10月公开的审计新闻信息,信息类别主要包括审计署新闻和审计公告结果及解读等。本文选取审计署官网而不是其他网站的新闻数据主要是基于以下考虑:(1)审计署官网新闻数据在政府审计领域权威性高、覆盖面广、影响力大、时间跨度长。该网站信息很大程度上代表了我国政府审计可公开的最重要信息和国家审计署的基本态度。(2)审计署官网新闻数据同时也汇聚了全国各地方政府的重要审计新闻动态和审计结果公告,这对全面了解全国各地的审计现状具有重要意义。

审计署官网包含“新闻频道”“公告报告”“审计之窗”“公共服务”“公众互动”等板块,其中“新闻频道”中的审计要闻和审计动态这两个子板块发布了该网站最主要的审计新闻实时讯息;“公告报告”中展示了中央和各地方的审计公告结果及解读。其他模块发布的讯息新闻价值较低或者与国家审计相关性较低,因而未纳入本文的数据采集范围。通过网络爬虫和网页自动化抽取技术,共收集了9 141条长度超过10个字符的审计新闻文本,约30MB大小,其中各类别所包含的新闻文本量如表1所示。

从表1中可以看到,审计动态子版块发布的新闻量最多,约占总新闻量的71.4%;其次是审计要闻,占比约为25.1%;而审计公告报告数量最少。另一方面,从新闻文本长度来看,审计公告报告文本较长、内容详实丰富,而审计要闻和审计动态的新闻文本相对短小。此外,本文还使用变异系数(即为标准差与平均文本长度的比值)来反映新闻文本长度的离散程度。可以看到,审计公告和审计要闻的文本变异系数较小,说明这类新闻文本的篇幅比较集中;而审计动态子板块中的新闻篇幅差距较大。

(二)领域词典构建

本文尝试利用自然语言处理技术来对审计新闻进行文本挖掘与主题演化分析,因而不可避免地涉及到文本预处理程序——分词与剔除停用词,即将原本语义连贯的句子分割成若干词汇(如“一直以来,审计在推进党风廉政建设和反腐败斗争中都发挥了重要的作用”分割成词汇“一直以来”“审计”“在”“推进”“党风廉政建设”“和”“反腐败”“斗争”“中”“都”“发挥”“了”“重要的”“作用”),并剔除其中不重要的词汇(如“在”“和”“中”“都”“了”等)。然而,由于审计文本具有领域特殊性,存在较多的专业词汇,如“党风廉政建设”“审计全覆盖”“保障性安居工程跟踪审计”等。当前常用的分词软件(如Jieba和Hanlp)往往无法识别出这些专业词汇,而是将其切割成若干个词汇,如“党风廉政建设”分割成“党风”“廉政”“建设”三个词。在文本分析过程中,这些零散词汇难以表达出原来专业术语的语义内涵,进而降低了后续文本分析的准确性。

为此,本文通过一種自动+人工的方法来构建审计领域词典。具体来说,首先从互联网中下载一批审计领域常用词汇并人工筛选,共获得约500个核心词汇,如“审计信息化”“政府审计”等;其次利用自动爬虫技术将这些词汇作为百度词条从百度百科中搜索该词条相关的超链接词汇来扩充领域词汇,如此进行3轮爬虫即可获得较大规模的领域词汇;再次通过审计领域专家人工浏览一遍剔除不相干词汇;最后共获得28 792个审计领域相关词汇。这批领域词汇将导入到分词软件的词典库中,使得审计文本可以按审计领域词汇进行分词。

四、研究结果与分析

本文主要从文献计量学角度利用统计分析和文本分析方法对收集到的审计新闻从如下3个角度进行分析:(1)这些审计新闻都涉及全国哪些省级行政区?不同省份涉及的新闻数量是否存在差异?(2)这些新闻都讨论了哪些审计工作主题?(3)这些审计主题各年所占新闻量之间是否存在差异?若存在差异,其是否代表了政府审计工作重点正在发生变化?

(一)全国审计新闻分布分析

审计署官网的新闻数量在一定程度上能够反映审计署信息资源的公开化程度,统计分析每月公开新闻数量能够让我们对审计署官网发布的新闻数据量建立直观认识。

从图1可以看出,从2015年1月至2018年10月,审计署官网每月平均公开的审计新闻数量为193条。审计新闻量整体呈平稳态势,没有呈现显著的直线上升或下降趋势。依照这一趋势来看,未来审计署官网公开信息数据量不会出现大幅度的增长。值得注意的是,由于审计工作的特殊性质,每年6月和12月是发布审计工作报告和审计结果报告的重要时间节点。因此6月和12月的审计新闻数量一般多于一年里的其他月份。

审计署官网发布的审计新闻涉及多个层级,其中涉及全国的新闻一般反映的是全国审计工作进展情况,而地方审计新闻反映各地的审计工作进展与成果。此外,受经济、政治等因素影响,审计署官网发布的各地方审计动态新闻数量在不同省份之间存在较大差异。为研究审计署官网所有新闻所涉及的省份分布,本文将所有新闻进行文本分词,并按标题和文本中所提及的省份或该省地区名称划分到各个省份中;最后利用SPSS数据分析软件,统计审计署官网新闻文本各省份的分布情况,如图2所示。

除了涉及全国的2 155条新闻及台湾省外,三年累计发布审计新闻数量最多的是湖北省,共计834条,发布数量最少的是澳门,三年共计5条。从图2中可以直观看出,经济发展水平较高的省份往往涉及较多的审计新闻。为进一步量化审计新闻数量与各省份GDP之间的关系,本文从国家统计局网站获取了2015—2018年各省份GDP数据并求均值,然后计算各省份GDP的4年均值与其审计新闻数量之间的Pearson相关系数。统计结果显示,在95%的置信度下,两者之间的相关系数为0.574,这说明各省份的经济水平与审计署官网上涉及该省份的新闻量呈现中等程度的正相关,经济发展水平越高的省份审计工作发展也处于领先位置。

(二)政府审计工作主题分析

为自动归纳政府审计在2015—2018年的工作重点,本文利用LDA(Latent Dirichlet Allocation)模型[16]对审计新闻文本进行主题聚类分析。LDA模型是文本分类/聚类中最常用的主题模型,该模型可将文本集中每个文本所表达的主题以概率分布形式给出,并将每个主题表示成一组词汇的概率分布形式。

针对本文收集到的审计新闻文本来说,先对所有文本进行分词和剔除停用词,然后实施LDA算法进行文本聚类。这里将聚类个数设置为50个,即认为所有新闻共包含50个主题。在多轮迭代计算后获得50个主题的词汇分布概率。由于这50个主题可能存在重复主题或无意义主题,因此根据主题词汇对其进行人工筛选,即合并表达类似含义的主题、剔除含义模糊的主题,最终一共得到13个主题类别。同时依据每个主题词的出现概率,选取出现概率最大的5个词汇作为每个主题的主题词并列示在表2中。在参考了国家审计署、审计数字在线等网站的各板块标签词汇后,本文根据每组主题词的含义为每个主题构建一个标签。

从表2可以看出,在所有审计工作主题中,党建廉政所占新闻报道的比例最高(26.09%),已成为了近年来政府审计工作的重点宣传内容。在该主题下,学习党章党规、领会会议精神是党建工作的重要内容。此外,审计管理改革相关新闻的占比位列第二(19.82%),这说明近年来政府审计重视审计内部管理体制改革,对“人财物”管理方面展开重组调整。而在审计业务方面,政府审计重点关注的类型有民生政策落实审计、自然资源资产离任审计、投资审计、经济责任审计以及精准扶贫审计。此外,政府审计在近年也注重科技创新驱动和审计信息化建设,利用先进信息技术提升数据分析能力。在实施审计过程中,收集分析数据是关键步骤,掌握数据分析技术有利于提高审计质量和效率。

为分析对比各主题在每个年份中新闻数量上的差异,图3展示了13类审计工作主题从2015—2018年每一年的新闻文本数量分布情况。总体来说,虽然各主题相关新闻文本量之间存在差异,但其各年分布较为平稳,只有党建廉政主题在2017年出现较大报道量。这是由于2017年为迎接党的十九大召开,包含审计署在内的各部门均重点强调了党风廉政建设。此外,精准扶贫审计和自然资源资产离任审计相关新闻量每一年都在小幅攀升,由此说明政府审计对这两种类型的审计业务关注度在不断上升。

(三)政府审计工作重点变化趋势分析

为进一步细致探究不同主题在各月份被讨论的数量,以期找出政府审计在2015—2018年间工作重点的变化趋势,本文利用主题河流(Themeriver)模型对政府审计工作主题进行可视化分析。Themeriver图主要利用“河流”宽度来表示文本数量,“河流”越宽,文本数量越大。不同的“河流”颜色代表了不同类型的主题。在图4中,用不同颜色区分各类政府审计工作主题,在某一时间点,某主题“河流”越宽,说明该时段政府审计越关注该主题的审计工作。

从图4中可以看出,审计创新、审计整改和审计全覆盖一直是这几年的审计工作重点,尽管该主题在不同时间段“河流”宽度会有所不同,但这两项审计工作内容贯穿于这四年的始终。与其他主题相比,这两个主题河流的平均宽度更宽,说明其受重视程度更高;此外,从“河流”的连续性来看,未出现“断流”现象,说明政府审计对审计创新和审计整改的关注保持了持续性。审计管理改革虽然出现了一小段时间的“断流”,但总体保持了稳定性。由此可见,审计系统内部体制改革并不是一蹴而就,而是要根据实际情况,不断摸索,找到适合审计自身的管理体制。自然资源资产离任审计是政府审计自2016年以来的一项全新工作,并逐步发展成为政府审计开展的重点业务之一。自然资源资产离任审计在“河流图”中出现的时间点与中央发布关于该项审计的试点实施方案的时间基本接近。精准扶贫审计是政府审计重点开展的另一项审计业务类型,从2016年下半年开始,逐渐成为政府审计关注的热点领域。虽然每月与其相关的信息量不大,说明该项工作进展比较缓慢,但是到了2018年8月以后,图4中显示的“河流”宽度逐渐变宽,呈现出加速发展的态势。

五、总结与展望

本文以2015—2018年审计署官网公开的审计新闻为研究对象,试图从中窥探近年来政府审计的基本政策方针及未来走势。为此,本文基于文献计量学理论,从文本内容分类、文本聚类分析与主题演化分析等角度进行定量研究,总结我国政府审计的工作重点和发展脉络,同时实现学科之间的交叉融合。在计量分析过程中,以自然语言处理为分析手段,涉及的研究样本体量较大、时间跨度较长,内容分析细致精准,使得对该类研究的深度和广度均有进一步提升。

对于政府审计未来工作重点发展方向,本文认为主要是在坚持审计机关自身廉政建设的前提下,重点开展自然资源资产离任审计以及民生政策落实审计;审计机关还需要加强审计技术、方式创新,实现审计信息化与智能化;在审计管理体制改革方面,仍然要结合自身实际情况,稳中求进,有所突破。

【参考文献】

[1] 张会平,梁鑫.政府网站信息提供与公众获取的演化博弈分析[J].现代情报,2014(34):6-9,24.

[2] 王兆丰.浅析大数据环境下政务信息公开的利弊[J].才智,2018(26):202-205.

[3] 张龙飞,姚中华,宋汉辰,等.基于Themeriver的可视化技术发展综述[J].系统仿真学报,2013(25):2091-2103.

[4] 郑小荣,周琦.中国政府审计网络媒体报道实证研究[J].会计之友,2018(15):146-152.

[5] 冯梅笑.政府审计信息公开现状探析[J].科技信息,2009(20):337-338.

[6] 肖瑞利.政府审计信息公开存在的问题与完善路径[J].会计之友,2014(25):88-90.

[7] 李■帆.省级政府审计信息公开问题研究——以云南省审计厅为例[D].昆明:云南大学硕士学位论文,2018.

[8] 李剑锋.国家审计结果公告现状及存在问题研究——基于2003—2015年审计结果公告的内容分析[D].厦门:厦门大学硕士学位论文,2017.

[9] 段尧清,尚婷,周密.我国政府信息公开政策十年演化分析[J].情报科学,2019(8):3-7,36.

[10] 陶梦玲.我国政府审计文献计量研究——基于1998—2018年CSSCI检索论文分析[J].江苏商论,2019(2):100-102.

[11]张莉.国家审计研究前沿热点演进的知识图谱分析 [J].财会月刊,2018(17):119-128.

[12] 傅建刚,罗海霞.2012—2017年PubMed收录包头地区医学文献计量分析[J].中国中医药图书情报杂志,2019(2):27-33.

[13] 胡承立,张韦.基于CSSCI的中国政府网站研究现状文献计量分析[J].中国中医药图书情报杂志,2011(12):159-165.

[14] 李永忠,蔡佳.基于LDA的国内电子政務研究主题演化及可视化分析[J].现代情报,2017(37):158-164.

[15] 樊改丽.基于CSSCI的中国政府网站研究现状文献计量分析[J].植物检疫,2018(4):18-25.

[16] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

猜你喜欢
计量分析
能源诅咒视角下成都经济区绿色发展研究
宝鸡文理学院科研论文计量分析
企业所得税会计新旧准则的变化分析
国内傩文化研究状况的计量分析
居民消费水平因素分析
我国财政收入与财政支出的实证关系研究
经济趋同的计量分析和收入分布动态研究
基于中国知网的Reissner—Nordstrom空间研究文献分析
国内移动用户行为研究热点与前沿
我国不同地区居民储蓄影响因素的实证分析