大数据视角下的区域税收发展不平衡探析

2019-03-27 05:54孙存一谭荣华
商业研究 2019年3期
关键词:所得税税收样本

孙存一,谭荣华

(1.北京物资学院 物流学院,北京 101149;2.中国人民大学 财政金融学院,北京 100872)

内容提要:我国区域经济发展差距一定程度上体现在税收缺口的不平衡。本文选取中国31省份30多万规模以上工业数据,以适合大数据分析的机器学习作为核心算法,从税收流失的视角分析地区之间的税收差异。结果表明,在同等税收政策的前提下,省份之间的流失金额、流失率、流失户、流失户比差异明显。因此,税务机关应以“互联网+”以及大数据为契机,科学识别区域税收流失差异,促进区域税收征管平衡,保证经济税收的良性发展。

一、引言

税收缺口等同于税收流失,是税收理论值与实际值之间的差异。测度各地税收流失的大小,在一定程度上可以考察各地税收征收情况与国家统一标准之间的差距,从而衡量区域税收发展的差异。税收流失是国家、集体和个人之间利益分割问题,是行为主体对国家法律的遵从程度,基于区域研究税收流失并最大限度地降低区域税收差异,可以保证国家税收执法的刚性以及公平公正问题,有效地促进区域经济发展平衡,减缓区域经济差异扩大的趋势,保证经济社会的持续、稳定、健康发展。运用大数据科学测度税收流失额度,对于考察区域经济发展不平衡具有重要意义。

我国税收流失的测算方法日益丰富,分析视角逐渐从宏观、中观到微观,分析结果越来越精细。但是,由于税收流失测算方法理论较多,并未获得统一的意见,争议颇多,诸如:测算视角是否具有主观性,样本数据是否具有代表性,模型能否充分拟合复杂的现实条件等。互联网+、大数据、机器学习、人工智能作为新的科学技术力量,带来面向大数据的机器学习法。其优势体现在不需要对数据做主观假定,支持规模超大、关系错综复杂的数据信息。对于本文的研究,该方法有利于充分利用样本信息,构建出代表性强、拟合度高的税收经济关系模型;此外,模型以数据为导向,解析数据之间的相关性,自学习、自适应、自完善,适合涉税行为多样、财务核算复杂的大型企业。

二、样本数据

由数据到信息、由信息到知识、由知识到智慧是大数据分析的根本目标。机器学习法以数据为导向构建模型,自助检验模型的可靠性,然后进行外推预测,从这一点来讲,机器学习法不是针对经济理论而构建,有什么样的数据就有什么样的结论,所以我们必须要有足够的数据支撑,从大数据的角度来讲,涉税数据无处不在,主要区分为两种类型:一是主要描述企业的经营条件、业务范围、财务状况等的基本面数据;二是描述企业的交易行为、涉税行为等的行为数据。从现实的角度讲,还要考虑数据的可获得性以及数据的质量等问题。鉴于此,本文选择中国301961户工业规模以上企业的数据作为样本数据,包括登记信息、申报信息、征收信息、财务信息等基本面数据,数据的基本结构如表1所示。

表1得知,样本数据体量足够庞大,主要记载了纳税人的基本信息、财务状况、涉税记录等。抽取数值变量中的“营业收入、营业成本、销售费用”3个核心指标;分类变量中的“地域、行业、经济性质”3个重要维度,查看它们的分布状况,如图1所示。

表1 样本数据的基本结构表

注:表1中实际变量119个,限于篇幅不再一一列举。其中的经营活动、投资活动、筹资活动分别指的是经营活动、投资活动、筹资活动产生的现金流量,原始数据中变量使用了简称。

数据来源:规模以上工业企业年报(国家统计局)。

图1 核心指标的分布图

图1得知,数值变量的分布极不规则,根本不符合传统的正态分布;而分类变量的分布也不平衡,无法满足信息平衡的要求。单从以上两点看,传统的模型是无法使用的。大数据分析不能给数据做分布假定,以致背离客观事实,我们必须要从数据的随机特征出发,以归纳的思维得出结论。机器学习算法,通过解析数据之间的普遍联系,然后区分出观测值之间的差异,可以挖掘出复杂数据的规律,属于当前所认可的适合大数据分析的算法。基于以上数据,本文在测算中参与变量119个,经过上千余次的反复测试和修正,最终实现了对中国30万规模以上工业企业的税收流失指向明确、有一定可靠性的测算结果,在此基础上分析我国31个省份的税收流失率、税收流失户比等指标,推断出不同地域下中国的税收发展平衡问题。

三、研究设计

(一)理论基础

无论是国内、国外,基本上把“纳税人已缴税额与实际应纳税额之间的差额”,定义为“税收缺口”,又称之为税收流失。税收流失率、税收流失户比是衡量税收流失的两个重要指标,税收流失率计算公式是:(预测应纳税额-实际缴纳税额)/预测应纳税额*100%或流失金额/(流失金额+实际缴纳税额)*100%,税收流失户比计算公式是:存在流失金额的户数/总户数*100%。由以上公式得知,税收流失是基于税种的流失,考虑到企业所得税的财务关系明确,容易构建起理想的税收经济关系模型,本文选择测算的税种是企业所得税。

(二)测算方案

测算方案是以获得数据为出发点,以测算目标为导向,构建方法体系和遵循技术路径的选择,如图2所示。

图2 测算方案

从图2看以看出,税收流失测算的主要内容有4点:(1)确定待测总体;(2)选择方法和模型;(4)控制测算过程;(4)结果解析。基于联合建模的思路,机器学习算法出现在初筛、构建模型2个环节。形象的理解,首先,机器学习法通过初筛,筛选出表现较好的纳税人群体,即纳税遵从样本集。然后,基于纳税遵从的样本集,构建出“理想的”税收经济关系模型。在上述基础上,推断表现不好的纳税人群体,即纳税不遵从的样本集,预测纳税不遵从样本集可能存在的税收流失。

(三)变量设置

因变量:会计利润。计算企业所得税有直接法、间接法,在此我们在预测中采用的是“间接法”,即:应纳税所得额=会计利润+纳税调整增加额-纳税调整减少额;会计利润=收入-成本-期间费用(营业费用、管理费用、财务费用)。注意两点:一是为避免收入、成本和期间费用的重复预测,本文将会计利润作为附加变量进行预测,不再单独预测收入、成本以及期间费用,同时对会计利润进行预测更能体现出企业的共性,因为纳税调整增加(减少)额是针对个别企业、个别业务而执行的税收政策,企业虚假申报的机会较小。二是考虑到企业所得税预测的复杂性,本次预测仅预测会计利润,企业所得税流失额=(预测会计利润+纳税调整增加额-纳税调整减少额)*适用税率-(实际缴纳所得税额)*适用税率,如果报表勾稽关系正确的话,实际缴纳所得税额=申报会计利润+纳税调整增加额-纳税调整减少额,所以最终企业所得税的流失额=(预测会计利润-申报会计利润)*适用税率。

自变量:机器学习支持全样本、全变量参与,寻找的是数据之间的非线性关系。自变量为全变量,主要包括表1中的税务登记信息、申报信息、征收信息、财务信息等。考虑到数据缺少“实际缴纳企业所得税税额”,在计算税收流失额(率)的时候用“应交所得税”替代,如此也避免了由于减免税优惠、境外所得等企业个性差异对最终结果的影响。

(四)数据分组

一般来讲,同一时间、同一地区、同一行业、同一经济类型的企业会具有相似的经营条件、业务范围、财务状况、税收政策等,其所体现出的经济行为才具有同质性。所以对于大数据分析,数据分组非常重要。为保证理论税收在全国统一标准线上,避免按区域对数据分组。从哪一个维度入手,还需要结合数据的状况,考虑到经济性质相同的企业,财务状况上具有同质性,本文选择以“登记注册类型”(或经济性质)作为数据分组标准,简要统计如表2所示。

由表2得知,我们将从23个数据子集中构建23子模型,并基于子模型进行企业所得税的税收流失预测。

(五)模型构建

机器学习法包括决策树、支持向量机、神经网络等诸多算法,不同的算法适用不同的应用场景,实验结果表明,随机森林(randomForest,以决策树CART、bagging作为核心算法,两种算法诸多文献有介绍,不再赘述。)在预测税收流失方面表现性能最好。随机森林是由多棵CART构成的,对于每棵树使用的训练集是从总的训练集中采用bagging原理采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中。在训练每棵树的节点时,使用的特征是从所有特征中按照一定比例随机地无放回抽取的。随机森林预测企业所得税主要区分为两个过程,即训练过程和预测过程。

表2 企业按经济性质分组之后的数据分布简表 单位:千元

注:经济性质中的内容为原始数据的代码,该代码与中国综合征管软件的登记注册类型代码一直,代码表示的注册登记类型名称不再赘述。

1.训练过程如下:

第一步,给定训练集S,测试集T,特征维数F。确定参数:使用到的CART的数量t,每棵树的深度d,每个节点使用到的特征数量f,终止条件:节点上最少样本数s,节点上最少的信息增益m,对于第1:t棵树,iin 1:t。

第二步,从S中有放回地抽取大小和S一样的训练集S(i),作为根节点的样本,从根节点开始训练。

第三步,If当前节点上达到终止条件,则设置当前节点为叶子节点,在企业所得税的回归预测中,输出为当前节点样本集各个样本值的平均值。然后继续训练其他节点。If当前节点没有达到终止条件,则从F维特征中无放回地随机选取f维特征。利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,当前节点上样本第k维特征小于th的样本被划分到左节点,其余的被划分到右节点。继续训练其他节点。

第四步,重复第二步、第三步,直到所有节点都训练过了或者被标记为叶子节点。

第五步,重复第二步、第三步,第四步,直到所有CART都被训练过。

2.预测过程如下:

第一步,从当前树的根节点开始,根据当前节点的阈值th,判断是进入左节点(=th),直到到达,某个叶子节点,并输出预测值。

第二步,重复执行第一步,直到所有t棵树都输出了预测值。企业所得税预测问题,则输出为所有树的输出的平均值。

从以上介绍得知,机器学习法利用计算机强大的运算能力,总会找到一个拟合数据特征的函数C,C作为企业所得税税收经济关系的理想模型,即纳税人理论上应缴纳企业所得税的计税基础。但C能否描述客观事实?还应该看C的外推性如何,即C对训练集数据之外的数据是否具有拟合能力,如果训练集的拟合度高,而预测集的拟合度低,那自然就产生了“过拟合”问题,这样的模型是失效的。从这一点来讲,随机森林可以一定程度上避免产生过拟合问题,证明如下:我们将上述的CART分类模型的集合记为:{h1(X),h2(X),…,hk(X)},那平均正确分类数超过平均错误分类数的程度(余量函数)为:mg(X,Y)=avkI[hk(X)=Y]-maxavkI[hk(X)=j],所以mg(X,Y)越大,预测越可靠。外推误差可写成:PE*=PX,Y[mg(X,Y)<0],当CART分类模型足够多,hk(X)=h(X,Θk),如此随机森林随着决策树的增加,而避免产生过度拟合的问题。

由以上算法构建原理可知,随机森林注重的是数据本身的随机特征,除目标变量的约束外,其他的自变量不受业务假设的影响,支持全变量、全样本扫描,所以适合用来做复杂数据以及大数据分析。当然,随机森林对计算机的依赖性较强,需要大量的运算解析过程,应该考虑到时间复杂度的问题,随着互联网、云计算等技术日益成熟,随机森林模型的时间开销已经不是主要考虑的问题,所以将其应用于税收大数据分析的条件已经具备。

(六)模型检验

机器学习不需要先验的假设分布,所以之前“假定分布=>用明确的数学模型来拟合=>假设检验=>P值”的经典过程,不能满足机器学习模型检验的要求。本文使用比较通用的交叉验证方法,以五折交叉检验为例,其原理是将所抽取的样本数据集分割成5个子样本,1个单独的子样本被保留作为验证模型的数据,其他4个样本用来训练。交叉验证重复5次,每个子样本验证一次,最终得到估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证1次。如此,可以用来检验模型的外推性,即对未知企业的预测能力。本文按照企业的经济性质进行了划分,建立了23个子模型,所以必须要对每一个子模型都要进行检验,外推性(即测试集)的检验结果如表3所示。

表3 五折交叉检验误差结果表

注:表3中标准化均方误差(NMSE)是反映模型预测或分类结果精度的指标,可以根据NMSE的值来对一个模型的计算结果进行判断。基本原理是如果NMSE=1,则相当于用因变量的均值做测算,模型对结果基本没有影响(抽象能力差);如果NMSE>1,则说明模型的计算还不如用均值计算的结果好,因此这个模型很糟糕;如果NMSE<1,则说明模型对计算结果有好的影响,而且NMSE越小,则模型计算的效果越好。其中训练集是用来检验训练模型对数据的拟合能力,测试集是用来检验模型的泛化能力。

图3 五折交叉检验误差结果图

由表3得知,23个数据子集所形成的模型的均方误差在区间[0.00715, 0.8233]内。一般来讲,如果什么模型都不用,只是用均值来做预测,均方误差应该等于1,因此,如果计算出来的均方误差大于1,则说明这个模型很糟糕,判断一个模型是否适合,均方误差应该越小越好,从测试集看误差率远小于1,且小的多,这是非常理想的效果,所以23个子模型的外推性很好,通过模型所预测的企业所得税是可靠的。为进一步形象展示误差分布,如图3所示。

四、测算结果及解析

(一)总体情况

机器学习法算法模型构建完成之后,要进行应纳企业所得税税额的预测,本次预测的总体结果:301961户工业规模以上企业,预测应纳企业所得税税额365619795千元、实际已缴企业所得税税额318917139千元、总流失金额46702656千元、总流失率12%,存在低申报缴纳税款的户数为139343户,总流失户比46%。以上结果按流失金额大小划分为四个区间,主要分布情况如表4所示。

表4 流失分布总体情况表(单位:千元)

由测算总体结果及表3流失分布情况可知,中国工业规模以上企业总流失金额达460亿以上,40%以上的企业存在税收流失,金额之大、比率之高,说明我国企业的纳税遵从意识普遍较低。进一步分析发现,30%的流失户集中在1亿以下金额区间,70%的流失金额集中在少数的大的企业上,由此可见,只要大型企业在国民经济中的主导、甚至是垄断地位不变,企业所得税的税收流失率水平必然决定性地受其左右,而流失户主要由组织分散的小型、微型企业所决定,诸多小微企业缺少有效监管习惯性地存在不同程度的税收流失情况。从征方的角度看,许多税务机关基于短期的征管成本考虑,采取了“抓大放小”的措施,虽然能够保障税收收入的平稳增长,但也存在一定的弊端,即造成了中小微企业普遍纳税遵从意识较低的事实。

(二)详细情况

本文主要分析基于区域的税收经济发展平衡状况,即税收流失情况,所以必须要按照区域(省份)作为维度进行税收流失情况统计,如表5所示。

表5 按省份流失分布详细情况表(单位:千元)

由表5可知,中国31省税收流失率、流失户比差异明显,从中、东、西部的大的维度看,表现出不同的趋势。这与地方税源状况、组织收入能力有关,东部发达地区相对中西部地区(包括东北三省)征管能力较强,税收流失率较低,与此同时东部地区的税源比中西部地区充沛,所以东部地区往往是“抓大放小”,更多的精力关注在税收额度较大的企业上,也会造成税收流失户比反常的事实。西部地区,征管能力弱,税收流失率整体偏高,特别是地域广阔的区域,需要征管的企业面较广,但受组织能力的限制,兼顾不周,最终导致税收流失户比落后于东部地区。由此可见,以税收流失率、税收流失户比两个角度看,中国的税收区域发展依然存在诸多不平衡,呈现出中东西部以及经济发达程度、地域范围、征管能力等多因素的条件差异。

五、结论与启示

由实证分析结果得知,我国税收流失额度之大、比例之高,税收区域发展存在诸多不平衡。税收发展不平衡显然不利于经济社会的可持续健康发展,酝酿出社会不稳定因素,不利于发挥社会经济的规模效应。税收发展不平衡不是短时间内能够彻底解决的,在当前和今后相当一段时间内税收发展不平衡的因素依然存在。我国需要在适应市场经济的过程中逐步推进区域税收发展平衡,通过计划和市场两种资源配置方式,制定扶持西部贫困地区发展的长期计划,改变东部地区经济税收发展征管考核机制等。当然,区域经济发展中,国家先后出台了诸多政策方针,贯彻落实力度还不够,这由诸多客观因素造成的。从税务机关的角度看,“互联网+税务”思维为我们推进税收现代化提供了无限想象空间和创新余地。在此本文政策含义如下:

一是紧跟“互联网+”大形势,发挥互联网在生产要素配置中的优化和集成作用,融税收业务线上、线下业务于一体,推进透明度更强、参与度更高、协作性更好的多元化平台,在便利纳税人、提高税务机关征收效率同时,实现税收管理由粗放式向精准化转型。利用互联网能超越时间、空间和形态限制,依托信息化手段,由办税服务厅实地办税转为足不出户的网上办税、自助办税和移动办税,把实体办税服务的主要业务大量移植到线上,推动线上线下融合发展,使办税方式发生根本性变革,解决中西部区域税收征缴线下征管的约束。

二是重视科学技术创新,形成以大数据、云计算、机器学习等作为支撑生产力的核心,打造功能实际、界面友好、操作简洁、价格低廉的互联网平台,帮助企业更好的经营,纳税人可以随时掌握国家产业动态、税收政策变化、行业竞争状况、交易资源配置等等,以期在耗用最少社会资源条件下迅速提高企业的市场竞争力。开发统一的数据情报平台、数据共享交换等税收风险控制软件,充分挖掘应用第三方信息和涉税记录信息,用大数据预测思维方式来思考问题,解决问题,实现大数据预测、大数据记录预测、大数据统计预测、大数据模型预测,大数据分析预测、大数据模式预测、大数据深层次信息预测,改变西部地区风险管理的落后状况,提高纳税遵从的效率以及精准度。

三是人才的储备、人才的培养、人才的使用极其关键。大数据分析需要审时度势提出任务目标的能力、围绕目标任务组织数据的能力、基于良好的素养构建模型的能力以及对输出结果的解析能力等跨界能力,应加大西部地区人才的培养力度,开展与发达地区的智库合作、院校合作、商业机构合作、研究结构合作等多层次、多样化的人才培养锻炼机制。大数据是技术发展所带来的不可逆的大趋势,应该鼓励那些站位前沿、勇于拥抱变革的人,深入我国西部大胆试验、大胆实践,通过大数据思维、大数据技术思考问题、解决问题。

从长远来看,区域税收发展的平衡,关系到国家税收征纳关系是否和谐,和谐的税收征纳关系是社会处于依法征纳、文明规范、协调融洽以及良性互动的一种状态,是确保税务机关有效履行职能、避免双方冲突、实现税收执法公平公正的需要,甚至关系经济社会的稳定发展,事关经济社会发展全局。需要指出的是,解决区域税收发展不平衡问题不能单靠税务一家,这是一项社会性的综合工程。

猜你喜欢
所得税税收样本
用样本估计总体复习点拨
推动医改的“直销样本”
各项税收收入(1994~2016年)
随机微分方程的样本Lyapunov二次型估计
税收(二)
浅谈所得税会计
税收(四)
税收(三)
村企共赢的样本
上市公司年度财务报告所得税调整披露解析