大数据从获取数据、贮存数据和剖析数据三个方面打破了传统数据的运用束缚,极大地扩宽了数据的运用规划,也进步了数据的运用功率。大数据的特色可以被归纳为“4V”:海量性(Volume)、高速性(Velocity)、多样性(Variety)和价值性(Value)。其间,海量性是指跟着不断发生和获取数据,数据的规划将不断变大;高速性是指在商业运用中对数据的搜集和剖析应具有及时性;多样性是指数据类型的丰厚程度,既包含传统的结构化数据,也包含半结构化数据及非结构化数据;价值性是指躲藏于杂乱数据下的价值。近些年,大数据技能的遍及离不开协同技能的支撑,这些技能首要包含:榜首,云核算技能,依据云核算的分布式贮存技能使得贮存数据愈加高效,并行核算将大大进步获取和剖析大数据的功率;第二,物联网,物联网下品种丰厚的终端能发生许多的数据,而且由物联网生成的数据类型一般是半结构化或非结构化数据;第三,数据中心,数据中心经过结构高速联通的内部网络,可以供应牢靠的数据备份;第四,分布式核算,分布式核算依托分布式文件体系,可以为运转大数据供应体系支撑。
1.税收大数据的界说与特色。一般可以以为,税收大数据是指在税收征管过程中构成的一类大数据集,包含结构化数据和非结构化数据。税收大数据能充沛发挥大数据获取数据及时、贮存容量巨大以及剖析数据敏捷等技能优势。比较于传统的税收统计数据和税收查询数据,我国税收大数据的特色体现在三个层面:榜首,在数据特征层面,数据的获取技能具有更强的及时性,数据的获取手法愈加多样化,数据的结构化程度大大下降;第二,在数据来历层面,国内税收大数据的来历以申报体系数据和其他征管体系数据为主,具有掩盖税种彻底、动态性强以及跨渠道交互信息等特色;第三,在数据运用层面,将机器学习、云核算以及数据发掘等技能归纳运用于税收征管和经济剖析等范畴是现在的干流趋势。
2.税收大数据的构成与规划。一般而言,税收大数据包含可以用于税收征管和经济剖析的悉数数据。详细而言,税收大数据首要由六类数据信息组成:榜首类,交税人申报数据;第二类,申报数据以外的其他征管体系数据;第三类,交税人的基本信息和其他涉税信息;第四类,交税人的出产和运营信息(如发票等);第五类,税收统计数据和税收查询数据;第六类,其他非结构化数据(如PDF格局的公函等)。
税收大数据具有容量大、品种多的特色,又因为已开发的税收大数据是整体数据的冰山一角,咱们很难精确地预算出税收大数据的整体容量。不过,以申报体系数据为例,可预算出每年经过申报体系出产出的数据规划。对税收大数据掩盖的7000万户企业交税人打开预算,假定均匀每户交税人申报5类税种、均匀每类税种需填写5张申报表、各税种均匀每年申报8次而且每张申报表均匀以100KB的巨细存储,可以保存预算出每年仅从申报体系新增的税收大数据容量挨近1400TB,税收大数据的容量在政务体系数据中排名抢先。
3.税收大数据的立异优势。传统的税收剖析办法现已不能彻底满意当时税收剖析工作中的实际需求。首要,传统的税收剖析对数据的运用功率偏低,部分税收剖析人员未能合理运用数据信息,更不能发掘数据的深度价值;其次,职能部分之间以及数据库体系之间的信息联通较差,协同剖析功率较低,反应的问题也较为滞后。税收大数据能充沛发挥大数据的技能优势,补偿传统税收剖析办法的部分缺乏。参阅Einav等(2014)将经济剖析在大数据年代的立异归纳为三类,咱们从数据特征层面、数据来历层面以及剖析办法层面打开讨论税收大数据的立异优势。
(1)数据特征层面。比较于以往的观测数据,在大数据年代运用于经济剖析的数据具有以下新的特征。榜首,数据的获取技能具有更强的及时性。以税务年鉴数据为例的政府统计数据会更注重数据的精密度和精确度,其发布日期会存在必定时刻的滞后,但是征管部分的税收大数据是继续更新的,然后可以更有针对性地教导经济方针的执行。第二,数据的获取手法愈加多样化。在移动互联网和云核算技能日益展开的今日,地舆定位信息、网络查找信息、个人消费信息以及企业收购信息等数据都可以在大数据年代更易于获取和贮存。这些信息可以更全面地描写交税人的归纳交税水平,然后帮忙税务机关全方位、立体化地辨认交税人的不遵照行为。第三,在大数据年代获取的税收数据,它的结构化程度较以往显着下降,因而税收大数据具有更低的结构化水平缓更丰厚的剖析维度,税务机关和科研单位可以充沛利用非结构化的数据,归纳剖析交税人一系列的前史信息。
(2)数据来历层面。Einav等(2014)把用于经济剖析的大数据来历拓展为公共部分和私家部分,但结合我国税收大数据的展开现状,国内税收大数据的来历仍以税务机关的征管数据为主。在税收理论与方针的研讨范畴,国外现已有许多文献选用征管数据展开研讨。征管数据适用于全样本剖析,这比较于传统的查询数据,可以有用防止后者或许存在的样本容量较低、高收入集体瞒报收入以及时刻掩盖规划较短等问题。此外,比较于传统的查询数据,征管数据可以较大程度地防止查询数据中存在的数据遗失、样本有偏差等问题。
(3)剖析办法层面。聚束剖析法(bunching)作为近十年运用税务部分征管数据获得立异性开展的研讨办法之一,可以从更好地处理内生性问题的视点,剖析劳作者福利改变等经济问题。Chetty等(2011)运用1994年至2001年丹麦税务部分的征管数据剖析了劳作者在超量累进税制下调整劳作供应的行为;Kleven等(2013)运用2006年至2009年巴基斯坦税务部分的征管数据剖析了劳作者在全额累进税制下调整劳作供应的行为。此外,在大数据年代,将机器学习和数据发掘等技能手法运用于税收大数据,也将不断拓展税收大数据的剖析视角。例如,运用回归树的办法编制组成指数、运用数据发掘的办法辨认高逃税危险交税人以及运用相关规矩算法为交税人“画像”等。
当时,税收大数据可以运用于多个范畴。在发挥传统税收数据优势的基础上,税收大数据可以充沛发挥掩盖税种彻底、动态性强的特色,凭借机器学习和数据发掘等协同技能,运用于编制经济景气指数、促进交税遵照以及优化交税服务等范畴。往后,联合银行征信体系构建的企业信息联网核对体系将为税收大数据供应更多维度的运用方向。
运用税收大数据展开剖析和研讨,可以自下而上地反映经济展开水平。测度经济展开水平可选用编制经济景气指数的办法。经济景气指数可以有用用于剖析经济波动并猜测经济展开趋势。编制经济景气指数有两项要害步骤:榜首,选取适合的经济方针;第二,编制组成指数。依据选取经济方针品种的不同,组成指数可分为同步组成指数、先行组成指数和滞后组成指数。同步组成指数可以反映当时经济景气变化的整体状况,先行组成指数可以对未来经济景气意向进行猜测,滞后组成指数可以佐证先行组成指数所猜测意向的精确度。
因为数据品种有限以及核算办法相对滞后,传统的经济景气指数已不能充沛反映经济展开的实在状况。针对这些问题,税收大数据可充沛发挥掩盖税种彻底、动态性强的优势,在大数据会集找到愈加精确、活络的同步方针和先行方针(如将增值税作为同步方针之一,将进口货品增值税作为先行方针之一),进一步地选用机器学习的办法编制组成指数。依据税收大数据编制的经济景气指数可以满意上述两项要害步骤的技能要求,其在必定程度上能更精准地反映经济展开的实在状况。依据税收大数据编制的经济景气指数较传统的经济景气指数,其前进性首要体现在两个方面。榜首,在核算办法层面,运用机器学习的办法研讨经济问题现已成为一种趋势,如机器学习中的岭回归办法(ridgeregression)和LASSO法等。在编制经济景气指数的过程中,回归树长于处理数据会集的非线性联系,也长于在数据会集找到最重要的特征,因而可以运用回归树的办法编制组成指数。第二,在数据特征层面,以增值税发票数据为例,经过发票数据的进项状况和销项状况能更好地反映微观企业的运营水平以及工业链条的晓畅程度,然后找到更活络的同步方针和先行方针。运用机器学习的办法编制经济景气指数需求尽或许多的数据容量,而税收大数据可以在数据容量方面确保经济景气指数的精准度与活络度。
促进交税遵照的途径有许多,如完善现行税制、加大稽察力度等。当时,税收征管变革的要点方向之一是从“以票管税”转向“以数治税”,运用税收大数据能经过精准评价逃税危险进一步促进遵照行为。我国税务机关在长时间的税源管理和税收征管过程中,为削减税收丢失做出了杰出的奉献。因为税务机关的稽察资源有限,以往税务机关首要以查看的办法查看逃税行为,使得部分交税人存在逃税的侥幸心理。在大数据年代,税务机关依据税收大数据选用数据发掘的办法,可以完成深度发掘交税人的涉税信息,评价潜在逃税危险,并对高逃税危险的交税人要点监测,促进交税遵照。
运用税收大数据促进交税遵照的优势在于凭借机器学习和数据发掘的办法在交税人逃税事前描写涉税危险特征,依据交税人的前史涉税信息,测算交税人的涉税危险概率,评价危险等级,然后要点监督高逃税危险交税人。运用税收大数据促进交税遵照的中心是评价交税人涉税危险,包含三项要害步骤。榜首,确认危险疑点交税人。税务机关依据多类危险辨认模型找到对应的危险疑点交税人,构建危险疑点交税人数据库,提取危险疑点交税人的特征。第二,动态调整危险辨认模型,获取危险方针。跟着数据仓库中不断弥补和更新危险疑点交税人,税务机关及第三方企业会动态地批改危险辨认模型的阈值及方针参数,完成在闭环内动态调整危险辨认模型,逐渐得到品种丰厚且活络的危险方针。第三,树立随机模型,要点监督高逃税危险交税人。将多种危险方针投入方针池,不同的危险监控模型从方针池中主动挑选要害方针并评价整体交税人,终究完成对高逃税危险的交税人要点监督,然后促进交税遵照。
交税服务有许多种办法,例如注册服务热线展开交税咨询教导、在办税服务大厅帮忙交税人申报交税等。在大数据数年代,运用税收大数据的交税服务更有或许完成“精密服务”,进一步优化交税服务的质量。依据税收大数据优化交税服务首要是经过为交税人“画像”完成。为交税人“画像”具象化了交税人的特征,然后促进了税务部分交税服务水平的专业化和差异化(王晓东等,2017)。比较于以往经过在办税服务大厅发放问卷或上门造访等办法的交税服务,税务机关运用“画像”技能的优势可以归纳为:从需求侧发现问题,在供应侧处理问题。依据交税人实在申报的数据,并针对交税人的涉税信息和运营信息,精准且敏捷地剖析交税人的交税服务需求,从供应侧优化服务水平,促进办税缴费便民利民。
经过“画像”技能,税务机关依据税收大数据优化交税服务,提高了交税服务的智能化程度和精密化程度。榜首,税务机关可以预先判断企业的运营境况,监测企业工业链的疏通水平,提早向有潜在需求的交税人供应愈加便当化的交税服务,以进步交税服务的智能化程度。第二,税务机关可以精准挑选出在交税申报时未能充沛享用优惠方针的交税人,经过定向推送税收优惠方针、及时提示交税人申报等办法,完善交税服务的精密化程度。“画像”技能的要点和难点是税务机关怎么凭借税收大数据精准辨认交税人的特征,然后完成精准服务。参阅运用大数据为企业“画像”的现有技能,咱们提出一种探索性办法:参阅第三方评价陈述,剖析企业最新的财务状况,选用词频剖析等文本剖析的办法为方针企业贴标签,再结合企业的挂号信息,有针对性地向企业推送最新的税收方针及教导主张。现在,国内的税收大数据首要由税务机关把握。跟着数据隐私维护技能的展开,税务机关可经过与第三方企业强化协作,有用提高“画像”技能的功率并优化交税服务的水平。
此外,还有两类拓展运用税收大数据的方向,且二者之间可彼此配合、并行展开。榜首类,优化现行税收征管体系,深度发掘现有数据库的潜在信息。现行税收征管体系存在数据相关性不强、完整性缺乏的问题,尤其是原国税、地税数据库之间的大部分信息仍彼此独立。如能完成将原国税、地税数据库兼并,将为税收剖析特别是国内税制的经历剖析供应强有力的支撑。与此同时,还应充沛发挥增值税征收环节环环相扣的特色,建立发票大数据渠道。第二类,构建新式的信息交互渠道,从多维度建立税收大数据网络。以构建企业信息联网核对体系为例,企业信息联网核对体系建立了各部委、人民银行以及其他参加组织之间信息同享和核对的通道,完成企业相关人员手机号码、企业交税状况以及企业挂号注册信息核对的三大功用。相较于以往仅在税务体系核对交税人的遵照行为,联接银行、电信、交通运输及市场监管等多部分的信息交互渠道,可以起到从多方位监管和束缚交税人依法交税的效果,以完成多维度开发和运用大数据。
地址:北京市丰台区广安路9号国投财富广场1号楼10层 邮政编码:100055
上一篇:云核算运维工作远景怎么样 需求把握什么技能 下一篇:【视频回放】福建工程学院陈德旺教授:传奇的人工智能大师