互联网涉税信息的采集及应用方法研究
2017-11-29王振龙翟伟
◎文/王振龙 翟伟
互联网涉税信息的采集及应用方法研究
◎文/王振龙 翟伟
作为信息管税的重要环节,互联网信息的采集及应用工作直接关系着信息管税的效果。本文试结合当前互联网的新形势和税务系统工作实际,谈谈如何完善互联网信息的采集及应用,使其在加强税收征管、强化纳税评估、防范税收风险等方面发挥重要作用。
互联网;涉税信息;税收征管
一、互联网涉税信息的内涵与分类
互联网涉税信息是指各级税务部门通过在互联网上查找或筛选与纳税人生产经营活动有关的,包括取自行政、事业、行业、企业、个体户及自然人的信息,并利用信息技术对其进行专业的分析和整理,按照预定的格式、通过特定的程序,传递给各级风险管理部门使用的,用以解决税收风险管理中具体问题的各类涉税数据和信息的总称。
根据信息是否能直接转化为税收依据为标准,涉税信息分为直接信息和间接信息。直接信息是指可以直接作为税收征收依据和税务行政处罚证据的信息,比如采集天津市土地交易中心官网中的“出让公告”模块,获取的土地面积可以直接作为城镇土地使用税的计税依据。间接信息是指需要经过整理加工分析才能用于税收征管的一些信息。
根据信息所在门户网站类别,涉税信息可分为公益性信息、行业信息,企业信息。其中公益性信息一般指国家机关、事业单位以及公益性社会团体、组织。
根据信息采集方法的不同,涉税信息可分为人工采集信息,软件采集信息以及购买类信息。
二、互联网涉税信息采集与应用的必要性及可行性
对税务机关而言,互联网涉税信息可以弥补纳税人和扣缴义务人提供的涉税信息的不足,可以佐证纳税人和扣缴义务人提供的涉税信息是否真实、准确,也可以为查找纳税人和扣缴义务人税务违法行为提供线索和旁证,更可以为税收宏观分析和微观分析提供翔实、丰富和客观的数据资料。因此,打好互联网涉税信息采集及应用这场战役具有较高的战略意义。
一是有利于拓宽信息获取渠道,解决征纳双方信息不对称的问题。在税收征管工作中,由于税源监控机制尚不健全,隐形经济、不开发票等不规范经济行为大量存在,仅靠税务部门一己之力显然是远远不够的,其获取的成本也相对较高。实现互联网信息资源共享与应用,可以有效掌握纳税人生产经营情况,减少信息不对称性。
二是有利于监控税源变化,促进税源精细化管理。一些与税源相关的信息,由于地税机关依靠自身难于掌握,或者虽然能够掌握但获取成本较高,而税务机关借助互联网平台,实行涉税信息资源共享与应用,可以从信息源头上实现控管与治理,变“事后出手”为“提前介入”。
三是有利于堵漏增收,保持税收持续协调增长。当前,税收收入持续增长的压力明显加大。而互联网涉税信息蕴含着巨大的税收潜力,通过采集和应用,可以有效增加税收收入,提高收入质量,积极化解经济下行压力和政策减收因素的不利影响,保持收入的持续、协调、均衡增长。
三、互联网涉税信息采集方法
(一)选取采集项目
根据涉税需求,选取采集网站,并对网站信息进行分析和甄别,逐项梳理可用信息,确定预计用途和重要程度,纳入采集范围(如下表所示)。
(二)网络数据获取
数据获取主要包括,直接购买第三方信息、人工采集和软件采集三种方法,直接购买第三方信息,最为便捷、省时,但成本较高。其次,人工采集工作量大、耗时长,易操作。比如,我们把需要的数据复制下来,再粘贴到目标中去,就完成了一个最简单的采集过程。手动采集可以满足少量的采集需求,但网页数据是海量的,我们需要的数据往往也是大量而又复杂的,人工采集的方式远远不能满足日常工作需求。再次,软件采集工作量小、耗时短,但操作复杂,要求具备较高的计算机知识。比如,火车采集器就是一款软件采集工具,它实现了将数据从采集到处理到发布的一系列智能操作,能够快速稳定地应对大量的数据采集需求,大幅提高工作效率。具体讲,软件采集技术利用搜索引擎中的网络爬虫技术,根据http协议、检索Web文档信息、自动提取网页,实现对主题网页的抓取。
随着政务公开的全面推行,以公开为常态、不公开为例外,社会公共资源配置、重大建设项目批准和实施、社会公益事业建设等领域的信息将通过网络媒体公开,届时通过网络获取涉税信息将更便捷高效,笔者认为,综合考虑,运用好网络爬虫等技术手段将是税收大数据挖掘的尖刀利器。
四、互联网涉税信息应用方式及典型案例
互联网涉税信息大致可以分为政府公开信息,门户网站、财经网站、专业税收相关的外网网站信息等,其每天更新和发布的信息非常快,数据量巨大,无论是按照深度还是广度分析,在有限的可利用资源条件下,科学合理的技术应用的重要性就不言而喻了。首先,要甄别、筛选采集出来的信息点,逐步进行分类处理,并结合风险指标,对数据进行自动或人工维护。其次,将维护好信息与征管数据进行比对核实,从而发现存在的疑点数据或问题数据。再次,推送至相关税务机关进行处理,或推送至风险监管平台。
序号涉税互联网信息来源名称主管部门信息类别采集涉税信息点1中国裁判文书网法院借款合同纠纷判决结果审理法院、案件类型、案由、审理程序、裁判时间、当事人(借出方、借入方等)、委托代理人(律师及律师事务所)、合同标的、借款金额、借款利息金额(分年度)、简要案情及判决结果审理法院、案件类型、案由、审理程序、裁判时间、当事人(产权人、承租人、使用人等)、委托代理人(律师及律师事务所)、合同标的、租金金额(分年度)、简要判决结果3人民法院诉讼2中国裁判文书网法院租赁合同纠纷判决结果资产网法院资产拍卖公告信息标的名称、坐落地址、委托法院、所在区县、参考价、拍卖状态、发布时间、拍卖时间、产权(股权)所有人转让方名称、标的企业名称、挂牌价格、转让股权比例、标的企业注册资本、净资产账面价值、净资产评估价值、挂牌起始日期、挂牌期满日期5天津市土地4天津市产权交易中心国资委资产(实物资产或股权)转让项目信息交易中心国土房管土地出让信息地块编号、具体位置、出让面积、容积率、用途、供地方式、使用年限、竞得(人)、成交价格、成交日期6天津市物业管理招标网国土房管局物业中标信息中标日期、招标人、项目名称、开标日期、评标方式、中标人7天津住房保障网国土房管局保障房信息保障房项目名称、地址、数量、公告日期8天津市滨海新区土地发展中心国土房管局土地出让信息地块编号、具体位置、出让面积、容积率、用途、供地方式、使用年限、竞得(人)、成交价格9天津市监察局监察局巡视信息企业名称、存在的税收风险的违规行为10天津市监察局监察局违反八项规定信息单位名称、涉税的违规行为、涉及金额11天津市环保局环保局环保处罚信息处罚编号、企业名称、统一社会信用代码、地址、法定代表人、处罚项目、处罚金额12天津市城乡建设委员会建委招投标信息建设单位、招标公告编号、项目名称、中标单位、中标规模、中标标价、中标工期
比如,电子商务的发展方兴未艾,网络上的交易数据越来越丰富,但这些数据大多是非结构化数据或半结构化数据,传统技术无法加以分析利用。针对这种状况,西青区地税局早在2014年就开始关注互联网信息,对电商平台、团购网等领域进行数据采集和分析利用,有效提高了风险识别能力。例如:2014年,我们将大众点评、美团、糯米网等多家团购网站列为信息采集对象,以西青区为引擎搜索范围,分类搜索本辖区内大型休闲、娱乐、餐饮、酒店等具备房屋建筑物构造的企业信息,主要定位和采集网页上“客户简介”信息,重点搜集开业时间、建筑面积、占地面积等涉税信息(如下图),然后,通过加工整理信息与现有征管数据比对,查找房产、土地税风险点。通过分析比对,发现某温泉酒店已对外销售团购券,由此可以推断出其基础设施和相关服务已达到对外经营的标准,但其申报的房产税、城镇土地使用税明显与事实不符,涉税风险较大,遂列为疑点企业。
再如,在《中国税务报上》曾经刊登过一条关于加强上市公司股权转让税源监控的信息。文章指出:“上市公司股权转让问题越来越成为税收征管的热点和难点。股权转让、股票减持现象频繁,而且涉及的金额很大,但是因为信息不对称,税务部门无法及时掌握信息,导致这方面税收征管不到位,经常是股票一经抛售,当事人就消失无踪,税款很难补回来。”2016年8月1日,搜狐财经刊登一条关于滴滴出行宣布收购优步中国合并后估值350亿美元的信息。文章指出:“滴滴出行和Uber双方达成战略协议后,二者全球将相互持股,成为对方的少数股权股东。Uber全球将持有滴滴5.89%的股权,相当于17.7%的经济权益,优步中国的其余中国股东将获得合计2.3%的经济权益。”由此推断,两家巨头公司发生了股权转让,且涉税金额巨大。从中不难看出,如果能及时、准确掌握上市公司信息,就能堵塞征管漏洞,增加税收收入。
设想一下,以上案例如果依靠“网络爬虫”技术,在互联网信息的汪洋大海中实时精准查找上市公司股权交易信息,那么税收征管效率大幅度提升也不再难以实现。具体讲,就是利用“网络爬虫”技术在“新浪财经”、“东方财经”等财经类网站,实时抓取互联网信息,包括上市公司财务报表、产权交易等涉税信息,再与税收征管信息、企业申报信息和第三方信息等进行比对分析,查找风险点,提高风险识别的准确性,开展风险应对,不断拓展“互联网+”应用领域,进一步提升税收征管水平。
五、互联网涉税信息采集及应用中存在的问题
(一)互联网信息采集的范围与渠道缺乏规范和标准
在实际工作中,需要先明确采集的互联网信息内容、类别及渠道,再去寻找相关的信息。但目前,对于互联网信息的采集范围与渠道,税务部门内部还缺乏统一的规范和标准,使得互联网信息采集工作随意性强、不够规范,容易导致盲目采集和存储大量的、可能和评估联系不大的非关键信息,影响从互联网采集的信息质量。
(二)缺乏先进的技术手段支持
目前,在实际工作中,税务干部的计算机水平参差不齐,互联网信息的采集方式还是以人工搜索和拷贝网上信息为主。通过搭建信息化平台,运用科技手段实现互联网信息自动化采集的程度还不高,这使得互联网信息采集工作耗时较长。
(三)相关政府部门的信息共享机制尚未全面建立
当前,导致互联网信息采集工作滞后的原因,很大程度上在于法律法规不健全,缺乏要求第三方部门向税务机关直接提供动态经济信息的制度设计,税务机关还没有和更多的政府机关建立起互联网信息交换或共享的联动机制,使得税务机关的互联网信息采集工作更多地借助于间接途径,导致采集的准确性受到影响。
(四)对互联网信息的应用缺乏深入性和系统性
目前,互联网信息多用于纳税评估工作,而用于征管方面的少之又少,为了使其在税收征管工作中发挥真正的作用,必须对其进行深度分析,将其转化成有价值的内容。例如,可以采用直接比对分析的方法,将其与税收征管信息进行比对,以便发现漏征漏管户等情况,以达到信息的全方位、多角度应用。
六、完善互联网信息采集和应用的建议
拓宽互联网信息采集渠道,做好互联网信息的分析应用工作,使互联网信息转化为税收和提高纳税人税法遵从度是我们的最终目标。要想实现这个最终目标,应从以下几个方面入手:
(一)建立信息共享联动机制,拓宽互联网信息采集渠道
互联网信息的采集是纳税评估数据比对的重要环节,可以从相关政府部门、银行、企业等互联网主页上搜寻与其工作内容相关的外来信息。这些信息可以揭示行业或企业相关涉税风险。为了交叉比对、深入分析纳税人的交易链条,需完善法律法规,从制度层面保证税务机关获取互联网信息具有法律依据,同时还应明确相关方不提供有关信息的法律责任,为构建与地税、工商、统计等行业主管部门及银行、物流、电信等企业的信息交换长效机制提供可靠的法律支撑。
(二)规范和疏通信息采集的范围与渠道,确保互联网信息采集质量
在信息化社会,利用互联网获取信息已成为一种常见的手段,依网站的内容性质不同,可将信息收集范围和渠道分类如下:一是政府部门的官方网站,此类信息内容比较权威,可靠性和准确性很高,但部分网站存在更新速度慢的问题。二是行业类综合信息网站,此类网站主要是为企业搭建自我宣传和展示的平台,一般涵盖了行业内大部分企业基本信息。不足之处是部分信息和综合征管信息系统的内容重合,涵盖范围有限。三是企业自己建立的网站,此类网站可以提供具体企业的相关生产和产品信息,内容比较丰富,但由于各个企业的网站建设水平不一,所以内容上相差很大,所提供的信息质量也参差不齐。以上几种信息收集渠道各异,采集到的信息范围各有侧重,在实际工作中应综合运用、相互配合,以确保互联网信息收集的质量。
(三)利用科技手段,提升互联网信息采集工作的智能化程度
运用先进的科技手段,可以使采集互联网信息的工作事半功倍。在有条件的基础上,可以与软件公司合作开发或自主研发等方式,搭建互联网信息采集和应用平台,研发互联网信息采集软件,实现网页信息批量下载功能,并使之能与大多数财务软件相兼容,完成多渠道、多方向、多角度收集信息的目标,实现对外部动态信息的及时采集。
(四)加强培训,提高工作人员的计算机操作能力
目前互联网信息的采集和应用工作,多使用计算机进行。而计算机应用能力的高低,往往对工作效率产生极大的影响。具体讲主要分为以下三个阶段:
1.在数据采集阶段,工作人员要通过计算机集中抽取行业数据、下载互联网信息,将各种不同来源的数据转化成有用、有价值的内容。当遇到信息源是零散的,数据格式、内容比较混乱时,必须运用软件对收集到的信息资料进行处理,使其格式统一,以便使用。
2.在数据整理阶段,仍要通过计算机软件对评估数据进行抽取、评价,还要进行错误数据鉴别、评估数据统计和分类等工作。这一过程主要考验工作人员能否运用软件对已统一格式的信息资料按要求进行分类归纳,为下一步的分析工作做好准备。
3.在数据分析阶段,若评估人员对Excel软件运用娴熟,就可以快速地开展工作,如筛选和删除重复数据、对数据进行分类汇总、利用较高级函数对数据进行深层次整理和分析等。因此,提高税务干部计算机操作能力,对互联网信息采集及应用工作将起到推动作用。
(五)搭建分析模型,提高利用互联网信息进行评估工作的质量和效率
通过深入分析税务征管系统中已有的企业登记信息和申报征收数据,运用统计学方法和数据库技术,可建立分行业的评估模型。利用模型可以开展比率分析、弹性分析、趋势分析、回归分析等工作,提高评估工作效率。例如:“金税三期”中有“风险管理系统”模块,在该模块中提供了多个外部信息交互的接口,以满足针对纳税评估、税务稽查、大企业管理及全面提醒等业务信息交互的需要,可以根据自有或者重新定义模型,将外部信息转化为涉税风险点,做好纳税辅导工作,尽早降低企业涉税风险,提升纳税服务质量,和谐税企关系。
互联网涉税信息采集和应用在当前征管模式背景下愈加重要,我们要不断创新、勇于进取、加强研究,充分借助现代化网络硬件平台和专业软件系统,以涉税数据的采集、分析、处理、应用为主线,以现代化信息技术为支撑,以科学征管流程为导向,以税收预警分析为平台,以数据分析利用为核心,提高税收征管效能。同时,要进一步加强信息数据资源的深度开发和有效利用,推进部门协作和信息报送与交换,提高税收决策、管理、监控、服务效能,提升信息采集的可靠性和及时性,形成集约型操作、扁平化管理、层级式监控、优质化服务的税收征管新格局。
F812
A
1006-1255-(2017)11-0039-06
王振龙(1962—),天津市西青区地方税务局副局长。邮编:300380翟伟(1984—),天津市西青区地方税务局稽查二所。邮编:300380
责任编辑:高丽丽 张丽恒