APP下载

中小企业税务稽查投影寻踪建模与实证分析

2016-03-04楼文高楼际通宋雷娟王浪庆

经济数学 2015年4期

楼文高 楼际通 宋雷娟 王浪庆

摘 要 从上海市某区386家中小企业申报的15项税收指标数据中筛选出对判定企业纳税情况具有重要影响的10个评价指标,并将全部386个样本分成性质相似的建模样本和测试样本(其中测试样本个数占45%),建立了基于投影寻踪分类(PPC)技术的税务稽查评价模型.与多元线性回归(MLR)、判别分析(MDA)、Logistic和支持向量机(SVM)模型相比,PPC模型的识别错误率最低,建模样本和测试样本的平均分类错误率低于6%,改进型PPC模型包含的评价指标少,两类错误率很接近,非常适用于实际企业的税务稽查评估研究和实践.对339家待判断企业纳税情况的判定结果研究表明,建立的改进型PPC模型具有很好的泛化能力和鲁棒性.

关键词 税务稽查;投影寻踪分类技术;分类错误率;样本分组

中图分类号 TV139.1; N945.12 文献标识码 A

Abstract Based on the 15 variables (indexes ) taxreporting data of 386 woodenfurniture manufacturing small and mediumsized enterprises (WFMSMEs) located in some districts of Shanghai city, the ten variables mainly influencing the taxchecking situation (tax evasion or compliance) of the 386 WFMSMEs were obtained by applying sensitivity analysis method (SAM) for selecting input variables. The modelling set data and testing set data (about taking up 45%) with similar characteristics similar mean values and variancewere divided using selforganizing map (SOM) approach. The practical, feasible and effective projection pursuit clustering (PPC) model for taxchecking assessment was thus established. Compared with the multivariate linear regression (MLR), the multivariate discriminant analysis (MDA), Logistic and the support vector machine (SVM), the established PPC model possesses the most accurate and the lowest classificationerror percentage (CEP) of the models. The mean CEP of modelling set data and the testing set data is lower than 6%. The improved PPC model including fewer variables is thus suitable to taxchecking assessment and research. The taxchecking situation of the other 339 WFMEs was also assessed and judged, and the results show that the established improved PPC model possesses high generalization and robustness.

Key words taxchecking assessment; projection pursuit clustering (PPC) model; classificationerror percentage; samples splitting

1 引 言

中小企业在国家创新经济发展模式和解决就业问题中占有越来越重要的位置,量大面广,给基层税务稽查和纳税评估工作带来了很大的风险.因此,建立实用性强和可靠的税务稽查评价模型,既能帮助企业提高涉税风险的防控能力,又能帮助税务部门足额征收税款,日益受到政府有关部门(税务局等)和学界的重视[1,2].楼文高等[3]对Tobit模型、层次分析法(AHP)、主成分法(PCA)、判别分析(MDA)、Logistic模型和多元线性回归(MLR)等传统统计模型以及新兴的多层感知器神经网络(BPNN)、概率神经网络(PNN)、支持向量机(SVM)、自组织神经网络(SOM)等数据挖掘技术与传统统计模型的组合模型[1-2, 4-8]的优缺点、适用情况以及现有文献存在的问题等进行了详细的评述,并应用广义回归神经网络(GRNN)和多重交叉检验法,建立了适用于小样本情况的税务稽查GRNN模型,分类错误率10%左右,明显低于传统统计模型和SVM模型,取得了较好的效果.但是,由于GRNN建模过程中确定合理的光滑因子值是相当繁琐的,而且GRNN模型是隐性模型[3, 9-10],无法显性地直接揭示出企业纳税情况与各个评价指标之间的非线性关系,给后续的税务稽查工作(判定、研究企业纳税情况)以及企业如何制定合理的纳税策略、降低涉税风险带来不便.

另一方面,投影寻踪分类(Projection Pursuit Clustering,简称PPC)技术是一种适用于高维、非线性、非正态分布数据处理的新兴统计建模方法[11-14],不仅数学意义清晰,而且是显性模型,便于对样本和评价指标的重要性进行排序和分类研究.本文首次将PPC技术引入到企业税务稽查研究中,212个建模样本和174个测试样本(占45%)的平均分类错误率低于6.00%,低于MLR、MDA、Logistic等传统统计模型和SVM模型,建立了更加简洁、实用、可靠和有效的税务稽查模型,应优先用于中小企业的税务稽查研究和实践中.