海关智能化风险防控方法研究
2020-10-23金瑾刘伟王正刚巫家敏李波
金瑾 刘伟 王正刚 巫家敏 李波
摘 要:为了适应当前新的外贸形势,海关监管部门需要不断强化风险防控管理。本文通过调研分析当前海关风险防控中的重难点问题,借助最新的大数据和人工智能技术,改进风险防控管理流程,本文提出通过将海关报关单数据进行二维化表示,用现有的深度学习架构进行训练,从而得出风险评估结果。这种方法相比于传统的人工方法能够有效提高通关时效。实验验证了这种方法在风险防控中的有效性。本文提出的方法也可以被通用于多字段表格数据的处理问题。
关键词:大数据;人工智能;风险防控;提质增效
中图分类号:TP183 文献标识码:A
Research on Intelligent Risk Control in the Customs
JIN Jin1, LIU Wei2, WANG Zhenggang2, WU Jiamin2, LI Bo2
(1.Chengdu Neusoft University, Chengdu 611844, China;
2.Chengdu Customs of the People's Republic of China, Chengdu 610041, China)
jinjin@nsu.edu.cn; 45711577@qq.com; wangzgxs@outlook.com;
WuJiamin@nsu.edu.cn; li-bo@nsu.edu.cn
Abstract: In view of new development of foreign trade, the Customs have to strengthen the risk control. This paper uses the latest big data and artificial intelligence technology to improve the risk control management process, through analyzing the key issues within current Customs. This paper proposes a framework to assess risks by deep learning algorithms with two-dimensionally presented Customs declaration data. Compared with traditional manual methods, this method effectively improves the time-efficiency of Customs clearance. The proposed approach can be applied to processing multi-field table data and is verified to be effective.
Keywords: big data; artificial intelligence; risk control; improvement of quality and efficiency
1 引言(Introduction)
海关查验是海关管理部门维护国门安全和依法征税,打击走私的重要環节,是保障进出口贸易安全不可或缺的手段[1]。一方面由于进出口货物贸易的数量庞大,种类繁多,海关监管部门不可能做到面面俱到,而且覆盖所有商品的风险状况对关员也是一个巨大的挑战。另一方面随着国际贸易的飞速发展,进出口货物贸易的海量查验任务和海关人力资源不足的矛盾凸显[2]。
当下,大数据技术的飞速发展最终将引领人类社会迈进智能型社会的新形态。海关风险防控已经开始由传统人工分析向风险模型评估分析和智能化分析方式转变[3]。我们设计的风险判别模式有别于传统风险判别模式,需要借助CNN对历史单证进行参数学习,形成对输入模型的单证进行风险判别,最后提交给风险布控人员进行具体操作,实现计算机辅助风险布控作业模式。
2 成都海关风险防控面临的挑战(Challenges faced by Chengdu Customs in risk control)
2.1 智能化风险分析探索不够
目前海关风险防控管理流程为人为地提取近期全国海关风险信息数据,结合基货物历史报关单和舱单数据来进行风险评估分析,一方面,在整个流程中数据共享存在一些壁垒,没有完全实现各类单证数据的共用共享,风险分析人员很难从宏观角度全面把握货物贸易的整体风险[4]。另一方面,过分依赖人工分析判断容易产生以下三个方面的问题:一是人与人之间存在思维、判断等方面的差异,在风险分析和判别的过程中,不可避免的掺杂人为因素,无法做到统一标准实施风险管理和布控;二是需要从事风险判别的关员具备丰富的风险分析经验,以保证风险分析和布控的准确度,才能确保一定水平的查获率;三是人工判别效率不高,难以满足海量货物通关的需要,各级政府要求货物通关提速和违法商品输入风险增加的矛盾很难通过现有风险分析判别流程加以解决[5]。
2.2 外贸交易新态势导致风险防控的难度增大
有效地全供应链风险识别、预警系统,能够准确判断贸易中面临的风险,可以帮助海关有效监管,对风险做出正确预测、识别、判断风险级别,以制定相应的策略,避免损失的发生,将风险损失降低到最低。目前,国内外关于供应链风险的研究已经取得一定的成果,一些定量研究也运用到了供应链之中,然而供应链风险识别、预警问题方面的研究方法单一,定性研究居多,定量研究不足,研究过程中存在大量的人为主观因素。
2.3 数据分析的时效性和可视化程度不高
现阶段,开展风险防控分析工作使用的数据来源较为单一、相关数据和信息相对缺乏、数据挖掘和展示工具还需加强。风险管理和分析工作仍然没有摆脱人工调取所需数据、简单图表描述趋势的传统模式,离大数据时代的智能化分析目标存在一定差距。在当前经济全球化趋势和国际市场瞬息万变的形势下,实时和准确的大数据分析有利于更快地发现问题并迅速作出响应,提高对进出口市场和商品分析的时效性显得尤为必要。
3 智慧风控平台的主要功能设计(Basic functionality of an intelligent risk management platform)
智能化风险防控流程,需要测试不同算法流程在报关数据风险值判别方面的优劣,本文设计的表格数据风险值自动判别流程能够完成海关报关数据风险自动识别。本节介绍的模型致力于将人工风险判别流程智能化,实现海关报关数据风险智能化判定。风险防控智慧分析平台(以下称智慧分析平台)具备提升风险防控智慧分析的能力。首先需要利用自然语言处理(Word Embedding)算法将来自各种渠道的情况通报信息进行初步收集和加工,建立描述性信息的文本特征向量数据库,利用无监督聚类算法对数据库中具有参考价值的特征向量进行记录和聚类分析,得出情况通报中代表不同国别、产地、數量等重要文字和数字信息的类别簇,分析有价值的敏感高频风险信息并赋予不同的权重值,作为神经网络模型的输入信息对后续报关单分类产生作用。然后通过搭建使用的神经网络模型对历史报关单数据和货物查验结果进行多批次训练,最终达到能自动识别报关单、舱单等单证风险的等级,并按照特定的模板输出货物的分析报告,最后由分析人员对其进行更高层级的风险判断,得出某一时间段、某种商品的风险指数,形成一种新的海关智慧风险防控流程。在节省大量人力成本的同时,提高货物贸易风险甄别的准确性,提升口岸现场高危商品的查获率。
3.1 报关单数据风险值标注
我们的数据集包含三种进口商品近五年13078条数据,实验过程采用随机抽取10000条数据作为训练集,另外3078条数据作为验证集。参与风险值标注的人员均由经验丰富的一线关员担任,关员根据各方面通报信息为每一条报关单数据赋予一定的风险等级数据作为每条数据的标签。风险等级分为10个等级,从低到高分别为1—10。
3.2 报关单数据清洗和二维化
近年来,卷积神经网络在图像分类、识别、分割等领域的应用已经相当成熟,涌现出如Resnet[6]、U-net[7]等优秀的网络结构。图像主要分为灰度图像和色彩图像,灰度图像就是二维矩阵,每个像素点的值的范围在0—255,彩色图像可以由RGB、HSV方式分解为三个不同的像素矩阵。
原始报关单数据包含申报日期、运输方式、贸易国别、提运单号等71个字段信息,其中包含数字,汉字英文字母。必须设置数据字典将数据转化为CNN能够识别的编码。有字符串、浮点、时间类型的数据对于时间格式的数据提取相关年份,浮点类型数据中有小数的列进行四舍五入,如果有缺失值则全填充0。
具体编码方式为:
根据列名遍历每一列,判断每列数据类型:
(1)如果是str类型,直接去重,按索引编号。
(2)如果是float或者int类型数据,当这一列中存在某一个值大于255,则对这一列数去重,再按照索引进行编码,否则不处理。
编码过程中,报关单数据有上万条,有超过图像像素0—255的情况,此时我们采用RGB三通道编码,三通道编码存在256×256×256=16777216种不同的情况,可以基本满足数据集编码要求。
每条数据的自动编码完成后,执行数据转置,实现每条数据的二维化,相当于将一个向量转置为一个矩阵。这样所有的一维数据转换成为二维图像数据。
3.3 转置数据输入网络完成参数训练
为实现较好的报关单数据智能化风险识别,我们采用近年来在图像分类中成熟运用的几种网络结构进行实现对比,分别是残差网络(Resnet)、U网络(U-Net)、Incentive-V3[8]三种网络结构。实验的环境为Python,实验的参数为Tensorflow默认参数。实验通过对比选用最适合报关单数据智能化风险识别的结构作为智慧平台报关单数据风险分析的神经网络模型。
(1)Resnet
残差网络是由一系列残差块组成的。一个残差块可以用表示为:
(1)
残差块分成两部分直接映射部分和残差部分,其中是直接映射;是残差部分,一般由两个或者三个卷积操作构成。
在卷积网络中,可能和的特征图的数量不一样,这时候就需要使用1×1卷积进行升维或者降维。
(2)U-net
U-net是2015年提出的,U-net将输入进行2次3×3的卷积操作之后,进行一次2×2的最大池化,同时卷积核数目翻倍(1-64-128-256-512-1024),进行四次这样的下降操作,然后2次3×3卷积,取一半的卷积核进行上采样(转置卷积),再剪切对应下降层的特征图像,和上采样得到的特征图像拼接在一起,然后重复这样的过程。最后输出是深度为n个特征图像,进行分类。
U-Net这个网络可以应对小样本的数据集进行较快、有效地分割,能够泛化到很多应用场景中去。
(3)Inception_V3
这里对整个Inception-V3结构体系结构做如下介绍:从输入端开始,先有三个卷积层,然后是一个池化层。然后又是两个卷积层,一个池化层。紧接着用不同数量的卷积层进行并行卷积,每一套卷积层之间均用连接层(紫色)进行连接,为了防止网络过拟合,网络的后端还添加了丢包层(浅蓝色)。
3.4 实验结果对比
我们设置不同的超参数对比各个CNN结构在报关数据集上的分类识别效果和网络训练时间。三种结构均选用相同的32个卷积层,在不同轮次(2000,5000,10000)下的Top1及Top5正确率对比分别记录在表1、表2和表3中。
由表1的结果可知,在训练轮次为2000时,正确率最高的网络模型为Inception-V3,但是该模型训练的时长比Resnet和U-net较长。同样表2和表3的结果与表1相近,随着训练轮次的增加,三种模型的准确率均有较明显的提升,但是训练时长也相应地增加。但是相对于纯人工的查验,这个时间是在可以接受的范围内的。而海关查验对准确率要求相对较高。
通过多轮实验对比和对实际问题的考虑,智慧平台选用Inception-V3结构作为报关单数据智能化风险识别的验证结构。将训练好的参数应用到识别过程,将输入报关单进行报关单数据编码和二维化以后,输入网络,得出当前报关单数据的风险值,为口岸现场关员提供某一票货物的直观参考,省去大量人工分析过程,提升海關口岸查货率。
4 结论(Conclusion)
面对新形势、新要求,海关风险防控应积极应对大数据带来的各种新挑战,充分发挥海关风险防控应用大数据的社会价值。本文探索了一种智能化的风险防控方法,该方法将海关的报关单数据通过数据转换,变为二维数据。从而可以将二维数据应用于现阶段较为成熟的CNN结构,CNN强大的分类处理能力为风险防控提供支撑。初步的实验表明,Inception-V3结构作为报关单数据智能化风险识别的验证结构是一种较好的选择,验证了本文所提方法对于风险防控的
有效性。本文的方法也为多字段表格类数据的处理提供了一种较为新颖的选择。
参考文献(References)
[1] 刘奇超,彭城.京津冀海关区域通关一体化取向:由欧盟海关风险管理观察[J].改革,2014(010):92-101.
[2] 魏毅斐.对我国海关风险管理机制的思考[J].河南商业高等专科学校学报,2013(03):26-28.
[3] 李新民,徐倩,陶黎,等.国外海关风险管理的经验及对我国海关的启示[J].上海海关学院学报,2013(4):56-62.
[4] 丁焕苗.试论海关管理风险的防控[J].海关与经贸研究,2014,035(005):59-65.
[5] 卢金秋.人工神经网络在海关风险管理中的应用研究[J].计算机工程与应用,2006(27):212-215.
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.
[7] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[8] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 2818-2826.
作者简介:
金 瑾(1988-),女,硕士,讲师.研究领域:人工智能,大数据.
刘 伟(1969-),女,本科,工程师.研究领域:人工智能,信息系统.
王正刚(1982-),男,硕士,工程师.研究领域:人工智能,信息系统.
巫家敏(1976-),男,博士,教授.研究领域:人工智能,大数据.
李 波(1981-),男,博士,副教授.研究领域:人工智能,大数据.