APP下载

跨境电商进口商品与中国国际进口博览会展品的对比分析

2019-09-24赵民钢周俊妍薛文良魏孟媛钱竞芳郭建峰

中国纤检 2019年8期
关键词:品名展品博会

文/赵民钢 周俊妍 薛文良 魏孟媛 钱竞芳 郭建峰

中国国际进口博览会(以下简称进博会)是由商务部、上海市人民政府联合主办的,旨在推动经济全球化、贸易自由化发展的世界首个以进口为主题的国家级大型展会。2018年,进博会累计吸引了172个国家、地区以及国际组织参展,3600多家企业汇聚,其中,“一带一路”沿线国家共58个,涉及1000多家企业,几乎占所有参展国家的三分之一,这也表明进博会在“一带一路”建设过程中的重要地位,必将为“一带一路”相关国家对华出口提供新的机遇[1-3]。

作为世界首届进口博览会,进博会没有现成的监管模式可以借鉴,检验检疫工作也面临着巨大的挑战,主要问题包括:其一进博会参展对象以“一带一路”国家为代表,进口展品种类繁多,包括农产品、食品、日用消费品、服装服饰等多个门类,所涉及的通关流程复杂,疫情疫病风险高;其二主办方提出“6天会展+365天销售”的运作模式,线上线下结合销售,监管时间长,要求高。总体来说,进博会的监管工作时间紧张、任务繁重、模式复杂,这些都推动着检验检疫部门加快监管创新,在保证质量的情况下,让商品快速通关进口,并在接下来一年的销售期内对质量安全实现长期的动态监控。

跨境电子商务有着批次多、批量小、品类繁多、交易频繁等特点,这与进博会的商品特点大同小异[4];此外,展品在展览结束后,经批准,允许在常年展示馆保税展示交易。这也与跨境电商的保税监管模式异曲同工[5]。因此,相关部门提出是否可以借鉴跨境电商保税仓的监管模式,以实现对进博会商品的长期监管。为了验证这种思路的可行性,本文提出利用跨境电商的商品数据库以及跨境电商进口正面清单与进博会主要商品类型进行匹配,若匹配程度在合理范围内,则说明两者商品具有一定的相似度,其模式的相互借鉴有一定现实意义。

1 研究框架

本文的主体研究框架如图1所示,主要分为三个阶段,首先建立跨境电商全平台产品数据库;其次整理进博会展品数据,与跨境电商产品数据库进行匹配;最后对匹配结果进行分析。

目前,跨境电商进口网站繁杂多样,从进口商品来看,可以分为综合型、垂直型;从物流模式来看,可以分为保税仓、海外直邮。基于进博会展销并举、保税交易、商品种类广的特点,本文仅选取以保税仓模式为主的综合型电商为研究对象。此外,本文拟通过机器采集的方式采集主流跨境电商平台商品数据,建立跨境电商全平台产品数据库,以方便机器匹配的快速扫描。

在匹配方法的选择上,由于数据库的建立需要一定时间,而跨境电商网站商品更新又较为频繁,因此本文将采取机器加人工的方法完成匹配。第一步:机器快速扫描商品库,完成初步匹配;第二步:人工检索主流跨境电商平台,对第一步匹配失败的商品二次检索,查漏补缺。这种方式既实现了快速匹配的要求又尽可能提高了匹配精度。

2 研究方法

2.1 搭建跨境电商平台商品数据库

本文主要利用python编程实现网页商品信息的自动采集,采集流程包括选定采集网站、制定网址采集规则、制定内容采集规则以及数据的采集与保存[6]。

2.1.1 数据采集流程

1)选定采集网站。据中国电子商务研究中心(100EC.CN)监测显示,按整体交易额计算,近两年的主流跨境进口电商平台中网易考拉、京东全球购、唯品国际以及天猫国际均处于市场份额前列,累计份额占比保持在60%以上。基于技术以及时间的原因,本文仅以前三个平台作为样本进行采集,即网易考拉、京东全球购以及唯品国际。

2)制定网址采集规则。网址采集规则是指根据要采集内容网页在网站结构中所处位置制定相应的规则来采集网址。基于跨境进口电商平台主页基本结构的相似性,网址采集规则可归纳如下:首先确定网址主页;然后采集该主页显示的所有商品类目链接(如洁面、卸妆等类目特征词对应的类目链接)形成商品类目链接库;最后遍历访问类目链接库,采集每一个类目下所有的商品链接,形成商品主页链接库。

3)制定内容采集规则。内容采集是指通过制定一系列规则,分析、提取网页HTML编码中的元素。同一网站的子网页源码结构基本一致,因此只需对一个商品主页源码结构进行分析并制定采集规则即可。本次内容采集的字段包括商品标题、原产国、发货仓库、价格、商品详情等,内容采集规则的核心是根据不同元素类型提取元素。针对静态字段,本文直接利用相关模块解析网页源码,定位元素、提取元素即可;而针对动态字段,则需要利用网页控制台进一步获取该元素的动态加载链接,然后访问该链接,解析转换成python类型数据,直接提取。

4)数据的采集输出与保存。遍历商品主页链接库,利用已制定的内容采集规则,采集数据。数据输出直接导入MongoDB数据库,方便可视化查询以及后续生成csv文件与展品进行自动化对比分析。

2.1.2 数据采集结果

最终共采集商品数据782473条,经筛选后存有数据454075条,涉及商品十余类,包括汽车用品、消费电子及家电、服装及日用消费品、医疗保健品、食品等。其中筛选原则主要包括以下三条:去除重复数据、缺失数据、海外直邮商品(包括港澳台)。三个平台各自的数据情况如表1所示。

2.2 商品信息匹配

商品信息匹配的对象有三类,分别是跨境电商进口平台商品、跨境电商正面清单以及进博会主要展品。三类对象的数据基本情况如表2所示。其中,进博会的展品数据来源主要包括物流服务提供商、进出口公司以及进博会主办方,初始共计1443条。经过简单的数据清洗后,按展品品名分类,展品信息共计515条。

表1 各平台商品及原产国数量分布

表2 待匹配对象的数据基本情况

2.2.1 自动匹配模型

目前,常用的商品匹配算法有WHIRL算法、TMWM算法、SSM算法等[7-8]。这类算法以商品标题、价格、属性表等基本参数作为匹配对象,对商品信息进行建模,计算编辑距离、余弦相似度,或是分词后利用tf-idf加权,计算Jaccord相似度等[9-10],其本质多是将文本信息向量化后,按照某种算法计算距离从而得出相似度。

本文需要匹配的字段包括品名、来源国,并且进博会展品品名以二到五字的短语为主,冗杂信息很少。因此,本文拟利用python简单实现自动匹配效果,具体算法步骤如下:

1)读取跨境电商全平台商品数据库,分词,返回分词列表;

2)基于分词列表建立词典,获得特征数,即词典中词的个数;

3)基于词典建立语料库 ;

4)使用TF-IDF模型处理语料库,并建立索引 ;

5)遍历展品品名列表,用步骤2所建词典将品名转换成稀疏向量,计算相似度 ;

6) 当相似度大于0,并且来源国相同,则判断两件商品匹配成功,否则另外输出等待人工二次检索[11-12]。

经过查询数据库中完全匹配的展品合计112件,其中经过机器的快速扫描实现完全匹配的展品共63件,占比达56.25%,这大大提高了匹配的效率,为人工匹配节约了时间。

2.2.2 人工二次匹配

跨境电商进口商品数据库中仅包含三大跨境电商平台,为了保证匹配结果的完整性,人工检索的电商平台在以上三大平台的基础上,加上了天猫国际。人工匹配以自动匹配失败的集合为出发点,在平台上逐条搜索相应的品名以及原产国,定义匹配结果。

3 对比分析

3.1 进博会展品与跨境电商商品的对比分析

匹配的对象是进博会主要展品与跨境电商进口平台商品,基于表2的数据情况,匹配字段仅包括商品品名、原产国。匹配结果如图2所示,共分为5类:分别是完全匹配、无对象、原产国不匹配、原产国部分匹配、直邮。

其中,完全匹配指展品标题与展品来源国与电商商品完全一致;无对象指跨境电商平台没有商品与展品品名相同;原产国不匹配指跨境电商平台有此类商品,但商品来源国与展品来源国完全不匹配;原产国部分匹配即跨境电商平台有此类商品,但商品来源国与展品来源国部分不匹配;直邮即跨境电商平台有此类商品,但入境方式为直邮。

从匹配数量来看,基本匹配占比39.23%,其中完全匹配占比28.74%,原产国部分匹配占比10.49%。值得注意的是仅有35.15%的展品无法在跨境电商平台上检索到同类商品,这就说明64.85%的展品是有监管案例可以借鉴的。在64.85%中,44.3%是完全匹配的,即品名与原产国完全一致,因此其匹配程度还是比较乐观的。

从匹配类目来看,如图3 所示,无对象类商品集中在工业用品、模型、展台用品、电子设备等工业类范畴,此外还有水果生鲜、农产品等可食用不宜保存的食品类。

匹配类商品以食品茶水、个人护卫品、纺织品、家居日用品为主,这也符合人们对日常生活中跨境采购消耗量较大商品类目的认知。原产国不匹配类以酒水生鲜农产品等食品、家居日用品为主,这与“一带一路”国家展品类型多以家居、农副产品、食品为主有关,这类国家大多并未与我国建立稳定的国际贸易关系。

总体来看,博览会展品与本文选取的三个跨境进口电商的商品匹配度比较良好。仅有35.15%是完全无案例可查,此类商品以高科技电子设备、工业设备模型以及生鲜谷物等农畜特产为主,检验检疫部门可以对此类商品重点关注。

3.2 进博会展品与正面清单对比分析

在3.1的比对中,本文说明了进博会部分展品与跨境电商平台现有流通商品的匹配关系,为了进一步说明跨境电商所有允许保税进口的商品与进博会展品的关系,本文提出将进博会主要展品与跨境电商正面清单进行详细对比分析。基于表2的数据情况,这两者的匹配字段仅包括商品品名。

匹配结果如图4所示,共分为两类:匹配、无对象。其中,匹配占比达62.14%,无对象占比达37.86%。

从匹配数量上来看,该匹配率略低于跨境电商平台。这是由于正面清单的部分商品描述较为学术,导致某些展品尽管本质上与清单商品相一致,但很难直接检索到或者清单商品所指的范围很难界定。

从匹配类目上来看,如图4所示,展品在食品酒水、工业用品、电子设备、医疗保健上所匹配的商品较少,尤其是后三个类目。这说明政府在工业模具、高科技产品以及医药保健方面的跨境电商进口管控较为严格或是相关的监管经验欠缺。

4 结论

本文在建立跨境电商全平台产品数据库的基础上,通过自动匹配加人工匹配的方式,完成了进博会部分展品与跨境电商平台商品和正面清单的比对工作,得出如下结论:如文中所述两者商品重合率均达60%以上,因此相关部门有理由借鉴跨境电商保税进口模式监管进博会展品。需要注意的是,两者的差异集中体现在生鲜、农副产品这些食品类商品,以及工业模具、电子设备这类制造业商品上,因此,针对这类商品,相关部门有必要区分看待。

猜你喜欢

品名展品博会
聚焦“丝博会”
2022两岸赏石文化交流线上展览展品展示第2辑
第九届“博博会”将在郑州举办
阅读之美 摄于第29届书博会
直企首探进博会
东莞市果菜副食交易市场水果行情
CIM T2017部分展商主要展品预览(一)
CCMT2016展品预览(1)