APP下载

深入挖掘航运数据背后的价值

2020-03-02

技术与市场 2020年1期
关键词:我司关键字主营业务

(中远海运集装箱运输有限公司,上海 200080 )

0 引言

当今社会,大数据分析已渗透到集装箱运输业的各个方面。作为世界第三、中国第一的航运企业,透过客户在我司留下的运输足迹,站在行业的高度,结合企业内外部数据,探究和发现数据背后的潜在规律和价值。

本文围绕深入挖掘航运数据背后的价值这一主题,选取我司在化工品和机电设备领域比较有代表性的两家客户(以下简称客户A和客户B),应用名词解析和机器学习等技术,分析其出运货物种类的特点及规律。笔者为本次数据分析制定了如下5个阶段性目标,并分阶段对其完成情况和意义进行详细阐述。①从客户A和客户B着手,总结这两家企业的关键出货品类。②与这两家公司外部公开的数据进行匹配,观察其在我司系统中申报的货物品类和其公司主营业务是否一致。③考察我司这些关键出货品类的进出口地点和量的变化趋势。④将这种分析方法拓展到全公司,考察和这两家公司运输相似货物的客户的货流走向。⑤站在客户的角度去思考,如何利用我司的资源和数据帮助客户在其领域获得成功。

1 第一阶段:抽取源数、梳理信息

从我司订舱系统的源数中查找到这两家客户2015年7月至今的所有货物数据。共计18 342条。结合这两家公司及其子公司官网上的信息和我司系统中的SAP ID信息,梳理他们各自的主营业务。客户A的主营商品种类主要涵盖化工原料及其衍生产品,相对货物品类较为集中;而客户B则以机电设备、家用电器、电子电器、汽车配件为主。

2 第二阶段:名词拆解、初步分析、建立方法

首先对18 342条货物数据的货物描述进行名词拆解和分析,拆解到只留下最为关键最能描述货物情况的名词。然后对相同的名词进行分类汇总。

通过对货物描述的名词拆解和分析,得出以下结论。

1)HS CODE和OOCL_CMDTY_GRP都存在较高的缺失率,直接利用统计会丢失信息。

2)FULL_DESC不存在缺失,但数据质量较难控制,从笔者通过自然语言文本分析手段拆出名词来看,客户A的品类集中度较高,主要集中在化学品和橡胶上,有利于后期关键词提取,而客户B的较分散,说明客户B的货物关键词提取难度更高。

3)HS CODE从统计结果看客户B维护率较高,有助于后期辅助从FULL_DESC提取关键词。

4)HS CODE和OOCL_CMDTY_GRP的缺失存在互补性,可以有助于后期辅助从FULL_DESC提取关键字。

通过这一阶段的分析,确立了将客户主营业务和其货物信息结合起来的方法,那就是用名词拆解的手段来进行同公司内HS CODE交叉补全,利用HS CODE作为主键来区分不同的货物种类。再用人工的方法和该公司的主营业务匹配起来进行货物进出口流向的分析和统计。

3 第三阶段:HS CODE补全、匹配主营业务、汇总货物流向

利用第二阶段所建立的分析方法,笔者对18 342条货物数据进行了公司内部的HS CODE交叉补全,并手工匹配了主营业务。再结合我司系统中货物的进出口地完成了这两家客户的统计小结,即完成了第三个阶段性目标。

3.1 关键字存在问题

1)拆出的名词可能包含一些常用名词,所以多于货物信息分析需要结合多个关键字理解。

2)关键字存在单复数还未清洗,后续需要完善。

3)关键字是对这两家企业的货物信息拆解,未来要扩展到其他公司,还需要创建同义词表等。

4)关键字对于拼音暂时未做处理,后续有方法可以处理,但较为复杂。

3.2 主营业务对应存在问题

1)主营业务对应全人工处理,存在误差,特别是客户A的化学品拆解难度较大,很多归类人工识别较困难。

2)主营业务对应目前是借助关键字表完成,然后通过关键字表返回源数据。处理量少,但存在人工误差。

4 第四阶段:扩展到全公司、样本分析、总结问题、优化代码

把视角扩大到全公司,站在全公司的角度上分析这两家客户的货物流向和货物信息在其同行业中有什么特点和优劣势。

在对这两家客户研究成果的基础上,统计分析全公司的货描情况。

1)提升货物描述数据质量,便于后续统计分析。

2)全公司货物描述关键字提取,借助HS CODE建立分类体系。

3)全公司货物描述中涉及这两家客户的主营业务货种的统计分析,例如,橡胶在我司每年的运输量、进出口国家等。

4)与这两家客户主营业务有交集的其他公司在我司的运输情况。

笔者首先需要对全公司近一年的所有货物数据进行名词拆解分析和HS CODE交叉补全。由于数据量较为庞大,经过测试后随机森林这个模式准确率最高,故采用此模型。

完成HS CODE补全的公司有6 862家,其中剔除HS CODE全部缺失的公司,还剩4 874家,其中2 513家公司完成了有效的HS CODE补全。原先该部分的数据缺失率为69%,补全后缺失率为23%,该部分的缺失率仍有降低的可能性。下面的统计分析部分是基于这一结果之上的简单分析。

基于客户名称的分析,我司从数据层面上暂时没有完整的信息用来区分货代和直客,故笔者想借助客户公司名称来初步统计分析。客户公司运输量和不同HS CODE数量之间的数值相关性不是很强,只有0.262 5。未来如果笔者对客户公司按照一定的规律进行划分,可以划区块进一步分析两者之间的相关性。或者通过不同区域数值的划分、相关性来划分客户公司,能更好地对我司的客户公司进行分群。

对于拼箱货的货物描述分析,货物描述种类多,但实际的箱量贡献度不高。这一类公司以百货、零售、物流公司居多。在分析这类客户公司货物信息的时候,他们的实际贡献度和一个箱子少量货描的客户公司的权重需要区别对待。

5 第五阶段:全公司HS CODE补全、客户相似性分析

通过上一阶段对代码的分析和优化,笔者将该方法运用于全公司的数据的HS CODE交叉补全。笔者已经将大部分数据的HS CODE字段进行了补充,并加上了主营业务字段。为了后续筛选分析方便,引入“企业之间相似性”这个概念。

对于企业之间的相似性度量,可以将“量”概念引入,也可以忽略“量”,对于“量”,可以有多种方式度量:数据的量,产生TEU的量,利润的量等。

在这里简单起见,忽略“量”,将所有原先“量”,有数据看成1,没数据看成0。因此对于一个公司的相似性度量只要考察二者主营业务的重叠数。例如客户B有7种主营业务,但是目标公司与其重合的主营业务有3个,因此二者之间的相似性可以用3/7来计算,同时也有很多种计算方式,主要取决于希望从什么角度去看,后续供同行探讨。

6 结语

受制于单机的性能问题,笔者目前只完成了全公司70%货物数据的HS CODE交叉补全。笔者还引入了“企业相似性”这一概念,从主营业务来判断两家客户的相似程度,之后也会考虑加入更多的度量方式,例如数据的量、产生TEU的量、利润的量等。

综上所述,第一种是以货物为基础来考量,第二种是以公司为基础,笔者认为可以将这两种方法结合起来分析,看看怎样最大化地给客户带去收益。

猜你喜欢

我司关键字主营业务
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
农产品加工业主营业务收入与农民收入关系的实证分析
关于商标侵权的严正声明
成功避开“关键字”
2017年1-7月塑料制品行业主营业务收入利润率5.82%
突发丨优酷员工打伤同行,腾讯发声明:要求承担法律责任
山西证券公司主营业务创新策略
一季度大中型钢铁企业主营业务亏损超百亿元
智能垃圾箱