车企利用机动车销售发票统计车辆销量的方法
2019-07-09陈涛
陈涛
摘 要:随着计算机技术的进步,获取准确的销量统计数据一直是车企探索的方向,通过销量趋势对车企销售形势进行判断、及时调整生产节奏、分车及营销策略,以此优化库存结构或评估经销商运营能力进而调整渠道。对全行业车企销量统计不仅可进行市场前景预测、还可进行各细分领域分析进而对车企自身进行准确定位,在激烈的竞争中获取竞争优势。消费者亦通过销量排名锁定购车范围。本文讨论了从机动车销售发票数据中进行车辆销量统计方法和实践。介绍了发票数据现状、数据仓发票数据预处理、数据模型构建、多维统计分析可视化的实现方法。
关键词:机动车发票;数据仓;数据模型;多维分析
目前车辆销量统计方法多种多样,按数据源头分,有各厂商批发量、4S店上报销量、车管所上牌量、车辆上险量;按数据发布主体分:有乘联会、汽车工业协会、汽车流通协会等等。由于数据源及统计方式的不同,销量统计结果不一样。对于批发量,是由车企每个月向乘用车市场信息联席会上报批发出去的汽车数量。4S店上报,是由车企的加盟4S店在各时间周期内上报的客户购车信息,由于车企将4S店所上报销量目标完成情况与返点挂钩,所以4S店上报量并非绝对准确。车管所上牌量是客户购车后在办理上牌时车管所记录的购车数据,该数据在各种统计方法中较为权威,但是数据往往较难获取。车辆上险量,是客户购买车辆后购买交强险的记录数据,该部分数据覆盖面较广,可获取全行业上险数据,但是数据具有滞后性,滞后周期为一个月。
除了上述销量统计方法外,还可以通过机动车销售发票信息中提取销量数据。本文基于所获取的机动车销售发票数据讨论如何进行数据预处理提取车辆销量数据,并进行数据建模、多维统计分析及可视化展示方法。
1 机动车销售发票数据统计利用现状
1.1 机动车销售发票数据来源
汽车销售行业在车辆销售后需要向客户开具《机动车销售统一发票》,为了提高开票业务操作效率以及数据准确率、并更方便财务做账,使用企税通开票系统通过扫描合格证和身份证分别获取汽车相关信息车主信息。并将汽车信息及车主信息自动传输给机动车销售统一发票系统,进而协助开票员将轻松、快捷、准确地打印出机动车发票并交付给客户,并且获取到机动车销售发票信息。与销量统计有关的机动车销售发票信息主要包括:销售单位名称(经销商名称)、车辆VIN、开票日期、整车价格、税率、税额、价税合计、开票方式、备注、删除标记、作废标记等。
1.2 机动车销售发票人工统计销量现状
企税通税控发票系统所获取的机动车销售发票数据脏乱,很难直接通过常规方法统计得到销量数据。具体表现为:发票包含非机动车发票、非本厂车辆,同一台车重复多次开票与退票,开票与退票先后顺序错综复杂,正常与作废发票过程记录混杂在一起,无销售单位代码、无车型信息等等,进而无法直接进行地域维度、车型维度统计分析。
采用人工统计的方式,需全量导出脏乱发票数据,仅可对作废或已删除数据做数据筛选预处理,但是对同一台车重复开票与退票数据,尤其是开票与退票过程时间跨度超过一个月的时候,需人为对该车辆所有历史开票信息进行人工识别比对。人工识别比对过程需依据开票先后顺序及价税合计金额人为识别出可作为车辆销量数据统计的有用开票信息,同时还需人工对历史已统计过的车辆销量进行扣减,以便去除对同一台车的重复销量统计。这个过程不仅效率低还容易出错、可分析维度单一,且统计分析过程和结果不便于在线共享。
1.3 利用機动车销售发票数据统计销量的优势
相比各厂商批发量与真实销量统计角度差异、车管所上牌数据难以获取、4S店上报销量受销量目标影响、车辆上险量数据获取滞后性,利用机动车销售发票获取的销量统计数据具有数据实时、由真实车辆销售业务产生,数据容易获取且不受销售目标影响的特点。
1.4 利用机动车销售发票数据统计销量的问题
由于机动车销售发票是围绕着车辆销售过程的发票打印业务开展获取的,其具有以下问题影响直接的销量统计获取:
①包含非机动车销售发票,通常表现为无VIN信息。
②包含非本厂发票信息。
③正常与作废发票数据信息均记录。
④开票和退票过程不规范,退票过程可能先退旧票再开有效发票,也可能先开有效发票再退旧票。
⑤经销商名称为非必填信息,未记录经销商代码,无法识别销售该车辆的经销商。
⑥VIN信息会书写错误,例如位数不足17位、数字写错等。
⑦时间跨度超过一个月车辆退票时,不能作废原发票,只能通过开负票进行红冲。
2 基于机动车销售发票进行多维数据统计分析的实现方法
2.1 整体思路
首先基于机动车销售发票数据问题,采用SQL语句对数据进行预处理剔除非车辆销售、非本车企、VIN位数不正确的数据,利用虚拟视图识别最终状态为已经销售的车辆及其销售日期得到企税通开票表。其次将企税通开票表与其他需进行多维统计分析用到的基础信息表进行数据建模,再并依据分析需求建好模型的数据创建统计度量值,最后进行可视化展示。
2.2 数据预处理过程
SQL数据预处理过程如图1所示:
2.3 数据建模过程
利用表之间的关系,构建数据模型。在powerbi中导入以下表:经销商档案表、车型表、实销与库存表、企税通开票表、日期表、行政区域划分表;实销表、实销与库存表与车型表通过VSN字段建立关系,从而拓展车型分析维度;实销、企税通开票与标准日期表通过销售时间、开票日期字段建立关系;企税通开票表和实销与库存表之间通过VIN字段构建关系从而获得企税通开票的开票单位代码信息;实销、实销与库存表与经销商档案表通过经销商代码字段建立关系。经销商档案表与行政区域划分表通过省份字段建立关系。
2.4 统计分析与可视化过程
基于构建好的数据模型,创建指标度量值:开票当期、系统实销(4S店上报实销)、企-实(开票与实销差异)等,并且创建切片器、从而不仅可以从开票的维度统计车辆销量,还可以对将4S店上报实销与开票当期对比,并且基于车型、区域、品牌、时间维度进行多维数据统计结果查询。
3 实现范例
3.1 数据预处理
用SQL语句从开票信息表中选择所需的字段(销售单位名称(经销商名称DealerName)、车辆VIN、开票日期InvoicingDate、整车价格ExcludingTaxAmount、税率TaxRate、税额TaxAmount、价税合计Totalamount、开票方式InvoicingMethod、备注Comments、删除标记IsDeleted、作废标记FailureFlag等。),其中过滤条件设置有VIN开头为“LZW”( substring(Vin,1,3)='LZW')、并且VIN长度为17位(len(Vin)=17),数据未删除(IsDeleted=0)、数据未作废(FailureFlag =0),此过程数据存储为虚拟视图。
以VIN为主键,对VIN进行分组统计,并对每条VIN价税金额进行合计总额,筛选合计总额>0的数据(group by AllInvoicingCar.Vin;having sum(AllInvoicingCar.Totalamount)>0),此步骤可综合同一辆车的所有开票和退票记录,仅留下累计开票金额为正的数据,过滤掉销售开过票但又发生了退车的数据。此过程存储为表A。
对虚拟视图中的数据,只保留价税合计金额为正的数据,并且以VIN为主键,对VIN进行分组统计,对每条VIN的开票日期降序排序,保留排序等于1的数据,,此步骤可保留下所有正常车辆销售业务所开的票据。次过程存储为表B。
以表A为主表,用VIN进行表关系关联,匹配B表中的信息,采用left join 语句取出B表中所有与A表能匹配上的信息,以此获取到车辆开票日期信息等。
3.2 数据建模
依据2.3数据建模过程思路,创建利用机动车销售发票统计车辆销量的多维分析模型如图2。
3.3 数据分析与可视化展示
依据2.4统计分析与可视化过程思路,构建以下度量值,并在可视化界面分别构建瀑布图-区域系统实销与开票差异对比、区域开票当期与实销表、省份开票当期与实销表,如图3。
①开票当期=CALCULATE(sum('企税通开票'[sl]),'企税通开票'[价税合计]>0)
②系统实销=CALCULATE(sum('实销'[数量]))
③企-实=CALCULATE('度量值-企税通'[开票当期])-CALCULATE('度量值-实销'[系统实销])
4 结束语
1.通过该数据处理方法进行数据预处理,通过算法自动进行有效数据过滤,不需要反复多次导出脏乱发票数据;对于同一辆车多次开票问题,不需要人工识别各种开票场景并进行数据比对;可一次性导入有效性开票数据,降低错误率。
2.该多维数据统计分析的方法和装置,一次性搭建好数据模型和统计度量值之后,只需要進行数据更新,即可得到既定的可视化分析结果,大大提升统计分析效率。
3.依据建好的模型,可设置自动更新数据网关或手动刷新数据,可实现不同人员/团队进行在线异步分享可视化分析结果,提升工作沟通效率。
参考文献:
[1]黄歆哲.计算机信息技术在销售统计管理工作中的应用[M].科技视界. 2095-2457.2013.23.024.
[2]张红军.多维数据集中高维数据可视化算法研究[M].微电子学与计算机.34卷.第5期2017年5月.
[3]王淑蓉,赵颖.数据仓库的OLAP多维展现技术的研究与应用[J].电子设计工程。20卷 第14期.2012年7月.
[4]航天信息股份有限公司.一种用于增值税的数据清洗存储方法[P].CN104636337B,2018.01.12.
[5]航天信息股份有限公司.税控开票系统及利用该税控开票系统统计商品数据的方法[P].CN106875237A,2017.06.20.