基于多维数据分析的民航旅客价值计算*
2017-02-09曹卫东
党 悦 曹卫东 王 硕
(1.中国民航信息网络股份有限公司 北京 100029) (2.中国民航大学天津市智能信号与图像处理重点实验室 天津 300300)
基于多维数据分析的民航旅客价值计算*
党 悦1曹卫东2王 硕1
(1.中国民航信息网络股份有限公司 北京 100029) (2.中国民航大学天津市智能信号与图像处理重点实验室 天津 300300)
高价值、高贡献率的高端旅客对于航空公司提高盈利能力起到了重要作用,加强对高端旅客的洞察和细分能力,提升对旅客的营销、服务和保障水平是民航业面临的重要课题。论文结合国内民航旅客价值计算的实际案例,通过综合运用数据抽取转换加载技术(ETL)、联机分析技术(OLAP)和多维度数据分析和建模技术,搭建了民航旅客价值建模和计算的系统架构,阐述了民航旅客数据处理和旅客价值模型构建的处理过程和旅客价值算法。实验结果表明,确立多维旅客价值模型和算法,为筛选高端旅客,动态计算旅客价值提供了便捷可行的方法,对应用实践具有重要的指导意义。
多维度数据分析; ETL; OLAP; 数据模型; 价值算法
Class Number TP301.6
1 引言
近十余年来,国内民航业呈现出蓬勃迅速发展,旅客运输量保持年10%以上的增长速度。但是,民航业是一个高成本、高风险和低利润的行业,受经济形势波动影响较大。经过多年研究发现,帕累托定律(又称80/20法则)在民航业有比较明显的体现。虽然旅客总量在不断攀升,但是航空公司80%的收益来自占比25%左右的高端商务旅客和常旅客的贡献。航空公司为了提高盈利能力,进而强化企业竞争力,已经对高端旅客高度重视,集中企业的各项资源,加强对高端旅客的洞察和细分能力,提升旅客的营销、服务和保障水平。
中国民航信息集团,简称中国航信作为国内唯一的全球分销系统服务提供商,携手国内各大航空公司,于2011年正式启动了新一代旅客服务信息系统建设,助力航空公司业务转型。新一代旅客服务系统的一个重要模块是旅客视图。旅客视图旨在整合和集成民航旅客服务系统中的各种数据,包括了旅客的订票、偏好、出行、体验、行为等,通过多维度数据分析技术,建立统一的旅客视图,以此为基础构建多维度旅客价值分析模型和价值算法,提升航空公司对旅客的观察、分析和认知能力,辅助航空公司对于旅客的营销和服务决策。
2 多维数据分析技术
对企业生产运营数据进行采集、清洗、整合、分析和应用的整个过程,称为商业智能BI(Business Intelligence)。商业智能的目的,是使企业的各级决策者,以数据分析为基础,获得信息、知识和洞察力,辅助其做出对企业有利的决策。商业智能作为一个系统的解决方案,综合了多种计算机技术和信息处理技术,主要包括:数据库和数据仓库技术(Data Warehousing)、数据抽取转换加载技术(ETL-Extraction Transformation Loading)、联机分析处理技术(OLAP-Online Analytical Process)、数据挖掘技术(Data Mining)等[1~3]。
2.1 数据处理技术
从多个相关数据源采集、解析、整合和集成数据会用到数据抽取转换加载技术(ETL-Extraction Transformation Loading)。
数据抽取,兼容多平台多应用的异构数据源,屏蔽各种数据源之间的差异,提供通用的数据访问接口,从各数据源中提取数据,存储到ETL系统的临时存储机制,为后续工作提供一个统一的数据视图。
数据转换,将抽取出的数据转化为集成的、语义一致的数据,对重复数据进行排重处理,对缺失数据进行补齐处理,以确保数据的质量。另外,要对数据进行组织结构的定义,匹配数据仓库中的多维数据结构。
数据加载,对于清洗完成的数据与数据仓库中的数据结构进行关系映射,将数据加载到数据仓库中的一张或多张报表中。同时,需要定义数据的加载规则,包括数据的加载频率、加载顺序、加载作业的启动时间以及单次加载数据量等等。
日志系统,由于整个ETL数据处理过程步骤多,操作复杂,数据流动性强,所以在数据操作处理过程中,会记录日志,通过日志对ETL的实施进行过程监测和控制,做到有据可查,最终提高ETL的数据处理质量[4~6]。
2.2 数据挖掘与联机分析处理技术
经过ETL数据处理过程,来源于多种数据源的异构数据被存储到数据仓库中,使用数据挖掘技术(Data Mining),通过特定的规则库,对入库数据进行条件过滤和筛选,形成特定的应用标签,可以进一步提炼数据的维度和指标,完善针对特定应用的数据模型[7]。
由于维度和指标在定义时都是相互独立的,其间并无隐含的关联信息,因此要利用联机分析处理技术(OLAP-Online Analytical Process),对它们所属的表进行关联,关联之后才能在它们之间进行查询和分析。表关联信息保存在表关联定义表中。表关联要保存如下一些信息:关联的父表名称、关联的父表列名、关联的子表名称、关联的子表列名。如果把表看作是有向图中的节点,把关联看作有向图中的边,则所有表的关联关系构成了一个或多个有向图[8]。
2.3 多维度数据建模
多维数据中的维度,是观察事物的角度,是对事物进行分类的特定规则。同样的数据从不同的维度进行观察可能会得到完全不同的结果,尝试从多维度观察和划分事物,有助于更加全面和清楚地认识事物的本质。每个维度都从不同方面体现所描述的事物特征,而每个维度又可按粒度的不同划分成多个层次,称为维度成员。维度通常用“树”型数据结构存储。多维分析中另一个重要的概念是数据指标,指标代表了数据中的可度量的属性,通常用MAP数据结构存储。
当以维度模型建立了数据模型后,便可以对多维数据进行分析和操作处理。常见的多维分析操作方法主要有五种:钻取(上钻和下钻)、切片、切块、旋转。钻取。钻取是改变维度的层次,变换分析的粒度。钻取包括上钻和下钻,上钻是在某一维上将低层次的细节数据概括到高层次的汇总数据的过程,减少了分析的维数;下钻则相反,它是将高层次的汇总数据进行细化,深入到低层次细节数据的过程,增加了分析的维数。切片和切块是在多维分析中,如果在某一维度上限定了一个值,则称为对原有分析的一个切片,如果对多个维度进行限定,每个维度限定为一组取值范围,则称为对原有分析的一个切块。在多维分析中,维度都是按某一顺序进行显示,如果变换维度的顺序和方向或交换两个维度的位置,则称为旋转。
3 多维民航旅客价值数据模型与动态计算
3.1 民航旅客价值动态计算业务
根据旅客服务环节和业务应用的不同,民航旅客的数据信息分布运营、存储在订座系统、代理人系统、离港系统和航空公司的客户管理系统中,还要整合来自政府系统、银行系统的特殊旅客和关联会员旅客信息以及来自航空联盟数据库系统的国际旅客信息。这些各不相同的民航旅客信息数据源,提供了数据接口格式、语义定义、数据文件格式和更新周期各不相同的民航旅客数据,在采集到这些数据源提供的数据后,首先要通过ETL数据处理过程,对这些异构数据进行解析和清洗,成为标准格式的XML数据,以旅客为单位组织各项属性信息,通过多数据源的排重和补充处理过程,丰富和完善旅客记录中的各项属性字段,在数据仓库建立一张或多张旅客信息数据表。基于多维度数据分析的旅客价值建模和计算技术框架图如图1所示。
图1 基于多维度数据分析的旅客价值建模和计算技术框架图
对于经过ETL数据处理过程存入数据仓库中的旅客数据,从静态维度描述了旅客的部分属性和信息,但是对于全方位地了解旅客的动态行为信息和价值信息,这些静态数据的信息量是不充分的。因此,需要利用数据挖掘技术,通过建立数据筛选规则,对已有的静态旅客数据进行筛选和挖掘,得到新的属性信息,来丰富对旅客的观察层次和描述维度,更加准确、全面、客观和动态地展现旅客的行为和价值信息。
举例来说,可以在来自于离港系统的静态成行数据基础上,建立服务体验筛选方法库,来观察旅客在成行过程中的服务体验经历。例如,可以根据离港数据中旅客被动降舱的数据字段记录,设定数据筛选的开始和截止日期,以及旅客等级等筛选条件,得到满足筛选条件的旅客数据范围,可以在这些旅客记录上增加“被动降舱”属性标签。以此类推,通过服务体验筛选方法库的筛选,可以对旅客记录增加“被动降舱”、“航班延误”、“行李丢失”等属性字段,这些旅客属性的集合构成了观察旅客“服务体验”的维度。
3.2 民航旅客价值数据模型
通过建立数据挖掘的规则库和数据筛选流程,对民航旅客静态数据进行挖掘,丰富了民航旅客数据内容,增加了评价和描述民航旅客价值的信息维度,更加全面地建立了民航旅客价值的多维度数据模型。民航旅客价值数据模型是如图2所示的树型数据结构,有三个一级维度:静态价值、挖掘价值和市场价值。
图2 多维度民航旅客价值数据模型
静态价值,侧重于描述旅客本人的静态信息,又称为档案信息。静态价值包括两个二级维度,旅客身份和服务偏好。旅客身份来自于多种数据源的数据清理和数据集成。服务偏好的来源有两种,一是从服务接触点渠道直接采集旅客的服务偏好意愿,另一种是从旅客的订票和成行历史数据中,根据偏好采集规则,提取的数据信息。
动态价值,重点在于描述旅客在乘机出行中的过程信息和旅客行为,是一种在动态过程捕捉和挖掘的旅客信息,这个维度又分为体验价值和行为价值两个二级维度。体验价值,重点观察旅客在出行过程中遇到的一些特定事件,例如航班延误、被动降舱等。行为价值,重点把握旅客在设定的观察期内,其行为呈现出的规律和特点,例如高频退票、高频NOSHOW等行为。
表1 多维度民航旅客价值数据模型内容
市场价值,是从市场贡献度的角度来观察旅客价值的维度,分为本航价值和市场价值两个维度。考量本航价值的规则,是设定不同的比较观察周期,从乘机次数、平均票价和收益贡献等指标来比较旅客对于本航空公司价值的变化情况,从而动态地捕捉到旅客对本航的变化情况,得到例如优质高端、正在流失等属性特征。市场价值的考量规则,是设定不同的比较观察周期,把旅客对某一家航空公司的价值贡献度与对全市场所有航空公司的价值贡献度相比较,从全民航市场角度观察旅客的价值。
如表1所示,在每一个二级维度下,又建立了一组描述该维度的三级数据指标。这些指标的取值规则各不相同。有的数据指标有多种取值,例如常旅客级别可以有白金卡、金卡、银卡和普卡四种取值;座位偏好可以有靠窗、靠走道、靠前和靠后四种取值;餐食偏好可以根据机上供应种类,有十余种取值选择。有的数据指标仅有“是”的显性取值,例如动态价值和市场价值维度下的三级数据指标,如果旅客满足筛选规则,则相应种类的旅客数据指标为“是”取值,如果没有满足筛选规则,则在该维度下没有该旅客数据指标。
基于对民航旅客数据的分析、提取和整合的过程,得到了上述多层次、多维度的民航旅客价值数据模型。该模型为全面地了解和分析旅客,进一步把握和判断旅客的价值,奠定了重要的基础。
3.3 民航旅客动态价值计算
前面介绍的多维度民航旅客价值数据模型,为分析和判断旅客价值提供了一套分析维度和指标的全集。在实际的民航业务管理和旅客服务应用实践中,航空公司通常会选取自己重点关注的一组维度和指标,并对这些指标进行了数值化赋值,用于旅客价值计算。在维度和指标的选取和赋值过程中,可能会用到上钻、下钻、切片、切块、旋转等操作对数据进行处理[9],民航旅客动态价值计算流程如图3所示。
图3 民航旅客动态价值计算流程图
对于航空公司根据某类旅客价值分析业务选取的多个维度和指标的集合,定义为G(Group),这个集合包含N个维度和指标R(Rule),既G={R1,R2,R3,…,Rn}。每一个价值维度或指标R(Rule)都对应一个价值数量V(Value),每个价值数量对应一个权值K,表示在总的价值中该类规则的比重。则按照如下的公式,对旅客价值进行计算:
把每一类维度和指标的价值数量,根据所占权重比例,加权求和(其中,各项权值的总和为100%),即可得到根据所选维度和指标计算的旅客价值。从上面的旅客价值计算公式可以看到,旅客价值计算的关键因素有三个:一是维度和指标集合,这决定了旅客价值计算模型的动态结构,明确了参与旅客价值评估和计算的指标范围。二是维度和指标的数字化赋值,对于进行计算的维度和指标的赋值,需要进行标准化定义[10],以确保各项指标采用同一套数值系列来描述旅客的价值。三是维度和指标的权值,决定了每个维度在计算结果中所占比重,直接影响导数据计算的结果。
这里给出的是普适性的民航旅客价值计算规则和算法,航空公司可以根据特定的业务需求,选择不同的旅客价值维度和指标的集合,针对特定的旅客群体进行价值评估和计算。
4 结语
民航旅客价值模型分析和价值计算,为民航运输和服务企业对民航旅客群体进行细分,更全面地掌握旅客的全方位信息,制定各种营销和服务政策维系高价值、高贡献率的高端旅客,为旅客提供更周到的个性化服务提供了重要的数据基础和决策依据。本文阐述了旅客细分和旅客价值计算,对于航空企业的收益管理和运输服务以及中国民航新一代旅客服务信息系统建设中的重要意义。介绍了基于多种异构数据源进行数据处理和多维度数据建模所用到的关键技术,并结合中国民航旅客价值建模和计算的实际业务案例,搭建了民航旅客价值建模和计算的系统架构,详细介绍了民航旅客数据处理、价值模型构建和旅客价值计算的处理过程,为基于多维度数据分析的民航旅客价值计算提供了可行的解决方案。
[1] 胡运发.数据与知识工程导论[M].北京:清华大学出版社,2003. HU Yunfa. Introduction of data and knowledge engineering[M]. Beijing: Tsinghua University Press,2003.
[2] 祁利刚.数据仓库数据抽取转换加载系统的研究[D].保定:华北电力大学,2007. QI Ligang. Research of data warehouse data extraction and transformation loading system[D]. Baoding: North China Electric Power University,2007.
[3] 姚志鹏.数据抽取、转换、加载描述规范的研究与应用[D].青岛:青岛大学,2013. YAO Zhipeng. Data extraction, transformation, loading description specification research and application[D]. Qingdao: Qingdao University,2013.
[4] 张建兴.中国邮政速递数据仓库系统ETL的设计与实现[D].北京:北京交通大学,2014. ZHANG Jianxing. Design and implementation of China post express delivery data warehouse system[D]. Beijing: Beijing Jiaotong University,2014.
[5] 杨胜利.ETL在期货CRM数据中心中的应用研究[D].杭州:浙江工业大学,2012. YANG Shengli. ETL in the CRM data center of the futures market[D]. Hangzhou: Zhejiang University of Technology,2012.
[6] 刘豹.一种分布式ETL系统的设计与研究[D].北京:北京邮电大学,2014. LIU Bao. Design and research of a distributed ETL system[D]. Beijing: Beijing University of Posts and Telecommunications,2014.
[7] Paulraj Ponniah.数据仓库基础[M].段云峰,等译.北京:电子工业出版社,2004. Paulraj Ponniah. Data warehouse based[M]. Duan Yunfeng, et al translated. Beijing: Electronic Industry Press,2004.
[8] Erik Thomsen.OLAP解决方案:创建多维信息系统[M].朱建秋,等译.北京:电子工业出版社,2004. Erik Thomsen. OLAP solutions: building multidimensional information system[M]. Zhu Jianqiu, et al transalted. Beijing: Electronics Industry Press,2004.
[9] 刘庆伟.多维数据分析的实现及应用[EB/OL].中安网www.cps.com.cn工程方案,2009. Liu Qingwei. The realization and application of multidimensional data analysis[EB/OL]. www.cps.com.cn project of safety net,2009.
[10] 张波.一种民航旅客价值计算模型的研究[J].电脑知识与技术,2015,11(24):69-70. ZHANG Bo. Research on Civil Aviation Customer Value Calculation[J]. Computer Knowledge and Technology,2015,11(24):69-70.
Civil Aviation Customer Value Calculation Based on Multi-Dimension Data Analysis
DANG Yue1CAO Weidong2WANG Shuo1
(1. Travel Sky Technology Limited, Beijing 100029) (2. Tianjin Key Lab for Advanced Signal Processing, Civil Aviation University of China, Tianjin 300300)
The elite customers who have high-value and contribute more revenues to the airlines have much more importance to the airlines. Enhancing the ability of customer insight, analysis and promoting the ability of customer marketing and servicing are the significants subject of civil aviation industry. In this paper, the key technology of data extraction transformation loading , online analytical process and multi-dimension data analysis are introduced, after that, the overall architecture of the civil aviation customer value calculation based on multi-dimension data analysis is presented and the technological process of the customer data processing, the build-up of the customer value model and the customer value algorithm are elaborated. The experimental results indicates that setting up the multi-dimension customer value model and the customer value algorithm provides a convenient and feasible method for the recognition of high-value customers and for the dynamic calculation of customer value, has an important guiding significance for application.
multi-dimension data analysis, ETL, OLAP, data model, value algorithm
2016年7月12日,
2016年8月23日
民航局重大专项(编号:MHRD20150107);中国民航大学天津市智能信号与图像处理重点实验室开放基金(编号:2015ASP02)资助。
党悦,女,硕士研究生,工程师,研究方向:中国民航旅客服务产品和服务系统,民航旅客细分和价值计算研究等。曹卫东,女,博士,副教授,研究方向:数据挖掘,智能信息处理。王硕,男,硕士研究生,研究方向:中国民航新一代旅客服务系统,全流程旅客服务指挥监控系统、离港系统产品、旅客自助服务产品及产品体系管理等。
TP301.6
10.3969/j.issn.1672-9722.2017.01.037