(2020年度“华苏杯”获奖论文二等奖)基于Smart-DI和Smart-AutoML的电信行业挖掘平台研究及应用
2022-01-19刘亮张晟顾骧顾强蒋强
刘 亮 张 晟 顾 骧 顾 强 蒋 强
中国移动通信集团江苏有限公司
0 引言
当前,电信运营商市场竞争日渐加剧,在“提速降费”等行业宏观趋势的影响下,电信行业面临着较大成本压力,传统“广撒网,以量取胜”的营销方式无法对目标客户进行细分挖掘,活动信息并未触达高意向的客户。通用做法是利用智能算法进行建模,预测各类业务目标客户,而组建专业数据挖掘团队进行人工机器学习建模的方式耗时长,无法适应变化迅速、需求激增的市场形势。
随着人工智能和大数据技术的广泛使用,生产一线亟需数智手段来提升效率,而较高的技术门槛是阻碍这一进程的首要原因。解决这一矛盾的一种有效方案就是提供“低门槛、高效率”的数据智能工具。本文提出了构建智能挖掘分析平台的设计方案,并论述了落地实现效果。针对数据智能应用如何满足深层次的数据价值挖掘,智能挖掘分析平台给出了一个较为成功的实践案例,解决了长期以来数据智能工具因仅限少数专业人员掌握所带来的效率问题。
1 研究背景
长期以来,电信行业利用各种数据挖掘工具对海量数据进行分析和挖掘利用。随着市场需求激增,成本和效率的问题逐渐凸显出来,其核心原因在于现有的数据挖掘建模方式存在以下显著的痛点和问题:
(1)市场形势灵活多变,人工挖掘潜在客户耗时耗力。市场环境要求开展营销活动需灵活多变、快速响应,而构建一个完整的挖掘模型通常需要经过取数、数据清洗、字段数据分析、构建模型、效果评估,整个流程时间长且工作量大。
(2)数据挖掘AI工具与业务平台分离,需大量线下人工介入,操作繁琐。人工挖掘建模需要数据运维团队协助提供数据宽表、衍生指标、业务标签等数据准备工作。
(3)AI技术种类广、发展快,潜客挖掘对专业性要求较高。各类业务潜在客户挖掘模型的构建需要熟练掌握AI专业技术,非专业技术人员不能胜任。
如何构建一个平民化的挖掘分析工具,为不具备专业挖掘技术的一线业务人员提供“一站式、低门槛”的挖掘建模体验,具有极大的研究价值和实战意义。
2 电信行业智能挖掘分析平台建设
2.1 平台设计思路
智能挖掘分析平台基于智能数据编排技术(Smart-DI,Data Integration)和智能自动建模技术(Smart-AutoML,Auto Machine Learning)构建。平台在“工程-流程-组件”三级框架下,将数据处理流程、模型训练流程和推理应用流程串联起来。前端对操作者屏蔽掉所有专业的处理细节,真正做到零代码、低门槛;后台则通过智能数据编排技术实现对数据的灵活加工处理,基于TPOT机器自学习框架开发完整的模型训练和应用流程,封装各类专业化处理的算法和算子,在流程的驱动下自动完成挖掘建模的全过程。
2.2 平台技术架构
平台总体的建设架构如图1所示,通过数据底座接入多源数据,对数据进行各种预处理,通过Smart-DI使数据形成个人、家庭、集团等主题的数据视图,再利用Smart-AutoML流程实现挖掘模型的选择、训练、调优和生成。通过对模型的监控、管理,最终为用户提供一个具有丰富数据挖掘模型的模型超市和“零门槛”的智能挖掘建模分析平台。
图1 电信行业智能挖掘分析平台技术架构图
2.2.1 数据底座
构建基于Spark分布式架构的高性能数据处理底座,封装高性能数据预处理、算法等实现对海量数据的高效处理,为
大数据下的场景化挖掘提供高效、快速的处理能力。整个数据预处理流程如图2所示。
图2 数据底座数据预处理流程
2.2.2 Smart-DI
在传统数据挖掘过程中,单数据准备环节往往需要占用70%以上的时间。Smart-DI(智能数据编排,Data Integration)技术将数据加工场景抽象成业务对象/视角、业务过程、业务限定、统计周期四类元素,在系统中定义成相应的对象,在使用中对数据对象进行聚合、拼装,不仅提升了数据准备的效率,还保障了统计指标标准、无二义地生成,实现挖掘数据的“智能聚合、灵活编排、沉淀复用”。
Smart-DI元素描述如下:
(1)原子指标:明确统计口径,即计算逻辑;
(2)业务限定:统计的业务范围,筛选出符合业务规则的记录;业务限定即在业务过程表及其关联的对象/视角表上定义生成的限制或过滤条件;
(3)统计周期:统计的时间范围,比如最近一天,最近30天等;
(4)统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可理解为聚合运算时的分组条件(即SQL中的group by)。
其逻辑关系如图3所示。
图3 业务元素拆解示意图
数据融合编排的实现逻辑如图4所示。
图4 数据编排实现原理
数据编排的实现从数据的关联性(如数据都来自同一业务系统)、数据接入时间一致性(如数据的生成时间都差不多)等方面进行充分的考虑,得出最优的宽表设计方案。例如,将相同统计粒度(比如都是基于用户的)、相同来源(比如都是来源于订单的)的指标归到同一个基础汇总宽表里面,将脚本合并执行,从而提高效率。
2.2.3 Smart-AutoML
Smart-AutoML(智能自动建模技术)主要包括自动建模训练、模型应用、自动参数调参优化、模型监控等过程。前端由用户配置训练所需的数据源宽表,用于训练和应用的数据宽表通过智能数据编排完成。系统提供给用户灵活选择数据账期的界面,可以指定用于训练的账期数据和用于推理的账期数据。此外,用户还参与指定模型评估的优先录用原则,即,优先考虑查准率或查全率。这是因为我们在后台封装的模型训练中采用了多算法并行训练的机制,即,同时采用同类型算法进行并行建模训练,并对模型进行自动评估,按照用户基于业务场景需要定义的优先评估指标,输出最优的模型方案。
自动建模实现专业的挖掘模型构建,主要在于后台封装的开放式算法库、无需客户干预的特征预处理、模型参数调优等机制,下面重点阐述自动化的参数调优。
参数调优是模型训练的一个重要过程,也是专业化程度很高的技术手段。智能挖掘分析平台需要将此过程做到人工建模一样灵活、完备,又避免人工干预,完全自动化。
构建自动化参数调优的思路是,基于遗传算法的超参数自动调优算法,结合分片式计算引擎进行贝叶斯自动调参。使用遗传算法作为贝叶斯调参算法采集函数,避免先验函数陷入局部最优,实现每次任务执行时都能逼近全局最优,提高调参效率。具体实现方法描述如下:
(1)基于遗传算法的超参数自动调优算法
①建立目标函数{y = Trans_Func(x1,x2…xn)}和随机初始化的x值集合D={x1,x2,x3...xn};
②用先验函数的初始化值计算出若干参数E={(x1,y1),(x2,y2)…(xn,yn)},然后利用这些参数作用在概率模型上,进行计算,得出每个值在概率模型上的后验概率p(y|x)。本文设置遗传算法为采集函数,相对于传统方法最大程度地避免了局部最优解的情况,然后再将每个得出的概率模型应用到设置的采集函数上,找出表现最佳的超参数XEI值;
③将找到的最佳超参数应用于真正的目标函数
YEI=Trans_Func(XEI);
④更新包含新结果的代理模型Surrogate_Model(EI);
⑤将(XEI,YEI)加入到集合E中,并且更新概率模型;
⑥重复上述步骤②-⑤,直到算法运行达到最大迭代次数或时间。
(2)基于遗传算法的超参数自动调优算法
利用贝叶斯优化实现的超参数自动调优,通常需要大量的超参数组合代理模型,而且本文采用的遗传算法在搜索超参数的过程中需要遍历大量的样本数据,如果采用单个模型串行计算的方法评估超参数组合的优劣,将会影响探索超参数最佳组合的效率。
为了提升贝叶斯优化探索超参数组合的效率,减少时间成本,构建了一套分片式计算引擎,通过这套引擎结合场景化AI能力管理,根据任务的大小和场景给任务动态分配资源,相比于传统利用固定大小的资源进行任务分片,可以有效提升贝叶斯自动调参算法的探索效率,具体实现步骤如下:
①AI模型训练任务在Master(Web前端)提交后,分片式计算引擎会给该任务创建一个Driver服务和一个或多个Calculate Node服务。
②Driver通过调度算法,先将每个任务放入Caculate Node服务上,随机设置每个任务的运行状态(0或1),对每个贝叶斯调参的任务大小和运行状态计算要提供的资源和空间或是否提供资源和空间,若运行状态为0,则资源大小默认为0,留在以后某个时间段重新激活;若为1,则根据任务大小分配资源空间。根据这些标准为每个任务进行相应的分片,并协同各Calculate Node执行任务分片。
③Calculate Node服务接收来自Driver分发的任务分片并执行,返回各分片任务结果模型,如果要激活运行状态为0的任务,则激活这些任务,先提交给Master已经运行好的结果模型,然后利用Drive释放分配的资源,根据激活的任务重新分配,重复②-③,反之直接进入下一步。
④收集Calculate Node上传的任务分片结果模型,对结果进行比对评估并返回最优模型。
3 主要创新点
智能挖掘分析平台的设计体现了以下创新:
(1)业务创新点:将挖掘建模前的数据准备加工过程无缝融合到建模流程中,通过业务流程的创新打破传统建模模式数据与建模流程的割裂,极大地提升了效率。
(2)技术创新点:以自研的“工程-流程-组件”框架为基础,前端以业务的视角构建无技术门槛的交互感知,后台将特征优选、数据预处理、超参调优等专业操作封装成组件,固化到系统的建模流程中被调用,实现了低门槛和专业化兼具的使用特性。
4 平台应用效果
平台已在中国移动全网推广使用,不具备专业技术的业务人员能够基于平台轻松获取、组装数据,并开展数据挖掘。平台在5G套餐、家宽拓展、权益会员等多个领域开展基于挖掘模型的营销,经AB组对照效果验证,基于平台的营销接触转化率较人工方式提高2-5倍。除营销领域外,平台在反电信网络诈骗、用户满意度预测等方面也广泛应用,基于平台挖掘并关停潜在涉诈用户,其复通率仅为29%,较对照组的复通率51%提升效果显著,有效提升社会感知。
通过对比传统方式和智能挖掘平台的工作投入时间,智能挖掘平台显著提升了挖掘营销效率,大大降低了人力投入和人工成本。
5 结束语
智能挖掘分析平台将前端以业务视角进行平民化设计与后台专业化封装相结合,破解了数据智能工具需要普及使用和技术门槛高这一对矛盾体,在电信行业得到了实践检验,促成了数据智能工具在业务一线普及使用,在数据价值发掘的最后一公里,以便捷、高效的方式完成了对业务的赋能。同时,智能挖掘分析平台开放式组件架构为平台后续不断拓展其专业能力创造了条件,更优的模型、更好的算法、更强大的参数调优和特征工程深化处理等能力都将是平台不断演进的方向。