APP下载

大数据识别家庭画像助力企业运营

2023-07-06杨洁

中国信息化 2023年6期
关键词:预测家庭算法

杨洁

本项目通过大数据分析,人工智能算法,挖掘五大类家庭圈模型,包括单身青年、育儿家庭、学生家庭、老人家庭、多代同堂五大场景家庭模型,用于基础业务填充、智慧家庭产品、泛智能终端、权益等产品的精准营销、异网挖掘、对外合作等,为市场赋能,助力企业运营。

一、背景

互联网发展经历了三大阶段,纵观互联网发展的历史长河,每隔十三年都会诞生一个新的互联网时代。第一阶段是开始于1994年的PC互联网时代,主要起源于家庭带宽的普及与接入,同时带动的是以互联网服务入口为机遇的门户时代,新浪、网易、搜狐、腾讯以及再往后的Google、百度等互联网搜索工具,成为PC互联网红利的最终受益者。第二阶段是盛行于2007年的移动互联网时代。相较于PC互联网,移动互联网则年轻得多,3G和4G蜂窝网提供了移动互联网服务在低速和高速宽带下的管道要求,期间不断涌现出产业爆发之初所拥有的流量与人口带来的红利。第三阶段是2020年进入的家庭互联网时代,随着移动互联网的红利逐渐趋于饱和和平稳,时代与技术却也在不断的演进,同时互联网的演进也逐步进入3.0时代,家庭互联网的概念与移动互联网、PC互联网并非完全独立的存在,而是基于目前互联网连接基础上的延伸。相比宽带接入带来的PC互联网爆发以及终端变革带来的移动互联网红利,家庭互联网则将更进一步体现出用户需求向场景需求演进,海量的家用传感器、智能终端设备以及通信设施将组建一个立体的家庭网络,围绕家庭用户为核心,建立一整套基于每个家庭的数据资源库,以便于将精准的服务传递到用户家庭中。

在5G、人工智能、大数据等新技术背景下,电信运营商一直在创新和转型。在公众业务方面,以家庭互联网承载的智慧家庭,智能家居成为发展方向。运营商和互联网公司都看到了这个发展契机,运营商有其独特的优势,集约化的IT系统和实名制的系统,保证了分析的便捷性和用户的真实性。本项目的研发就是基于这个大时代背景下,看到了家庭市场是通信行业竞争的焦点。

本项目的研发思路是从众多用户中识别出哪些用户属于一个家庭,根据用户之间的通话、位置、融合关系、互联网行为等特征,通过数据分析技术和人工智能算法,识别出哪些手机号码是一个家庭圈。同时以识别本网家庭圈为基础,挖掘其异网成员加入家庭圈。通过模型的建立,结合市场各类产品,进行具体产品的目标用户挖掘,并将目标用户推送至营销人员手中。

二、项目方案

挖掘家庭圈模型主要可以用于三大类场景:一是基础业务填充,包括对圈内单移网用户推荐融合业务;二是智慧家庭产品推荐,包括TV增值产品,以及各类泛智能终端产品;三是异网用户挖掘,对宽带Wi-Fi下的异网用户进行家庭圈识别,可以推荐运营商副卡、推荐携号转网业务以及推荐融合业务。本项目选取了用户通话,用户位置等特征、使用了多个模型算法进行分析挖掘,结合互联网行为数据,识别出家庭圈用户,助力企业市场运营。

项目可以分为四大步骤:第一步是数据预处理;第二步是机器学习建模;第三步是异网挖掘,也就是异网用户拉进本网家庭圈;第四步是市场赋能,识别出本网家庭产品的潜在家庭用户画像。

(一)数据预处理

数据预处理的方法是将B\O\M域的数据进行拉通、加工为各类宽表、视图,形成标签沉淀,主要建立用户资料寬表、交际圈宽表、基站位置宽表等。

(二)机器学习建模

根据数据预处理的宽表,取得的主要特征有:半夜时间段基站位置出现次数,年龄特征等。利用机器学习里的有监督学习,通过逻辑回归、决策树、随机森林、集成算法分别对数据进行建模,预测出用户的家庭圈,取准确率、覆盖率、F1值较高的预测结果为预测的家庭圈。

这里以两户家庭圈模型为例,选取小地市小数据集进行建模训练,用逻辑回归算法和随机森林算法介绍建模过程。

逻辑回归(Logistic Regression)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的概率设置为因变量,将用户的特征属性,例如性别、年龄、注册时间等设置为自变量。根据特征属性预测购买的概率。

不同训练集,不同测试集,结果不同。实际使用时,需要根据调查情况确定样本比例。应尽可能多收集数据,增大数据量可以使模型的预测结果更稳定,泛化性更强。

随机森林 (RandomForestClassifier)算法是利用多棵决策树对样本进行训练并预测。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。

通过集中算法的比较,随机森林分类模型默认参数的预测结果比较好,经过调试参数后,预测效果还可以提高。随机森林模型稳定性很好,调试后不容易过拟合,但参数比较复杂,调试参数工作量很大,参数调试需要并发操作,对硬件要求很高。本项目选取随机森林算法进行部署实施。

(三)异网挖掘

异网挖掘指的是从O域数据的宽带DPI数据中获取Wi-Fi下的异网手机号码,再结合Wi-Fi下的运营商本网号码,将其纳入本网号码的家庭圈模型中。宽带用户主要通过无线路由器,将各无线终端接入至运营商公司“光猫”,用于上网,利用运营商公司网络数据,可识别每个家庭的“光猫” 和其接入的每一台终端设备,建立筛选机制,完善数据的可使用性,关联之前家庭圈的预测结果,合并数据集,完成异网号码识别,形成包含异网号码的家庭圈模型。

(四)市场赋能

经过大数据算法和DPI获取的数据结合,形成整体的家庭圈模型的目标用户,针对目前家庭互联网大力发展推出的智慧家庭产品,沃家组网、沃家电视、沃家神眼、沃家固话等,可以通过不同的家庭圈模型的用户的基础上,结合产品特点,深挖产品的潜在用户,为其推送产品。仍以两口之家为例,除了模型为其推荐权益类产品外,还可以为其推荐我们打造的各类泛智能终端产品,为其量身定制智慧家庭场景下的各类应用。

项目上线两年以来,为中国联通公众市场存量价值提升带来了良好的经济效益,基础业务发展稳步提升,全国排名靠前,形成了一套端到端的闭环的数据赋能体系流程,为新产品运营发展提供了平台和数据手段,通过数字化的能力提升了整个公众市场的智慧运营,为企业培养了大数据人工智能新技术的研发人才,本项目具有长期推广和运营的价值。

三、总结

本项目通过与市场协同作战,将模型与产品衔接,在实际生产场景中进行应用,取得了良好的效果,为公司带来了收入的拉动,为用户带来了感知的提升,为公司高质量发展做到了助力赋能。

作者单位:中国联合网络通信有限公司山西省分公司数字化部

猜你喜欢

预测家庭算法
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
家庭“煮”夫
进位加法的两种算法
不必预测未来,只需把握现在
恋练有词
一种改进的整周模糊度去相关算法