政务服务用户画像标签体系的建立方法和应用设计
2020-07-08郭大勇朱俊伟
郭大勇 朱俊伟
摘 要:用户画像标签技术已经在电商、金融、保险、电信等领域的精准营销、差异服务、分险防控等方面得到了广泛的应用,并取得了显著的成效。本文就如何利用互联网成熟的用户画像标签技术,在“互联网+政务服务”领域进行应用,从而实现政务服务的个性化、精准化、主动化、智能化提出可借鉴的方法。
关键词:用户画像;动态标签;学习标签;离线标注
中图分类号:TP311.1 文献标识码:A 文章编号:1671-2064(2020)06-0029-02\
1 “用户画像标签”应用现状分析
在电商领域,淘宝、京东、美团、携程等互联网公司,根据用户的喜好、购买记录等建立起了电商用户画像标签体系。在金融领域,银联、支付宝、招商银商、交通银行、农业银行等金融公司,根据用户的人群、职业、学历、收入、信贷记录等建立起了金融用户画像标签体系。在信息领域,今日头条、简书、知乎等信息内容公司,根据用户的年龄、性别、浏览记录、分享记录等建立起了信息用户画像标签体系。各领域基于各自的用户画像标签体系,实现精准营销,提供精准服务、主动服务,降低营销和服务的综合成本。同时,也使用户在获得便捷服务体验时,降低了搜索、比较、鉴别的时间成本。
2 “用户画像标签”应用模式分析
(1)“用户画像标签”在互联网领域应用模式分析。分析电商、金融等领域用户画像的各种应用场景,用户画像标签本质上是对用户的分群分类,而且都是从商品、产品角度分析适用于哪些用户、适用于用户的哪些生命周期阶段,从而进行用户画像特征的细分刻画。电商是从商品特征和用户的购买行为特征关系来刻画用户画像标签,如华为、小米、苹果等商品的品牌作为用户的喜好标签。金融是从理财产品特征和用户的人群特征关系来细分刻画用户画像标签,如有无工作、有车无车、有房无房、有无信用卡、有无不良征信记录等标签。(2)“用户画像标签”在政务服务领域应用模式分析。借鉴互联网领域用户画像标签的应用模式,在政务服务领域面向用户提供的不是商品、产品,提供的是一种服务。服务和商品、产品一样,也是不同的服务特征适用、匹配于不同的个人(企业),同样也需要从服务的角度对用户进行细致的分群分类,从而实现基于政务服务用户画像特征的提前服务、精准服务、主动服务,让用户知晓什么时间、什么情形需要办理什么服务,从普遍式等“客”上门式服务向主动预测推荐式服务转变。
3 “政务用户画像标签”体系构建方法
(1)来源分析。从政务服务内容事项办事指南和政策申报条件等文本内容中识别提取用户画像标签,是一种从“需求侧”出发的有效方法。如《推动大众创新创业的实施意见》政策文件中可识别提取了“园区注册”、“在孵团队大于3个”、“无不良信用记录”等用户画像标签要素。(2)识别提取。明确了用户画像标签的分析来源,利用NLP自然语言处理技术的实体识别、实体消岐技术,从事项办事指南、政策申报条件等服务内容文本中自动识别提取用户画像标签,再结合人工审核加工就可快速形成政务用户画像标签语料库。(3)分类聚类。基于初步形成的用户画像标签语料库,利用分类技术和聚类技术,对用户画像标签进行分类聚类处理,并和用户生命周期分类结合形成容易理解、带有层次结构的用户画像标签分类。(4)判定规则。基于数据资源目录的大数据资源信息,对每个用户画像标签建立数据判别计算规则。同时,对于数据资源目录中缺少的信息资源,以用户画像标签判别规则为需求进行数据共享归集。(5)计算标注。利用数据资源目录和用户画像标签判别规则,通过计算机程序建立用户画像规则执行引擎,按照任务批量进行离线标注或按照用户访问时自动进行动态标注,实现用户画像标签信息和服务内容的匹配关系建立。
4 “政务用户画像标簽体系”整体架构设计
4.1 “政务用户画像标签”术语和定义
(1)基础标签。个人或企业用户基础静态信息,如个人的姓名、性别、出生日期、籍贯、出生地等标签信息,静态标签一般通过基本信息的查询即可判别,无需进行复杂的规则计算。(2)动态标签。个人或企业用户动态变化信息,如个人的学历(小学、中学、大学…)、企业的规模(小微、中小、规上…)等标签信息,动态标签需要通过多种行为数据进行较为复杂的业务规则计算后才能判别。(3)学习标签。通过对个人(企业)的历史行为数据特征进行机器学习后得出的预测性用户画像标签为学习标签。如“下季度办理居转户的人员”、“明年企业专利数>2的企业”等预测性标签。(4)标签识别提取。通过人工结合自然语义处理技术的方式,从服务事项、法律法规和政策文件的申请条件、适用范围等文本内容中自动进行个人(企业)用户画像标签的实体抽取、实体消岐的过程。(5)标签计算规则。用户画像标签特别是动态标签是需要依靠用户行为数据按照一定的业务规则来计算判断的,如“规模以上企业”标签,需要通过年产值是否超过2000万元人民币业务规则来判断。(6)标签动态标注。标签动态标注是指在用户访问服务时,才进行当前用户符合哪些标签的实时计算标注,动态计算标注主要对年龄、婚姻状况等规则计算量小的标签进行处理。(7)标签离线标注。标签离线标注是指无需用户在线访问,系统利用线下空闲时间进行画像标签的自动提前标注,是用户画像标签标注的预处理过程,主要针对计算量大的标签规则。如“即将退休人员”标签需要经过多种数据源综合判别计算才能得出。(8)标签自动学习。利用政务服务用户历史行为数据,如事项历史办件库、政策历史申报库,结合人口、法人基础特征信息,通过协同过滤等算法进行标签自动学习,形成如“近期可能办理社保卡的外来人员”预测标签。
4.2 “政务用户画像标签”整体应用架构
政务用户画像标签体系整体架构图1所示。
(1)数据层。一是由政务服务内容信息(事项、政策等)组成,主要作为用户画像标签的分析来源数据。二是由数据资源目录信息(事项办件库、政策申报库等)组成,主要作为标签规则计算数据。(2)算法层。由NLP自然语言处理相关的实体抽取、属性抽取、关系抽取、实体消岐以及协同过滤算法等组成,主要作为用户动态标签和学习标签的识别提取、分类聚类的技术支撑。(3)画像层。由用户画像表和画像标签表、标签规则表以及标签规则执行引擎组成,主要存储通过规则计算标注后用户和标签的数据关系集合。(4)应用层。主要由基于用户画像标签体系建立的事项推荐、政策推荐、符合度预测搜索等智能应用组成,支持多终端多渠道。
5 “政务用户画像标签”关键技术
5.1 NLP自然语言处理技术
信息抽取(information extraction,IE)能够帮助人们在海量信息中快速定位到自己真正需要的信息,它是一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程[1]。政务服务用户画像标签就是利用NLP信息抽取、实体消岐技术,从事项办事指南、政策文件原文等文本型非结构化数据中,快速进行如“本市户籍居民”、“非首次生育”、“小微企业”等标签实体单元的识别抽取,迭代地生成政务服务画像标签实体和属性标注语料库,提高政务服务画像标签的处理效率。
5.2 文本分类聚类处理技术
文本的分类算法是一种有监督学习的过程,需要人类实现对数据进行一定的区别和分类,从而在这种基础上使计算机系统能够通过机器学习来对数据进行一定的分类。文本聚类算法通过文本的相似度信息计算每个簇,相似度信息随应用场合不同而不同。当前文本聚类主要应用包括多文档自动文摘、搜索引擎结果聚类、信息过滤与信息推荐、文本分类、文本可视化以及文本自动归档等领域[2]。利用NLP实体抽取、实体识别和实体消岐技术从政务服务内容(办事指南、政策文件原文)识别提取形成用户画像标签语料库,是初步的草稿集,为了进一步提高用户画像标签的可读性和可用性,需要利用文本分类和聚类统计技术,对用户画像标签语料库进行进一步的分类和聚类,形成可读性强,使用性更高的标签标准集。
5.3 机器学习标签标注技术
协同过滤(CollaborativeFiltering,CF)是目前推荐引擎中应用最广泛的个性化推荐技术之一。其通过研究用户历史行为,分析用户兴趣(或项目属性),为用户建立模型,依据活跃用户对项目的评价,来寻找与活跃用户兴趣相同的用户组,然后用该用户组中评价比较高的一组项目序列为活跃用户作出相关推荐[3]。对于预测性用户画像标签识别和标注,需要基于用户“历史办事数据”的自动化学习和训练,最终筛选出与预测目标性用户画像标签相匹配的用户结果集,从而实现对用户画像标签的自动化标注。如通过对法人库和历史已取得和未取得高新技术企业认定的企业特征数据进行学习,利用协同过滤模型,实现“3年内可能符合高新技术企业认定政策的企业”结果集的预测性筛选。
6 “政務用户画像标签”应用深化拓展
政务用户画像标签体系不仅在“互联网+政务服务”领域深入应用,还可以在“互联网+监管”领域、“智慧城市网格化治理”领域、“扶贫脱贫帮困”领域进行拓展应用,实现精准服务、精准监管、精准治理、精准扶贫等目标的实现,从普遍服务向主动服务、精准服务转变。
参考文献
[1] 牟晋娟,包宏.中文实体关系抽取研究[J].计算机工程与设计,2009(15):3587-3590.
[2] 史梦洁.文本聚类算法综述[J].现代计算机,2014(3):3-6+25.
[3] 苏杨茜.协同过滤算法改进及研究[J].软件导刊,2015(2):74-77.