APP下载

基于用户画像的目标信息高精度推送仿真

2023-09-20涂剑峰林立鑫刘承启

计算机仿真 2023年8期
关键词:画像特征向量向量

涂剑峰,林立鑫,刘承启

(1.江西科技学院信息工程学院,江西 南昌 330098;2. 江西科技学院网络信息中心,江西 南昌 330098;3. 南昌大学信息技术办公室,江西 南昌 330031)

1 引言

在信息杂乱的网络数据库中,用户想要遵循自身需求检索兴趣话题并对其深入分析,不仅会受到数据库内泛滥信息的影响,出现目标信息挖掘不彻底或推送信息与目标信息不相符等问题。考虑到网络用户的切身需求,各种电商、社交、媒体、APP等信息技术服务企业陆续推出针对用户的智能服务[1-2],但就目前各企业的信息推送服务而言,网络用户对其推送的信息内容并未持有较高的满意度,导致这一问题的主要原因包括但不限于用户行为了解不透彻、查询信息数据库排版不精简及用户所有浏览页面掌握不全面。为了将信息精准、有序的推送到用户面前,国内外相关人员展开对信息精准推送方法的研究。

喻迎春等人[3]提出基于微信的气象灾害预警信息精准智能推送技术,通过设计智能推送平台,将实时发布的预警信息作为支撑平台业务运行的网格化靶点。通过读取用户位置信息,实现信息精准推送模型的建立,该方法存在用户满意度差的问题。张然等人[4]提出科技期刊邮件推送的用户调研与策略分析方法,通过在人群中派发问卷报告对网络用户的实际需求实例调研,并将实例调研结果作为案例分析对象,深入探讨用户推送需求,实现信息精准推送模型的建立。张青等人[5]提出基于BBCAL模型的法条自动推送方法,通过在用户诉求中捕捉专业性术语特征并将其投入到BiLSTM模型中,以此获取其更深层次的含义。将专业性术语特征的深层次含义与当前任务最相关信息同时输入BERT模型中,实现信息精准推送模型的建立,上述方法存在推送精度不高的问题。

为了解决上述方法中存在的问题,提出基于用户画像的信息精准推送模型。

2 建立用户画像

用户画像[6]又称户画像,指的是以不同方式勾画用户角色、阐明用户需求、联系用户兴趣的一种有效工具。考虑到用户行为[7]的抽象性,用户画像需要从社会属性、专业背景、日常习惯等多方位收集,将用户动态信息与静态信息结构化。由此可知,建立用户画像,需要从采集用户信息和处理用户信息两个方面入手。

1)采集用户信息

用户信息的采集是建立用户画像的关键步骤。鉴于用户信息的多样性和用户基数的庞大规模,用户信息的采集工作并不局限在单一数据来源,而是扩展至关联程度和统一程度较为紧密的多样数据来源。视二者为融合用户信息的高质量数据,对二者展开空间全方位、时间全过程的采集工作。由于用户喜好倾向存在时间差异,因此将用户动态行为数据具体分为显性可变数据(当前喜好倾向)和隐性可变数据(以往喜好倾向),以此消除时间误差所导致的喜好倾向异质化现象。数据来源如下图1所示。

图1 数据来源

空间全方位采集公式如下:

(1)

式中,αi表示信息缺省值;αj表示用户初始化兴趣集;q表示用户浏览的页面文本;xij表示用户历史行为;f1表示网站访问数据量;xi表示用户重返网站次数占总访问次数的比值;f2表示动态本体权重;xj表示静态本体权重。

时间全进程采集公式如下:

(2)

式中,y2表示用户心理趋势;n表示搜索引擎响应时长;σ表示数据源独立性;mi表示用户数据分析的信用度;Io表示用户反馈产生的互动数据流;Δs表示用户行为内在变化;s2表示用户行为发展规律。

2)处理用户信息

经过采集的用户信息存在分量较高的高斯白噪声[8],不能作为样本数据建立信息精准推送模型。为了获得更为精确的推送结果,在建立信息精准推送模型前,优先利用DVMD去噪算法消除用户信息噪声。

不同于传统去噪算法,DVMD在解决约束变分问题[9-10]上具有较为独特的优势。通过分解数据分量,并度量各分量瞬时频率,以捕捉藏匿在用户信息间的噪声信号。在成功识别噪声信号后,DVMD引入狄拉克函数编写卷积符号标注藏匿噪声的数据段,并在不改变用户信息能量密度及周期常量的前提下,通过模态分量的叠加重构剔除用户信息噪声,获取不存在高频噪声分量和数值突变点的清晰数据。数据分量分解公式如下:

(3)

瞬时频率度量公式如下:

(4)

狄拉克函数的表达式如下:

N=z′×Δ(τ)

(5)

式中,z′表示用户行为接触点;Δ(τ)表示卷积符号的先验参数。

模态分量叠加重构公式如下:

(6)

式中,g表示初始噪声幅值;j表示去噪实例的信号理论值;O表示噪声信号波形;b表示噪声信号频谱;im表示重构指征;υ表示自适应模态分量叠加准则。

将经过降噪处理的用户信息已完全具备形象化特征,不仅充分贴近用户实际生活,还自成标签,属于信息推送服务中应用价值较高的用户画像。

3 信息精准推送模型

信息精准推送模型的宗旨在于依靠信息技术向目标用户源源不断地推送符合用户画像的实时信息,以此达到巩固用户流量、加强用户关系、防止用户流失的目的。由于信息精准推送模型通过追踪用户画像提供的用户行为倾向获取隐藏的未知线索,因此信息精准推送模型主要采用支持向量机(SVM)[11]组建。支持向量机是目前世界范围内解决预测问题评分最高的分类方法,该方法在改进传统预测方法的基础上,以主、客观设定补偿的方式填充稀疏性问题中的单位平均值与中间值,以此进一步提升预测结果的精确度。将支持向量机应用在个性化的信息推送问题上,其核心思路围绕用户兴趣领域中推荐价值最高的信息类别展开。

除预测推送信息外,模型还离不开服务体系的层次化模块。在数据驱动环境下引入Storm[12]、Storm steaming实时计算框架作为信息精准推送模型的外骨骼,信息精准推送模型如下图2所示。

如上图2可见,信息精准推送模型包括四个模块,即数据来源层、精准应用层、用户数据仓库和数据处理层。其中,用户数据仓库作为模型核心结构,起到真正意义上的精准信息推送作用。模型提取用户画像关键词[13]获取用户画像针对不同词汇的特征向量,将特征向量输入支持向量机中,就用户的不同喜好倾向开启分类。支持向量机在过滤掉推送价值较低的信息类别后,输出针对目标用户的推送价值较高的信息类别,实现信息精准推送。

基于用户画像的关键词特征向量提取过程如下:根据统计学方法[14]可知来自单一数据来源和多数据来源的用户画像在表征问题特征上并不具备正相关性,因此低频出现的词汇与高频出现的词汇之间并没有明显的维度差异,这意味着随机出现的词汇既是用户画像的一部分,又存在脱离实际情况的概率。关键词的提取工作相当于给每个词汇追索一串字符,让其拥有与自身使用频率相匹配的权重值。经过权重值标注的用户画像不再以执行文本的形式出现在用户画像中,而是以特征向量的形式,时刻准备与其它具有标志意义的特征向量展开碰撞。统计学方法的表达式如下:

(7)

式中,ρij表示用户数量;s*表示用户近期检索的历史记录;ζ表示空缺值;ri表示非空缺值;rj表示特征词集合。

词汇使用频率的计算公式如下:

(8)

权重值匹配公式如下:

(9)

式中,w′表示基宽向量;φ表示用户画像的不均匀性;B表示预测集容量。

不同词汇特征向量的表达式如下:

C=Yln2+qs

(10)

式中,Y表示特征向量的维度;2表示网页浏览记录;qs表示邻接特征向量在维度上的互相对应关系。

支持向量机是建立在超平面配置补空间[15]基础上的分类算法,主要分类对象是现实中非线性分布的样本数据。在信息精准推送模型内部,基于用户画像的关键词特征向量作为样本数据与支持向量机结合。支持向量机的表达式如下:

(11)

式中,tij表示决策平面;ds表示类别属性;F表示样本数据。经过反复聚类迭代,模型输出特征向量分类结果,实现信息精准推送。

4 实验与分析

为了验证基于用户画像的信息精准推送模型的整体有效性,需要对其测试。

4.1 用户满意度

采用所提方法、基于微信的气象灾害预警信息精准智能推送技术(文献[3]方法)和科技期刊邮件推送的用户调研与策略分析方法(文献[4]方法)向3名试验人员发送9条内容各异的推送信息,并记录每名试验人员对各推送内容的满意程度(满意/不满意)。其中一名试验人员的满意度记录流程如下图3所示。

图3 用户满意度记录流程

规定用户满意的推送内容为1分,不满意的推送内容为0分。依照图3绘制3名试验人员基于推送内容的满意度调查报告。满意度调查报告如下表1所示。

根据表1中记录的满意度调查数据,可以计算出不同方法的用户满意度。用户满意度计算公式如下:

(12)

式中,r表示满意数值;c表示不满意数值。

将不同方法的满意度调查数据带入上述公式中,可知所提方法的满意度约等于85%,文献[3]方法的满意度67%,文献[4]方法的满意度约等于70%。由此可知,采用所提方法获取的推送信息更贴近用户兴趣方向,真正做到了以用户兴趣为导向,为用户提供个性化需求定制服务。因为所提方法在建立信息精准推送模型的过程中,以单一数据来源和多数据来源的用户画像为样本数据,提取其关键词特征向量并输入支持向量机中。经上述对比可知,所提方法在用户满意度方面明显优于其它两种方法。

4.2 回归图

为了进一步验证所提方法的实用性,采用所提方法、文献[3]方法和文献[4]方法向1名试验人员发送5条内容各异的推送信息。将不同方法获取的推送信息视为预测值,用户理想信息视为实际值,绘制三维空间中预测值与实际值的回归图。不同方法的回归图如下图4所示。

图4 不同方法的回归图

如上图4可见,采用所提方法获取的推送信息与用户理想信息的拟合度较高,说明所提方法的推送精度较高。采用文献[3]方法和文献[4]方法获取的推送信息与用户理想信息的拟合度较低,且回归图中预测值与实际值距离回归平面较远,说明文献[3]方法和文献[4]方法的推送精度较低。经上述对比,进一步验证了所提方法的实用性。

5 结束语

用户画像被广泛应用于个性化推荐服务、用户行为分析和知识问答领域,成为当下社会的热议话题。为了发现广大用户潜在需求,并精准匹配相对应的信息资源,提出基于用户画像的信息精准推送模型。通过获取实际生活中的用户信息,采用DVMD去噪方法,消除用户信息中的噪声,获取更为清晰的优化信息。将与支持向量机Storm、Storm steaming实时计算框架结合,建立信息精准推送模型。实验表明所提方法用户满意度高,且推送精准度高。在未来研究工作中,对信息精准推送过程实时监控,是研究人员下一步工作的重点。

猜你喜欢

画像特征向量向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
威猛的画像
向量的分解
克罗内克积的特征向量
聚焦“向量与三角”创新题
“00后”画像
画像
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
向量垂直在解析几何中的应用