APP下载

基于协同过滤与概率主题模型的大学生行为模式挖掘研究

2024-01-27刘涛

现代信息科技 2023年24期
关键词:行为模式协同过滤

摘  要:大学生个体多样性的增强使得高校的教育管理面临前所未有的挑战。在教育大数据环境下,如何利用数据挖掘技术从海量校园行为数据中挖掘出有价值的信息变得尤为重要。针对校园行为数据存在稀疏性的问题,提出一种基于协同过滤与概率主题模型的大学生行为模式挖掘方法;采用Hawkes过程模拟产生事件并使用自定义指标评估模型性能,结果表明模型能有效挖掘出大学生行为模式。最后从同伴数量与类别选择的角度分析了大学生行为模式。

关键词:协同过滤;概率主题模型;校园行为;行为模式;Hawkes过程

中图分类号:TP391.1;G647  文献标识码:A  文章编号:2096-4706(2023)24-0045-04

Research on College Students' Behavior Pattern Mining Based on Collaborative Filtering and Probabilistic Topic Model

LIU Tao

(School of Computer and Big Data Science, Jiujiang University, Jiujiang  332005, China)

Abstract: The enhancement of individual diversity among college students poses unprecedented challenges to the education management of universities. In the education big data environment, it has become particularly important to use data mining technology to extract valuable information from massive campus behavior data. A method for mining college student behavior patterns based on collaborative filtering and probabilistic topic models is proposed to address the sparsity of campus behavior data; the Hawkes process is used to simulate the generation of events and custom metrics are used to evaluate the performance of the model. The results show that the model can effectively mine behavior patterns of college students. Finally, the behavioral patterns of college students are analyzed from the perspectives of peer quantity and category selection.

Keywords: collaborative filtering; probabilistic topic model; campus behavior; behavior pattern; Hawkes process

0  引  言

隨着云计算、大数据和互联网技术的飞速发展,教育信息化已经成为当今高校教学管理的必要措施和手段[1]。智慧校园的建设得到了大幅提升,我国大多数高校已构建了功能齐全的智慧校园平台。该平台在为广大学生提供学习和生活便利的同时,也产生了海量的时空行为数据。如何从校园行为数据中提取有价值的信息,为促进学生身心的健康发展提供适时的引导和帮助,使高校实现更科学化、智能化的教学管理,是当前教育信息化快速推进过程中面临的机遇与挑战之一[2]。

1  行为模式挖掘研究现状

已有许多国内外学者利用移动数据(如手机定位数据等)来提取人类行为模式。Song等较早发现人类运动模式具有较高的可预测性[3]。自此以后,该领域的研究取得了长足进展。基于概率主题模型提取人类行为模式是主流方法之一[4]。一些学者将活动行为视为词语,将潜在行为模式视为主题,提取个人潜在的行为模式。杨翔等注重个人情感与兴趣模式的挖掘,提出构建个人潜在情感与兴趣模型的方法[5]。李琰等利用时空数据提出一种基于作者主题模型(ATM)和辐射模型(RM)的用户位置预测模型[6]。还有一些方法基于行为相似性,例如,受个人行为与他人密切相关这一事实的启发,Dao等提出基于行为相似性方法构建行为模式[7]。

大学生是一类活动范围相对集中的特殊群体。研究大学生在校行为模式已经引起众多领域学者的重视。杜长冲等研究了大学生校园行为的特点[8];谢文武等研究了大学生消费行为与成绩的关联性[9];姜楠等利用数据挖掘技术分析学生消费及其学习行为的关系[10];田雨露等通过门禁、签到和消费等记录,分析学生异常行为并进行预警[11]。

以上行为模式挖掘方法虽然在分析和提取人类行为模式上取得不同程度的成功,但是依赖较密集数据集的特点限制了这些方法的实际应用。例如,文献[7]中利用用户时空上的密集位置信息推断用户的活动行为,在稀疏数据集上效果不佳。校园行为数据量具有既巨大(宏观)又稀疏(微观)的特点,而造成数据稀疏的主要原因有:

1)根据学生的刷卡行为记录其位置信息,无法实时记录学生的位置信息。

2)有些人为造成的虚假信息,例如学生出入宿舍和图书馆时,跟随前面学生出入门禁,没有留下刷卡痕迹。为此,仅从个人的稀疏位置信息中提取学生行为模式会导致过拟合问题,可能得到不完整甚至错误的行为模式。针对这些问题,需要借助一些协同提取的方法来还原整体样本。

本文利用校园行为数据,进行如下研究:

1)针对校园行为数据存在稀疏性的问题,提出基于协同过滤与概率主题模型的大学生行为模式挖掘方法,并评估模型的有效性。

2)从同伴数量与类别选择的角度分析大学生行为模式。

2  模型构建

模型构建过程如下:

1)获取校园行为数据并进行预处理。

2)构建基于协同过滤与概率主题模型的大学生行为模式模型并求解模型参数,得到同伴关系网络(Campus Social Network, CSN)。

3)采用Hawkes过程模拟产生学生刷卡事件,采用多重假设检验方法得到统计验证网络(Statistical Validation Network, SVN),利用自定义指标和二次指派过程(Quadratic Assignment Procedure, QAP)方法评估模型性能。

4)从同伴数量与类别选择方面分析大学生行为模式。

2.1  数据获取与预处理

数据来自某综合性大学的智慧校园平台,主要由学生基本信息和刷卡信息组成。基本信息包括学生的学号、院系、班级、年级和性别等。刷卡信息包括学生在食堂就餐、超市消费、校医院就医、图书馆看书和宿舍出入等信息。测试对象为该校计算机学院623名学生,校园行为数据由观测周期(2021年9月1日至2022年8月30日)内的733 396条刷卡信息组成。

为了保护隐私,本文对刷卡信息进行学号重排、时间平移等预处理,只保留学生编号、刷卡地点和刷卡时间等信息。定义学生集合为S = {s1,s2,…,sN},其中N表示学生总数。根据学生刷卡地点获取学生的活动行为,定义学生在校行为集合为B = {Bcan,Bsup,Bdor,Blib,Bcla},其中5种行为分别表示学生在食堂、超市、宿舍、图书馆和教室刷卡。按等时间隔将一天划分为M个时隙T = {t1,t2,…,tM},将刷卡时间映射到相应的时隙。

将一条刷卡信息视为一个刷卡事件,用三元组(s(i),b(i),t(i))表示,其中s(i) ∈ S、b(i) ∈ B和t(i)∈ M分别表示第i个刷卡事件中的学生、活动行为和时隙。所有刷卡事件构成集合D = {(s(i),b(i),t(i))},i ∈ {0,…,H},其中H表示刷卡事件总数。

2.2  构建与求解模型

学生行为对(s,b)表示学生s发生活动行为b。潜在向量Z = {z1,z2,L,zK}表示潜在的行为模式集合,其中K表示潜在行为模式的个数。将学生行为对和时隙映射至同一个潜在行为模式空间,使用概率模型计算“学生行为对—潜在行为模式—时隙”三者的关系,构造基于协同过滤与概率主题模型的行为模式模型(记为CF-PTM),其形象化表示如图1所示。

设随机变量X i表示第i个刷卡事件。当X i = 1时,学生s(i)在t(i)时隙发生活动行为b(i);当X i = 0时,学生s(i)在t(i)时隙没有发生活动行为b(i)。ps(i),b(i) ∈ RK和qt(i) ∈ RK分别表示学生行为对(s(i),b(i))和时隙t(i)的潜在向量。随机变量X i的条件概率为:

其中,f (·)表示sigmoid函数。对于刷卡事件集合D中的H个事件,似然函数为:

其中,P ∈ R K×L表示所有学生行为对的潜在向量,Q ∈ R K×M表示所有时隙t的潜在向量。

设L(P,Q)表示式(2)的负对数似然函数,则转化最优化问题为:

为了避免过拟合问题,需要分别对psb和qt进行规则化。采用|| psb ||1对psb规则化,保证了psb的稀疏性。采用  对qt规则化,保证了相邻时隙行为模式变化缓慢。本文采用传统的梯度下降法求解以上最优化问题。对于某学生s,其潜在的行为模式为{ psb | b ∈ B}。

3  模型有效性评估

对模型性能的评估可分两个阶段进行:

1)将Hawkes过程模拟产生的刷卡事件与真实刷卡事件进行对比,利用自定义指标评估模型的性能。

2)将利用模型得到的同伴关系网络(CSN)与多重假设检验方法得到的统计验证网络(SVN)进行对比,采用QAP方法计算CSN和SVN的相关性。

3.1  Hawkes过程模拟方法

由于缺乏大學生同伴关系的真实信息,不能直接评估模型的性能,本文通过模型的预测性能间接评估模型的性能。采用5-折交叉验证(5-fold Cross Validation, 5-CV)方法将原始数据按照时间观测窗口[0,T4)平均分成5个子集,首次选择[0,T3)内所有学生的刷卡事件作为训练集,[T3,T4)内所有学生的刷卡事件作为验证集,然后利用训练集数据估计模型的参数,模拟产生[T3,T4)内所有学生的刷卡事件,以此类推进行5-折交叉验证。最后采用自定义指标求得5次验证结果的平均数作为此5-CV的最终性能指标,用于评估模型的预测性能,自定义指标如下:

1)位置准确率r = ei / ni,i ∈ {0,…,4},其中ni表示子集i真实刷卡事件的个数,ei表示模拟产生的刷卡事件与真实刷卡事件的对比,时间和位置相吻合的刷卡事件个数。

2)共现准确率γ = hi / mi,i ∈ {0,…,4},其中mi表示子集i真实刷卡事件的学生发生共现的次数,hi表示模拟产生的刷卡事件与真实刷卡事件的对比,共现相吻合的次数。

采用5-折交叉验证的方式分别对733 396条真实刷卡记录以及368 129条共现记录进行Hawkes过程模拟,然后将模拟产生的刷卡事件与真实的刷卡事件进行对比。如表1所示,分别得到5次验证结果,计算平均位置准确率和平均共现准确率分别为0.909和0.949,这表明模型具有较高的准确性。

3.2  多重假设检验方法

多重假设检验是将多个单重假设检验作为一个整体(称为一个检验族),对此检验族中的每个假设同时进行检验的方法。对于所有学生对,多重检验族{Hij}i≠j共同构成一个检验族,单个假设检验Hij对应单重假设检验 ,其中原假设  表示学生i和j在[0,T)内发生共现是巧合的。按等时间隔将一天划分为M个时隙T,对每一个刷卡事件将刷卡时间映射到相应时隙。学生刷卡事件可以用二分图来描述,如图2所示。

设时隙-位置集合有NLS个时隙-位置对,学生i和j刷卡次数分别为Ni、Nj,共现次数为Nij。在原假设  成立的条件下,学生i和j共现次数服从超几何分布,共现次数大于等于Nij的概率为 ,其中 。利用上述方法计算所有学生对之间的p(Nij)值,采用Bonferroni校正法比较p(Nij)与显著水平s = 0.01/N的大小,其中N表示网络中的连边数。如果p(Ni)<s,则拒绝原假设,学生i和j在刷卡过程中发生共现是社交关系驱动的,以此类推,验证网络中的所有连边得到SVN。最后采用QAP方法计算模型得到同伴关系网络,统计验证网络的相关性。

实验结果如表2所示,对于623名学生在观测周期内产生的733 396条校园行为数据,通过多重假设检验方法和CF-PTM模型分别挖掘得到7 635条和7 879条连边。经过分析可知:

1)相较于检验条件过于严苛的SVN网络,CSN网络成功挖掘出更多的同伴关系。

2)采用QAP方法进行相关性分析发现,在SVN已被证实有效的情况下[12],CSN与SVN的正相关性高达0.956(显著性水平P<0.001)。以上两点表明CSN挖掘出更多有效的同伴关系。

4  行为模式分析

行为模式是行为活动发生、进行和完成的某种固有方式,展现了人们的行动特点和行为逻辑。大学生行为模式是指大学生在校园日常生活、学习等活动过程中所建立的一种行为内容与方式定型化、活动空间分布规律化的模式。同伴活动是学生行为模式的一种直观反映。

根据同伴数量进行聚类得到三个分别包含31人、136人和456人的社团群体。从社会行为学角度出发,学生被分为开放型、谨慎型和封闭型三种行为模式。如图3(a)所示,仅有4.98%的学生属于开放型的交友模式,有21.86%的学生在选择交往对象时比较谨慎,绝大部分学生处于较封闭的状态。这种情况被解释为,当今大学生更多时间处于独处状态,交往意愿有减弱倾向,存在导致交友障碍的风险。

从同伴类别的选择中发现,学业相似的学生更倾向于建立同伴关系;大多数学生更愿意选择趣味相投的学生作为交往对象;情感也是影响学生选择交往对象的重要因素。基于此,将学生分为学业型、趣缘型和情感型三种行为模式。如图3(b)所示,三种模式占比分别为26.77%、43.52%和29.71%,这表明趣缘型学生在学生群体中占主导地位。

5  结  论

针对大学生在校行为模式挖掘过程中面临的难题,提出基于协同过滤与概率主题模型的模型并实现大学生在校行为模式的有效挖掘。通过研究大学生校园行为的参与对象、参与时间和参与地点等诸多因素之间的联系,探究大学生在校行为模式提取的新方法。该研究符合当前教育信息化倡导的新理念。从教育管理层面来讲,将挖掘出的大学生行为模式反馈给教育管理者,可以及时给予学生合理的建议和有效的帮助。对于个体而言,行为模式可以定量评价学生的交往能力、心理健康状况等。对于“离群点”(孤立学生),行为模式是一个很好的判别工具,可及时发现此类学生并进行干预。对群体而言,可以分析学生的交友倾向、关系演化等。因此,该研究具有一定的现实意义。

参考文献:

[1] 翟雪松,朱雨萌,张紫徽,等.高校教育信息化治理能力评价:界定、实践与反思[J].开放教育研究,2021,27(5):24-33.

[2] 杜婧敏,方海光,李维杨,等.教育大数据研究综述 [J].中国教育信息化,2016(19):1-4.

[3] SONG C M,QU Z,BLUMM N,et al. Limits of predictability in human mobility [J].Science,2010,327(5968):1018-1021.

[4] 韩亚楠,刘建伟,罗雄麟.概率主题模型综述 [J].计算机学报,2021,44(6):1095-1139.

[5] 杨翔.基于概率主题模型的作者情感分析 [D].长沙:湖南大学,2019.

[6] 李琰,刘嘉勇.基于作者主题模型和辐射模型的用户位置预测模型 [J].计算机应用,2018,38(4):939-944.

[7] DAO T N,LE D V,YOON S. Predicting Human Location Using Correlated Movements [J].Electronics,2019,8(1):54.

[8] 杜长冲.基于校园一卡通数据系统的学生行为分析研究 [J].读与写:教育教学刊,2019,16(6):27-28.

[9] 謝文武,胡胜,龙源有,等.高校学生餐饮消费与学习成绩的相关性分析 [J].湖南理工学院学报:自然科学版,2018,31(4):27-31+82.

[10] 姜楠,许维胜.基于校园一卡通数据的学生消费及学习行为分析 [J].微型电脑应用,2015,31(2):35-38.

[11] 田雨露.基于校园一卡通系统的决策支持和数据分析研究 [D].北京:北京化工大学,2019.

[12] LIU T,YANG L T,LIU S Y,et al. Inferring and Analysis of Social Networks Using RFID Check-in Data in China [J].PLoS ONE,2017,12(6):e0178492.

作者简介:刘涛(1981—),男,汉族,湖北枣阳人,讲师,博士研究生,研究方向:教育大数据、行为模式挖掘。

收稿日期:2023-05-05

基金项目:江西省教育科学“十三五”规划2020年度课题(20YB206);江西省高校人文社会科学研究2021年度课题(JY21225)

猜你喜欢

行为模式协同过滤
图书推荐算法综述
改进的协同过滤推荐算法
微媒体研究现状综述
基于链式存储结构的协同过滤推荐算法设计与实现
基于相似传播和情景聚类的网络协同过滤推荐算法研究
基于协同过滤算法的个性化图书推荐系统研究
混合推荐算法在电影推荐中的研究与评述
基于行为模式视角的步行商业街室外公共空间形态研究
自媒体对大学生影响几何
新形势下职工思想道德观念、价值取向和行为模式研究