基于大数据的大学生综合行为画像探索
2019-01-21朱锦龙
朱 锦 龙
(亳州学院电子与信息工程系, 安徽 亳州 236800)
2008年,在《Nature》杂志首次出现了“大数据(Big Data)”这一概念[1]。大数据一般指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是在新处理模式下才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。随着高校教育信息化的不断发展,校园一卡通管理系统、教务管理系统、学工系统、图书管理系统、校园WiFi、智能楼宇等系统的广泛应用,智慧校园平台累积了大量学生校园行为日常数据。这些日常数据就构成了高校学生行为大数据,这些数据基本能够客观、真实地反映学生校园生活状况。我们可以利用智慧平台累积的大数据,充分挖掘发挥数据在学生管理和行为预警中的价值,通过大学生综合行为画像,分析学生的行为习惯和特点,从而更好地了解和引导学生。
1 大学生综合行为画像构建
行为画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标人的模型[3]。运用数据挖掘技术进行模型计算和标签化处理,用数据对大学生进行综合行为画像,可以多维度准确展现大学生的真实生活动态。授课教师借助画像信息可以改进教学方式、进行学习指导;辅导员借助画像信息可以及时进行行为预警和干预,改变管理手段和管理水平;学生本人也可以及时约束自己,改善学习方法,纠正不良生活、作息习惯。大学生综合行为画像可以概括为,基于校园大数据将学生行为信息标签化[4]。本次研究主要探讨如何收集、处理各类数据,将数据标签化,从而构建大学生校园生活动态的综合行为画像。大学生综合行为画像构建流程如图1所示。
1.1 数据采集
智慧校园平台通过业务管理系统、硬件设备和浏览网站累积了海量大学生校园生活行为数据。从这些数据中抽取出所需数据,并通过进一步数据挖掘,即可全面展示一个大学生的综合信息。这些数据包括静态数据和动态数据,以及结构化数据和非结构化数据。静态数据主要包括学生的基本信息,如姓名、年龄、性别、民族、专业年级、考试成绩等;动态数据主要包括课程学习数据、作息时间数据、校园卡消费数据、网络访问数据、图书借阅数据等。结构化数据主要包括智慧校园平台数据库中按照一定数据标准存储的规范数据;非结构化数据主要包括网页、CSV文件、Excel文件、图片信息、视频信息等数据。数据采集工作中,应采集有用信息,剔除冗余信息,确定综合行为画像中用到的信息数据。
1.2 数据清洗
采集的原始数据来源于不同系统,多是不规范、不完整、重复、异常的“脏数据”。对于“脏数据”,应先进行清洗,完成异构多数据源的数据整合,以实现不同数据源间的数据同步。
按照一定的数据标准,连接访问不同业务系统的数据库。对于不规范数据,进行创建、浏览、删除和修改,形成统一数据库,存储于数据仓库中。对于不完整的数据,一般采用机器学习的方式插补,自动完成整合。如,有的数据库存在“空”值,通常以“0”或平均值予以替换。当系统无法自动完成时,采用人工干预的方式来完成。异常数据是指超过正常数值范围的数据,对此类数据需筛选出来另行处理或删除。
画像展示(向辅导员、授课教师、学生本人)
1.3 数据标签化
标签通常是指人工定义的高度精炼的特征符号标识,是特征的一种呈现方式[5]。它有两个明显特征:一是语义化,便于帮助人们理解标签的含义;二是短文本,有利于机器提取标准化信息。数据标签化是指对原始数据进行分析,抽取学生行为相关变量或属性,并为其贴上“标签”。各个标签从不同的角度描述数据对象,既有区别又有联系,从而共同构成学生行为画像整体。
根据大学生校园行为原始数据,挖掘出有用的综合行为画像信息,进而进行模型计算、分析和评价。特征标签分为静态特征标签和动态特征标签:静态特征标签主要包括姓名、年龄、性别、专业年级、考试成绩等;动态特征标签包括学习水平、上网习惯、作息习惯、消费水平、饮食规律、社交关系等。大学生行为画像特征标签如表1所示。
表1 大学生行为画像特征标签
1.4 综合行为画像构建
大学生综合行为画像是现实生活中实际样本的数学建模,构建基础是从大学生校园行为轨迹中抽象而来的各种特征标签。通过一系列信息标签,可勾勒出学生的校园生活形象,进而为其学习管理、成绩分析、行为预警提供帮助。
(1) 构建原则。综合行为画像来源于数据,构建的原则是能够真实反映本体。基于本体的个体画像,集成了行为建模的概念和属性,是行为个体画像与本体论相结合的产物[6]。基于本体的知识表示方法,通常由实例、类、关系、函数和公理等部分组成。在计算机科学与信息科学领域,本体是指一种形式化的对于共享概念体系的明确说明。它是一种共享词表,是一种特殊类型的术语集,是对特定领域之中某类概念及其相互之间关系的形式化表达,是人们以自己兴趣领域的知识为素材、运用信息科学的本体论原理而编写出来的作品[7]。描述这样一个画像模型,需要一套数据化、符号化、形式化的标准知识体系,通过机器去理解、推理这套知识体系,使其进一步形式化。画像构建原则如图2所示。
图2 画像构建原则
(2) 构建方法。遵循朴素的行为特征表示规律,依据现实,建立模型,给出标签。行为画像需要表现的是现实生活中业务系统对应的特征学生,应先建立学生特征模型,进一步通过符号化抽象成学生特征的符号,即标签,而标签又能代表现实生活中的实体。比如某个学生个体有“上课纪律好”“学习成绩好”“经常去图书馆”等特征,则可以用“学霸”这个词作为符号和标签,表示这位同学的学习水平。
2 综合行为画像探索与分析
2.1 综合行为画像特征标签数据处理
用于综合行为画像的数据来源于不同的业务系统,代表不同的特征标签,数据的单位、数量级别、取值范围都不一样。有的数据取值范围特别大,会导致算法的训练时间过长,收敛较慢;取值范围大的数据在模式分类中的贡献也可能偏大,而取值范围小的数据贡献就可能非常小,数据之间的可比性较差。因此,需要对特征标签数据进行归一化处理,归纳统一样本的统计分布性,在保持数据之间相对关系的同时,使无可比性的数据具有可比性。归一化就是将数据映射到[0,1]或[-1,1]区间,如归一为(0.1,0.9)。
在机器学习算法和数据挖掘工作中,归一化环节可以简化计算方式,将有量纲的表达式变换为无量纲的表达式,变为纯量。例如在应用SVM之前,数据缩放非常重要,它可以避免小数值区间的属性过多地被大数值区间的属性所支配,同时降低计算过程中数值的复杂度。常用的数据归一化包括线性函数归一化(Min-Max Scaling)和0均值标准化(Z-Score Standardization)。
(1) 线性函数归一化。线性函数归一化是将原始特征标签数据通过线性化方式映射到[0,1]区间,归一化函数如下:
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化后的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。函数实现:LaTex:{X}_{n}=frac{X-Xmin}{Xmax-Xmin}。
(2) 0均值标准化。0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn。标准化后的数据呈正态分布,即均值为0,标准差为1,在一定程度上改变了特征的分布。函数如下:
该归一化函数能够处理原始数据的分布,近似为高斯分布数据。其中,Xn为标准化后的新数据,X为原数据值,μ为均值,σ为标准差。函数实现:LaTex:{X}_{n}=frac{X-mu }{sigma }。
通常在分类、聚类算法中,需要使用距离来度量相似性的时候,或者使用PCA技术进行降维的时候,0均值标准化方法表现更好;而在不涉及距离度量、协方差计算、数据属性不符合正态分布的时候,可以采用线性函数归一化方法。比如,图像处理中,将RGB图像转换为灰度图像后,将其值限定在[0,255]区间。
2.2 大学生综合行为画像应用分析
综合行为画像主要从学习、三餐习惯、作息习惯、社交关系、消费水平、上网习惯等方面进行分析评价。
(1) 学习。这里主要对准点率、出勤率、成绩进行加权求和,得到学习指数,通过学习指数反映学生的学习基础与学习态度。学习指数L:L=f(s),其中f(s)为归一化函数,s为各个指标的评价值。特征标签评价等级分为:学霸、学优、学良、学中和学差。
(2) 三餐习惯。三餐习惯用规律度表示,即按照饮食指数设定等级,并给予评价。
饮食指数归一化函数:
pm=-1×(21.362-0.003p-0.330p2)
s=sl-ss
pn=-1×(21.050-0.027p′-0.330p′2)
式中:Y为饮食指数;pm为早餐评价;td用餐标准差评价;pn为夜宵评价;p为早餐频率;t为三餐平均标准差;s为消费差评价;sl和ss分别为午餐和晚餐的日均消费金额;p′为夜宵餐比例。
(3) 作息习惯。作息习惯用规律度表示,根据睡眠时间、入睡时间和起床时间等计算作息指数,对作息指数设定等级,进行作息习惯评价。
作息指数函数:
式中:S为作息指数;f(x)为归一化函数;tc为睡眠时间评价;t0为平均睡眠时长;ti为入睡时间评价;t1为平均入睡时间;tu为起床时间评价;t2为平均起床时间。
(4) 社交关系。由于大学生社交圈人数有限,这里以间隔5位同学作为目标同学的共现对。如同学k,所在队列中获取有效共现对[(xk-5,xk),(xk-4,xk+1),…(xk,xk+5)],收集并计算共现对出现的次数。通过Louvain社区发现算法识别学生的关系群体,从而发现社群中离群索居的对象。
(5) 消费水平。通过学生日均消费金额c,计算消费力指数Sp,评价学生的消费水平,Sp=f(c)。结合学生用餐消费和消费场所、位置等判定消费水平及消费行为。
(6) 上网习惯。以日均上网时长为主要因素计算上网指数N,日均上网时长t与网络成瘾度具有线性相关性[8]。以上网指数N评价学生上网健康度:N=f(1.725+0.321t)。
下面就综合行为画像与学习成绩相关度特征标签数据进行分析,数据如表2所示。
表2 学习成绩相关度
可以看出,上网类型和上网行为对成绩有较大的影响。多浏览文库、参考资料网站,在教学区上网时间长等行为指标对成绩有帮助,而浏览低俗网站,进行高强度聊天、看小说、玩游戏等行为指标对成绩不利。消费方面,学习支出多及经常在校就餐等行为指标对成绩有正面作用,晚餐消费和普通餐饮特色消费行为指标影响学习指数。指数方面,良好的饮食作息,周末多去室外活动对成绩也有正面作用。基本信息方面,不同生源对成绩模型有不同影响。如,华北地区生源对成绩的影响度一般较低,西北地区生源对成绩的影响度较高。此外,男生取得高分的比例较低,贫困也是影响学生取得高分的重要原因。
3 结 语
当前,高校智慧校园建设不断深入,大学生行为数据累积量越来越大。在信息化社会里,数据即资源,数据即价值,这一点被越来越多人所认同。借助大数据挖掘、分析技术,充分发挥数据价值,为大学生进行综合行为画像,可以及时掌握学生学习状况和生活动态,为教师教学、领导决策、学生管理、行为预警等提供准确信息。