基于数据分析高校学生自画像的初探
2017-10-30赵国亮陈晓军李思奇吴傲
赵国亮++陈晓军++李思奇++吴傲
摘要:随着互联网和人工智能的发展,数据的价值越来越得到广泛的重视,尤其是高校的数据价值,研究还处于初探期。本文首先对大数据和用户画像国内外研究现状进行分析,其次基于高校数据进行标签化、模型化,设计出基于高校的学生用户画像的模型,然后以高校学生成绩数据和消费数据为例,实现用户画像模型的初步验证,最后总结围绕高校学生自画像的研究前景,更好挖掘高校数据价值,为后期勤工助学、爱好培养、社团选拔、学生挂科预警、学生未在校预警等提供参考。
关键词:大数据;用户画像;高校学生;用户画像标签化
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)08-0233-02
随着互联网的出现,信息便逐渐趋向于爆炸的状态,以不同的形式展示,而这些数据蕴含巨大的价值。对于如此庞大的数据,可以通过大数据技术精准地获取自己想要的数据,从海量的数据中得到一些有用的价值,用户画像就是其中的一种应用。
1 大数据和用户画像
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。
目前国内外的专家学者对大数据只是在数据规模上达成共识,重点对大数据与云计算、数据挖掘,并行计算和分布式处理等几个领域进行研究。国内大数据技术的应用最先开始的是淘宝、京东等几大电商的精准营销,消费者的一切行为在企业面前似乎都将是“可视化”。国外除在大数据的概念上的研究外,重点放在大数据分析算法和系统的效率。
用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型[3]。精准营销其实就是利用大数据技术,对用户购物数据行为进行分析,对购物人群贴上标签,进行用户画像虚拟化,有针对性地进行主动推销。高校用户画像由于受制于高校N个系统数据的独立性,同时学校往往只关心结果数据,对过程数据不重视导致众多行为数据的缺失,导致高校用户画像的研究还处于初探期。电子科大将用户画像用于挂科预警、南京理工将大数据应用于贫困生帮扶,本文将基于西南石油大学学生食堂消费、开水等数据进行用户画像初探。
2 高校的用户画像设计
高校用户画像设计主要是数据采集以及数据标签化两个方面。
2.1 数据及数据采集
基于高校的用户画像数据主要分为静态数据和动态数据。静态数据包括学生的基本信息,如性别、年龄、专业年级、成绩等信息;动态数据则包括访问课程数据、寝室门禁及校门门禁刷卡数据、澡堂刷卡数据、食堂吃饭刷卡数据、图书馆进出数据、图书馆借阅等数据。如图1所示。
2.2 数据标签化
数据标签化就是对原始数据进行分析,抽取出相关的事实数据,基于事实数据归纳出标签模型,最后抽象出预测标签。如图2所示。
通过对采集数据的分析,可以给学生贴上“标签”,将其行为标签化。例如,可以通过图书馆门禁、宿舍门禁、校门门禁以及访问课程中心次数给学生贴上“学渣”及“学霸”的标签;通过吃饭时间及金额、洗澡刷开次数以及宿舍门禁次数给学生贴上“勤劳”及“懶惰”的标签;通过图书馆书籍的浏览类别(爱好)、借书次数可以给学生贴上一个“图书馆读书情况”的标签。
3 学生自画像的初探
以高校食堂消费情况数据,采用脱敏方式,抽取了西南石油大学某专业196名学生的4169条数据。如图3所示。
通过分析其食堂吃饭刷卡时间以及GPA的实际数据,绘制了如下散点图,如图4所示。
根据如图所示的结果,可以将学生用餐时间划分为早上,中午和下午三个小组。对于早上这一组的数据可以划分为三个区间,这一组的数据的平均值即为,最大值为,最小值为。然后在至之间再找一个平均值,在至之间再找一个平均值,因此三个区间分别为早餐用餐时间早:-,早餐用餐时间中等:-,早餐用餐时间晚:-。同理,对于中午以及下午的两组用餐时间数据可以划分出相同的区间。
通过早餐、中餐及晚餐三组数据的分析,得出三餐吃饭早的时间段为:06:18:20-07:31:10,10:02:45-11:33:52,15:16:39-17:44:30;三餐吃饭中等的时间段为:07:31:10-08:45:56,11:33:52-12:17:35,17:44:30-18:21:35;三餐吃饭晚的时间段为:08:45:56-09:59:41,12:17:35-13:21:47,18:21:35-22:19:37。
得出结果,反馈到对应学生刷卡数据上,并定义吃饭次数超过1/2为早的则标签该学生为用餐勤快。同时可以把该标签与学生绩点发生关联,探索其中与成绩是否有相关性。
4 结语
构建学校用户自画像的研究,能够清楚地理解大数据在校园中的应用以及明白用户画像的影响,并且能够在大数据时代充分利用各种数据,对其进行大量深层次的挖掘 ,最终让这些数据转化为资产,更大地挖掘学校数据价值,为勤工助学、爱好培养、社团选拔、学生挂科预警、学生未在校预警等提供参考。
参考文献
[1]王军,刘金辉.大数据的国内外研究现状及发展动态分析[J].电子技术与软件工程, 2015,(23):200-200.
[2]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,(5):25-28.
[3]维克托·迈尔·舍恩伯格.盛扬燕,周涛,译.大数据时代[M].浙江人民出版社,2013.
[4]王振宇,郭力.基于Hadoop的搜索引擎用户行为分析[J].计算机工程与科学,2011,(04):115-120.endprint