数据挖掘技术在班级QQ群中的应用研究
2013-04-29俞显
俞显
摘 要:作者运用数据挖掘技术,通过基于QQ群的聊天记录,从发言频次、社会网络关系、情感分析、高频词统计四个方面分析该QQ群的整体交流互动状态,以期为同类研究提供一定的参考。
关键词:数据挖掘;社会网络分析;情感分析;高频词
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2013)16-0085-03
当前的世界已经进入知识经济的时代,快速获取信息、掌握知识是在激烈竞争环境中脱颖而出的不二选择。然而,现实是人们处在信息大爆炸的时代却忍受着“知识的饥饿”。在这样的背景下,数据挖掘技术响应时代的召唤应运而生,通过对大量的、无序的、不明确的数据进行抽取,以获取有价值的信息和知识,是数据挖掘技术的重要特征。因而,该技术在商业、旅游、医疗等领域受到广泛的关注和应用,但在教育领域的应用正处于起步阶段。本文试图通过一个班级QQ群聊天记录,运用数据挖掘技术对隐含在聊天记录中的信息进行分析,以窥测该群在线学习交流的情况,为数据挖掘技术在教育上的应用做一些探索性的研究。
一、数据采集和研究方法
1.数据采集
本文的数据来自陕西师范大学2011级教育技术学硕士研究生班的QQ群,该群于2011年9月份申请成立,一共有20位群成员。群聊天记录选取时间从2012年9月份到2013年4月份,最后得到2572条记录。
2.研究方法及其工具
数据挖掘(Data Mining)是从大量不完整、有噪音、模糊、随机的数据中,抽取出隐含在其中的,人们事先不知道但又是潜在的、有价值的知识、模型或规则的过程,是一类深层次的数据分析方法。[1] 本文通过文本挖掘、社会网络分析同时结合访谈法展开本次研究。
(1)文本挖掘
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。[2]本文通过对QQ群的聊天记录的文本信息挖掘,对该群的情感状态、高频词进行统计分析。实现文本挖掘的工具是武汉大学沈阳博士领衔开发的ROST RM文本挖掘软件。[3]
(2)社会网络分析
社会网络分析是指对社会行动者及其间关系的分析。通过社会网络分析,挖掘该QQ群体的核心参与者、边缘参与者以及旁观者的分布状况。本文实现社会网络分析的工具是UNICET 6.0,该软件是目前最为流行的社会网络分析软件。[4]
(3)访谈法
主要对QQ群中的个体进行访谈,访谈所使用的工具是结构化的访谈大纲。通过访谈以了解群成员参与QQ群讨论的动机和想法等信息,弥补通过数据挖掘技术获取信息的不足。
二、统计与分析
1.群成员在线交流频次分析
在线交流频次在一定程度上反映了群成员在群中的活跃度,可以窥测出群成员在线交流的交互程度的状况。笔者将2572条数据导入到ROST CM软件中,得出了最后的频次统计数据。分析发现该数据服从正态分布,因此为了了解全成员在在总体发言的相对位置,笔者将最后的数据转换成了标准分数形式,如表1所示。
从表1可以看到,序号为2、3、10、12、14、15、18、19的群成员等频次标准分数呈现正值,说明他们在群里的发言较为积极,这些同学可能成为这个群里的核心成员或者说是意见领袖,对于整个群的凝聚度有较大的影响力。其中序号为2、18、19的同学是该班的班委成员;而3、12、10在现实的环境下同样较为活跃,喜欢与他人交流; 14、15在现实生活中是好友关系,通过聊天记录分析这两成员互相回应的次数很高;4、9、16成员发言的频次很低,但是这几位成员在现实环境中属于活跃型,可以发现这几位同学不适应在虚拟的学习环境下交流学习。通过访谈发现,这几位成员认为群里的讨论没意义、浪费时间,而且经常由于打字速度慢跟不上,因此对QQ聊天并不感兴趣。
2.群成员在线交流角色分析
万力勇等认为,“在一个虚拟社区互动中,有三种角色,分别为中心参与者、边缘参与者和旁观者”。[5]中心参与者处于“社会网络”的中心,对群的贡献较大;边缘者处于“社会网络”的边沿,对整个QQ讨论不太感兴趣;而旁观者一般不发言,不参与QQ群的讨论。笔者通过对该QQ群中集中的聊天片段中各成员的回复情况分析,进行邻接矩阵的构建,其中行列中的1表示选择关系,0表示无选择关系。如第i行的同学选择了第j列的学生,则i行j列上的数据为1。最后把邻接矩阵转换成社会网络关系图,如图1所示。
通过图1可以看出,处于网络核心地位的是2、7、11、12、17、18、19,这些成员在QQ群中与其他成员存在较多的互相交流现象。同时,我们对比表1发现,其中2、7、11的发言频次不高,标准分数为负,但这三位成员却成为了核心参与者。从这点可以看出, 2、7、11积极参与到了QQ群的讨论中。通过访谈了解到,这三位成员对其它成员的发言都表示有选择性地答复,2、7、11都认为对于他人的发言经过了自己的思考,并给出自己的意见,虽然自己的发言频次不高,但参与讨论的积极性表现在对他人发言的思考上。14、15在发言频次上较高,但是从图中可以看出,这两位成员是边缘参与者,这两位成员在现实中是好朋友,经常在QQ群讨论中对于对方的发言都给予积极地回复,对于其它成员的发言持观望的态度。在本QQ群中基本不存在旁观者,整个QQ群的讨论呈较为活跃的状态。
3.QQ群的情感分析
文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。[6]文本情感分析主要是对文本中的文本信息的主客观性、褒贬性的判断,主要涉及情感信息的抽取、情感信息的分类以及情感信息的检索和归纳等三个方面。[6]笔者将所搜集的2572条聊天记录导入到ROST CM中进行情感分析。
从表2中可以看到,积极情绪的占24.81%,中性情绪的占65.94%,消极情绪的占9.25%。其中积极情绪的记录,如“这图片真的太可爱了”,“理性爱国、遵纪守法”;中性情绪的记录,如“恩,好的”,“我们需要怎样完成”;而消极情绪的记录,如“老师布置的作业,我真心不想也不会做”,“我很纠结,不知道该怎么办”等。虽然基于文本的情感分析需要在一定的语境下才能很好展开,但在一定程度上反映出了当前QQ群的整个情感的状态,对于及时监控和掌握该群的情感,进行适当的引导和支持有较大的意义。从数据可以看出该群成员情感基本持积极状态。
4.在线交流的高频词分析
通过对聊天记录的文本挖掘,统计分析使用频率高的词语,可以窥测出该群成员的整体讨论的主要内容,为掌握该群的整体讨论取向有一定的帮助。笔者将2572条记录导入ROST CM软件中,进行分词并进行词频统计操作。最后把高频词进行可视化处理,制成图2的标签云。
从图2中可以看出,“知道”、“同学”“现在”等词出现的频率很高,这是班委在群里传达相关通知的一种很好的体现,一般班委是以“同学们,现在……”开始提醒大家注意,其他同学一般都回复“知道”、“谢谢”表示回应。而“研究生”、“开题”等词出现的频率也较高,说明QQ群成员对于毕业论文开题探讨的比较多,因为开题不通过直接影响最后的毕业答辩。通过同样的方法可以对单个成员的聊天记录进行数据挖掘,来分析该成员所关注的一些事情。
三、结论以及启示
本文采用数据挖掘技术和社会网络分析方法,从发言次数、社会网络关系、情感分析和高频词分析等方面,对QQ群聊天记录进行分析,可以发现该QQ群成员之间的交互整体上较为频繁,具有较好的凝聚力;并且该群整体的情感呈积极的态势,而且群成员之间对于当前学习或者学习之外的事情都会放在群里进行讨论,表现出互相帮助互相鼓励的一种良好氛围。基于QQ群的数据挖掘对在线学习的启示:
其一,当前在线学习已经成为传统课堂学习之外的另一种学习形式,受到了广泛的关注。然而有学者认为,“在线学习不能够促进学习,即使有优质的在线学习资源和工具,但是学习不可能自动发生”。[7] 所以这就需要教师或者其他成员对学习动机不强的学生进行帮助、引导,而在这一过程中了解在线学习参与者在线参与度极为关键,通过数据挖掘,分析在线参与者的在线交流频次,绘制社会网络关系图,从而把握哪些学习者是核心参与者,哪些是边缘参与者以及旁观者,以便对在线学习参与者进行个性化的指导,制定相应的在线学习互助策略(如核心参与者帮扶边缘参与者),提高团队合作能力和凝聚力,最后表现为整个学习群体学习成效的提高。
其二,在虚拟学习环境中参与学习活动,由于环境的变化,大部分在线学习参与者较难适应,产生了孤独感、焦虑感、失落感。这些情感的变化问题如果长时间得不到有效的缓和和解决,将影响在线学习参与者的学习动机,表现出厌学甚至不学的状态,最后可能演变成在线学习的旁观者。然而现实是,由于在线学习参与者数量很大,很难从整体上对学习群体的情绪变化进行把握。而通过数据挖掘技术对学习者的在线学习情感进行分析,可以快速、及时地了解当前学习群体的情绪状态,降低了以往分析的难度并提高分析的效率。随着情感分析技术的发展,这一技术引用到在线学习中将趋于成熟。
其三,一个学习群体的在线交流中是不是集中在某一学习主题,或者在学习主题之外的交流内容是什么?这些问题都是对该学习群体特征分析的一个重要手段,传统的方法只能是对在线学习参与者的在线文档等进行逐条分析,这种方法固然很可靠但可行性不强,一旦在线学习参与者的数量较大,就无法用传统方法进行分析。通过对在线交流文档的高频词提取,从中窥探出在线学习群体所关注的话题,这种方法效率很高,而且较为有效,该方法在旅游、管理等领域已经运用的较为广泛,而且成果显著。
数据挖掘技术有很多的实现方法,本文主要对其中的一部分进行了应用分析,进行了初步的试探性研究,其中有很多大型、深入的数据挖掘技术有待进一步的介绍和分析。这也是以后深入研究的关键点。
参考文献:
[1]周倩.数据挖掘在图书馆用户资源管理中的应用研究[J].图书情报知识,2006(11):87-90.
[2]谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007(7):1046-1050.
[3]ROST虚拟学习团队.探索[EB/OL].[2013-05-01].http://www.fanpq.com/.
[4]张世明.数字教育资源共享生态系统研究[M].上海:复旦大学出版社,2011:63.
[5]万力勇,赵呈领,廖伟伟等.基于QQ群的网络学习共同体社会互动研究[J].电化教育研究,2012(9):54-59.
[6]赵妍妍,秦兵,刘挺.文本情感分析[J]. 软件学报,2010 (8):1834-1848.
[7]在线教育能促进学习?别闹了[EB/OL]. [2013-05-02].http://www.leiphone.com/s-online-education- promote-learning.html.
(编辑:鲁利瑞)