APP下载

基于Apriori算法对移动课堂微信APP中热点问题的关联分析

2016-08-11吉珊珊李淑飞江务学

无线互联科技 2016年11期
关键词:项集关联规则

吉珊珊,李淑飞,江务学

(东莞职业技术学院,广东 东莞 523808)

基于Apriori算法对移动课堂微信APP中热点问题的关联分析

吉珊珊,李淑飞,江务学

(东莞职业技术学院,广东 东莞 523808)

随着我国互联网技术的飞速发展,微信作为新一代通讯软件,凭借着自身信息发布便捷、互动性强、成本低廉等优势得到了广大互联网用户的青睐。微信应用范围的扩大,使得该通讯软件逐渐成为教学活动开展的一个主要手段。但就实际应用情况来看,仍存在一些有待解决的问题,比如说,信息形式单一、互动性弱、时效性不强等。为此,文章介绍了Apriori算法,以期利用Apriori算法来进行关联分析,从而形成问题的分析结果,将移动课堂微信APP的优势最大限度地发挥出来。

Apriori算法;移动课堂;微信App;关联分析

在互联网技术飞速发展的今天,一些基于移动端的新媒介不断涌现,微信就是众多新媒介中的一种。为了可以给互联网用户提供更加优质的体验,腾讯公司一直在对微信进行更新与完善,使微信用户群体得到了进一步扩大。微信用户的持续增加给教学活动的开展提供了新的途径。随着移动课堂微信APP应用范围的不断扩大,软件应用过程中也呈现出了一些有待解决的问题,如信息形式单一、互动性弱等。为了解决上述问题,文章主要介绍了Apriori算法,利用该算法对问题进行关联提取,并在此基础上对问题进行分析,得出分析结果进而将移动课堂微信APP的优势充分发挥出来。

1 关联规则挖掘技术

1.1关联规则基本概念

在移动课堂微信APP使用过程中,势必会产生大量数据,在海量数据中,势必会隐藏着一些有价值的信息,如何将这些数据信息的价值最大限度发挥出来是数据挖掘的主要目的。就目前数据挖掘工作的现状来看,其主要研究方向就是关联规则挖掘。所谓关联规则挖掘技术,主要是指通过对事务项集和项集之间关系的分析,对数据信息所隐藏的实用价值进行挖掘和探索的一种技术。

1.2关联规则挖掘步骤

一般来说,关联规则挖掘主要分为两个步骤,首先是频繁项集的构建。频繁项集是关联规则挖掘技术应用中必不可少的一项内容,比如说,将用A表示已知事务数据库,那么项目集就可表示为{A1,A2,…An},并用上述已知数据信息,找出符合最小支持度要求的频繁项集。其次是规则的构建。关联规则挖掘技术共涉及两种类型的规则,即强关联规则和弱关联规则。其中,强关联规则主要是指既符合用户指定的支持度阈值,又符合可信度阈值。反之,则为弱关联规则。

在上述两个步骤中,频繁项目的构建是否科学合理,不仅直接关系着算法总体性能的好坏,而且也是判定关联规则好坏的重要指标,在整个挖掘过程中具有重要作用。规则的构建是以频繁项集为基础计算得出的,所以相对来说比较简单,其主要目的就是为了将判断关联规则的强弱。

1.3关联规则分类

根据分类标准不同,可将关联规则分为多种不同类型,按照处理变量类型的不同,可将其分为数值型关联规则和布尔型关联规则;按照数据在规则中的抽象层次,可将其分为单层关联规则和多层关联规则;按照数据在规则中涉及的维数,则可将其分为单维关联规则和多维关联规则。了解管理规则分类,可以更好地促进关联规则挖掘技术的合理应用。

1.4Apriori算法介绍

自从关联规则挖掘技术在1993年被提出以来,广大学者给予了高度重视,并加大了对该技术的研究力度,同时也对原有算法进行了优化与完善,Apriori算法应运而生。与传统算法不同,Apriori算法在使用过程中,需要进行多次迭代算法。首先,需要通过对数据信息一次性扫描,对数据信息中单个项目的计数进行统计,并在此基础上将满足最小支持度要求的单个项目提取出来形成频繁项集,得出的这一频繁项集就是下一次扫描的对象,然后重复此项操作,直到数据库中无法生产频繁项集为止。

2 Apriori算法在微信热点事件的关联分析模型及数据分析

移动课堂微信APP在已经成为当前教学活动的一个主要手段,软件中承载着大量数据信息。所以,Apriori算法在微信热点事件关联分析中的应用也成为一个必然趋势。通过对微信中大量数据信息的分析和挖掘,可以将信息中隐藏的应用价值充分发挥出来。

2.1Apriori算法在移动课堂微信APP的关联分析模型

利用Apriori算法对移动课堂微信APP进行关联分析,首先应该将信息中的频繁项集,充分挖掘出来,然后在此基础上构建关联分析的规则,每一条规则的右部只有一项,采用的是中规则的定义。一旦这一规则被生成,那么只有那些大于用户给定的最小可信度的规则才会被留下来。为了生成所有频集,可以选用递归的方法。

Apriori算法的基本实现原理:

输入:数据集A,最小支持度minsupport

输出:所有的频繁项集

L1=find_Frequent_itemsets(A,minsupport)

for(K=2;Lk-1!=NULL;k++)

{Ck=apriori_gen(Lk-1)}

for each item t包含于A

do {Ct=subset(Ck,t)for each candidate c包含于Ct count++}

通过对微信数据信息的挖掘分析总结出,在微信热点问题关联分析中,能够对分析结果产生影响的因素有很多,例如,事件属性、阅读量、点赞量等。

2.2Apriori算法在移动课堂微信APP分析中的数据分析

为了更好地对Apriori算法在移动课堂微信APP关联分析中的作用进行分析,研究人员在萃取大量微信事件数据之后,抽取了其中的部分事件,并根据各个事件的具体情况,将上述几个影响因素的实际情况录入到数据库中,具体内容如表1所示。

表1 移动课堂微信APP事件信息

在对移动课堂微信APP事件信息进行分析之后,利用Apriori算法对微信热点事件进行了关联规则挖掘分析,挖掘结果如表2所示。

表2 微信热点事件关联规则挖掘结果

表2给出的是部分微信热点事件的关联情况,左边部分主要是事件属性,右部分则是该事件的支持度,是衡量该热点事件关联规则强弱的重要指标。

3 Apriori算法的改进设计

从上文的分析能够看出,当前移动课堂微信APP在使用过程中,信息的发布多以文字为主,形式十分单一,而且与学生之间没有建立良好的互动,这势必会影响到微信APP的应用效果。Apriori算法具有简单清晰、易于实现等诸多优点,在当前社会各领域的发展中都有广泛应用。但同时,该算法也存在一些有待解决的问题。比如说,算法思想无法满足当前学生学习需求以及算法描述过于繁琐等。所以,随着微信数据量的不断增加,Apriori算法的改进设计也势在必行。所以,笔者就当前Apriori算法的应用现状,从算法思想和算法描述两个方面着手,提出以下改进措施。

3.1改进算法思想

算法思想的改进应该从两个方面着手,一是上三角支持度矩阵的构造。首先要明确上三角支持度矩阵中所涉及的内容,就该矩阵的内容来看,主要是微信数据库中全部项目的个数,无论是行标还是列标,都可视为项目的集合。其次要明确上三角支持度矩阵的作用,在矩阵中,支持度本身就可以作为统计计数,所以在最小支持度阈值给定的前提下,可以此为依据直接获取到频繁项集1,2,3。通常情况下,上述3个频繁项集属第二个频繁项集生产过程最为复杂,需要经过多次比较才能够得到最终结果,而且上三角支持度矩阵只能生成3个频繁项集,如果想要生成后续项集,就需要借助事务二进制向量表,这也是算法思想改进的第二个方面,接下来笔者就对其进行详细阐述。二进制向量表的生成是与上三角支持度矩阵同时开展的,在微信热点事件数据库中,每个热点事件都有一个或多个项目与之对应,可以根据项目的具体数量来确定编码长度。在某一热点事件中,项目存在的位置用“1”表示,项目不存在的位置用“0”表示。由此,根据二进制向量的意义引出相关概念。

3.2改进算法描述

算法描述的改进也是Apriori算法改进设计的一项重要内容。对于此项内容的改进同样需要从两个方面着手,一是执行步骤描述改进,二是伪代码描述改进。根据当前Apriori算法的应用现状来看,在对执行步骤描述进行改进的时候,应使其按照以下几个步骤进行:(1)对微信事件数据库进行扫描,同时生成上三角支持度矩阵和二进制向量表,并在基础上根据矩阵中的具体内容生成频繁1-项集和频繁2-项集。(2)以频繁1-项集和频繁2-项集为基础生成频繁3-项集,然后通过对事件进行向量计算和统计确定事件满足最小支持度。(3)当频繁项集扫描到一定程度之后,就可以通过二进制表确定支持度,判断是否满足条件,如果不满足频繁项集生成条件,那么就退出循环,算法结束。

Apriori算法伪代码的改进描述如下:

输入:事务数据库,最小支持度min_sup

输出:频繁项集

#生成带权值的上三角矩阵,读取一条记录,此条记录记作ti#

For i,j in ti:#若记录中任意两项i,j都为1则对上三角矩阵M[i][j]加1

For each i=1&&j=1:

M[i][j]++

#生成二进制表

For i in range(事务数):B=0,Ci=0

4 结语

综上所述,随着微信用户规模的不断扩大,移动课堂微信APP的有效应用可以进一步提升教学活动效率,促进教学目标的顺利实现。从本文的分析可以看出,互动性弱、时效性差是当前移动课堂微信APP应用中两个重要问题,为了将这些问题有效解决,文章介绍了Apriori算法,并根据其使用情况从算法思想和算法描述上进行了优化,使得该算法的数据提取效率更高,分析结果也更具科学性和参考性,不仅提高了学生的学习效率,而且对教学质量的提升也具有重要意义。

[1]刘伟,郑世钰.基于Apriori算法的对微信热点事件的关联分析与研究[J].计算机与数字工程,2016(1):31-34.

[2]任健,王心璐.国内新媒体学术研究的新态势与新特征[J].编辑之友,2014(5):60-64.

[3]陶立秋.改进的Apriori算法在微信热点分析中的应用研究[D].武汉:华中师范大学,2015.

[4]张宏旭.现代信息技术在高职职业教育教学的应用—基于微信的移动课堂APP服务系统设计与实现[J].无线互联科技,2014(5):229.

The Analysis and Research of the Hot Spot problem of WeChat APP in Mobile Classroom Based on Apriori Algorithm

Ji Shanshan, Li Shufei, Jiang Wuxue
(Dongguan Technology and Vocational College, Dongguan 523808, China)

With the rapid development of Internet technology in China, micro channel advantages as a new generation of communications software,by virtue of its information convenient, strong interactivity, low cost, etc. the majority of Internet users favor. The expansion of scope of application,making the communication software has gradually become a major means in teaching activities. But the point of view of practical application, there are still some problems to be solved, for example, information in the form of a single, weak interaction, timeliness is not strong. Therefore, this paper introduces the apriori algorithm, by using the apriori algorithm to carry on the correlation analysis, so as to form the results of the analysis of the problem , will move the classroom to maximize the advantages of WeChat app play out.

Apriori algorithm; mobile classroom; wechat App; correlation

项目名称:2015年度广东省教育研究院教育研究课题(职业教育类);项目编号:GDJY-2015-B-b060。2015年广东省高职教育教学改革项目;项目名称:基于MOOC和微信APP的计算机应用基础翻转课堂教学的研究与实践;项目编号:GDJG2015001。项目名称:广东省教育技术教学改革研究项目;项目编号:No.2015021

吉珊珊(1985-),女,广东梅州,硕士,讲师,工程师;研究方向:计算机智能信息处理与控制,计算机教育,计算机应用。

猜你喜欢

项集关联规则
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
智趣
TPP反腐败规则对我国的启示
一种频繁核心项集的快速挖掘算法
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*