探究网络用户的数据挖掘行为
2014-04-29高超
引言:伴随着互联网的飞速发展和用户日益剧增的需求,关于网络用户的行为分析和数据挖掘研究从无到有的迅速的发展了起来。现在的舆论乱七八糟,为了引导舆论朝着正确的道路走下去,节约网络用户的上网时间,提让用户更好的访问网站,我们对网络用户的数据行为进行了如下探究。
前言:
网络信息的数据挖掘包含的内容很多,有效的挖掘网络信息不但可以增强网站的吸引力,还可以让用户更有效的利用网络资源。和数据挖掘类似,社交网络的用户行为分析可以帮助决策者掌握用户的行为特征,同时也能帮助决策者了解用户的兴趣变化,更好的发挥网络的作用。
一、 数据挖掘和网络用户行为的概念
(一) 数据挖掘的概念
数据挖掘的另一种叫法数据库知识发现(Knowledge Discovery in Databases),简称KDD,由数据的清理,数据的集成,数据的选择,数据的转换,模式额发现,模式的评估和知识的表示 七个部分组成。数据的集成,数据的选择和数据的转换可以划分为一个部分,成为数据预处理阶段,数据的预处理阶段的效果将直接影响着数据挖掘质量的好坏。模式的发现是中间阶段,是运用数据挖掘算法从数据库中提取有效模式的阶段。
常用的数据挖掘方法包括支持向量机,K-Means聚类算法,聚类分析。
(二) 网络用户行为的概念
网络用户行为是指网络用户在使用网络信息和资源时所表现出来了规律性的行为特征。对网络用户行为的研究目的就是通过一些算法和软件对网络用户行为进行研究分析,发现规律特征,进而利用这些特征预测未来的网络用户行为,同时通过这些网络用户规律优化网络信息。
网络用户行为的特点:一方面是它的主观能动性太强,牵扯到的东西很多,它不受地域的限制,用户之间能自由的发表意见进行交流;一方面它知识丰富,计划跟不上变化,用户可以随意的上传资料行为信息丰富多彩;一方面网络用户特点鲜明,比较偏好的特征和用户的习惯不受时间和空间的限制;一方面隐蔽性比较好,网络用户在访问信息的时候可以隐藏自己的真实身份,并且物理传递介质也具有隐藏性;最后一方面,它即存在随机性又存在规律性,用户行为分析就是通过用户行为的这一特征进行分析的。
二、 数据挖掘和用户行为分析的联系
不同的人有不同的兴趣爱好,网络用户也是这样的,因为网络用户的社会经历文化程度等的不同,所以网络用户的行为模式各有不同。而数据挖掘是从众多数据中选取有用知识的过程,这些有用的数据往往是被隐藏起来的。同时,数据挖掘的对象并不单一,任何数据集合都可以通过数据挖掘方法照出统一的规律。
数据挖掘在用户行为分析过程中的应用可以分为以下几种:
(一) 推荐系统
推荐系统有两部分组成,一部分是基于内容的推荐,一部分是协同过滤推荐。基于内容的推荐它依赖产品和信息的说明,在各大购物网站出现的频率最高。如京东,天猫,巴里巴巴等商城。现阶段在很多视频网站也得到了广泛的应用,比如奇异,优酷,土豆等网站。基于内容的方法它是以信息论为理论基础的,以关键词和用户比较感兴趣的信息作为模型,然后再通过其他的软件计算出用户对于其他信息的兴趣程度,然后再将符合用户兴趣程度的信息传递给用户,而协同过滤是基于模型的,它是通过寻找相似的用户进行推广的。
(二) 检测入侵和防止入侵
入侵检测和预防系统分为基于特征的检测和基于异常的检测。基于特征的检测在检测网络流量异常上应用比较广泛,假如检测异常的结果与标准模型相符合,那么该系统就会采取相关的措施终止该系统异常的运行。这种不具有动态性,只能对已经存在的异常进行检测,对于新异常是不能进行检测的。而基于异常的检测是根据正常的 行为模式特点,如果系统存在异常,那么会把异常同正常行为特征相比较,进而进行检测和预防。数据挖掘算法就是应用在正常行为特征和异常特征的训练匹配中。
(三) 零售和电信业
在零售业,数据挖掘的应用也是很广泛的。它用来分析处理购买者的购买行为,总结出顾客的购买模式,同时将顾客以后可能要购买的东西摆放在明显的位置,以便顾客方便拿取,同时提高商品的销售量。
在电信业方面,主要是帮助用户防盗,帮助电信运营商判断用户行为模式,从而提高电信运行商的服务质量。
数据挖掘在用户行为分析上的应用大体可以分为两个方面:一方面,帮助用户发现兴趣特征,然后根据这些用户特征建立用户的兴趣模型和先关的更新文件,这样以后就可以利用数据挖掘出来的模型对以后用户的兴趣做出预判和揣测;另一方面,对用户的兴趣特征进行识别,通过识别,然后对未来论坛和其他交流软件上比较受关注的帖子重新置顶回归。
三、 应用最广泛的数据挖掘算法
在数据挖掘算法中,应用最广的就是决策树算法,它是一种归纳推理算法,它通过逼近离散值函数来对噪声數据处理然后分析出表达式的方法来实现的。在这种方法中,表达式被称为决策树,也正是如此才被叫做决策树算法的。
下面我们就谈一下决策树算法的特点:一方面,种方法便于理解,因为从事教务处管理的老师并不了解数据挖掘相关的知识,而决策树算法非常形象的通过树形结构表示最后的分类结果。它符合人们认识事物的一般规律;一方面决策树算法的计算量小,复杂程度小,这样就能提高工作人员的效率吗,能在短时间内解决更多的问题;最后一方面,决策树算法能够主次分明的表达出重点,属性的重要程度能被一眼看出来。
结语
随着信息技术和通信技术的飞速发展,数据挖掘几乎出现在了所有的领域。在解决重大策略的时候,数据挖掘往往作为一种重要的手段。它能从万千的数据中找出有价值的信息,为决策和方案的制定提供数据和理论支持。
网络用户的行为中蕴含着万千的信息,不但用来反映用户的兴趣,还用来对未来的发展趋势进行预判,虽然数据挖掘算法一直被创新,但是提高数据挖掘算法的效率的任务依旧艰巨,面临着诸多挑战。另外用户行为分析系统还仅处在系统分析阶段,而具体得到应用还有很长的路要走,需要我们对此加大研究力度。
参考文献
[1]陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报.2013(02).
[2]高彬.大学生社交网站使用动机研究——以人人网为例[J].学理论.2012(17).
[3]杨亮,林原,林鸿飞.于情感分布的微博热点事件发现[J].中文信息学报.2012(01).
[4]李泽峰,王煜.基于RBF神经网络和关联规则的Web文本分类规则获取方法[J].图书情报工作.2012(10).
(作者单位:长沙医学院)
作者简介:高超,男,出生于1982年3月,籍贯湖南省长沙市,就职于长沙医学院,讲师职称