面向语义文本的ＷＥＢ数据挖掘研究

2009-09-29王静

新媒体研究 2009年14期

王　静

[摘要]针对传统的面向语义文本的WEB数据挖掘研究集中在文本信息特征处理方面而忽略了文本信息预处理的现状，结合语义文本的WEB挖掘流程，采用最大匹配法对语义文本进行预处理，通过建立语义文本的索引机制减少对数据库的访问，从而提高文本WEB挖掘的效率，对于语义文本的WEB挖掘优化研究具有一定的借鉴意义。

[关键词]语义化 WEB挖掘算法研究

中图分类号：TP3 文献标识码：A 文章编号：1671－7597（2009）0720053－01

一、引言

随着网络的飞速发展，传统Web在信息显示和处理上的不足之处也更加显著，而语义网作为一种新型的网络结构，较好地克服了这些问题，而基于语义的Web挖掘作为与这一趋势相适应的技术，也必将成为Web挖掘研究的新热点。

Web文本数据的挖掘是对Web页面上的数据内容进行挖掘，它是从WWW的组织结构和链接关系中推导知识。Web内容挖掘通过分析一个网页上的内容，建立数据库，通过不同的数据库之间的元记录之间的关联性获得有关不同页面间相似度和关联度的信息规则，从而实现对WEB网页上的语义内容的挖掘。

二、面向语义化的WEB文本挖掘分析

（一）挖掘流程。文本的WEB挖掘并不是一件容易的事情，尤其是在分析方法方面还有很多需要研究的专题。面向语义化的WEB文本挖掘一般可以分为以下几个流程：

1．特征的抽取建立。与数据库中的结构化数据相比，文档无法直接提取结构，此外，现有的数据挖掘技术无法直接应用于文本数据，因此，需要对文本进行特征抽取，抽取代表其特征的元数据，这些特征可以用结构化的形式保存，作为文档的中间表示形式。

2．特征集的缩减。当我们将文档转化为一种类似于关系数据库中记录的较规整且能反映文档内容特征的表示文档特征向量后，我们会发现一个不合人意的地方：文档特征向量具有惊人的维数，使得特征集的缩减成为文本数据挖掘中必不可少的一步。

3．学习与知识模式的提取。完成文档特征向量维数的缩减后，便可利用机器学习的各种方法来提取面向特定应用目的的知识模式。

4．模型质量的评价。对所获取的知识模型进行质量评价，若评价的结果满足一定的要求，则存储该知识模式，否则返回到以前的某个环节分析改进后进行新一轮的挖掘工作。

（二）文本信息处理的优化设计。目前对于面向语义的文本WEB挖掘研究的较多，但是大多是面向如何提高特征的抽取效率及特征集的缩减而设计不同的算法，将算法集中在文本的特征抽取和特征集的建立上，对于文本内容的预处理方面，几乎很少涉及，忽略了文本信息的索引机制，这也是造成目前面向语义文本的WEB挖掘算法效率偏低的主要原因。

在对文档进行特征提取前，需要先进行文本信息的预处理，主要包括英文文本的stemming处理和中文文本的词条切分。

在本论文中对中文自动分词采用最大匹配算法。最大匹配法的思想是：从输入流中取最大长度（本系统中取6）字符串，在词典中进行查找，匹配则输出，继续取，否则，回溯，继续查找，直到长度为1，此时需在输入流中前进一格，此过程进行到取完输入流。由此可以看出，此方法的思想简单明了，便于实现，但该算法效率不会很高，因为需要频繁进行数据库查找。若能在匹配过程中减少数据库操作，则有可能使效率提高。

我们在实现最大匹配法时，作了如下考虑：

Step1：对词典建索引，并将输入流放入字符串变量中；

Step2：取输入流的当前字符，查找词典将以当前字符开头的词条取出，放入记录集变量中；

Step3：按照传统的算法，在记录集变量中进行匹配，并根据匹配情况将输入流移动；

Step4：重复第2步，直至输入流结束，退出。

由上面的处理过程可以看出，通过对词典建索引，并将匹配操作均在记录集中进行，从而避免了最大匹配法频繁查找词典的缺陷。这样在允许一定的分词错误率的情况下，通过减少查找数据库的时间（特别是在词典庞大的情况下），能使分词速度提高。

文本信息经过上述的预处理，再采用目前主流的特征抽取算法及特征集的分类算法，即可实现面向语义文本的WEB快速挖掘。

（三）挖掘算法性能测试。为了比较本论文所提出的面向语义文本的预处理方法的有效性，将该方法与传统的采用Apriori算法进数据挖掘的方法进行了对比仿真。用VisualC++在内存为512MB的C41.7G计算机上实现了Apriori算法与本论文提出的文本挖掘方法的性能比较。测试数据集共包括2个数据层各含有5个属性，每个属性泛化后有2～10个属性值，采用的元模式形如P(t，x)∧Q(t，y)→R(t，z)，而各层的最低支持度均为12%，最低信任均为50%。

测试了算法的随记录的增加时间的变化（时间复杂性），将测试数据库的元组数从1000开始，逐渐递增到5000。两算法的时间复杂性数据曲线如图1所示，从图中可以发现，两个算法的时间复杂性均较好，不过随数据库规模的增大，本论文所采用的挖掘方法，由于对文本信息进行了预处理，因而在执行时间更为迅速，而且在时间的增长上更为平缓一些，所以本论文提出的挖掘方法是可行的。

三、结语

语义Web上的数据挖掘算法可以应用于各种领域。例如当前Web上的搜索引擎主要是使用基于关键词的查找策略，这使得查找效率非常低下，本研究课题通过运用对语义化的内容进行预处理实现了语义化的WEB快速挖掘，从而大大提高了Web搜索的工作效率。下一步的研究重点是在Web挖掘中如何利用语义Web上的本体知识，从而从本质上大大改进Web挖掘的结果和提高Web挖掘的效率。

参考文献：

[1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

[2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

[3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

[4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

作者简介：

王静，女，北京人，长春理工大学光电信息学院-信息工程分院，助教。

新媒体研究

2009年14期

面向语义文本的ＷＥＢ数据挖掘研究

杂志排行

新媒体研究的其它文章