基于互联网的数据挖掘技术在竞争情报收集工作中的应用

2011-04-13车荣海

科技传播 2011年4期

车荣海

沈阳师范大学科信软件学院，辽宁沈阳 110034

1 Internet情报收集子系统概述

一个企业要进行竞争情报的研究，应该建立自己的基于网络环境的竞争情报系统——竞争情报网络系统是围绕企业的经营战略目标，以现代信息技术（尤其是网络技术）为主要手段，对企业内部和外部的竞争要素，竞争环境以及竞争对手的信息进行收集、存储、处理与分析研究的新一代综合性网络系统。系统有3部分组成：竞争情报收集子系统、竞争情报分析子系统和竞争情报服务子系统。竞争情报收集子系统是根据事先确立的情报课题，收集、整理各种信息，初步筛选，同时作好文件、记录等资料的保管及定期归档工作。竞争情报分析子系统是应用恰当的分析方法与技术，深入分析竞争情报收集子系统的信息，生产竞争情报产品。竞争情报服务子系统是以各种适当的方式包装竞争情报产品，及时将产品传送到情报用户手中去，并为企业决策层提供快捷的浏览、查询服务和情报服务。以企业现有技术和信息资源为核心，以网络为基础的现代竞争情报系统共分3个层次：第一个层次是企业内部网。它利用Internet技术把企业内部所有的信息资源集成起来，把各子公司、各部门联系起来，实现企业内部的信息共享与协同作业；第二层次是企业外联网，它将Internet技术应用于企业间的信息系统，把与企业有业务合作关系的交易伙伴、合作对象、相关公司以及主要客户连成一体；第三层次是因特网，它是覆盖全世界范围的网络，通过它可以使国内外企业、远程用户、异地资源得以联合，实现资源共享，沟通合作。

2 数据挖掘技术在Internet情报收集子系统的应用

2.1 公共信息挖掘系统

随着Internet的迅速发展，在Internet上储备了大量的信息，这些信息是零散的分布在全球的各个位置上，也就是分布在各个不同的计算机服务器上，那么我们如何来更好的找到并利用这些信息，成为了竞争情报工作中一个非常重要的课题研究。竞争情报工作除了要挖掘自身门户网站的知识，Internet上的各种各样的公共信息的利用同样也不容忽视。公共信息挖掘系统就是企业通过在Internet上免费的信息获得有价值的信息的系统。通过查阅大量的资料提出一个公共信息挖掘系统的模型如图1。

图1 公共信息挖掘系统模型图

WEB上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据此模型来具体描述特定的数据。而WEB上的数据非常复杂，没有特定的摸模型描述，每一站点的数据都各自独立设计，且数据本身具有自述性和动态可变性。传统数据挖掘技术是用来处理保存在数据库中的结构化数据，但是Internet上的大量数据都是半结构化和非结构化。因此，要在竞争情报工作中充分利用Internet的信息，数据由非结构化和半结构化转化为结构化形式是关键，从而就涉及到情报检索和WEB挖掘两个领域的研究。

2.1.1 元搜索引擎

搜索引擎按其工作方式主要可分为3种，分别是全文搜索引擎目录索引类搜索引擎和元搜索引擎。元搜索引擎，被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求，由于元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将所有查询结果经过处理后集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制，能够在尽可能短的时间内提供给搜索者相对全面、准确的信息，能够更好的满足搜索者的需要，但显示给搜索者的信息也是不能达到100%，可以通过扩展调用多个搜索引擎来提高搜索的全面性。值得推荐的元搜索引擎有Dogpile、InfoSpace、Vivisimo等。为了在大范围的检索中取得较好的效果，本模型采用元搜索引擎。

2.1.2 WEB结构挖掘（链接分析）

目前的大多数搜索引擎在进行分类的时候都是利用内容的相关性进行排序的，所谓的内容相关性排序就是根据网页的内容进行分类，处理的办法一般是进行分词、词频统计，根据统计的结果进行分类和进行相关性排序。这样的分类不能反映人们对该网页内容的分析与看法，缺乏一定的主观性。在使用元搜索引擎技术后，调用己有的搜索引擎，因此返回的搜索结果是进行了基于内容相关性的相关性排序。这些结果中包含指向的结果页面的超级连接(URL网址)，不同的搜索引擎的结果不同，那么它们的超级连接也是不同的，其中有部分内容是重复的。我们知道通过超级连接能够反映某个页面是不是权威页面，也就可以根据某个页面被引用的次数可以知道这个页面是不是权威页面，也就是基于超级链接的相关性排序。因此我们可以对处理结果中的各个超级链接的URL地址进行排序，在原有的基于内容排序的基础上加入了基于超级链接的相关性排序，通过链接分析，提高搜索结果的精度。Brin和Page提出了的Page-rank算法，并将它应用于搜索引擎谷歌。

2.2 门户网站挖掘系统

随着互联网的飞速发展，现在很多的企业拥有自己的门户网站。如果企业纳入电子商务的运营模式，门户网站更加是必不可少。基于Internet的竞争情报工作的研究应该首先把浏览本企业的网站时所保存下来的数据，进行挖掘分析。通过对网站本身的WEB挖掘，对于竞争情报工作主要会产生以下3方面优势：1）理解客户行为：通过理解访问者的动态行为来优化电子商务网站的经营模式；获得个人访问者的兴趣爱好；了解从访问者到客户的转化率；发现客户和访问者对于网页的浏览模式；发现客户群对于不同业务的行为特征；发现网站上客户之间的关系；2）判断站点的效率：发现站点上不同业务量；设计网站不依靠专家定性指导，根据对访问者路径分析等手段修改、设计网页结构和布局；对于不同客户提供个性化服务；3）评估电子商务模式的成功：将客户按照模式分类；测评广告的投资回报率；得到可靠的市场反馈。

2.3 行业监视挖掘系统

分析竞争对手的目的是了解每个竞争对手的战略和目标，评估其优势与劣势以及竞争反应模式，从而制定自己的竞争战略。如今公司拥有自己的门户网站再平常不过了。现在的网站不仅仅对企业做简单的介绍、发布新闻，更多的是把网站作为与客户进行交流的前沿阵地。因此，通过对竞争对手门户网站的分析，可以寻找到许多有价值的信息。不仅可以关注竞争对手或潜在对手的信息，通常每个行业都有自己的网站，这些网站上的数据统计信息都是很有价值的。但是有时更新速度快，因此需要及时进行发现。对于如何从其他网站进行有效的数据挖掘，目前还有些困难，随着技术的发展，门户网站会成为企业竞争战略的重点。

[1]李子方.数据挖掘中关联规则在竞争情报系统中应用[J].微计算机信息，2007.