基于数据挖掘的企业竞争情报系统研究
2009-07-14王嵩
王 嵩
〔摘 要〕简述了企业竞争情报系统与数据挖掘的概念,构建了基于数据挖掘技术的企业竞争情报系统,分别描述了系统的实施要素、整体架构与集成,以及情报规划、情报收集、情报处理、情报分析、情报评审、情报服务六大系统的主要功能模块,并且阐述了系统的主要优势。
〔关键词〕数据挖掘;企业竞争情报;情报系统
〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1008-0821(2009)02-0185-04
Research on Enterprise Competitive Intelligence
System Based on Data MiningWang Song
(Department of Information Management,Nanjing University,Nanjing 210093,China)
〔Abstract〕With the concepts of enterprise competitive intelligence and data mining,the enterprise competitive intelligence system based on data mining has been structured.The paper gave the enforcement elements,integrated structural frame and six main functional modules,including intelligence programming,intelligence collection,intelligence analysis,intelligence judgment and intelligence service.In the end,the main superiorities of the system have been stated.
〔Key words〕data mining;enterprise competitive intelligence;intelligence system
企业竞争情报系统(Enterprise Competitive Intelligence System,简称ECIS),是依托企业电子化信息环境,全面整合现有技术和信息资源,在收集加工竞争情报的基础上,为企业建立强大的情报中心提供有力支持的人员、设备、组织和流程架构,以获取竞争优势的管理咨询和信息服务的人机系统和体系。
数据挖掘(Data Mining,简称DM)是指从大型数据库或数据仓库中的大量数据中提取辅助决策的关键性知识,这些知识是隐含的、未知的、非平凡的及潜在有用的信息或模式,其目的是为了提高市场决策能力、环境监视、风险预警、在经验模型基础上预测未来趋势等,把握行业结构的进化,跟踪正在出现的连续性和非连续性变化,以及分析现有和潜在竞争对手的能力和方向,从而帮助企业赢得竞争优势。
随着信息技术的发展,企业竞争情报工作者面对的现实是信息源纷繁复杂,数据结构多种多样,数据量海量增长,分析这些结构化、半结构化甚至非结构化的数量庞大的数字信息的难度也在增加。数据挖掘是一种从海量数据中提取有用信息和知识的新兴技术,所以可行有效的方法是利用数据挖掘等先进的技术对这些海量数据和信息进行智能地采集、分析和处理。目前国内文献对于基于DM的ECIS的典型研究有:朱永武(2005)[1]、蒲群莹(2005)[2]在给出了数据挖掘概念和一般过程的基础之上,提出了一个基于数据挖掘的企业竞争情报系统模型;闫晓妍(2007)[3]从数据挖掘的含义和一般过程入手,分析了数据挖掘的相关技术及数据挖掘在企业竞争情报系统中的应用,重点探讨如何构建基于数据挖掘技术的企业竞争情报系统。本文将重点介绍基于数据挖掘技术的企业竞争情报系统的整体架构、主要功能模块及其显著优势。
1 系统的构建
1.1 系统的实施要素
系统实施的主要支持要素见表1:
1.2 系统的整体架构
1.3 系统的集成
各数据库与数据仓库经过合并、修改与重构以达到各库之间的集成。库的合并过程中主要解决属性、命名、结构等冲突,修改与重构过程主要消除不必要的冗余。整个系统借助数据库与数据仓库的有效协作,有效地支持企业的竞争情报分析。另外,操作型数据与分析型数据之间差别甚大,数据仓库的数据是从原有的分散的数据库中抽取来的,因此在数据进入数据仓库之前,必然要经过加工与集成,统一与综合,统一原数据中所有矛盾之处,将原始数据结构作为一个从面向应用到面向主题的大转变。
2 系统功能模块
2.1 情报规划模块
情报规划是竞争情报中心主管根据企业决策中心的情报需求,设定情报工作的目标,确立情报任务,根据信息质量评估和以往工作检验初步划定信息搜索的范围、途径等。情报规划子系统根据关键情报课题/关键情报问题(KIT/KIQ)竞争情报模型,实现情报人员通过系统直接提出情报需求,对情报需求进行管理和分析,以及对关键情报课题用项目管理的形式进行统一管理。企业竞争情报的获取可以来自于企业外部网络信息,如企业门户网站、行业网站、竞争对手网站、Web服务器日志文件等;也可以来自于企业内部,如以企业的MIS、ERP等信息系统为中心,企业日常业务积累的数据信息形成的关系型数据库、文档数据库等;还可以来自于媒体、报纸、杂志等。
2.2 情报收集模块
竞争情报收集模块的主要任务是按照连续性和系统性的原则,采用适当方式(自动化、手工或两者结合),通过正当途径将不同形式(报告、报表、图形、声音、视频、演示文稿等)、不同来源(门户网站、行业网站、竞争对手网站、Web服务器日志文件、企业的MIS、ERP等信息系统等)的各种公开或非公开的信息收集起来。
2.3 情报处理模块
情报处理模块是对收集到的原始信息进行初步处理以便于进一步分析或将处理结果直接提供给情报使用者。主要有以下3个步骤:(1)信息过滤:主要是将录入系统的信息进行筛选,剔除明显失真、重复以及虚假的信息。(2)信息整序:主要将无序的信息按照竞争情报需求和制定的规则进行分类、聚类,将收集的信息有序化。(3)信息加工:主要将不同类型信息按照一定的格式进行转换,然后对已经有序化的信息进行标引,生成关键词、摘要。整个情报处理过程可以人工与自动化相结合的方式进行,收集的纸质信息等可以由人工处理,直接从网络获取的信息可以由计算机自动处理。经过处理的信息存储在数据仓库中,为竞争情报分析做好基础数据准备。
2.4 情报分析模块
2.4.1 定义问题
模型的建立取决于问题的定义,有时相似的问题,所要求的模型几乎完全不同。数据挖掘者要熟悉该行业的数据和业务问题,缺乏这些,就不能够充分发挥数据挖掘的价值,很难得到正确的结果。
2.4.2 数据准备
数据准备是数据挖掘的核心。该阶段包括数据集成、数据选择与数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性处理数据中的遗漏和清洗脏数据等。数据选择的标准包括与数据挖掘目标的相关程度等方面。预处理是为了克服目前数据挖掘工具的局限性。通常采用基于规则方法、神经网络方法和模糊匹配技术分析多数据源之间的联系,然后再对它们实施相应的处理。
数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合,能够减少数据的冗余度,节省了数据的存储空间,并且实现数据资源的充分共享等等。数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
2.4.3 挖掘操作
数据挖掘阶段可分为4个子步骤:主题确定、工具选择、模型建立和结果评价。
数据挖掘是一个经常需要回溯的过程,因此没有必要在数据完全准备好之后才开始进行数据挖掘。随着时间的推移,使用的数据及其分组方式、以及数据清洗的效果等都将改变,并有可能改进整个模型。该步骤会涉及到了解研究主题的局限性,选择待完成的良好研究主题,确定待研究的合适的数据元素,以及决定如何进行数据操作等。
选择数据挖掘工具时要全面考虑多方面的因素:(1)工具的可视化。源数据、挖掘模型、挖掘过程、挖掘结果的可视化,可视化的程度、质量和交互的灵活性都将严重影响到数据挖掘系统的使用和解释能力。(2)工具的开放性。工具应尽可能的与其他工具进行集成,减少数据转换的时间,充分利用整个的数据和数据仓库的处理能力。(3)操作的简易性。工具应该为用户提供友好的可视化操作界面和图形化报表工具。(4)数据挖掘的功能和方法。工具应该能够为每个步骤提供相应的功能集以及方便的导出挖掘的模型。(5)数据挖掘的可伸缩性。工具应该可以处理尽可能大的数据量,尽可能多的数据类型,尽可能高的提高处理的效率。
确定要输入的数据后,通过数据挖掘工具读人数据并从中构造出模型,不同的数据挖掘工具构造出的数据模型也会有很大差别。利用数据挖掘工具在数据中查找时,可以由系统自动执行,自底向上搜索原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假设的正确性。对数据挖掘的搜索过程需要反复多次,通过评价数据挖掘结果以不断调整数据挖掘的精度,以达到发现知识的目的。
通过反复多次的数据挖掘搜索过程,评价数据挖掘结果满足业务目标的程度,找到模型在业务上的不足,不断调整数据挖掘的精度,达到发现知识的目的。同时,根据最终用户的决策目的对数据挖掘发现的模式进行评价,消减其中重复的部分,将有用的模式或描述有用的模式的数据以可视化技术和知识表示展示给用户,让用户能够评价模式的有效性,并对模式结果做出解释。
2.4.4 解析预测
对结果进行表述和解释,根据最终用户的决策目标对提取的信息进行分析,把最有价值的信息进行区分出来,并且通过决策支持工具提交给决策者。通过时间序列等方法对企业竞争情报、宏观环境、行业环境等进行预测分析。
2.5 情报评审模块
评审工作应该贯穿整个竞争情报工作,如对信源的评价、对收集到的资料评价和审查等。信息的不对称性、竞争情报的高度保密性、反情报工作的开展、竞争对手发布虚假信息等,都要求对竞争情报的评审。
2.6 情报服务模块
竞争情报服务模块是根据企业高层决策者和各部门管理者的情报需求,动态地提供情报产品和情报服务,以支持企业战略决策,并为企业战略执行提供即时的信息反馈。情报人员在提供服务时要考虑情报用户的特殊背景和需要,及时地将不同的情报准确地传递给所需用户。情报产品设计时要根据决策者喜好或产品的内容选择合适的竞争情报形式。该模块又可细分为:(1)用户定制子模块,为由用户根据自己的竞争情报需求向系统提出服务的入口。(2)情报服务子模块,该模块包括两部分:最终展现给用户的信息平台和满足不同用户不同需求的各种情报发送模块。呈现给用户的情报服务平台是将所有加工整序后的情报按照不同情报主题发布给用户,在该平台下用户可以根据关键词和主题等不同检索方式进行检索。情报发送模块是根据用户的定制服务类型来向用户推送情报服务的。
3 系统主要优势
3.1 资源整合与系统集成
传统的竞争情报系统一般按功能分为许多功能模块,信息的共享范围与反应速度一般。而基于数据挖掘的竞争情报系统,采用数据仓库技术来组织管理数据,能完整一致地刻画各个分析对象所涉及的企业各项数据,对提取出来的数据进行集成,从而将企业内外部各种信息联结在一起,最大限度地实现信息共享和速度提高。基于数据挖掘的系统,决策人员无需对决策系统有深刻的理解,也不需要深入学习数据仓库、数据挖掘等相关知识。而专业人员则可以通过TCP/IP协议随时访问有关的服务器,对系统进行管理、维护、扩展等。
3.2 数据挖掘与信息服务
系统可以对企业海量数据进行处理,面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。数据挖掘使信息的自动处理不再局限于对结构化数据和字符型数据的处理,还提供了更加科学的分析方法,如决策树、贝叶斯分类、基于关联的分类等,使分类结果更加具有针对性和科学性。
数据挖掘的应用拓宽了信息服务范围,增加了信息服务项目,使信息服务变得更加主动,使服务质量大大提高。例如,定题情报服务方式将由传统的、检索式的服务方式转变为通过互联网主动地把从浩瀚的网络资源和数据库中自动挖掘获得的信息或知识推送给用户的服务方式。
3.3 情报分析与趋势预测
过去的竞争情报主要依赖于对显性知识的分析,而传统方法与数据挖掘的结合,能够使隐性知识浮现出来,确保情报收集更加全面、数据分析更有说服力。数据挖掘的出现大大加强了信息分析能力,其中的分类、聚类、综合以及关联分析等技术使信息分析更加完备和丰富,为企业决策提供了强有力的工具。
数据挖掘以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式并进行预测。一般的数据库为了提高系统的效率,往往尽可能少地保留历史信息。而数据仓库具有一个重要的特征,就是一般具有长时间的历史数据存储。存储长时间历史数据的目的就是进行数据长期趋势的分析,预测未来一段时间内的库存量变化,实现前瞻性调拨,增强适应突发因素的能力,为决策者的长期决策行为提供有力的数据支持。
4 结束语
本文将数据挖掘技术引入竞争情报系统,与传统的竞争情报系统相比,使其知识提取更详实、
有效,其分析结果实用性更强,同时由于数据挖掘方法较多,系统开发更加方便。整体而言,数据挖掘技术对企业情报系统的建立有重要的借鉴意义。
参考文献
[1]朱永武.基于数据挖掘的企业竞争情报系统[J].现代情报,2005,(6):168-170.
[2]蒲群莹.基于数据挖掘硇竞争情报系统模型[J].情报杂志,2005,(5):38-40.
[3]闫晓妍.基于数据挖掘技术的企业智能竞争情报系统研究[J].现代情报,2007,(11):187-189.
[4]包昌火,谢新洲.企业竞争情报系统[M].北京:华夏出版社,2002.
[5]孙新宁,杨建林,江念南,等.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.