数据挖掘在知识管理系统中的研究与应用
2019-04-10南京理工大学
/南京理工大学
随着信息时代进一步推进,智能时代即将来临,知识在经济中的作用和地位日渐重要,已成为企业创新与发展的基础力量,只有不断掌握和创造知识的企业,才能在行业的激烈竞争中不断壮大和发展。因此,知识管理作为一种全新的管理模式能为提高企业核心竞争能力奠定基础。
知识挖掘技术一直是学术界和企业界研究的热点,知识挖掘本质即为数据挖掘,旨在通过潜在、有价值的信息提取,提升知识的利用效率。对于内容庞大、维度多、交叉多的知识库而言,借助以人工智能、机器学习及语义网为基础的数据挖掘技术,将极大提升知识的使用效率。
在此,笔者通过对数据挖掘技术+知识管理的融合研究,建立通用的知识框架,实现知识发现、知识查重、知识推送、知识转移等功能,推动知识管理在企业创新、技术创新、业务流程中发挥作用,进而提升企业的竞争力。
一、系统需求
知识管理系统已经实现了显性知识的采集、存储、组织等全流程管理,基于知识问答、知识微博的隐性知识挖掘,以及基于本体的知识地图的可视化展示。但随着知识库中的知识资源持续增加,如何实现知识的快速查找、知识查重、智能推送等功能,对知识管理系统提出了更高的要求。
一是智能技术检索。知识管理系统中数据存在多样性,包括结构化数据和非结构化数据,并且数据随着时间的推移呈指数级增长,但传统检索的覆盖率和准确度会越来越低。因此,在本体库的基础上,借助于Solr检索引擎可实现基于本体的智能知识检索,以使知识的管理水平从简单的交互式向智能化发展。
二是基于数据挖掘的知识推送。用户在使用知识管理系统的过程中,系统自动记录用户的操作行为,通过数据挖掘技术分析用户的行为,并将相关的知识资源推送至用户的个人中心。
三是基于岗位的知识关联技术。在产品的设计过程中可以通过知识资源复用技术并借助数据挖掘技术,将知识库相关知识资源推送至设计过程相关人员的工作环境中。
四是基于业务驱动的知识推送技术。研究工作情境等知识管理理论方法,形成以业务节点为核心的知识推送技术体系,并实现以预研、设计、生产阶段为核心的知识固化与推送,从而满足多种应用场景需求,形成知识主动找人的应用效果。
二、系统设计与实现
以流程为总线,以知识管理为驱动,以数据挖掘技术为基础,建设现代化、智能化、一体化的知识管理系统,以满足基于大数据的知识化管理需求,提升企业的知识管理能力。
1.总体架构
基于数据挖掘的知识管理系统的架构由应用层、支撑层和数据层组成,如图1所示。
图1 系统总体架构
应用层面向使用系统的各类用户,通过全文检索、知识地图、知识社区、知识库、专家网络、系统推荐等模块,为不同设计人员提供支撑。
支撑层是整个系统的基础,通过大数据处理、本体技术、数据挖掘技术、流程引擎、算法库等功能,实现数据的解析与传递。
数据层是系统的资源池,为各类用户提供协同设计过程中需要的知识、数据和文件,包括本体库、规则库、知识库、专家库、算法库及索引等。
2.技术架构
技术架构是功能架构的技术实现方式。本系统将基于大数据技术、知识推送、本体技术实现基于数据挖掘技术的知识管理系统。其主要通过知识采集、智能检索、应用等技术路线的集成,实现知识产生、识别、组织、处理、检索、应用的迭代过程,其系统技术架构如图2所示。
知识采集。在任务管理、知识上传及流程管理过程中,通过开展项目需求分析、设计、总结、流程分析等过程,将整个过程使用支撑资源、约束资源进行存储。最后,通过知识萃取技术将知识资源进行梳理,再存入知识库。
智能检索。为了实现多源知识库快速检索,以知识属性的关键词搜索为基础,基于Solr引擎和本体技术实现知识库、社区库、流程库、岗位知识库等数据信息的全文快速检索及分类展示等功能。
知识应用。在项目管理、岗位流程中,根据人员的专业背景、项目背景、流程节点等因素,通过知识挖掘与推送技术将相关知识资源推送给用户,进而帮助用户完成知识复用、任务分解、流程驱动等功能。
三、数据挖掘在知识管理中的应用
1.基于Solr和本体的智能检索
智能搜索就是结合人工智能技术提高知识全文检索的准确性、全面性,还能提供用户兴趣自动识别、内容的语义理解、智能化过滤和推送功能。本体提出了基于Solr和本体技术进行关联搜索,通过本体解析技术识别本体库中的同义词、近义词,再通过Solr解析引擎实现全文检索,其整体流程如图3所示。
图2 系统技术架构
图3 智能检索技术
2.基于数据挖掘的知识智能梳理
知识智能梳理是根据用户构建的行业知识树,应用数据挖掘技术对知识样本进行特征提取,根据提取的内容自动归类知识样本。知识智能梳理是基于行业知识的文本自动分类方法,首先根据行业知识特点建立行业知识树,然后对行业知识树进行语义分析,从而得出行业知识的分类方式。 知识智能梳理流程包括行业知识树的构建和对样本知识的分类算法的实现,其整体流程如图4所示。
行业知识树。不同行业和应用对象的知识组织具有不同的特征,行业知识树根据行业特征定义知识的层次结构及语义关系,从而描绘整个行业知识,包括知识分类的属性信息。
知识分类算法。根据行业知识树对样本知识进行特征提取,根据特征信息对样本知识进行分类,并存入知识库。
3.基于机器学习的知识查重
基于机器学习的知识查重涉及知识文本分词、文本分类、机器学习训练以及查重逻辑和评估等主要关键技术。在知识分类过程中,针对未标注文本需用机器学习训练阶段获得的分类方法进行分类判断。在分类判断基础上,针对新样本文本进行完全字符匹配,以段落及连续n个字符为单位(n可配置)进行逐篇遍历查询,累计获取知识全文的重复率,再结合知识归类相似度进行权重加权,以获取总相似率,具体过程如图5所示。
图4 基于数据挖掘的知识自动分类
图5 文本分类及查重的主要流程
图6 基于情境感知的知识推送流程
在训练过程,首先从上传知识中获取全文文本,分词并去除停用词;然后按照一定的算法从标注好类别的训练样本中获取预期的分类器,可以采用多种算法进行分类,也可以在数据离散化后使用简单向量距离分类法方法得出—个决策树,作为预期的分类器。
4.基于数据挖掘的知识推送
知识推送属于知识管理中一种新的获取策略,通过改变传统的知识获取方式,系统自动将相关知识资源推送给用户,实现以人为中心的知识组织,同时根据员工不同的知识水平推送相应的领域知识,或根据用户行为模型有针对性地为用户推送相关知识。
基于用户行为的知识推送。根据用户的专业背景、浏览记录和业务场景挖掘关联知识并进行主动推送,主要包括用户行为特征获取功能、用户兴趣模型构建功能、用户知识推荐功能等。
基于情境感知的知识推送。根据情境实时动态的变化情况,动态评估应急情境的相似度,进而生成知识需求,依据知识的需求和推送规则将所需知识实时推送给相应的应用系统或领域专家,其流程如图6所示。
笔者通过分析数据挖掘在提高知识管理系统智能化方面的支持和应用,分析系统需求,提出了基于数据挖掘的知识管理系统总体架构及其关键技术。后续,根据业务发展需求还将进一步完善系统的相关功能,以期为新一代知识管理系统建设奠定基础。