异构信息知识挖掘与可视化分析系统架构模型解析

2012-10-19李艾丹薛中玉李春梅

中国科技论坛 2012年10期

关键词：异构语料架构

李艾丹，薛中玉，李春梅

(1.北京理工大学，北京 100081;2.北京中机科海科技发展有限公司，北京 100048)

异构信息知识挖掘与可视化分析系统架构模型解析

李艾丹1，薛中玉2，李春梅2

(1.北京理工大学，北京 100081;2.北京中机科海科技发展有限公司，北京 100048)

本文介绍了异构信息知识挖掘与可视化分析系统背景，异构信息、异构信息知识挖掘、信息可视化的基本概念，构建了异构信息知识挖掘与可视化系统架构模型，描述了系统的总体思路和体系架构的主要模块，为相关研究奠定基础，提供有价值的参考。

异构信息;知识挖掘;可视化;系统架构

Abstract:This essay introduces the background of heterogeneous information knowledge mining and visualization system，introduces basic concepts of the heterogeneous information，information knowledge mining and information visualization，then the essay describes with emphasis the general idea and system architecture model.The essay also lays a foundation and provides valuable reference for the relevant research.

Key words:Heterogeneous information;Knowledge mining;Visualization;System architecture

1 引言

随着计算机与信息技术的高速发展，人们在工作、学习、生活等诸多方面越来越依赖于互联网。当人们需要查询信息的时候，大多选择通过Google、百度等搜索引擎键入关键词的方式在互联网中进行搜索，从而改变了以往通过书籍、报刊、杂志等书面查阅资料的方式。但这些检索结果往往是海量的与关键词相匹配的信息，用户通常很难从中精确找出自己需要的信息。本文介绍了一种可以智能通过键入关键词进行扩展检索的方法，以有效地提高获取信息精确性的问题。

异构信息知识挖掘与可视化分析系统融合专家系统和搜索引擎的检索方法，基于关键词所在的专业领域，以互联网作为专家系统的知识源，屏蔽成千上万个专业领域网站的异构问题，挖掘网站的深层知识，建立智能语义索引。在此基础上，接收用户提出的问题寻找可能的答案，并对相关问题进行自动分类，同时列出各相关问题的解决方法，最后以更直观的二维视图、三维图像，显示关系更明了、层次更清晰、内容更相关的信息，便于用户快速、准确、直观地获取所需知识。

2 异构信息知识挖掘与可视化

(1)异构信息。

异构信息通常指数据库的异构，主要体现在:①计算机体系结构的异构:各个参与的数据库可以分别运行在大型机、小型机、工作站、PC或嵌入式系统中。②基础操作系统的异构:各个数据库系统的基础操作系统不同，如:Unix、Windows、Linux等。③DBMS本身的异构:可以是同为关系型数据库系统的Oracle、SQL Server等，也可以是不同数据模型的数据库，如关系、模式、面向对象，函数型数据库共同组成一个异构数据库系统。［1］

(2)异构信息知识挖掘。

知识挖掘始于20世纪80年代，当时出现了数据挖掘概念，源自人工智能的机器学习，是在已知状态数据集上，通过设定一定的学习算法，从数据中获取所需的知识。数据挖掘广泛应用于数据仓库和分布式数据库，根据数据间相互关系进行数据分析，提取潜在有用的信息和知识，经挖掘后被发现的知识可用于信息管理、决策支持、过程控制等。［2］

异构信息知识挖掘是指利用数据挖掘技术，自动地从由异构数据组成的网络信息中发现和抽取知识，通过对概念及相关因素的延伸和比较，找出用户需要的深层次知识的过程。

图1 异构信息知识挖掘与可视化研究技术路线

(3)信息可视化。

信息可视化是将数据信息资源转化为一种视觉形式，结合了科学可视化、人机交互、数据挖掘、知识发现、图像技术、图形学和认知科学等诸多学科的理论和方法，将人脑和计算机强大的信息处理系统联系在一起，有效的可视化界面使得人们能够观察、研究、探索、过滤、发现和理解大规模信息，并与之进行方便的交互，从而可以极其有效地发现隐藏在信息内部的特征和规律。

信息可视化技术可以归为两个大类:展示信息特征和数据值的可视化技术，展示信息集合和关系的技术。包括信息的属性、信息单元间的结构和隐藏在信息之间的关系。异构信息可视化以语义智能分析处理为支撑，将数据信息间存在的语义关系转化为一种视觉形式，利用了人们对可视模式快速识别的自然能力，对实现数据资源的高效利用有重大意义。

3 研究技术路线和系统分析处理流程

(1)研究技术路线。

异构信息知识挖掘与可视化分析主要研究语义网格、基础资料、异构信息获取与组织、信息可视化等四个方面，研究技术路线见图1。语义网格和信息可视化分析工具方面研究较少，没有太多技术和成果可以借鉴，在实施过程中充分重视测试的重要性，在本体自动构建和信息可视化分析两个关键环节邀请专家对研究结果进行评估，根据评估结果进行调整和修正，得到更好的结果。

(2)系统分析处理流程。

异构信息知识挖掘与可视化分析系统融合专家系统和搜索引擎的优点，基于特定专业领域，以互联网和本地资源库作为专家系统的知识源，挖掘深层知识，建立智能语义索引;在此基础上，接收用户提出的问题寻找可能的答案，并对相关问题进行自动分类，同时列出各相关问题的解决方法，最后以直观的图形图像，显示相关的信息。系统分析处理流程如图2所示。

图2 系统分析处理流程图

图3 异构信息知识挖掘与可视化分析系统架构

4 系统架构

异构信息知识挖掘与可视化分析系统架构如图3所示。该系统主要分为系统用户层、系统工具层和数据资源层等。

(1)系统用户层。

系统用户层包括信息检索和知识动态展示两个单元。

信息检索包括目录导航、语义查询、相关概念和系统问答等模块。用于显示系统自动聚类的某领域层次结构信息;支持关键词、关键词组和查询语句等多种方式查询;提供同义词、上位词、下位词和相关词汇列表;针对用户最终查看的网页特点，进行聚类，推荐相同类别的网页资源;针对用户问题提供系统化解决方案材料。［3］

知识动态展示包括本体知识图、资源分布图、Web知识图、文档知识图等模块。用于显示领域本体的概念、概念间关系、属性、实例等知识体系;显示目录导航每个节点的网页资源个数，与用户检索内容相关资源的分布情况;显示检索结果中各网页的知识结构图，查看相关网页所在网站的整体知识网络图;显示用户上传文档中核心概念以及概念之间关系;对显示信息进行统计分析和评价。

(2)系统工具层。

系统工具层包括语料预处理、知识挖掘和可视化分析等三个子系统。

语料预处理子系统包括语料管理、网络爬虫、信息抽取和信息去噪等模块。用于管理用户上传和网络抓取的各类资源;设置和监控网络爬虫工具，抓取和更新网络资源;提取网络爬虫抓取的文档文件内容;去除文档中空格、页眉、页脚、乱码和无用信息。［4］

知识挖掘子系统包括核心概念识别、概念间关系抽取、摘要关键词提取和信息分类聚类等模块。用于统计语料中的单词概念和组合概念的权重和领域相关性，识别和确定领域的核心概念;用于抽取核心语句中有用的、领域相关的上下位、同义、属性等概念间关系;基于领域概念识别结果，提取2至4个最能体现文档主题的词语作为关键词;基于分词结果和领域概念识别结果，以句为单位计算每句中领域概念出现次数，选择2至4句出现领域概念最多的句子作为文档摘要;将文档的关键词映射到导航目录体系中，实现文档分类。

可视化分析子系统包括层次信息、网状信息、多维信息和统计信息等多种类信息显示模块。支持将目录导航、本体继承关系和网页概念关系信息转化为层次结构图，并以线条的粗细以及颜色的深浅表示概念在资源中出现的次数;使用饼状图、柱状图、折线图展示系统中相关统计信息。

(3)数据资源层。

数据资源层包括领域词典、领域本体、全景语料库、抓取语料库、知识提取库和语义索引库。

领域词典，作为系统分词、句法分析的自定义词典，用于记录并通过系统分析挖掘不断更新的领域相关概念集，提高系统分析的准确率。

领域本体，存储该领域普遍认可的概念、概念间关系、属性、规则和实例等知识。［5］

全景语料库，存储有代表性的、涵盖国民经济所有领域的各类语料。相关语料来源于近年来较为规范的、全国各类期刊的摘要信息。

抓取语料库，存储网络抓取的各类语料信息资源，包括通过用户设定的领域门户网站抓取的网页信息，以及文本预处理的结果信息。

知识提取库，存储系统知识挖掘分析结果信息。

语义索引库，基于知识提取库建立语义索引，提高信息检索速度。

5 系统应用

目前，基于异构信息知识挖掘与可视化模型已经成功地构建了原型系统，并已应用在国家科技基础条件平台项目“先进制造与自动化科学数据共享网”中，通过合理组织“共享网”各技术领域数据资源，对异构信息进行知识挖掘，可视化显示检索结果，极大地提高了数据资源管理的效率，更好地为用户提供了资源共享服务，解决了定位不准确、检索效率低下等问题，如:设计一个机械零件，需要考虑基础选材、设计方法和加工工艺等多方面知识，仅单独从材料数据库、设计方法数据库和加工工艺数据库中查询到的信息，很难直接利用，本系统能够将材料数据库、设计方法数据库和加工工艺数据库中数据资源的相关信息和相关数据资源挖掘出来，直接给用户一个全面、系统化的解决方案。异构信息知识挖掘与可视化分析系统为信息资源的科学智能管理和高效共享服务提供了技术支撑，在相关领域均具有广泛的应用空间。

6 结语

本文通过对异构信息知识挖掘与可视化分析系统建设背景和需求进行介绍，构建了系统架构模型，详细介绍了体系架构的主要模块和模块之间关系，为专业技术领域信息资源的科学管理和共享服务提供借鉴，对其他领域相关系统和系统模型的建立提供有价值的参考。

［1］陈玉，张晓高．谈网络知识挖掘在数字参考咨询中的实现［J］．无线互联科技，2010，(1):58－60．

［2］赵志荣．21 世纪 WEB 数据库的发展［J］．互联网世界，2001，(3):62 －63．

［3］李丽亚，宋扬，薛中玉，李春梅．基于ontology的科学数据共享检索体系解析［J］．情报理论与实践，2009，(5):81－85．

［4］Ratnasamy S．，Francis P．．A Scalable Content Addressable Network［C］．ACMSI GCOMM，2001:161 －172．

［5］薛中玉，李春梅，黄道雄．基于文本挖掘的本体自动构建系统架构解析［J］．计算机技术与发展，2011，(1):100－103．

(责任编辑胡琼静)

Explanation of the Heterogeneous Information Knowledge Mining and Visualization System Architecture Model

Li Aidan1，Xue Zhongyu2，Li Chunmei2
(1.Beijing Institute of Technology，Beijing 100081，China;2.Beijing ZhongJiKeHai Technology Development Ltd.，Beijing 100048，China)

TP31

国家国际科技合作计划项目“异构信息知识挖掘与可视化关键技术研究”(2010DFA14390)。

2012－03－29

李艾丹 (1984－)，女，北京市人，管理学博士研究生;研究方向:信息管理与知识管理。