外部知识管理系统设计与实现
2015-03-16北京航天长征科技信息研究所庄恒东李悦张庆民李焱
◎北京航天长征科技信息研究所 庄恒东 李悦 张庆民 李焱
外部知识管理系统设计与实现
◎北京航天长征科技信息研究所 庄恒东 李悦 张庆民 李焱
中国运载火箭技术研究院经过2年多的外部知识管理工作实践,发现传统的外部知识采集、发布和服务模式既无法实现外部知识管理规划的目标,又不能全面满足研究院科研生产对外部知识的强烈需求。基于此,研究院在充分调研、论证的基础上提出了建设外部知识管理系统,以便为科研生产提供更好的知识服务和情报支撑。
外部知识管理与服务对企业有重要的知识支撑作用,是外部知识管理工作开展的技术基础。研究院的数字图书馆系统拥有各种专利文献资料、情报与知识产权专题研究报告、航天特色文献等资源,然而,外部知识管理与服务的技术手段已从传统的数字图书馆向知识管理系统延伸,建设符合企业自身专业技术发展特色的外部知识管理系统,已成为满足技术人员需求,更好地支撑科研生产和技术创新的必由之路。
一、外部知识管理系统现状分析
1.存在的问题
目前,研究院外部知识管理与服务的方式存在以下问题:各个资源系统之间不具备跨库检索功能,应用时需要在系统间切换;专利文献资源不完整,无法实现深度加工;网络特色资源无法与自建特色资源有机结合;无法实现情报、知识产权专题研究报告和航天特色文献资源的发布;由于各个数据源系统相互独立,在进行知识采集时需要登陆多个系统检索,并需手工下载目录和全文,采集手段落后;需通过人工采集和导入建立专题库,尚无完善的检索索引功能,检索效率和准确性比较差;服务方式落后且尚未深入到知识层面。针对外部知识资源的各种服务还停留在资源整合阶段,尚未进入外部知识挖掘和服务阶段,无法提供深入有效的外部知识支撑。因此,建设研究院外部知识管理系统既有其现实的业务需求,同时在形势上也是非常紧迫的。
2.系统定位
研究院外部知识管理系统的定位是在对现有数字图书馆实现跨库检索的基础上,按照梳理出的专业技术树进行元数据(题录信息)自动采集,形成专业专题库,立足于提供经过专家甄选和判读的全面、优质、准确的专业外部知识,为设计师和管理人员提供一键式外部知识获取服务,并在专题库的基础上向全院技术人员提供外部知识的深度挖掘和个性化服务。
3.建设目标
研究院外部知识管理系统的总体建设目标是建设面向全院的外部知识管理系统,逐步实现资源的自动化加工、统一检索、分析与挖掘、深度应用与智能化应用。系统建设分为基础资源整合和基础应用构建、资源加工深化、持续应用3个阶段。
第一阶段建设重点主要包含:自动采集互联网和涉密内网图书馆电子资源,整合成外部知识资源库;按照专业技术树进行数据自动采集和筛选,形成专业知识库;进行航天领域知识体系和专业叙词表建设,构建知识检索、导航及相应的管理应用,满足全院对外部知识和数字资源的个性化应用需求。
二、总体设计
图1 外部知识管理系统构架
1.总体架构(见图1)
知识采集子系统实现底层数据资源采集,数据资源包括清华同方等数据库系统和互联网数据,通过数据采集加工模块实现数据的自动采集与加工,并借助航天领域的专业叙词对采集的数据进行标注和加工,形成专题知识库。
业务管理子系统实现对整个系统的管理控制,包括用户和权限、知识体系、专题知识库的采集配置以及对专业叙词的管理。同时可针对系统的使用情况进行统计和汇总,并对系统参数、专题数据库进行批量数据导入导出,满足数据迁移和不同系统间交换的需要。
知识服务子系统借助于底层结构良好的专题知识库以及自动索引和知识服务组件,实现知识检索、导航及个性化的服务。同时系统在开放和交互层面预留充分的接口,支持集成研究院的门户系统并能实现用户的统一身份认证,也支持其它业务系统的数据交互。
2.技术路线
系统整体以B/S架构为主、部分功能采用C/S架构辅助的方式,模块与功能基于SOA的服务架构进行设计与构建。
◆互联网数据和专题知识库的采集基于微软.NET技术开发的Windows应用程序实现,C/S架构,主要考虑到.NET Frameworks强大的网络通讯类库支持和桌面程序开发的便捷性较为适合进行数据采集、调试和跟踪。开发工具使用微软Visual Studio 2010和 .NET Frameworks 4.0运行环境平台。
◆业务管理和知识服务功能基于JAVA的J2EE开发框架构建,B/S架构,适合进行企业级的门户网站开发与定制,有成熟、稳定和安全的开源框架支撑及跨平台的系统部署支持,充分保障了系统的技术优势。开发工具采用MyEclipse 10.0 和JDK1.6运行平台。
◆海量数据的索引基于开源软件Solr搭建,并进行自主二次开发和定制,满足不同专题知识库索引构建的需要以及与叙词管理模块、知识体系的挂接整合,为系统提供高性能的检索服务。
◆设计系统时充分考虑每个模块的可扩充接口,保证系统能随时加挂各种应用模块,支持应用的横向扩展,当服务器资源无法满足应用需求时可简单地部署在多台服务器上。
图2 外部知识管理系统部署规划
◆系统采用开放性框架体系,使用标准XML格式数据作为系统间数据调用和传输的载体,以便于多个系统之间共享、交换数据。
3.系统部署
研究院外部知识管理系统以大集中的方式进行部署,应用与数据全部集中模式。在院级部署一套系统,院属单位所有用户均登录到此系统进行访问,如图2所示。
采集服务器主要完成互联网大规模数据采集与存储,需进行分布式采集,由一台采集中控服务器进行采集总体控制,并通过其分发任务进行采集,运行状态向中控反馈。
数据库服务器的可靠性和可用性是首要的需求,其次是数据处理能力和安全性,然后是可扩展性和可管理性。
索引服务器必须依靠高性能的索引服务在数据库之外构建索引服务。
资源加工服务器在完成自动数据处理的同时为资源加工人员提供相应的服务,如词表资源的人工构建、数据标引的人工纠错等服务,满足数据处理的各种需要。
应用服务器应具有较高的会话处理能力,以及较高的磁盘输入/输出。
三、关键技术
1.自动采集整合
实现互联网信息资源的自动采集、加工和存储,能够建成各个领域多个面向主题的数据库,最终形成本地数据库。对数量庞大的信息源能够方便、快捷地获取和分析,从而提升情报研究、知识发现、科学预测、技术预见、科研评价及决策咨询服务的能力。
按照研究院专业技术树的结构建立各专业的外部知识专题库,并实现图书馆多种电子数据库资源的自动采集,可对更新周期、采集对象、知识类型、专业采集检索式、专业技术树进行管理。
自动采集的对象主要包括:以互联网各门户网站、军事网站、科技网站等为采集对象,搜集、整理与研究院专业技术、型号任务、业务发展相关的专业技术、新闻消息等各类外部知识。从互联网中采集的外部知识资源需识别标题、作者、机构、发布时间等相关记录项。以研究院涉密内网部署的图书馆资源数据库为采集对象,识别标题、作者、关键词、作者机构、发布时间等相关记录项。
为了保证所采集外部知识的质量,采集模块需实现以下功能:
图2为Bi2O3薄膜样品的SEM图.可以明显看出,样品B-air的颗粒为短棒状,局部区域有一定程度的团聚(见图2(a)).样品B-N2的颗粒呈规则的椭圆球体,颗粒之间边界分明,并没有团聚现象(见图2(b)).而样品B-O2的颗粒则发生严重团聚,形成大小不一的团簇,颗粒之间没有明显的边界(见图2(c)).
一是内容过滤。能够自动过滤掉不需要采集的网页、媒体文件、广告、栏目,有效避免垃圾信息的下载以及对带宽的浪费,同时保存网页中与正文相关的表格和图片。
二是自动排重。对采集到的数据进行自动排重,可以从标题、URL、内容3个层次上对数据进行排重,减少系统中的重复数据。
三是元数据(包括作者、摘要、期刊、单位、卷期、关键词、分类号等基本信息)抽取。可以灵活配置内容提取模板,自动从网页html代码中提取标题、作者、来源、时间等元数据,同时识别正文区域。
四是知识采集人员可对入库的文献数据实现批量或单篇的手动标引,内容包括所属专业分类、关键技术点等。
2.全文检索
经过采集以及资源整合后的文献数据存储到全文检索数据库中,该数据库将承担标引、自动分类、自动聚类、全文检索等功能,其中音视频资料也可进行自动分类标引并创建索引。
全文检索是对电子文档、网页、语音、图像等非结构化数据进行综合管理,核心功能是实行非结构化信息的统一存储管理与全文检索,提供对包含元数据信息的半结构化数据及关系型数据库的良好支持。全文检索技术将搜索技术无缝整合到了外部知识管理系统,实现高效的知识检索应用服务。遵循传统的文献检索和知识检索结合的思路,提供普通检索、高级检索、专业检索、二次检索、专利知识特色检索,以满足用户的使用需求。
3.知识导航
知识地图功能是采用Flex技术开发,具有Flash程序的交互性和动画性,能够直观展现知识节点之间的关系并引导用户进行逐级的知识漫游,通过动态变化增加用户的应用乐趣。
在初始状态下,知识地图仅载入一个中心节点及其相邻节点。当点击任意一个顶点时,该顶点会变为中心顶点,同时会载入数量有限的更多与之相关的顶点。所有的顶点都可以自动避开其余顶点找到合适的空间位置,避免了顶点的重叠,便于用户操作点击。同时,知识地图可以计算每个顶点与中心顶点的最小距离,使用适当的放缩系数使靠近中心顶点的顶点面积较大,而远离的面积较小,整个知识体系主次分明。
4.跨库检索
跨库检索主要用于满足用户的资源整合、实时快速检索的需求,对数据资源采用虚拟资源整合技术。用户可以通过一个统一的资源搜索入口,以统一的检索方式搜索和访问所有整合的虚拟数据库资源,以统一的格式获取所需信息资源。
资源整合库主要负责从开放资源接口的厂商数据库中采集资源信息并重新加工整合为本地数据库。该库主要定义了各资源库的相关配置和转换方式,通过该资源库提取出镜像数据库中的资源信息,配置索引信息,经过分类排重等操作建立新的表结构信息,整合加工后存储至资源整合数据库中,方便数据的统一管理。
对于未开放资源接口的资源库信息,采用代理检索技术,模拟用户登录本地镜像资源库发送检索请求,利用网络爬虫技术抓取特定网页。从抓取到的网页中抽取所包含的相关信息(元数据、原文链接),将数据进行相似度排序、重新整理,以统一的方式将查询结果展示。
5.知识采集管理
采集策略包括检索词、检索式和采集周期。采集人员可以通过该功能对各检索策略进行添加、删除和修改操作,并对采集周期进行设定,以实现系统按照设定时间自动进行知识的增量更新。采集检索式要能够实现与、或、非以及嵌套等常用逻辑运算。
所有知识均按照专业技术分类和入库时间进行分类排序,并对文献实现按照专业技术分类、入库时间、标题、作者、机构、关键词和摘要的检索查询功能。管理员可对外部知识资源按照专业分类、时间、检索结果等进行批量(单篇)添加、删除和修改操作。
中国运载火箭技术研究院外部知识管理系统第一阶段实现了知识采集与整合、服务、挖掘分析专利文献服务和系统管理等功能模块,与研究院门户系统实现单点登陆集成,与CA系统集成实现数字签名认证。外部知识管理系统的建设实现了高效整合知识资源,拓宽了技术人员知识获取的途径,满足了个性化知识需求并促进了知识共享与交流,有效支撑了研究院的专业发展和技术创新。