基于项目档案的学术专题情报快速辅助生成系统设计研究
2016-06-24张鲁冀赵燕燕
刘 念,张鲁冀,赵燕燕,陈 默
(1. 北京电子科技学院 北京100070;2. 北京市科学技术情报研究所 北京100048;3. 大唐电信科技股份有限公司 北京100094;4. 机械工业信息研究院 北京100037)
基于项目档案的学术专题情报快速辅助生成系统设计研究
刘 念1,张鲁冀2,赵燕燕3,陈 默4
(1. 北京电子科技学院 北京100070;2. 北京市科学技术情报研究所 北京100048;3. 大唐电信科技股份有限公司 北京100094;4. 机械工业信息研究院 北京100037)
学术专题情报快速辅助生成系统是北京市情报所建设的科技情报资源网络服务平台,是科技情报信息资源网络体系的重要组成部分。学术专题情报快速辅助生成系统其根本是为了服务于社会科技进步和科技创新,系统的设计则是充分运用信息技术、网络技术等科技手段,对科技情报信息资源进行战略重组和系统优化,促进科技情报信息资源的高效、合理的配置,将科技情报信息资源价值得到最大化的实现。对系统设计进行了分析研究。
档案 情报 学术专题
学术专题情报快速辅助生成系统是北京市情报所建设的科技情报资源网络服务平台,是科技情报信息资源网络体系的重要组成部分。学术专题情报快速辅助生成系统的宗旨是服务社会科技进步和科技创新,系统设计充分运用信息技术、网络技术等科技手段,对科技情报信息资源进行战略重组和系统优化,促进科技情报信息资源的高效、合理配置,使科技情报信息资源价值得到最大化的实现。
“科技计划项目档案”(以下简称项目档案),专指以国家或地方政府财政投入为主,并列入国家或地方科技计划项目,在其管理和实施全过程中形成的、具有保存价值的各种类型和载体的原始记录。
项目档案不仅是项目成果的重要组成部分(有时甚至是唯一成果),是项目管理的载体,是项目实施、验收及成果推广应用的真实记录和可靠依据,也是国家科技信息资源的重要组成部分。
目前情报学做的大多是基于图书期刊文献的情报,因此好多人认为图情档是一家。不过近几年,许多专家都呼吁情报学要与图书馆学区别开来,认为情报学做图书对于学科来说是倒退,要提升情报学的地位,真正做到普通大众所认同的情报。
1 目标与意义
1.1 总体目标
本系统的实现对于促进情报工作的现代化将具有重要意义与作用。对于情报专业机构来说,其最大的价值就是通过建设大数据采集与筛选工具能够实时进行档案数据库的采集、筛选、抽取,为各种情报服务提供数据资源。本系统的实施将会有效促进情报工作的现代化,具体表现在以下4个方面:①系统的“科技情报搜索”实现档案大数据实时采集,提供全面高效数据支持;②系统的“大数据筛选”实现大数据预处理,提高数据质量;③系统的“动态情报跟踪”实现对情报对象动态跟踪,为预测、预警奠定数据基础;④系统的“基于科技主体社会网络的情报分析”能提供科技主体社会关系导航图,解决情报流程中专家及机构的选择问题。
1.2 重要意义
该项目的实施可以有效解决北京市科学技术情报研究所情报工作中数据资源不足和海量信息处理能力不足的问题,对于打造该所核心竞争力具有重要的促进作用。
“大数据采集与筛选工具建设”项目是集科技情报搜索工具、情报处理工具、基于科技主体网络的情报工具为一体的情报工具,可以有效提高情报所为情报服务的数据资源建设能力。
通过科技情报搜索工具的设计与封装以及大数据筛选工具的开发,可以辅助解决情报所信息处理能力不足的问题,对于情报工作本身的现代化具有重要的推进作用。
通过设计开发动态情报跟踪工具可以实现过程情报数据库的建立,可以为情报预测预警服务提供基础数据支撑,为情报所从大数据中汲取“大洞察”“大智慧”提供助力工具,进而增强情报所的行业竞争力。
2 功能性需求分析
本课题开发并实现网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术,构建面向互联网大数据、人际网络数据和信息筛选的大数据采集与筛选工具,为情报服务的数据资源建设提供工具。
2.1 科技情报搜索工具的设计与封装
科技情报搜索工具设计与封装将通过信息抽取技术自动构建科技情报领域本体库,然后使用领域本体对用户查询需求进行语义处理去实现。
本课题设计与实现的科技情报搜索工具能够返回用户多种相互关联的信息,较好地解决目前基于关键词的搜索引擎存在查全率和查准率方面的不足。
2.2 基于科技主体社会网络的情报分析
本课题基于移动网络环境下的情报采集技术,根据社会网络理论,完成科技主体(单位和个人)相互关系的表达,从而确定某一主题下各个科技主体的特征,以便找到适合进行情报分析判读的行业专家。
2.3 动态情报跟踪
本课题建设的动态情报跟踪工具是将情报搜索工具搜索的数据导入,利用以下技术进行整理:本体库、各领域学科词表中的词汇距离、SVM分类算法、聚类算法,将整理出的高品质数据导入动态情报跟踪工具中,完成数据抽取,将网页中的主体、时间、地点、做什么事、数据和设定的主体一并写入基础数据库,完成描述一个主体正在为了某个目的进行的活动过程的记录。
2.4 大数据筛选
本课题根据研究内容设定采集数据的范围,将采集到的数据去噪、剔除相似数据后,根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息,力争把以10万计的海量信息压缩到600条以内,同时核心信息保存一半以上。
3 非功能性需求分析
3.1 性能需求
学术专题情报快速辅助生成系统是大数据数字情报挖掘的综合系统,在遇到突发事件时峰值时间的并发用户数较高。另外,考虑到情报业务的流动性,历史数据的积累会非常大。因此需要较高的性能要求:
3.1.1 系统可用性
系统 7×24,h持续可用,可对系统进行维护;数据存取服务要求准确,保证数据不丢失。
3.1.2 系统可扩展性
系统留有扩充的接口,将来功能扩充时不影响现有系统功能和结构,能够方便其他系统模块的后续扩张。系统的设计和开发充分考虑了将来数据量和访问量急剧扩张的情况,当系统数据量和访问量增大而导致系统配置不能满足要求时,可以通过仅增加服务器等硬件进行解决,而不用在软件上修改响应性能。
3.1.3 服务时效性
一般 Web 查询的响应时间在15,s以内,而带有复杂的饼图、棒图、矩阵图的统计分析,响应时间在60,s以内。服务器的 CPU 平均负荷率≤55%,。
3.1.4 可恢复性
在系统发生故障时,传输数据服务恢复和数据库恢复都可在24,h内完成,并且可以保证数据不丢失。
3.2 安全需求
由于档案情报信息涉及面广泛,可能触及敏感信息,因此提出如下安全需求:用户信息严格保密;验证手段安全可靠;搜索、访问重要数据必须授权,拒绝匿名访问;对重要数据的操作可以追踪;能够抵御常见的恶意攻击。
4 模块设计
学术专题情报快速辅助生成系统业务流程为:根据关键词并行进行文档库爬取,获取有效的文档信息,去重、去噪后得到需要的网页信息与论文信息。对数据进行特定的处理,采用特定的算法对获取的数据进行处理分析,生成需要的图表格式并得出结论。
本学术专题情报快速辅助生成系统按照情报流程节点的不同,可以细分为几个大模块:搜索大模块、控制大模块、整理大模块、分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如下图1所示。
图1 系统功能模块图Fig.1 System function module
4.1 搜索大模块需求分析
搜索大模块主要包括网页搜索模块和论文搜索模块两个模块。网页搜索模块致力于在网络上搜索与关键字相关的网页集合,为后续的操作提供初始的网页信息材料来源。论文搜索模块是在我们制定好的论文库中搜索与关键字相关的论文集合,得到与关键字有密切关系的论文集合,为之后的整理分析等工作提供初始的材料来源。
4.2 控制大模块需求分析
控制大模块主要包括两个小模块:内存控制模块和线程控制模块。无论是从网页中获取信息还是从论文中获取信息,系统在获取信息过程中获取的信息容量比较大,所以需要内存控制模块来高效运行此系统的计算机内存,以提高系统运行效率。由于要获取的信息内容十分多,所以采用并行技术获取信息。多线程操作可以保证系统并行开展信息的获取。
4.3 整理大模块需求分析
整理大模块主要有网页内容整理和论文内容整理模块。网页内容整理模块主要是对获取到的网页进行去重、去噪等处理,得到干净、整齐的网页内容。论文内容整理模块是对已经获取到的论文集合进行去重、去噪等处理,获取格式整齐的论文内容,以便进行下面的工作。
4.4 分析大模块需求分析
分析大模块主要包含网页内容分析和论文内容分析两个模块。网页内容分析模块是对前面已经处理过的网页信息采用分类、对比等特定分析方法进行分析,以帮助后面的模块得到想要的结果。论文内容分析模块是针对之前通过搜索、处理得到的整齐的论文,采用特定的分类、对比等分析方法对论文内容进行分析,得到分析的结果。
4.5 结论生成大模块需求分析
结论生成大模块主要包含网页生成结论模块和论文生成结论模块。网页生成结论模块使用通过关键词筛选出的网页信息,经整理、分析得出的结果采用表格、图表等方式展现给用户,让用户对结论有一个直观的了解。论文生成模块使用通过关键词筛选出的论文信息,经过整理、分析得到的结果采用与网页生成结论模块基本相同的样式,如以表格、柱状图、饼图等方式向用户展示,便于用户进行相关的决策等。■
[1] 贺德方. 我国科技情报行业发展战略与发展路径的思考[J]. 情报学报,2007,26(4):54-61.
[2] 罗欣,夏德麟. 基于词频差异的特征选取及改进的TF-IDF公式[J]. 计算机应用,2005,25(9):54-59.
[3] 郑彦宁,宋振峰. 我国科技情报行业现状与发展对策分析[J]. 情报学报,2007,26(5):10-15.
Design of Academic Research Information Rapid Generating System Based on Project Archives
LIU Nian1,ZHANG Luji2,ZHAO Yanyan3,CHEN Mo4
(1.Beijing Electronic Science and Technology Institute,Beijing 100070,China;2.Beijing Institute of Science and Technology Information,Beijing 100048,China;3.Datang Telecom Technology Co.,LTD,Beijing 100094,China;4.Machinery Industry Information Institute,Beijing 100037,China)
Built by Beijing Institute of Science and Technology Information,academic research information fast generating system is a science and technology information resource network service platform and also an important part of science and technology information resources network.The fundamental academic research information fast generating system is to serve the social scientific and technological progress and scientific and technological innovation.The design of the system is based on the fully using of technology such as information technology and network technology to perform reorganization of strategy of science and technology information resources and system optimization and to promote efficient and reasonable configuration of science and technology information resources to maximize the implementation of science and technology information resources value.The system design was analyzed in the paper.
archives;intelligence;academic topic
G27
A
1006-8945(2016)08-0013-03
本论文得到“北京市科技计划项目”资助,项目名称:数字科技档案自动化与利用服务系统设计研发(Z151100003215042)。
2016-08-02