基于大数据的科技专家库管理系统构建研究
2018-03-11赵望强柳毅谭青
赵望强 柳毅 谭青
摘 要:在大数据的基础上,针对目前各类科技咨询专家库管理信息系统建设现状和应用存在的问题,结合大数据存储和分析技术,对专家库管理信息系统进行了框架设计和系统功能设计的研究。通过对专家库管理信息系统的构建探讨,从而实现科学管理专家信息和抽取专家。该构建方法有利于盘活数据,让数据说话,为专家信息服务提供支撑。
关键词:大数据 专家信息 专家库管理信息系统
中图分类号:TP311.13 文献标识码:A 文章编号:1672-3791(2018)10(c)-0012-03
Abstract:On the basis of big data,Aiming at the current situation and application problems of various types of science and technology consulting expert library management information system construction, combined with big data storage and analysis technology, the framework design and system function design of expert database management information system are studied.Through the discussion of the construction of the expert database management information system, scientific management expertinformation and extraction experts can be realized.Thisconstruction method is conducive to revitalizing data, allowing data to speak and providing support for expertinformation services.
Key Words:Big data; Expert information; Expert library management information system
随着科技创新咨询与决策环境的日益复杂化以及科技创新咨询与评审项目的层出不穷,科技评审专家其咨询意见和建议对于促进科技成果转化,减少科技决策失误,提高科技发展水平和科技创新具有重要作用。而专家库管理信息系统(以下简称“专家库管理系统”)作为收集各行业专家的信息智库,为发挥专家在科技创新战略咨询决策中的重要作用,及提高科技管理和决策的科学化、规范化水平提供重要平台条件保障。
数字化时代下,特别是在科技行业中,现科技项目存在着多学科的交叉和融合,如何根据科技项目特点抽取合适的专家已成为专家库管理系统建设难点。
针对上述问题,通过介绍专家库信息系统的应用现状,本文提出了基于大数据技术下专家库管理系统的总体框架和系统设计及如何在建设中应用大数据技术。
1 科技专家库管理信息系统建设现状
1.1 目前建设现状
科技专家库信息系统的建设是一个动态建设和管理过程,目前,基本的建设现状如下。
(1)承担建设主体多。各省市科技业务部门均不同程度开展了专家库的建设,均建有自己的科技咨询专家库管理系统[1]。因各个专家库建设的标准和评审业务类型不同,这些专家库相互独立,分别由不同的部门管理和使用,而且相互间难以共享。
(2)专家标准规范多。现已建各类专家库管理系统按照各自管理需要对专家进行标准分类入库,各类专家的信息标准规范基本上能够符合本级所属业务需要或使用需要,
(3)抽取專家方法一致。对评审项目中按照项目所属技术领域或学科大类对项目分组,根据分组统一对入库专家进行匹配,从而实现专家抽取。
1.2 应用存在问题
(1)专家基础资源少,难以找到需求数量。虽然专家信息系统建设主体多,但相互独立,导致科技专家资源过度分散、不便交流,难以联通。专家信息来源方式单一,由专家自我填写。一旦当参评项目数超过库有专家一定比例要求时,就会存在难以找到更多的专家满足项目评审的需求。
(2)专家类型单一,难以满足精准需求。专家标准规范多,分类类别标准不一,以及在数据库专家信息关系上结构单一,常用关系数据库线性表存储,容易造成仅是数据量的叠加,不是信息的展现。一定程度上影响项目对评审专家的精准匹配需求。
2 大数据技术下专家库管理信息系统构建
2.1 专家库管理信息系统架构
大数据环境下,以科技项目、成果、专家等为代表的科技数据发展着不可或缺的作用,以科技大数据为基础,将科研项目、专家、成果、大型仪器、科技文献等科技创新要素进行有机结合,可以为科技管理者、科研人员、社会公众等各类用户开展专家管理、专家推荐等辅助决策服务。系统架构设计如图1所示。
(1)基础数据层。专家库管理系统主要依托专家信息基本库和接入各类科技计划管理系统的现有或历史的项目基础数据及其他各类数据,如:人员信息库、论文资源库、机构信息库等。这些数据具有海量、标准规范不一、结构各异的特征。
(2)数据存储分析层。数据存储分析层是基础数据汇聚(包括数据识别、数据传输、数据感知等过程[2])后,在数据管控和数据安全前提下运用大数据处理技术对数据进行标准清洗及加工形成数据中心库。在数据中心库中对数据进行计算、数据分析及关联关系,将结果提供给数据服务层,支撑系统业务。
(3)数据服务层。数据服务层主要是根据业务的实际需要,整合互联网的可视化互动交流技术实现前端的显示和应用。具体业务应用有专家管理、科技项目咨询、评审等。
2.2 大数据关键技术
(1)数据存储技术。
对于从各种类型库来源的数据,如有专家信息、项目信息(项目申报书、任务书、验收书、科技报告等)、视频、图片、音频等,这些数据类型可分为结构化和非结构化,结构化数据一般使用关系型数据库进行存储和管理。而管理非结构化数据就非常复杂,海量异构管理方面存在着一定的问题[3]。在这种情况下,就需要用到大数据存储技术将零散数据整合到一起管理。
主要运用存储技术有分布式文件系统(HDFS)、NoSQL数据库(HBase)、大数据仓库(Hive)、MPP数据库等存储系统,实现对结构化数据、非结构化数据的存储和数据实时处理。
(2)大数据挖掘分析技术。
各类基础数据里隐藏着无穷的价值,但直接从里面获取有效的信息,是非常困难的。主要是因为数据分散且数据规模大,难以处理且难以消化等。因此,在数据已经收集存储的基础上,通过对带数据挖掘技术对这些数据进行挖掘分析,大数据技术不是一款简单的数据分析软件,而是要从大体量、多类别数据中获取价值。常用的大数据分析方法:回归分析、聚类分析、网络分析、关联分析等。
本文主要采用关联分析和文本分析。文本分析属于自然语言处理领域,主要包括词典管理和文本处理。词典库是文本分析的数据基础,文本处理是产生高质量文本的过程,提供了词性分析、自动摘要、依存文法、关键词提取、词义联系、分词工具、汉字转拼音、繁体转换、简體转换等功能。根据文本分析形成的数据,进行多维关联分析,语义关联与聚合,实现以人为中心的关系图谱。
2.3 专家管理信息系统的设计
专家库管理系统使用用户有科研项目管理者、专家。该系统一方面是为科研管理者提供信息手段管理,另一方面是为专家提供服务。总的原则是以大数据技术为技术基础,保证科技咨询专家科学管理的同时,重点强化数据支撑科技咨询业务的能力建设。专家库管理系统根据业务需求主要由专家管理和专家推荐两大部分组成,如图2所示。
(1)专家管理。专家管理系统以信息标准规范为基准,大数据存储技术为手段,负责对专家的信息征集,对有效专家信息的入库,出库审核。通过大数据信息挖掘与分析技术对专家信息深度化高效动态管理等。
(2)专家推荐。专家推荐以专家管理中对专家数据分析为基础,并对大数据关联分析形成的专家多维信息(基本信息、学历、工作经历、荣誉、承担项目、科研成果等)进行标引。经过限制条件(如支撑、人才称号等)层层筛选,与被评审项目精细化匹配。评审活动结束后由管理者对参与的专家进行进一步评价,以此来提高专家项目评审质量。
3 系统其他方面的建议
(1)加强数据权限和安全管理。专家管理信息系统不仅只是单个管理系统,也是个人信息的大数据资源。信息安全问题也就由此产生。特别是基本信息、知识产权信息等等都面临着使用权限和安全管理等问题,也就带来了更高的管理要求。
(2)扩大基础数据来源。基础数据不足或有效数据量不多时,系统也就发挥不出特有的数据优势。建议扩宽信息来源渠道,如从网络或从其他机构获取;提高信息质量检测筛选或以共建共享方式提高数据质量。
4 结语
通过大数据技术对专家库管理信息系统进行重新构建,为建设资源丰富、运行高效、结构合理、标准规范的科技专家库提供理论参考。完善了专家推荐能力,提高决策的科学化和民主化水平,以及对科技管理工作水平及项目评审的规范性及客观公平性具有重要意义。
参考文献
[1] 陈洪平.科技咨询专家管理系统的回顾与思考[J].价值工程,2014,33(5):194-195.
[2] 何清,敖翔,庄福振,等.一种基于Hadoop的大数据挖掘云服务及应用[J].信息通信技术,2015,9(6):42-49.
[3] 梁吉业,钱宇华,李德玉,等.大数据挖掘的粒计算理论与方法[J].中国科学:信息科学,2015,45(11):1355-1369.