大数据时代文献分析与利用
2014-09-13王英哲
王英哲
(石家庄职业技术学院 图书馆,河北 石家庄 050081)
大数据是需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1].它利用各种知识发现技术管理数据,快速提取有价值的信息,为提高各行业的核心竞争力提供关键数据.大数据时代为文献的分析与利用提供了新的途径,过去无法收集与分析的数据都被新的技术手段赋予了可能性.
1 大数据的特征
(1)海量
大数据可以用数据海啸来形容.据统计,Facebook每天处理27亿次Like按钮点击,每天上传3亿张图片.国际数据公司(IDC)的研究表明,2008年全球产生的数据量为0.49ZB,2009年为0.8ZB,2010年增长为1.2ZB,2011年高达1.82ZB,2012年达到2.8ZB,它相当于全球每人产生200GB以上的数据.全球的数据资料存储量在2020年将达到40ZB(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB)[2].
(2)多样性
大数据的数据包括:网络日志、音视频、图片、地理位置信息等,数据类型丰富.
(3)精确度高
基因组数据、地理空间数据、人口数据、经济运行数据、卫星遥感数据等均要求数据的准确性,而以大数据为基础便能为科学决策提供精准的数据.
(4)处理速度快
处理速度快是大数据和传统数据挖掘技术最显著的不同.气象数据、航天遥测遥控数据、交通流量、地震监测数据等都要求数据的速度及时效性.而人们可从大数据中快速获得满足要求的信息.
2 数据处理过程及其主要的知识发现技术
2.1 数据处理过程
大数据的处理流程可以概括为四步,即采集、导入和预处理、统计和分析、挖掘.采集端利用多个数据库接收客户端数据,通过数据清理,导入到一个集中的大型分布式数据库或者分布式存储集群,形成数据仓库.利用存储于数据仓库中的海量数据进行分析和分类汇总,形成任务相关数据.再利用知识挖掘技术,从任务相关数据中挖掘需要的知识.利用知识的过程中,也会产生大量的数据,这些数据又被采集端数据库采集,存储到数据仓库中.流程如图1.
图1 大数据处理流程
2.2 主要的知识发现技术
知识发现就是从各种数据中,发现知识片段间显性及隐含的联系,发现某学科发展的轨迹,或者是引起科研人员的某种猜想,从而进行知识挖掘,开展科学实验,促进知识创新.
2.2.1 基于相关文献的知识发现
相关文献存在彼此引用、共引用、同被引用的关系,利用文献计量、内容分析、聚类分析、专利技术分析等方法,运用共词、共引理论,从文献内容入手提取重要的深层次信息.
2.2.2 基于非相关文献的知识发现
非相关文献之间,由于文献在表面上没有任何联系,基于此进行知识发现很困难,但这是进行知识创新及科学发现非常重要的途径.可以先利用各种知识挖掘技术找到知识点间隐含的关系,然后再发现隐含的知识.目前主要利用Swanson理论中知识元间的共引关系来揭示隐含的语义关联,再借用Arrowsmith辅助系统进行知识挖掘.如,1986年Swanson基于非相关文献知识发现技术进行知识挖掘,发现了雷诺氏病与鱼油的关系,1998年他又发现了镁与偏头痛的关系[3].
2.2.3 基于全文献的知识发现
运用文本挖掘理论,从全文本中找出所需单字、词语和特定字串,从而挖掘文献关联和发现知识.
3 基于知识挖掘的文献分析与利用
3.1 纵观全局的动态研究
海量权威的元数据汇集到一起,蕴藏了大量的知识,对基于数据的知识服务带来重大影响.以中国知网为检索平台,以“石家庄职业技术学院”为检索词进行检索,截止到2013年10月,共检索到作者单位包含“石家庄职业技术学院”的论文3995篇.通过对这些数据集合进行知识挖掘,即从元数据仓储中提取关键词等信息,可建立多种知识的关联网络.以此为基础综合分析的石家庄职业技术学院1999年到2013年的科研成果情况,见表1和图2.
表1 论文涉及到的排名前10的学科
图2 年度发表论文趋势图
从这些关联网络中,可以看出石家庄职业技术学院科研成果的发展脉络.
3.2 相关性追踪研究
从元数据仓储中提取数据,分析作者与合作者的关系,建立以人为中心的知识关联网络,可以开展相关性追踪研究.如石家庄职业技术学院1999年到2013年的论文数据研究结果见图3、图4,图中的数字代表基金项目数量或合作单位的数量.
图3 发表文章中涉及到的排名前五的基金项目
图4 发表文章中涉及到的排名前五的合作机构
3.3 基于时间轴进行趋势分析
研究某学科领域在一个时间段的发展趋势对于了解该学科的发展脉络、预测未来的发展方向至关重要.清华大学图书馆采用提取文章关键词并分析关键词在时间轴上的分布情况的方法来给出该领域的发展趋势,该服务的初步尝试已得到读者的青睐[4].通过它可以开展针对特定研究者研究重点与方向的追踪.如以石家庄职业技术学院王丽君作者为例,1999年到2013年其共发表文章55篇,此学者的研究方向、研究热点的情况如图5、表2所示.
图5 王丽君的年度发文情况
表2 王丽君研究的主要学科
由此可见,以CNKI数据为基础,通过分析海量文献数据的特点,不仅可以自动甄别出石家庄职业技术学院的目标学者,获取目标学者的学术出版物、与其紧密关联的合作者、期刊会议等信息,而且可以应用开放链接技术准确定位石家庄职业技术学院学者学术出版物的全文,并采用可视化视图的方式直观展示学者的学术历程以及以学者为中心的科研网络,还可以开展特定文献的分析,如最新成果、早期研究、影响力最大的图书、期刊论文、学位论文、标准、专利等.
4 结束语
大数据时代是信息社会运作的必然结果,大数据时代的来临将促使用户产生更高、更现实的知识服务需求.谁掌握数据及数据分析的方法,谁就将在这个大数据时代胜出.
[1]佚名.大数据处理:技术与流程 [EB/OL].(2013-05-22)[2013-11-22].http://www.caecp.cn/News/News-872.html.
[2]佚名.大数据时代 [EB/OL].(2013-11-05)[2013-11-22].http://network.pconline.com.cn/news/1212/3109670.html.
[3]程趁娜,浮肖肖.非相关文献知识发现方法的研究及应用进展[J].科技视界,2013(9):7.
[4]邓景康.大数据环境下清华大学图书馆的实践 [EB/OL].(2013-09-03)[2013-11-22].http://www.print.npicp.com/info-detail/14-526-49756307.html.