基于麦肯锡核心概念的国内图书馆大数据技术研究状态量化描述
2014-09-22桂罗敏
[摘要]在大数据成为热议话题的当下,人们对于国内图书馆界对大数据技术应用状况,未曾有过可行的量化测度。本文基于麦肯锡全球研究院发布的大数据核心技术概念,结合社会学和文献计量学等相关方法,尝试将抽象问题转化为可操作性问题,量化描述图书馆界的大数据技术运用状态。
[关键词] 麦肯锡报告;MGI;大数据;大数据技术;量化
[分类号] G256
1.问题的提出
自2011年5月麦肯锡将“大数据”带入大众视野,从国家层面到基础行业[1],都对此表现出全所未有的兴趣。媒体如火如荼的参与和渲染,更是让这个技术概念转化成炙手可热的时尚名词。其实,“大数据”概念包括大数据理念和大数据技术两个层面的内涵,前者是引发社会轰动效应的根源,而后者才是“大数据”概念的实质性内涵。
在这股大数据热潮中,图书馆业界也表现出不小的热情。通过观察图书馆界这些年的研究和实践可以发现,图书馆界其实一直追随着大数据技术的步伐前行,只是限于自身的一些不利条件,对大数据技术的应用和开发相对还是缓慢的。
那么,国内图书馆界对于大数据技术的应用到底处于怎样的一个状态?对于这个问题,目前尚未有人能够做出清晰的量化描述。但作为与信息技术发展休戚相关的行业,图书馆有必要对自身与现代技术之间的距离有更为直观的了解,作为行业发展规划的依据。简言之,我们需要找到一个可行的方法,对图书馆大数据技术的运用状态进行量化的描述。
2.研究方法的探讨
社会学在研究社会现象时,通常将某些抽象问题转化为相对容易测量的具体问题,继而将定性研究推进到定量分析。[2]本文借鉴此类解决问题的方法,并结合文献计量学,对上述问题进行量化研究。
2.1 将抽象问题具体化
对于抽象问题“国内图书馆界对大数据技术的运用状态”,首先将之转化为更为具体的问题——“国内图书馆领域论文对大数据技术的关涉程度”。之所以这样转换,是因为关于某领域的学术论文基本上可以代表该领域的理论水平,对此的考量是观察该领域发展状况的重要角度;而“关涉程度”指的是图书馆领域论文所涉及大数据技术的程度,可以将之分为更小的指标进行定量观察和分析。
2.2 测量指标的确定
所谓指标就是概念内涵的指示标志。对于“国内图书馆界学术论文对大数据技术的关涉程度”这个问题,需要将“大数据技术”这个大概念分解为更为细小的内涵指标体系。
有学者通过论文关键词共词分析法,得出过大数据技术的核心词汇。[1]但本文考虑到权威性和可信度,以2011年5月由麦肯锡全球研究院(MGI)发布的研究报告《大数据: 创新、竞争和生产力的下一个新领域》作为基本依据。[3]同时,采用赛迪智库翻译的中译本[4]为权威中文版。麦肯锡是全球最大的咨询公司,属下的MGI拥有一支实力雄厚的专家团队,它所发布的报告具有较高的权威性。赛迪智库是中国工业和信息化领域的知名思想库[5],它所发布的译丛具有较高的信度。在这个著名的报告中,研究人员罗列了构成大数据核心技术的54个概念,其中应用于大数据分析的关键技术词汇(概念)28个,应用于整合、处理、管理和分析大数据的关键技术词汇(概念)26个,并对这些核心词汇(概念)一一给予明确的定义。
本文正是以MGI 的这套词汇(概念)作为测量和分析大数据技术的内涵指标体系,考察图书馆界对于这些指标的运用状况和程度。
2.3 测度方法
测度是对测量指标做量化测定。本文以论文数量作为测量值。论文数量大小虽然不能反映论文的质量和深度,但可以反映研究人员对某研究主题的重视和关注程度,以此来测定“图书馆领域对大数据的关涉程度”存在一定合理性。
论文数量则通过论文关键词检索出相关论文,并做统计后获得。选择关键词为检索词的原因是,论文关键词作为论文标识之一,代表了该论文的研究主题和研究范畴。为了便于论文被引用和查找,论文作者一般都会被要求使用尽量规范的关键词来进行标注。[6]虽然关键词目前很难做到统一和规范,但关键词仍然是眼下概括和描述论文内容的重要标识,查准率相对较高的工具。
本文通过以MGI大数据核心词汇为检索词,分别统计出图书馆界大数据核心技术的论文篇数和排名,大技术核心技术论文总篇数,以及论文数量排名前五领域的大数据技术论文数量。并在这些数据之间做出比较和测量。
2.4 考察范围
因为本研究主要是国内图书馆业界的大数据技术运用状况,所以考察对象的范围设定在图书馆情报学范畴内的论文。
《中国知网》是国内收录中文论文最全面和最权威的数据库之一,自身携带有统计和分析工具,为文献计量研究提供了便捷。鉴于这两个因素,选择《中国知网》来考察、衡量和比对大数据技术在图书馆界的应用状况。
3.获取统计数据
以MGI公布的大数据核心词汇作为关键词进检索,并借助中国知网的部分统计功能,获得以这些关键词为标识的论文数量。但在检索过程中,由于关键词的习惯用法与MGI核心词汇之间并非完全一致,为了提高查全率,根据MGI报告来增加同义词汇检索,比如“AB测试”同义词为“分离测试”和“水桶测试”,“数据聚类”同义词为“聚类”,等等。对检索结果也需要根据大数据技术的相关知识,剔除其中有歧义的部分,比如“优化”概念,在教育学中的优化并非大数据的优化;“情绪分析”,要剔除医学和心理学上论文。在获取图书馆领域大数据论文数量,也收集论文数量排名,以及量值最高的前五个领域的论文数等。下面是将检索所获取的数据以表格形式呈现。由于中国知网的数据每日更新,本文的检索结果和数据获取的时间点为2014年5月10日。
军:军事,测:自然地理与测绘,图:图书情报与数字图书馆,化:化学,建:建筑,运:运输,心:心理学,医:医学,仪:仪器仪表,社:社会学和统计学,材:材料,环:环境
4. 结论和描述:
分析上述表格中的论文数量值,能够对 “图书馆领域对大数据技术在学术上的关涉程度”有一个大致的数量描述。
4.1 MGI大数据核心词汇论文数量分布领域
从两个表格中可以看出,1960年到 2014年包含大数据核心词汇的论文总量约有485509篇,涉及的领域很广,从论文数量值的总体分布来看,主要在计算机、数学、经济、自动化、电信、互联网等等领域,基本印证了MGI报告中有关于大数据技术渊源以及其主要运用领域的定性描述[5]。从表格中也能看出,每个词汇的论文数量差异也较大,有的有几万篇,有的只有几篇,则从一个侧面反映了各种技术研究的成熟度和应用广度存在着较大差异。同时,还可以从表格中看出,各个大技术核心概念与各个领域之间的亲疏关系。
4.2 MGI大数据核心词汇在图书馆研究中的运用
从两个表格中可以看到,图书馆领域的大数据核心词汇的论文数量总共5764篇,约占总量的1.2[WTB2][WTBZ]。图书馆作为信息行业,该比值并不算高。说明大数据技术在图书馆领域得到了不小的关注,但相对于大数据技术的发展速度,其应用与开发的力度还是比较欠缺。
从表一可看到,有11个MGI大数据分析技术词汇被涉及和应用,占39[WTB2][WTBZ]。其中,包含数据挖掘、统计、自然语言处理、关联规则挖掘、可视化技术论文数量较高,反映了图书馆在这几个方面做了较多的研究。
从表二可看到,有16个MGI大数据处理词汇被使用,占67[WTB2][WTBZ]。其中包含元数据、云计算、数据仓库、SQL、关系型数据库等关键词的图书馆领域论文数量都较高,并在同一词汇的论文总量里占较大比例,这说明有关于数据资源整合管理的大数据技术在图书馆研究领域比较受重视。
大部份大数据核心技术概念在图书馆领域并没有得到使用,有的概念属于比较专业无法被运用,比如信号处理。有的概念可以在图书馆领域应用但未得到重视,比如“优化”,论文数量为0。优化主要指对模型的优化,说明图书馆领域在建立模型方面比较欠缺,应该引起研究人员的重视。
5.存在问题和展望
上述以MGI核心概念为关键词的论文数量汇总、比较和分析方法,对大数据技术在图书馆界的应用有了一个宏观上的测度。虽然这种方法把一个抽象问题予以具体化,但是该测量方法得到的是比较浅表的、框架性的结论。自然,有志于进一步探索的研究者可以作进一步优化和细化。
5.1 优化方向
对本测量方法的优化,可从两个角度考虑。一是提高查全率。使用关键词检索文献具有较高的查准率,但是查全率会受到不小的损失。若能同时考虑查准和查全率,扩大合理的检索途径,将可能增加本测量方法的信度。
另外,随着学科的交叉发展,许多概念可能会被下位概念或同位概念所取代。如果能监控概念之间的关系变化,作为因素加以考虑,建立一个动态的测量模型,将可能增加测量的效度。
5.2 细化方向
可以从两个维度进行细化研究。一个维度是将概念进一步细化,比如“分类算法”下有许多子概念:贝叶斯分类、后向传播分类、k-最邻近分类等,可以专门对分类算法在图书馆领域的使用做研究,预先建立数据挖掘的核心词汇表,再作量化比较。另一个维度是对图书馆领域的进一步细化,可以考察和分析各个具体研究方向中大数据核心技术词汇的运用。
[参考文献]
1.杨绎. 基于文献计量的“大数据”研究[J]. 图书馆杂志, 2012(9):29-32
2.袁方. 社会研究方法教程[M]. 北京:北京大学出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麦肯锡全球研究院. 大数据: 创新、竞争和生产力的下一个新领域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 赛迪智库. 介绍[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 赵宗蔚. 提高期刊论文关键词索引质量——自然语言与人工语言的结合[J]. 图书馆论坛,2005(5):119-121
附简历
桂罗敏,女,博士,副研究馆员,图书馆学。
迄今在核心及重要期刊上已发表的图书情报专业论文有:《先秦军事情报学概述》、《〈贞观政要〉问世冷遇考》、《〈群书目录〉未获褒奖原因考》、《两唐书经籍艺文志目录类证辨》、《对〈古今书录序〉的几点驳正》、《网络阅读古籍的几个问题和建议》、《武则天著作目录证辨释论》、《〈文献通考·经籍考〉分类法新探》、《对开元《群书目录》的重新审视》、《从正史艺文志探究儒家经典的数目变化》、《<三教珠英>考辨》、《<修文殿御览>考辨》、《知识分类对天人秩序的映照——以类书《北堂书钞》为例》等30余篇。
4. 结论和描述:
分析上述表格中的论文数量值,能够对 “图书馆领域对大数据技术在学术上的关涉程度”有一个大致的数量描述。
4.1 MGI大数据核心词汇论文数量分布领域
从两个表格中可以看出,1960年到 2014年包含大数据核心词汇的论文总量约有485509篇,涉及的领域很广,从论文数量值的总体分布来看,主要在计算机、数学、经济、自动化、电信、互联网等等领域,基本印证了MGI报告中有关于大数据技术渊源以及其主要运用领域的定性描述[5]。从表格中也能看出,每个词汇的论文数量差异也较大,有的有几万篇,有的只有几篇,则从一个侧面反映了各种技术研究的成熟度和应用广度存在着较大差异。同时,还可以从表格中看出,各个大技术核心概念与各个领域之间的亲疏关系。
4.2 MGI大数据核心词汇在图书馆研究中的运用
从两个表格中可以看到,图书馆领域的大数据核心词汇的论文数量总共5764篇,约占总量的1.2[WTB2][WTBZ]。图书馆作为信息行业,该比值并不算高。说明大数据技术在图书馆领域得到了不小的关注,但相对于大数据技术的发展速度,其应用与开发的力度还是比较欠缺。
从表一可看到,有11个MGI大数据分析技术词汇被涉及和应用,占39[WTB2][WTBZ]。其中,包含数据挖掘、统计、自然语言处理、关联规则挖掘、可视化技术论文数量较高,反映了图书馆在这几个方面做了较多的研究。
从表二可看到,有16个MGI大数据处理词汇被使用,占67[WTB2][WTBZ]。其中包含元数据、云计算、数据仓库、SQL、关系型数据库等关键词的图书馆领域论文数量都较高,并在同一词汇的论文总量里占较大比例,这说明有关于数据资源整合管理的大数据技术在图书馆研究领域比较受重视。
大部份大数据核心技术概念在图书馆领域并没有得到使用,有的概念属于比较专业无法被运用,比如信号处理。有的概念可以在图书馆领域应用但未得到重视,比如“优化”,论文数量为0。优化主要指对模型的优化,说明图书馆领域在建立模型方面比较欠缺,应该引起研究人员的重视。
5.存在问题和展望
上述以MGI核心概念为关键词的论文数量汇总、比较和分析方法,对大数据技术在图书馆界的应用有了一个宏观上的测度。虽然这种方法把一个抽象问题予以具体化,但是该测量方法得到的是比较浅表的、框架性的结论。自然,有志于进一步探索的研究者可以作进一步优化和细化。
5.1 优化方向
对本测量方法的优化,可从两个角度考虑。一是提高查全率。使用关键词检索文献具有较高的查准率,但是查全率会受到不小的损失。若能同时考虑查准和查全率,扩大合理的检索途径,将可能增加本测量方法的信度。
另外,随着学科的交叉发展,许多概念可能会被下位概念或同位概念所取代。如果能监控概念之间的关系变化,作为因素加以考虑,建立一个动态的测量模型,将可能增加测量的效度。
5.2 细化方向
可以从两个维度进行细化研究。一个维度是将概念进一步细化,比如“分类算法”下有许多子概念:贝叶斯分类、后向传播分类、k-最邻近分类等,可以专门对分类算法在图书馆领域的使用做研究,预先建立数据挖掘的核心词汇表,再作量化比较。另一个维度是对图书馆领域的进一步细化,可以考察和分析各个具体研究方向中大数据核心技术词汇的运用。
[参考文献]
1.杨绎. 基于文献计量的“大数据”研究[J]. 图书馆杂志, 2012(9):29-32
2.袁方. 社会研究方法教程[M]. 北京:北京大学出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麦肯锡全球研究院. 大数据: 创新、竞争和生产力的下一个新领域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 赛迪智库. 介绍[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 赵宗蔚. 提高期刊论文关键词索引质量——自然语言与人工语言的结合[J]. 图书馆论坛,2005(5):119-121
附简历
桂罗敏,女,博士,副研究馆员,图书馆学。
迄今在核心及重要期刊上已发表的图书情报专业论文有:《先秦军事情报学概述》、《〈贞观政要〉问世冷遇考》、《〈群书目录〉未获褒奖原因考》、《两唐书经籍艺文志目录类证辨》、《对〈古今书录序〉的几点驳正》、《网络阅读古籍的几个问题和建议》、《武则天著作目录证辨释论》、《〈文献通考·经籍考〉分类法新探》、《对开元《群书目录》的重新审视》、《从正史艺文志探究儒家经典的数目变化》、《<三教珠英>考辨》、《<修文殿御览>考辨》、《知识分类对天人秩序的映照——以类书《北堂书钞》为例》等30余篇。
4. 结论和描述:
分析上述表格中的论文数量值,能够对 “图书馆领域对大数据技术在学术上的关涉程度”有一个大致的数量描述。
4.1 MGI大数据核心词汇论文数量分布领域
从两个表格中可以看出,1960年到 2014年包含大数据核心词汇的论文总量约有485509篇,涉及的领域很广,从论文数量值的总体分布来看,主要在计算机、数学、经济、自动化、电信、互联网等等领域,基本印证了MGI报告中有关于大数据技术渊源以及其主要运用领域的定性描述[5]。从表格中也能看出,每个词汇的论文数量差异也较大,有的有几万篇,有的只有几篇,则从一个侧面反映了各种技术研究的成熟度和应用广度存在着较大差异。同时,还可以从表格中看出,各个大技术核心概念与各个领域之间的亲疏关系。
4.2 MGI大数据核心词汇在图书馆研究中的运用
从两个表格中可以看到,图书馆领域的大数据核心词汇的论文数量总共5764篇,约占总量的1.2[WTB2][WTBZ]。图书馆作为信息行业,该比值并不算高。说明大数据技术在图书馆领域得到了不小的关注,但相对于大数据技术的发展速度,其应用与开发的力度还是比较欠缺。
从表一可看到,有11个MGI大数据分析技术词汇被涉及和应用,占39[WTB2][WTBZ]。其中,包含数据挖掘、统计、自然语言处理、关联规则挖掘、可视化技术论文数量较高,反映了图书馆在这几个方面做了较多的研究。
从表二可看到,有16个MGI大数据处理词汇被使用,占67[WTB2][WTBZ]。其中包含元数据、云计算、数据仓库、SQL、关系型数据库等关键词的图书馆领域论文数量都较高,并在同一词汇的论文总量里占较大比例,这说明有关于数据资源整合管理的大数据技术在图书馆研究领域比较受重视。
大部份大数据核心技术概念在图书馆领域并没有得到使用,有的概念属于比较专业无法被运用,比如信号处理。有的概念可以在图书馆领域应用但未得到重视,比如“优化”,论文数量为0。优化主要指对模型的优化,说明图书馆领域在建立模型方面比较欠缺,应该引起研究人员的重视。
5.存在问题和展望
上述以MGI核心概念为关键词的论文数量汇总、比较和分析方法,对大数据技术在图书馆界的应用有了一个宏观上的测度。虽然这种方法把一个抽象问题予以具体化,但是该测量方法得到的是比较浅表的、框架性的结论。自然,有志于进一步探索的研究者可以作进一步优化和细化。
5.1 优化方向
对本测量方法的优化,可从两个角度考虑。一是提高查全率。使用关键词检索文献具有较高的查准率,但是查全率会受到不小的损失。若能同时考虑查准和查全率,扩大合理的检索途径,将可能增加本测量方法的信度。
另外,随着学科的交叉发展,许多概念可能会被下位概念或同位概念所取代。如果能监控概念之间的关系变化,作为因素加以考虑,建立一个动态的测量模型,将可能增加测量的效度。
5.2 细化方向
可以从两个维度进行细化研究。一个维度是将概念进一步细化,比如“分类算法”下有许多子概念:贝叶斯分类、后向传播分类、k-最邻近分类等,可以专门对分类算法在图书馆领域的使用做研究,预先建立数据挖掘的核心词汇表,再作量化比较。另一个维度是对图书馆领域的进一步细化,可以考察和分析各个具体研究方向中大数据核心技术词汇的运用。
[参考文献]
1.杨绎. 基于文献计量的“大数据”研究[J]. 图书馆杂志, 2012(9):29-32
2.袁方. 社会研究方法教程[M]. 北京:北京大学出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麦肯锡全球研究院. 大数据: 创新、竞争和生产力的下一个新领域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 赛迪智库. 介绍[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 赵宗蔚. 提高期刊论文关键词索引质量——自然语言与人工语言的结合[J]. 图书馆论坛,2005(5):119-121
附简历
桂罗敏,女,博士,副研究馆员,图书馆学。
迄今在核心及重要期刊上已发表的图书情报专业论文有:《先秦军事情报学概述》、《〈贞观政要〉问世冷遇考》、《〈群书目录〉未获褒奖原因考》、《两唐书经籍艺文志目录类证辨》、《对〈古今书录序〉的几点驳正》、《网络阅读古籍的几个问题和建议》、《武则天著作目录证辨释论》、《〈文献通考·经籍考〉分类法新探》、《对开元《群书目录》的重新审视》、《从正史艺文志探究儒家经典的数目变化》、《<三教珠英>考辨》、《<修文殿御览>考辨》、《知识分类对天人秩序的映照——以类书《北堂书钞》为例》等30余篇。