关于图书情报中大数据与小数据的对比分析
2019-09-10贾尧
贾尧
摘要:大数据时代给很多行业带来新的可能性,传统的小数据研究慢慢不受重视。虽然大数据有诸多优势,但也无法取代抽样调查和实验研究等小数据研究在行业里所占据的地位。因此,本文通过对大数据、小数据概念和特点的分析,而后分析大数据与传统意义上的小数据的异同。
关键词:大数据;小数据;基本概念;异同比较;特点
1. 引言
大数据是用来指数据集太大或太复杂,而不是传统的数据处理应用软件充分处理有许多情况(行)的数据提供了更多的统计功率,而具有较高复杂性(更多属性或列)的数据可能会导致更高的错误发现率.大数据挑战包括捕获数据,数据存储,数据分析搜索,共享,转移,可视化,查询,更新,信息隐私和数据源。小数据是“小”到足以让人理解的数据。这是一个卷和格式的数据,使它可以访问,信息和行动。
2. 特点分析
(1)同质性与异质性
“小数据”的哲学基础是同质性,实践方法是“还原论”,试图通过发掘事物内在统一性而达成共识。在事物同质性假设的基础上,“小数据”对事物进行抽象化提取,通過层层假设剥离事物的个性,并最终通过数学建模完成对事物的科学化认知。同质性是我们认知世界的一个重要方式,“小数据”只是为人类提供了认识同质性的工具,却没有提供洞察异质性的工具;“大数据”既能洞察事物的同质性,又能洞察事物的异质性。
(2)结构化与非结构化
“小数据”是以“人力为主,机器为辅”的运行模式,在数据的采集、存储、传输和处理中大量地依赖人力资源;“大数据”恰好相反,计算机等各类数据设备成为数据采集、存储、传输和处理的主体,人力只在模型设计、参数设置、编辑矫正等环节发挥作用。“大数据”能够处理的数据来源更加广泛,不仅包括结构化数据,而且包括只有机器方能处理的非结构化数据。
(3)局部与整体
“小数据”建立的基础是抽样调查技术,通过选择具有“代表性”的局部样本来洞察整体样本。抽样样本的“代表性”的科学化问题是“小数据”的关键所在。围绕着“代表性”的科学化问题,统计学不断完善其抽样技术,推出了一系列数据抽样和处理技术。“大数据”建立的基础是全样本调查技术,不再用局部去“代表”整体,让整体中的每个成员“代表”自己。“大数据”克服了统计学的拘囿,不再纠结于局部样本的“代表性”。在小数据时代,需要对参与人员进行严格的标准化处理,避免参与人员的主观性影响调查结果,但是大数据的全样本调查技术,摆脱了参与人员的主观性对抽样所带来的负面影响。
(4)静态与动态
“小数据”是静态性数据,只是抽取了“时间轴”上的某个片段,再加上从数据采集、存储、传输到处理上的周期性,这使得“小数据”具有典型的延时性特征,不能实时反映事物发展的动态性。“小数据”为了克服静态性的不足,采取了跟踪调查、事前调查、事中调查、事后调查等补偿性手段,但这些手段的周期性,使其依然难以反映实时性动态。“大数据”是动态性数据,通过移动互联网技术、物联网技术及人性交互技术等数据技术可以对调查对象全程追踪,主动抓取实时数据。“大数据”能够即时洞察事物发展的延续性和断裂性,这克服了小数据“事后诸葛亮”的尴尬。
(5)描述性与预测性
“小数据”具有局部性、静态性、单维性、非场景化和规模性等特征,在数据采集、存储、传输和处理过程中,损耗了大量的细节数据,只是对各类事物的高度抽象性概括,因此,“小数据”难以从全局把握事物的变动性,在使用方式上多被用来进行描述性研究,而解释性和预测性却相对不足。“大数据”具有整体性、动态性、多维性、场景化和长尾性等特征,能够对事物及其周边环境进行空间性和历时性洞察,“见微知著”,因此,“大数据”不仅在描述性上更优于“小数据”,而且能够在解释性和预测性方面更准确。
3. 对比分析
首先,从数据的规模或量来看,大数据体量巨大,规模已经超出了在常规方法和时间内搜集、利用、管理和处理数据的能力,体量是PB量级的。小数据相对来说小得多,传统社会下生产的统计数据可以看作是小数据。
其次,从数据形态来看,传统的数据通常是结构化数据,结构化数据(行数据)是指存储在数据库里的,大数据则是混合形态的数据。在大数据中,多数是非结构化的数据。
第三,小数据是目标导向数据,价值密度较高。小数据有非常明确的目的,有非常明确的价值。大数据则是记录导向的,价值密度低,仅仅是为记录数据,并不是首先就有为了得到或解释某个特定事件的具体目的。
第四,大数据即时产生,随时可用。小数据生产的时间长,从测量到可用,需要相当长的时间;而大数据是即时产生的,大数据的获取省略了抽样设计环节,基本不介入调查对象的行为,始终以观察者的角色出现,直接对整体进行分析。
第五,从数据占有情况来看,在传统社会里的小数据拥有的主体是政府(包括政府统计部门和各专业部门)、企业、民间调查机构、科研机构等。而大数据则主要掌握在互联网公司手中,目前我国国内互联网三巨头BAT(百度、阿里、腾讯),数据私有化将成为一种趋势。而对大数据的开发利用,也只有具有技术能力的网络公司才能做到,通过网络爬虫在网络上抓取数据,然后经过数据清洗,进行数据挖掘分析。不具备大数据挖掘利用能力的一般个人或者企业、机构,通过向这些公司付费后购买数据和服务,这就是我们日益熟悉的云计算、云平台、云服务;未来的地方政府或许将不得不向私营部门购买数据。
4. 结语
本文通过对大数据和小数据的概念分析和特点分析,发现大数据和小数据在不同的领域发挥着各自的优势,而后对两者进行对比分析,发现大数据和小数据在数据规模、数据形态、目标导向、产生时间和占有数据情况上都有各自的特别。
参考文献
[1]秦萧,甄峰.大数据与小数据结合:信息时代城市研究方法探讨[J].地理科学,2017, 37(03):321-330.
[2]唐文方.大数据与小数据:社会科学研究方法的探讨[J].中山大学学报(社会科学版),2015, 55(06):141-146.
[3]徐立军.数据时代的未来 大数据与小数据融合的价值与路径[J].新闻与写作,2015 (11):11-15.
[4]王浩. 大数据时代下的思维方式变革[D].东华大学,2015.
[5]郭新平,黄贻俊.浅析大数据时代的小数据[J].现代经济信息,2014(20):149.
[6]黄欣荣.大数据技术对科学方法论的革命[J].江南大学学报(人文社会科学版),2014,13 (02):28-33.
[7]王成文.数据力:“大数据”PK“小数据”[J].中国传媒科技,2013(19):68-70.