大数据时代历史学研究若干趋势
2015-05-30吴玲
吴玲
【编者按】不久前,在济南举行的国际历史学大会上,数字史学为主要议题之一,说明了大数据时代数字化技术与历史学的密切关系。本刊对此问题亦给予了较多关注,陆续刊发了相关议题的文章。为进一步对相关问题展开讨论,本刊“关注新样态史料”专栏特开辟笔谈,诚邀热心于数字化史学、新样态史料的学界新秀加盟笔谈,以期使人们对新样态史料的认知与研究逐步走向深入。
[中图分类号]K0 [文献标识码]A[文章编号]1000-3541(2015)05-0068-03
[收稿日期]2015-07-09
大数据时代将带来历史学研究的巨大变革。这种变革不仅体现为新样态史料的广泛应用,更表现为以往被视为自然科学研究工具的统计学和数学算法、信息处理和存储技术等大数据技术,将应用到历史学研究领域,从而促使传统的历史学研究手段发生根本性变革。这种变革包括史料结构、研究手段与方法、研究队伍、历史研究面向未来的功用等内容。随着电子文本、电子阅读的推广和应用,数字化技术催生的新样态史料越来越受到历史学研究者的青睐,研究者可以通过计算机技术归纳、整理、分析、综合海量信息,大数据技术的开发和应用成为历史学研究产生新趋势的推动力。同时,历史学研究者仍然作为历史研究的主体,借助大数据技术推动历史学研究走向专业化、专门化、多元化、精细化。
趋势一:建设“全史料数据平台”,实现传统纸质文本史料向新样态史料转变。有“大数据之父”之称的英国学者维克托·迈尔·舍恩伯格认为,大数据时代带来的信息变革,比人类发明印刷机之后发生的阅读革命还要猛烈,各种形式的电子阅读及其高度普及颇能说明这一点。当下,世界各国数字图书馆建设都获得了政府的资金支持,各领域的研究者都将访问数字图书馆,作为获取资料的重要途径。随着各国数字图书馆的数字化工程逐步推进,传统的纸质史料将在不久的将来完成向数字化转型,必将出现一个可以为数据化提供计算、分析、整合基础的“全史料数据平台”。此处所言的“全史料数据平台”应是一个相对性概念,因为它永远处在不断完善、充实的状态下。当前的史学研究恰恰处于“全史料数据平台”的建设时期,即量的积累时期,一旦传统纸质史料大致完成向数字化转型,并开始设计、试用对数字数据进行计算机信息处理的模型或算法,便迎来了由量的积累到质的飞跃的节点。由于通过数学模型或算法进行的分析与综合而得出的相关性数据,又将作为新样态史料充实到“全史料数据平台”中去,因此,“全史料数据平台”必将是一个不断进行自我充实的数据体系。在“全史料数据平台”初具规模,大数据技术逐步运用到历史学研究领域时,历史学研究者不仅能够通过电子阅读更便捷、有效地掌握资料,更能够运用大数据技术对新样态史料进行高效分析,从而大大提升研究效率。
趋势二:大数据可以极大扩充历史学研究者占有历史资料的广度,提升史学研究的精细化水平。大数据使研究者拥有大规模收集和分类数据的条件,传统史学研究中普遍使用的采样分析法将逐渐被数据分析法取代。在传统史学研究领域,通过采样获取的局部性数据构成核心史料。历史研究者按照事先设计好的问题范式,对相关数据进行搜集、归类、整合、计算,如某个特定区域在不同历史时期的人口数量、农业产值、工商业产值、军事力量等,若时空设计合理,上述数据完全可以成为对该时期该地区研究的权威数据。然而,由于局部样本不能等同于全样本,在设定了细致范围的特定区域与时间样本的分析中,传统方法可以得出局部性结论,如果将研究视野扩大到较大历史时期的经济、社会变迁中,传统的样本便不足以充分地论证结论,而必须通过对海量数据的分析与处理,在呈现出历史的多维度特征基础上,更深入地推进历史学研究。
趋势三:新的史料搜索系统的加盟将丰富传统的史料分类与索引体系。在传统的历史学研究中,分类和索引一直是研究者检索史料的基本手段。然而,由于这种分类与索引是事先设定好的高度精确和准确排列的资料目录,海量数据因无法被该目录接纳,而不得不游离于这个索引系统之外。因此,传统的资料索引在提供有限资料的同时,也在一定程度上限制了史学工作者对资料的获取广度。大数据时代,初步掌握大数据技术的研究者,可以通过使用一组标签编组、分类和检索史料,并可以通过合并多个搜索标签有效地过滤用于历史研究的资源。由于史学研究面临的是各种各样、参差不齐的海量数据,很难用预先设计好的目录分类这些数据,因此,适用于大数据时代的史料搜集、分类、辨析的史料搜寻技术与方法将逐步替代传统图书馆的卡片式分类与检索系统。
趋势四:大数据技术在相关关系研究中具有的优势将推动历史学研究走向多元化,发挥历史学研究的现实功用。大数据时代的史料搜索系统拥有处理和分析海量数据、进而寻找数据之间关联性的功能,可以帮助史学工作者发现新问题、产生新灵感。历史研究者通过计算机分析和统计技术迅速获得一个事物大概的轮廓和发展脉络,比起严格的精确性研究结论,这个包纳了不精确因素的大概轮廓与脉络,在评判与分析宏观历史规律时,更具启发性。“全史料数据平台”中丰富的新样态史料,将为历史学研究提供无限可能性:文学作品中描绘的人们的生活状态与心理倾向,绘画作品中展现出的社会风貌与审美特征,大量零散的日记与信件中传递出的情感欲念与人际交流,商品往来中各种看似无关紧要的物品交换与信息交流,自媒体时代出现的海量影音作品中表达出的个性化生活场景与流行趋势等等,这些看似没有逻辑关系的数据,均可用来论证一些重要的历史性结论。大数据时代,在传统史学依赖清晰和精确数据的研究方式的基础上,较多地接受并利用这些模糊和不确定的史实,将更有助于发现人类历史发展的样貌。另外,今天的大数据技术可以通过放置在大型机器、桥梁、建筑物等设施上的传感器,分析预测这些设施未来的状态和故障预警。由于人类社会的历史性变动也是由多种因素互相作用、缓慢积累导致的。因此,可以设想,历史学家可以运用大数据技术分析导致某区域发生社会骚动的诸多关联性因素,找出该区域多种关联性因素之间的动态规律,从而预测该区域发生不稳定状况的可能性。
趋势五:利用计算机进行文本分析的方法将大大提升历史研究的效率与总体水平。现在的历史学者仍然以利用数字图书馆的搜索引擎便捷地阅读书籍,作为获取资料的主要方式,利用大数据技术分析、辨别数字化文本史料的工具仅仅处于尝试性开发阶段。谷歌公司最先开发出在文本中统计词频的算法,只要在计算机中输入任何词或词组,这种算法都会输出这些词组的词频统计结果。谷歌公司的工程师分别输入了“黑鬼、黑人、非裔美国人”,“科学、哲学与宗教”等词组,计算机绘出了这些词组出现的时间、频次的对比图,历史学家可以通过分析这些数据阐释黑人在不同时期美国社会受到的不同对待,以及科学、哲学与宗教在人类历史不同时期的地位,从而展开多样性研究。由于书页的数字化图像被转化成数据化文本,使书本中潜藏的巨大价值被释放出来,对于历史学研究来说,这可以说是一次工具革命,如果开发出具有分析功能的算法,那么大数据技术必将在历史学研究中大显身手。
趋势六:计算机技术、云存储技术的加盟将改变历史学研究队伍的构成。首先,由于海量数据可以被所有人共享,数据分析能够在云处理平台上快速、低成本地进行,因此,历史研究不再仅仅是职业研究人员专属的领域,所有对历史学研究感兴趣的人都可以展开个性化研究,并在资料辨析、古文书辨伪等专门性领域参与历史学专题性研讨与争鸣,历史学研究也将突破单一学科的限制,向普遍性的多学科共同参与转变。其次,专门从事历史数据挖掘和分析的公司、专业化的历史数据分析师、数据科学家会大量出现,成为历史学研究队伍中不可或缺的组成部分。历史学研究也将极大地延展学术研究的生产链条与传播途径,走上多功能、多技术、多学科交叉的研究与传播道路。
综上所述,大数据将改变历史学研究的未来发展方向,然而,如同电脑永远不可能取代人脑,大数据不可能取代历史学工作者的主观思考,也不可能取代传统历史学研究的基本理论与方法,历史学研究者必须明确大数据在历史学研究中的地位。首先,历史学家必须发挥主导作用,由历史学家主导制定相关计算机数据分析指令、参数模型的基本原则,这些原则的制定必须依据历史学的研究理论与方法。其次,大数据可以从海量数据中提取、挖掘、分析、计算出趋近于全体数据的数值及其动态变迁趋势,但分析这些数值及趋势之间的本质关系,诸如原因与结果、现象与本质、个性与共性等理论性问题,还必须借助历史学家在历史学理论与方法指导下的天才思考。再次,由于历史学研究的相关参数是从成千上万的参数拟合值中通过计算机工程性操作得出的,因此,必须判断这些参数拟合值在多大程度上能够成为引出历史性结论的可靠依据;这些参数会在多大程度上展现历史发展的规律;通过这些参数对历史学研究对象做出怎样的判断等等,这些判断都需要历史学家借助历史学的研究理念与方法展开深邃思考。大数据时代极大地丰富了历史学研究的工具与手段,拓展了历史学研究的广度,但是,大数据的研究手段不仅不能完全取代历史研究的理论与方法,而且其手段与工具的应用必须以历史理论与方法作为指导。(作者系哈尔滨师范大学副教授,历史学博士)