浅谈大数据分析在文学研究中的应用
2018-06-04吕佳
吕佳
【摘要】文章通过清华附小苏轼论文热点事件引出“大数据分析在文学研究中的应用”主题,并通过“什么是大数据(分析)”、“历史上的文学数据分析”、“大数据分析与小阅读”展开论述,强调了在小阅读引导下的大数据分析是文学研究的重要途径之一。
【关键词】大数据分析 文学研究 应用
一,什么是大数据(分析)
随着互联网的飞速发展,“大数据”成了最近几年的流行词和热门词。几乎人人在谈“大数据”,但是,“大数据”到底是什么?
大数据,即巨量数据的集合(IT行业用语)。具体来说,大数据(hig data),是一种数据集合,也是一种信息资产。它无法在一定时间范围内利用常规软件工具进行捕捉、管理和处理,同时,它也需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。在这个数据爆炸的时代,大数据现象在日常生活中俯拾即是:不断更新的微博以及粉丝的跟帖产生的数据量,银行业务和信用卡的交易产生的数据量,电子商务的交易产生的数据量等等。
若我们仅仅停留在获取数据这个低级层面,其意义是十分有限的,我们更感兴趣的是知识。那么,如何将数椐转变成知识呢?这涉及到四个层面的转变,即从数据到信息到知识再到智慧。通过大数据分析,借助软件采集和处理到的信号形成数据,经处理后变成信息,再通过挖掘形成知识,最后通过分析上升到智慧层次。
大数据分析可为我们的决策方案提供依据,有利于我们及时做出调整。商业中,销售数据能及时反馈客户的需求变化,从而发现商业规律、扭转败局;教育中,学生的成绩数据能反应学生的不足和优势,从而教师能及时做出相关的教改方案。同样,在进行文学分析和研究时,我们也可以与时俱进地利用大数据分析展开探讨数据背后作者的用意和情感的研究。
二,历史上的文学数据分析
大数据概念虽然近几年才被人们耳熟能详,但早在19世纪,人们就开始用定量分析的方法研究分析文学作品了。美国科学家Thomas Corwin Mendenhall于1887年在《科学》杂志上发表一篇题为《文章的特征曲线》的文章。他认为,通过“词谱”或“特征曲线”也能表征一篇文章,正如光谱线的模式可以表明存在着某化学元素一样。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象,考察两人的“词谱”差异,结果显示,差异不足以区分开两个作者。
美国“数字人文学”先驱Lucius Adelno Sherman的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》,他通过定量研究统计了这首诗歌中用了多少介词、连词和否定式表达。
1893年.Sherman发表了一部题为《文学分析学:关于如何对英语散文与诗歌进行客观研究的手册》的著作。他在讲授英语文学演变的过程中,发现从14世纪的诗人杰弗雷·乔叟,到17世纪的戏剧家威廉·莎士比亚,再到19世纪的文学家拉尔夫·沃尔多·爱默生,他们写出的句子越来越简单,摆脱了过去那种“凝重”和繁复。为了论证,他从每个作家的作品中抽取500个句子,统计其平均句长。结果表明,以Robert Fabyan为代表的16世纪初的平均句长为63个单词,以爱默生为代表的19世纪只有20.5个单词。
在计算机尚未问世时,英国统计学家G.Udny Yule和C.B.Williams曾尝试通过句长的差异来表征不同的文学风格并识别不同的作者。
20世纪美国著名统计学家Frederick Mosteller和David LWallace曾对《联邦党人文集》中also、an、by、of等常见词的词频进行统计分析试图辨别汉密尔和麦迪逊的文章。
1964年,历史上第一个主题为“文学数据处理”的学术会议召开,讨论题目包括“计算文体学”以及在计算机辅助下就弥尔顿对雪莱之影响做出的估计等。
三,“大数据”分析与小阅读
大数据分析技术作为人类认识客观世界的一种工具,给我们带来了难以想象的进步。借助计算机数据来分析文本需要小阅读的思维方式和问题意识作为分析的重要导向。机器进行数据处理时,需要研究的主体下指令“告诉”它们如何操作。一方面,機器能够发现肉眼和人脑不关注的问题信息:另一方面,研究的主体借助计算机这个好用的工具来统计研究者需要统计的指标。清华附小苏轼论文之一的《大数据分析帮你进一步认识苏轼》中,作者利用数据分析将苏轼的3458首诗词与9552位作者创作的276545首唐宋诗词做对比证明了苏轼是位高产作家:作者又通过苏轼的3458首诗词中找出的排名前50的高频词和高频字来分析苏轼的人生经历:作者还通过111首苏轼的包含“归来”的诗的年代的统计而制作出的次数分布图印证了他们的猜想:每次被谪结束之后,苏轼诗中出现的“归来”的次数都会有所增加,从而从一个新的角度认识了这位文学巨匠。
研究的主体进行“小阅读”是重要的,也是必要的。正如莫莱蒂所言,即使你研究200本小说,也还不到19世纪出版的小说总数的1%,这样的研究必然受限制。的确,利用计算机进行大数据分析可以发现某个文学体裁的形式上的普遍特征。但是,每个研究的主体甚至每个读者对文学作品的认识和感悟是不同的,正是每个人不同的难以捕捉的理解与感悟才是文学阐释的核心焦点。
四,总结
大数据与文学,一个是理性工具,一个是感性思维,看起来似乎不沾边。但在大数据浪潮席卷全球的今天,二者的联系却日益紧密。人脑和电脑在阅读文本的时候所用的方法和关注的角度不同,分析出来的东西也可能截然不同。人脑对文本的分析阐释与电脑的大数据分析,往往相互补充,取长补短。文学的大数据分析和研究主体的小阅读之间有着很多交融之处。我们需要借助计算机进行文本数据分析,将个人化的文学阐释和历史性思索有机地结合起来,发现一些有价值的研究途径,为打造新的文学史和新的文学价值理论提供可能性。
参考文献:
【1】金雯,李绳.“大数据”分析与文学研究【J】.中国图书评论,2014 (04)
【2】顾君忠.大数据与大数据分析【J】.软件产业与工程,2013(04)
【3】历史上的文学大数据分析【EB/OL】.中国科学报,2014 (10)