大数据融入人文社会科学的基本问题
2016-11-26陈泓茹赵宁汪伟
文/陈泓茹 赵宁 汪伟
大数据融入人文社会科学的基本问题
文/陈泓茹 赵宁 汪伟
对于人文社科研究而言,借助数据技术、运用量化研究方法提升人文社科研究方法与成果的科学化、精确化的探索由来已久。虽然这种探索一直受到适应性的争议,但一直没有停止过。随着大数据概念的提出,目前关于这个问题的讨论,呈现多视角介入、多学科触及的趋势,体现了人文社科研究工作者的方法论自觉。目前国内学界已经开始的关于大数据之于学术研究特别是人文社会科学研究方式方法的影响的讨论逐渐升温,不少探讨富有见地和启发意义。但我们也看到,除了极少数讨论者的零星几句关于数据过度开发、数据孤岛、数据伦理的担忧和忠告以外,几乎是一片欢呼。
大数据是一种新的数据形态,开启新的数据时代。作为一种处在发展中的新的信息技术,或者一种新的数据样态,大数据与人文社科研究结合的取向和趋势自然毋需置疑。我们认为,对于大数据这样的信息技术与人文社科研究的结合问题,无视甚至蔑视固然荒谬,因为这一趋势符合认识规律,契合实践发展,体现了人类量化认识世界的不懈追求,彰显着人类把握、理解世界的方式与能力的跃升,但简单地以为只要运用这些技术就可以万事大吉,这样的想法更加可怕。在人文社科研究中运用大数据或者试图构建两者融合模式时,我们应当遵循“谨慎的乐观”态度,以人文社科的视阈与方法,对于关涉大数据与人文社科研究如何正确结合的几个基本问题进行讨论。
准确把握大数据的生成背景
数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。
研判大数据之于人文社科研究的可能性与适应性
人文社科量化研究方法的长期探索为大数据与人文社科研究的结合奠定了较好基础。以美国为代表的西方发达国家在20世纪80年代之初便展开的关于社会科学与自然科学优劣及“定量研究”与“定性研究”的研究范式、研究方法论的派别争辩,以及以陈向明、风笑天、沃野等为代表的国内社会科学方法论研究者的讨论虽然持续不息,但以罗纳德·费希尔(1890~1962)1928年抽样理论的创立、乔治·盖洛普(1901~1984)1935年美国舆论研究所的建立以及抽样问卷调查的推广、多变量统计分析和统计检验的普及等为标志,定量研究在社会科学研究领域不仅获得成熟与进步,而且进入全面发展时期,成为一种常规的甚至主流的研究方法。有的学者甚至这样指出:没有量化,社会学就只能停留在印象主义的臆想和未经证实的见解,因而也就无法进行重复研究,确立因果关系和提供证实的通则。问题是,这一事实并没有终止过去几十年里社会科学研究领域对于其孰优孰劣的争论,甚至“社会科学任何学科分支都充斥着这样的派别战争”。虽然国内人文社科量化研究方法在实际使用及其效果和研究上并非像国际人文社会科学界那样占据主流而且成效明显,但多数学者还是达成了这样的共识,即无论是量化研究还是质性研究以及二者的相互关系都不可避免地承继了社会科学综合性、复杂性的基本特质,二者或被视为基于截然对立的研究范式而不可结合混用,或被可以视情境和研究实际各取所长、结合使用,或被认同可以结合,但须注重研究具体功用和方法操作。
辩证看待大数据使用的可靠性,首先必须正视大数据给人文社科研究带来的挑战。学者研究指出了其中的两个方面:科研资料总量的快速增加给人文社会科学研究带来了巨大挑战,如百万图书的挑战问题;资料的数字化改变了传统人文社会科学的资料类型,数字资源的采集、加工和处理对研究成果的获得作用日益显著等。其次,以随机样本分析为代表的量化研究方法在人类社会呈现出高度复杂性和高度不确定性的时候确实变得很不可靠,但是大数据所谓的“全数据模式”是否可靠依然是一个有待回答的问题。正如有学者指出的,在高度复杂性和高度不确定性条件下,无论人们有着多么先进和高超的大数据处理能力,即使我们确实收集了所有数据并用技术对其进行分析,人类事实上也只能把握点与点之间的相关性,或者把握局部的相关性。如果打算从中发现一般和普遍的话,那是不可想象的,如果我们自认为从所谓的全数据分析中获得了普遍规律和趋势,那不过是自欺欺人的。同时,就大数据是大规模数据而言,并不会停留在某个既定的状态中,而是处在不断增长中,尽管人们处理数据的技术和能力在迅速提高,但与大规模数据的增长相比总是相对滞后,这就决定了全数据分析也总是落后于现实。要言之,大数据的可靠性需要以长期一贯的和严密科学的方案设计、变量控制和统计检验为支撑和保证,否则获得的大数据就会是不全、不准、芜杂的,这样的大数据不仅不能使用反而会带来危害。
辩证认识大数据对于重构人文社科研究范式的作用
第一,充分肯定大数据对于人文社科研究的积极意义是基础。信息时代来临之后,人文社科研究范式的重构问题一直备受关注。我们不能妄言大数据一定能够带来人文社科研究范式的信息(数据)化转向,但大数据的引入对于重构人文社科研究范式的积极意义还是值得讨论的。其一,大数据能否打破人文社科学科壁垒、促进或者真正带来“大人文”“大教育”等人文社科学科的整合虽然尚需研究,但大数据的发展、人文社科学科的探索如诸多人文社科学科研究数据库的研究和构建,跨学科合作团队的建立,大规模系统化的文献索引型甚至具有一定检索功能的数据库的建立等,为人文社科进一步通过大规模量化数据库促进跨学科、跨时段、跨地域全面认识人类社会与自我提供了无限可能;其二,大数据对于扩大研究素材的范围、拓展研究对象具有直接作用;其三,有的学者甚至极其乐观地指出,大数据带来的以注重材料、探求事实为先的研究方式有助于促进人文社科平衡、健康、全面发展,为国际学术进步提供“中国经验”。但在当代海量的社会科学研究中,绝大多数的量化研究都依靠统计学工具来校验一个“方向性结论”,这种做法没有体现出量化研究的优势,它们只是在定性思考的基础上作了一些点缀。同时,由于局限于已有的数据,许多“严谨”的社会科学家们的预测能力还比不上历史学家和新闻记者。针对量化研究存在的问题,有学者还提出了“从描述型模型到预测型模型”的设想。虽然按照马克斯·舍勒的价值分类框架,人类最重要的三种基本价值,即信仰价值、精神价值、生命价值是不可量化的,具有不可分性,但并不意味着传统的轻视量化研究方法运用的人文社科研究范式是合理的。从当前数字人文和人文大数据研究情况看,学界概括了人文及社会计算方法与人文社会科学研究的融合出现的三类新的研究思维:人文社会科学开放与全过程研究思维;人文社会科学碎片化重组研究思维;人文社会科学计算分析研究思维。这方面,黄欣荣的研究具有一定深度。他认为,大数据思维是一种数据化的整体思维,它通过“更多”(全体优于部分)、“更杂”(杂多优于单一)、“更好”(相关优于因果)等思维理念,使思维方式从还原性思维走向了整体性思维,实现了思维方式的变革。虽然这样的概括尚需深化和严密论证,但大数据对于人文社科研究的价值是肯定的。
第二,深刻认识人文社科研究方法论的特殊性是前提。判定和揭示大数据对于人文社科研究的价值特别是研究范式层面上的价值要以深刻把握人文社科研究方法论的特殊性为基础。人文社科研究对象和功能实现方式的特殊性决定着研究方法的特殊性。人文社会科学,其研究对象是事实性与价值性的统一,是可预见性与预见的有限性的统一,而且具有偶然性与不确定性。因此,复杂性思维是人文社科研究的总体方法论。具体而言,人文社科研究必须坚持实证性与理解性的统一、规范性与建构性的统一、事实性与价值性的统一。强化数据意识固然必要,重视数据作用固然没错,而且量化研究方法在人文社科研究中的运用也从来没有停止过;但无论是理论上还是实践中,大数据的引入必然要求我们要更加重视处理好量化研究方法,避免人文社科唯科学主义倾向。更为根本的是,人文社科研究的根本追求在于探索规律、揭示本真。历史与逻辑、事实与价值的统一是人文社科研究的基本方法,虽然随着数据技术的发展,历史和事实中的诸多物质性客体的数据化趋势日益显著,更为重要的,重视量化研究、尊重第一手材料、注重探求事物本源的方法导向,有助于促进人文社科研究的学术传统由“解释型学术”向“求是型学术”的转向;但历史与事实背后的逻辑与价值是无法数据化的,即便是在信息技术飞速发展的今天,对于人文社科的本质属性和核心功能的实现而言,再发达的技术也无法代替理论思维对于事物本质的深刻把握以及和风细雨的心与心的交流和润物无声的教育方式对人格的影响,因而只能是一种辅助而不可能代替。
第三,准确界定大数据的作用方式和领域是关键。长期以来,人文社科不同学科研究虽然积累了规模宏大的系统材料以及文字信息,但学者自身的驾驭能力不强、学科壁垒以及研究数据库建设的滞后等局限导致量化研究方法的使用始终没有起到应有作用。大数据作为“互联网+”和信息时代得以松绑的独立乃至核心的生产要素和得以释放的重大力量,其基本的作用方式主要体现在两大方面:一是改变着素材收集、整理、挖掘和分析的方式;二是改变着研究的基本方式,即由偏重叙事研究转向与结构分析并重、由个别事件转向与普遍过程并重、由因素或因果分析转向与关系分析并重。特别是,大数据对于人文社科研究的作用领域开始变得清晰。其一,作为业务的必要成分成为“互联网+”业务发展的驱动要素和力量,这是大数据的基本面,与传统的数据形态没有本质区别,即作为一种技术、方法或者手段意义上的大数据。大数据之所以能够作为人文社科研究的一种研究方法,源于大数据的基本特征就是复杂化,这与人和社会问题作为人文社科研究对象的复杂化特性是耦合的。其二,作为产品的数据通过开发如积累与交换、分析与运用,产生和释放了新的洞见,其用途得以扩展和拓展,极大促进生产率的提高,创造出新的价值,这是大数据的独有一面,即作为一种战略资源的大数据。随着人文社会科学的发展,人文社科研究使用的研究资料日趋庞杂,为此,人们借助信息技术,改变了人文社科研究资料的存储和表现形态,使得人文社科资料数据化的趋势日益明显。其三,作为促进社会变革与发展力量的大数据,通过改变甚至颠覆人们旧有的世界观以及认知与思考的方式方法,极大地增强人们的观察和驾驭世界的能力以及社会治理能力,引发时代变革,这是大数据的深层意蕴和潜在作用方式,即作为一种思维方式和价值观念的大数据。大数据时代来临的判断之所以成立的根由在于大,大数据的来临催生了一个异质于物质世界、精神世界之外的数据世界,正在改变甚至颠覆着我们的世界观,大数据本身理应纳入人文社科研究的视野和范畴中来。
第四,厘清大数据之于人文社科研究的作用边界是保障。我们要充分认知和估计大数据对于人文社科研究的价值。但从人文社科自身禀赋及其研究传统出发,我们必须正视和警惕大数据融入人文社科研究的基本限度。孙建军的研究从四个方面进行:非场景化的研究逻辑缺乏适用性与人文关怀;人文社会科学的大数据研究有可能“敏锐地”发现问题,却无法给问题合理的解释,也无法给出有针对性的对策,限制了其应用范围;数据分析的集群研究会消灭重要的个体特征,而个体反而是众多人文社会科学研究关注的焦点;人文社会科学大数据研究过分关注技术分析,可能忽视创新思维和思辨分析,不利于大师级人文社会科学学者的培养。上述揭示对我们具有很大启发。
笔者以为,确定大数据之于人文社科研究的作用边界或限度,应该遵循研究对象、研究价值、运用过程、科学化程度等四个维度。
其一,人类的诸多活动借助大数据,的确改变了存在形态和方式,也就是说,改变了或者正在改变着人文社科研究对象的存在形态。虽然人的精神世界借助数据技术提升了观测、预测甚至感受的广度、深度和精准度,但从本质上讲,精神世界始终是无法数据化的。
其二,充分认识和揭示数据固然必要,但数字迷信或者数据崇拜特别是研究者对数据的过度解读值得警惕。有的学者认为,大数据的确提供了反观事物的视角,但大数据研究也存在数据压缩、数据呈现、数据解读三个方面难点,与部分学者担心数据解读不足的想法相反,他们更担心数据的过度解读。
其三,努力运用数据固然正确,但大数据技术应用可能带来的新的“数据鸿沟”“数据壁垒”和数据伦理问题也需引起我们的关注。学者们从数字身份、隐私、可及、安全和安保、数字鸿沟等方面讨论了大数据的伦理问题很有启发。也有学者指出,大数据挖掘与隐私保护之间的关系值得思考。工业和信息化部赛迪智库的冯伟在刊载于媒体的署名文章中指出:大量数据的汇集不可避免地加大了用户隐私泄露的风险。一方面,数据集中存储增加了泄露风险,也成为人身安全的一部分;另一方面, 一些敏感数据的所有权和使用权并没有明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。
其四,数据技术的运用固然能够提升人文社科研究和实践的精确化程度,但精确化不等于科学化。人文社科的科学化问题虽然还有待深入讨论,但学科科学化问题向来是与学科的本质属性高度一致的,比如人文社科最鲜明的特点就是属人性与为人性的统一,这点不可忽视。人文社科研究具有鲜明的个性特点,与自然科学不同,人文社科研究主体与客体具有内在的相关性,个性化的价值与情感偏好方式不可忽视,认知与评价并重不可偏废,解释视角和方式的多样性不可淹没,即手段和方法的数据化、科学化不能取代学科本身的科学化。
大数据既可以说是信息时代的新标识,也可以说是代表了一种新的战略、技术和方法。以2015 年9月5日国务院印发《促进大数据发展行动纲要》为标志,大数据在实践中已经上升为国家战略。但迄今为止的大数据应用范围更多的还是停留在经济社会和政府治理等具体工作领域,人文社科研究实效性不高的顽疾能否通过主动对接这场数据革命、敏锐抓住机遇、实现数据转向而得到缓解甚至破解是一个值得讨论的重大课题。
(陈泓茹系南京晓庄学院音乐学院教授,赵宁系南京金陵科技学院讲师,汪伟系淮阴工学院商学院副教授;摘自《学术论坛》2015年第12期)