以文本为基础的社会科学研究:从内容分析到算法模型
2022-04-13胡安宁
胡安宁
一、研究背景:以文本为分析对象的社会科学研究
文本资料贯穿于社会生活的方方面面,从关系国计民生的政策文件,到日常购物的账单小票,各式各样的文本为我们了解社会生活提供了重要的信息媒介。正是因为如此,社会科学研究者长期以来一直非常重视基于文本的资料分析,力图从非各种结构化的文本资料中探究特定社会议题的答案①KRIPPENDORFF K.Content analysis:an introduction to its methodology[M].Thousand Oaks:Sage Publications,2018:18-21.。在过去的十几年中,随着以算法为基础的各种机器学习技术的发展与普及,社会科学研究者对文本的探索也日渐从传统的以诠释为导向的内容分析法转向以预测和因果推断为导向的大规模文本挖掘②IGNATOW G,MIHALCEA R F.An introduction to text mining:research design,data collection,and analysis[M].Thousand Oaks:Sage Publications,2017:3-12.。这一方法论的变化趋势为社会科学研究者提供了越来越多的新兴研究工具,极大地拓展了社会科学文本分析的研究空间。
然而,到目前为止,对于社会科学领域文本研究的方法论变迁、不同研究方法路径各自独特的优劣势以及新兴基于算法的文本挖掘技术的潜在局限等议题,尚缺乏系统地梳理。为了填补这一空白,本文拟从三个方面对以文本为分析基础的社会科学研究进行讨论。首先,对目前社会科学文本探索的多重方法进行回顾,将其划归为以诠释为导向的方法、诠释与结构探索并重的方法和以结构为导向的方法三类,以此呈现出社会科学文本研究工具的多样性。其次,针对社会科学文本探索的方法论发展,围绕研究目标、研究手段和研究对象三个基本维度,系统展示从以诠释为导向的内容分析向以结构为导向的文本挖掘的过渡过程。最后,针对日渐兴起的以算法为导向的文本探索方法,讨论其潜在的局限性及进一步发展的方向。
需要说明的是,本文的目的并不是对社会科学文本探索的各种方法进行百科全书式的梳理。实际上,由于各种具体技术和算法的迅猛发展,很多方法在很短的时间内会出现各种升级和优化,从而超越最初的单一方法而形成一整套方法论的体系。例如,目前社会科学研究者使用较多的主题模型,已经从最早的LDA(latent Dirichlet allocation)模型拓展出相关主题模型、动态主题模型、监督主题模型、链接主题模型、情感主题模型、作者主题模型、词嵌入主题模型等多种方法①韩亚楠,刘建伟,罗雄麟.概率主题模型综述[J].计算机学报,2021(6):1095-1139.。除了这些具有普遍应用价值的主题模型方法,在特定的学科内部,学者也会开发适用于特定研究问题的主题模型,如政治学领域的动态多主体模型(dynamic multi-topic model)②QUINN K M,MONROE B L,CDLARESI M,et al.How to analyze political attention with minimal assumptions and costs[J].American journal of political science,2010(1):209-228.和议题表达模型(expressed agenda model)③GRIMMER J.A Bayesian hierarchical topic model for political texts:Measuring expressed agendas in senate press releases[J].Political analysis,2010(1):1-35.等。因此,对于文本分析技术进行列表性的全面梳理已经超越了本文的范围。与这一目标相比,本文更加希望通过对一系列有代表性的方法的考察,向读者展现出社会科学文本探索策略的多种选择及不同选项之间的各自优势和发展趋势,以此为社会科学研究者提供方法论上的整体图景。
二、社会科学文本探索的多重方法
与任何一种体系化的方法论框架一样,以文本为基础的社会科学研究涉及多种不同的具体策略,本文将这些经验分析策略大致分为三类,即以诠释为导向的文本探索方法、诠释与结构并重的文本探索方法和以结构为导向的文本探索方法(表1)。下面就这三种方法展开具体的讨论。
表1 社会科学文本探索的多重方法
以诠释为导向的文本探索方法的范例是传统的内容分析法④KRIPPENDORFF K.Content analysis:an introduction to its methodology[M].Thousand Oaks:Sage Publications,2018:18-21.。作为一个经典的社会科学研究方法,内容分析法强调通过对特定文本内容的编码,将文本信息提炼为围绕特定主题的系统化的编码信息,之后通过解读编码信息,研究者就可以跳过纷繁复杂的文本内容本身,从而在分析过程中更为聚焦,得出具有实质意义的结论。内容分析法的典型应用是性别社会学者分析多媒体内容的性别角色定位。例如,克雷格(R.Stephen Craig)在其研究中通过内容分析法考察了2209个商业广告的具体内容⑤CRAIG R S.The effect of television day part on gender portrayals in television commercials:a content analysis[J].Sex roles,1992:197-211.,围绕这些商业广告中角色的性别、年龄、外表特点和所处的空间环境等多个维度,克雷格对广告内容进行了抽样、阅读和编码。通过对编码内容的研究,克雷格发现,在不同的时间段(白天工作时段、晚上黄金时段和周末下午时段),广告内容对于男性和女性的描述是不同的。其中,白天工作时段和晚上黄金时段的广告对男性角色的描述强调其性别角色上相对于女性所具有的主导性,而在周末下午时段的商业广告则更加强调男性对于家庭琐事的逃离。
通过这个经验实例可以看出,传统内容分析法的重点是通过编码来简化内容。可以说,编码的过程本质上是对文本内容的诠释和抽取,通过这种“转化”,研究者可以更加聚焦于文本在某些分析维度上的内容特点。然而,这种以诠释为导向的分析策略也并非没有局限。一个被广泛提及的问题是,不同的研究者对于同样的内容所作出的诠释与编码可能存在很大的差异。例如,在克雷格的研究中,相同的广告内容是由3 位编码人员分别独立进行编码的,但是这些编码在一些分析维度上的一致性程度并不是很高(如Krippendorff’s Alpha取值比较低)。
诠释与结构并重的文本探索方法可以看作是对传统内容分析法的一种拓展。这里拓展的关键在于,通过计算机辅助的分析手段来对文本中的某些关键点进行结构化的分析和展示。在这一过程中,构成这种结构化信息的文本关键点通常是研究者基于特定的研究问题选择的文本中具有实质意义的元素。自然,这一选择过程不可避免地涉及研究者对文本内容的诠释和理解。也正因为如此,很多关键点的生成实际上正是依赖传统的内容分析法所提炼出的一系列关键词,这就是所谓“诠释”的一面。但是,与传统的内容分析法不同,诠释与结构并重的文本探索方法在诠释之外加入了对于关键点内部结构化特点的关注。这些结构化特点的挖掘和呈现通常而言超越了传统的内容分析法而借助于一系列的计算机辅助技术,这就是所谓“结构”的一面。
诠释与结构并重的文本探索方法可以有很多具体的例证。比如,语义网(semantic network)分析是指利用网络分析手段展示某一文本中特定的具有实质意义的词语彼此之间的复杂网络关系。如果说传统的内容分析法探究词语结构的方式是根据研究者直观的“肉眼”观察,那么语义网分析则是利用网络分析技术来探究复杂的关键词网络关联模式①DOERFEL M.What constitutes semantic network analysis?A comparison of research and methodologies[J].Connections,1998(2):16-26.。换句话说,之所以说语义网分析方法超越了传统的内容分析做到诠释和结构并重,是因为借助于网络分析技术,研究者可以确定语义集群(cluster)、词汇中心度(centrality)等网络结构特征(这些网络结构特征是社会网络分析技术中常用的统计量)②KNOKE D,YANG S.Social network analysis[M].Thousand Oaks:Sage publications,2019:1-19.。此外,通过随机图(random graph)和自助法(bootstrap),研究者也可以判断特定文本所呈现出的语义网络结构是否具有统计上的显著性③CHRISTENSEN A P,KENETT Y N.Semantic network analysis(SemNA):a tutorial on preprocessing,estimating,and analyzing semantic networks[EB/OL].(2019-10-22)[2021-12-13].https://psyarxiv.com/eht87/.。这些结构性分析都是传统内容分析法所不能够做到的。例如,在多尔菲尔(Marya Doerfel)和巴内特(George Barnett)的研究中,他们首先通过内容分析法抽离出国际传播学协会年会论文摘要中的一系列关键词,之后采用语义网分析对这些关键词的网络关系结构进行了分析,以此呈现了人文学科和社会科学之间的学科差异④DOERFEL M L,BARNETT G A.A semantic network analysis of the International Communication Association[J].Human communication research,1999(4):589-603.。
需要特别提及的是,诠释与结构并重的文本探索方法所分析的对象并不局限于内容分析法所抽离出的特定关键词或者主题词之间的网络结构,社会科学研究者还会通过考察其他的关涉结构的统计量来进行文本分析。例如,通过使用伽罗瓦格(Galois Lattices),研究者可以展现出一个文本中描述的主体(actor)和事件(event)之间的复杂关联,从而建构出所谓的二部图(two-mode)网络⑤FREEMAN L C,WHITE D R.Using Galois lattices to represent network data[J].Sociological methodology,1993(1):127-146.。诠释与结构并重的另外一个典型方法是量化叙事分析(quantitative narrative analysis)。所谓的叙事,可以被看作是一类特殊类型的文本,其主要描述的是一个具有完整“情节”的故事。因此,对于叙事的分析,重点不再是对文本词语关联的考察,而是要充分考虑其“故事性”。一个完整的叙事,通常涉及的是构成叙事“情节”的各种元素及其组合,最为简单的情节元素就是主体—动作—对象的三元结构,因此很多的社会科学量化叙事分析就是以此三元结构为基本的分析单元展开的。正因为如此,与传统的语义网络不同,量化叙事分析是一个以行动者为核心的分析策略,所得出的结论也主要是描述特定主体的社会影响,如特巴尔迪(Mauro Tebaldi)和合作者利用量化叙事分析展示了意大利总统在不同领域内的角色力(actorness)及其历时性差异①TEBALDI M,CALARESU M,PURPURA A.The actorness of the President of the Republic in Italian foreign policy:a quantitative narrative analysis of two case studies(1999-2013)[J].Quality &quantity,2021:1-27[2021-07-19].https://link.springer.com/article.DOI:org/10.1007/s11135-021-01206-7.。
随着计算机算力和算法效率的提升,社会科学领域对于文本的分析逐渐引入了越来越多的计算机分析手段,这一趋势使得社会科学的文本探索越发倾向于对文本进行结构化的考察。这方面比较有代表性的方法便是主题模型和词嵌入模型。正如本文开始时所述,经过短短十几年的发展,主题模型业已形成一套比较成熟的方法论体系。各种方法从不同的角度发展了布雷(David M Blei)等人提出的潜在狄利克雷分配方法②BLEI D M,NG A Y,JORAN M I.Latent Dirichlet allocation[J].The journal of machine learning research,2003(3):993-1022.。潜在狄利克雷分配方法可以视为一种多层次贝叶斯模型。首先,从超参数为α的狄利克雷分布中抽取主题分布的参数θ,这一参数在不同文本之间各不相同,即某一文本可以有不同的主题;其次,给定某一文本,以θ 为参数,针对文本中的每个词抽取特定的主题z;最后,特定主题下词的分布参数表示为β,结合z和β,就可以建模出特定词出现的概率。这里β也可以通过狄利克雷分布的超参数进行调整。通过这样的数据生成过程,潜在狄利克雷分配分析的最终目标是通过诸如吉布斯抽样或者变分法来获得θ 和β 的后验分布(posterior distribution)。其中,θ 可以帮助我们了解特定文本内的主题分布,β 则帮助我们获知特定主题下的词语分布。前者的功能是帮助我们基于主题对文本进行分类,后者的功能则是帮助我们了解特定主题下哪些词语属于高频词语,从而把握主题的实质含义。从某种意义上来讲,潜在狄利克雷分配方法是对文本内容的一种“降维”,以θ和β为基础,研究者可以以主题来代替文本,从而做到一种结构化的文本分析。
LDA 主题模型的分析基础仍然是词语的使用频率或者词频—逆文档频率(term frequency-inverse document frequency)。由于不考虑词语彼此之间的关系,因此仍属于词袋模型。正因为如此,LDA主题模型的一个比较大的局限在于很难呈现特定词语的上下文信息,而这恰恰是词嵌入模型的用武之地③ALMEIDA F,XEXÉO G.Word embeddings:a survey[EB/OL].(2019-01-25)[2021-12-13].https://arxiv.org/abs/1901.09069.。具体而言,词嵌入模型借助神经网络等深度学习技术,将词语使用的上下文信息考虑进来。在操作时,词嵌入模型基于词语的上下文信息,利用多层神经网络将词语映射到一个高维向量空间中,上下文信息比较接近的词语,在空间中也更为接近。通过词嵌入模型,原来离散化的词语被转化为一个连续型的变量,因此在分析时更为便利。更为重要的是,通过整合词语的上下文信息,在新的向量空间中词语的接近度即可认为是上下文信息的接近度,因此向量化后的距离测量更加具有实质意义。在具体应用时,向量化的词语所处的空间维度可能很高,不便于直观观察。研究者可以通过降维技术,在低维度(如二维平面或者三位空间)呈现出一系列词语的空间位置,以此展示出词语间的“亲疏远近”。此外,向量化的词语也为衡量文本间的差异提供了新的思路,即以汇总的词语距离来考察文本之间的距离④刘河庆,梁玉成.政策内容再生产的影响机制——基于涉农政策文本的研究[J].社会学研究,2021(1):115-136,228-229.。最后,研究者也可以通过引入时间维度,考察与特定词语空间距离接近的其他词语是如何随着时间变化呈现出历时性差异的。通过这种分析,研究者可以了解特定词语的(上下文)意义是如何随时间而改变的⑤KULKARNI V,AI-RFOU R,PEROZZI B,et al.Statistically significant detection of linguistic change[EB/OL].(2014-11-12)[2021-12-13].https://arxiv.org/abs/1411.3315.。
三、社会科学文本探索的方法论变迁
在上面的讨论中,本文展示了不同的社会科学文本探索工具,这些工具的提出和集中使用发生在不同的历史时期,因此与特定历史阶段的研究重点、计算机算力限制和理论关怀相关联。通过考察这些方法,可以近似勾勒出社会科学文本探索的方法论变迁特征,如表2所示,本文从研究目标、研究手段和研究对象三个维度来进行讨论。
表2 社会科学文本探索的方法论变迁
在研究目标方面,无论是早期的内容分析编码,还是日渐兴起的基于算法的文本挖掘技术,其共通点都在于对纷繁复杂的文本内容进行某种简化。但是,在对简化后的内容如何使用方面,却呈现出从诠释导向到因果/预测导向的变化。传统的内容分析基于人工编码,相对而言,编码后的数据所呈现出的信息比较简单,研究者完全可以通过直接审读这些编码信息来间接把握文本的内容。换句话说,无论是对原始文本的编码过程,还是对编码后的信息解读,都主要立足于研究者的诠释与理解。从这个角度来讲,传统内容分析法依然没有脱离社会科学诠释主义的分析范式。研究者采用内容分析法所希望获取的是文本所呈现出的实质意义,只是在这一过程中加入了某种编码和简化手段。但是,诠释与结构并重的文本探索方法在诠释之外开拓出了结构分析这一新的关注点。以语义网为例,研究者除了探究特定词汇本身的实质含义,也关心通过网络分析获得的词汇间的网络特点(如通过观察词汇之间是否存在某种结构化分隔来对大量的词汇进行分类)。同理,在量化叙事分析中,通过主体—动作—对象的三元结构,一系列活生生的“故事”和“叙事”逐渐让位给三元结构本身的结构性特点(如随时间的变动趋势等)。这种针对结构特征的分析在今天的算法模型中得到了更为直接的体现。LDA主题模型对于主题的抽取本质上是进行贝叶斯建模,各种词语的价值在于呈现出不同词语出现的概率差异。对于某一个词语具体是什么意思,其本身是否有潜在的含义等问题,并不在LDA主题模型关心之列,其结果是,抽离出的主题有可能自身不能够逻辑自洽,缺乏实质的理论和现实含义。这些局限给分析结果的经验诠释带来了极大的困境①CHANG J,BOYO-GRABER J,WANG C,et al.Reading tea leaves:How humans interpret topic models [C]// BENGIO Y,SCHUURMANS D,LAFFERTY J,et al.Advances in neural information processing systems.Cambridge:The MIT Press,2009:288-296.。词嵌入模型相比于LDA模型在上下文结合上有了一定的提升,但是这个方法仍然是将文本中词语的上下文语境简化为某种空间距离,研究者们对向量化了的词语进行分析时可以专注于这些空间特征而不必返回原文具体阅读上下文。在基于算法的各种工具的帮助下,文本结构性因素变得日渐“可见”。之后,研究者们便可以把这些结构性特征作为常规意义上的变量纳入各种结构化的模型分析(如回归模型)中,从而达到因果推论甚至预测的目的。此时,文本探索成为一种变量建构的手段,研究者后续的工作与传统量化社会科学研究在分析思路和研究策略上就没有实质区别了。
除了研究目标,在研究手段方面,社会科学文本探索的方法也体现出一系列的历时性变化,其中最为重要的一点就是研究者人工因素的逐渐淡化。如果说传统的内容分析法受社会科学研究者和其合作者(如其他编码人员)主导的话,那么到了诸如语义网分析这样的诠释与结构并重的方法这里,计算机辅助分析开始变得日渐重要。这种基于“机器”的分析过程既是特定算法实现的现实需要,也是处理体量日渐增大的数据的必然要求。实际上,文本元素内部的复杂结构已经不再是研究者个体通过直接阅读编码就可以辨识的了。这种“人工”的式微到了以算法为基础的文本挖掘这里,变得更为明显。例如,对于文本主题的挖掘无论在计算复杂度还是文本处理数量上会超越人力所及,分析过程需要依赖特定的软件和平台才能开展。此时,研究者甚至开始成为一种旁观者,算法的使用和最后分析结果的产生成为研究者个体无法触及和理解的黑箱②陈珂锐,孟小峰.机器学习的可解释性[J].计算机研究与发展,2020(9):1971-1986.。综上所述,社会科学的文本探索方法呈现出人工因素逐渐式微、机器因素日渐加强的过程①需要说明的是,这里我们所谈到的从人工主导转向机器主导并不是说“人”的因素的消失,由于算法本身也是人工开发的,即使到算法为主导的阶段也不可能脱离人而独立存在,这里所谈的人工主要是传统社会科学研究中以理论思辨和资料诠释为主要工作的社科研究者。当研究结论主要基于算法实现,传统的社科研究者则可能变成了一个“操作员”或者“旁观者”。。
但是,需要指出的是,社会科学研究中这种“人退机进”的发展趋势并非是不同学科共有的现象。正如社会学家迪马乔(Paul DiMaggio)所言,与社会科学研究的发展趋势相反,计算机领域恰恰从最早的片面强调机器与算法元素转向日渐引入人工因素,最终形成人机互动的发展格局②DIMAGGIO P.Adapting computational text analysis to social science(and vice versa)[J].Big Data&society,2015(2):1-5.。按照迪马乔的分析,社会科学研究对于研究者的主观片面性(比如个人的价值观、行为习惯、道德倾向等)偏误有着比较深刻的认识,因此在文本探索过程中力图向“客观化”的方向迈进,从而努力剥离人工因素。但是,那些熟悉机器和算法局限性的学科却努力引入人工因素,以求对机器本身的各种弱点进行纠正。对于这一问题,笔者认为,我们在文本分析过程中不可能做到完全剥离人工因素,即使是那些严格以算法为导向的分析技术,最后仍然需要研究者人工的介入。从这个角度来看,人机和谐交互或许会是社会科学研究的一个发展趋势。
在研究对象方面,社会科学文本探索的方法论呈现出从“意义”向“结构”的变化。如果说意义是一系列可以帮助我们理解特定社会现象的“说法”或者“故事”,那么结构则强调了不同因素之间的客观互动关联。显然,传统内容分析的编码结果鲜有对结构特征的呈现,到了诠释与结构并重的文本探索方法和后面以结构为导向的分析方法那里,结构性信息就变得越发重要。当结构因素成为承载科研结果的主要面向,研究者们便不再刻意追求特定的文本本身的意义,转而讨论结构性特征所具有的“意义”,或者说对结构性特征进行某种“二次”诠释。除了从意义向结构的变化,研究对象上的转向还体现在文本信息的载体变化上。由于人工分析能力的局限,传统的内容分析法所使用的是相对而言比较小的数据。例如,报纸的头版头条信息,时长较短的媒体影像资料(如广告)等。如果分析的文本规模太大,传统内容分析法则会通过抽样来人为降低分析对象的体量。整体而言,以内容分析法为主的文本研究更多地注重典型性,甚至很多文本分析的关注点都是个案性的资料,与这种分析对象相比,今天基于算法的分析对象可以是所谓的大数据甚至流(stream)数据。借助于迅速提升的计算机硬件算力和日渐高效的算法设计,文本挖掘的对象可以是人类目前为止所积累的海量书籍资料③陈云松.大数据中的百年社会学——基于百万书籍的文化影响力研究[J].社会学研究,2015(1):23-48,242-243.,也可以是某一领域全部的文本资料(如全唐诗)④陈云松.诗穷而后工——唐人生平际遇对诗作成就影响的量化分析[J].南京社会科学,2018(12):151-161.,此时所使用的数据甚至可以称为“全”数据,这种对海量数据的分析能力是传统文本探索技术所不具备的。
四、以算法为导向的社会科学文本探索:限制与发展
上文讨论展示了社会科学文本探索的方法论变迁特征,考虑到以算法为导向的文本挖掘技术在社会科学不同学科内的迅速应用,这一部分着重对这一新兴发展趋势进行讨论。由于这一类方法的介绍性书籍与论文颇多⑤IGNATOW G,MIHALCEA R F.An introduction to text mining:research design,data collection,and analysis[M].Thousand Oaks:Sage Publications,2017:3-12.,研究者们对于它们的强项已经有很多直观的感受,因此,下文重点分析这一类方法存在的限制和进一步发展的方向。
数据清洗:与传统的量化数据分析一样,在进行文本分析的时候,从一开始的原始数据到最后可用于分析的数据之间存在着一系列的数据清洗过程。具体而言,对于文本数据,数据清洗意味着需要对文本中存在的虚词、标点符号等词语进行去除,以及对同义词和近义词进行统一。和传统的定量研究相比,文本数据的清洗对于最后结果的呈现有着更为直接和深远的影响⑥DIESNER J.Small decisions with big impact on data analytics[J].Big Data&society,2015(2):1-6.。一个非常直观的例子是,常规的文本数据清洗操作会将文本中涉及语气的词语去掉,因为一般而言,语气词缺乏实质词义,因此不具有分析的实质意义。但是,如果所分析的文本是文学作品,那么很多情节的展开恰恰是通过一些语气词来实现的,此时去掉语气词就显得不合适了。再比如,在对英文进行文本分析的时候,研究者们通常需要对词语进行主干化(stemming)操作,但是一些词语之所以存在某种变体,恰恰在于作者希望能够作出非常精细的语义差别区分(如habitus和habit的区分)。如果不作区分直接进行主干化操作,有可能将这种语义差异掩盖。正因为如此,未来社会科学文本挖掘分析的一个重要的发展方向是对数据清洗过程进行标准化和流程化,以求提升分析结论的可比性。这也是可重复性研究的直接要求和题中之义①陈云松,吴晓刚.走向开源的社会学——定量分析中的复制性研究[J].社会,2012(3):1-23.。
过拟合:与传统内容分析不同,基于算法的文本研究所使用的量化分析手段更为复杂。例如,在算法的参数设定上,可以有不同的选择。在实践中,研究者往往通过多次试错来最后获得一个所谓的“最优”参数和“最优”模型。但是,这样做和定量研究中的p 值篡改(p hacking)有着异曲同工的逻辑,即针对某一特定数据,不断修改模型设定参数,直至p 值显著。从数据分析的角度来看,对某一数据反复试错来调整参数的一个最大的危害在于会出现过拟合问题,即模型对于数据的特征把握得过分好,以至于数据本身的噪声也被看作是有意义的信号。显然,这时的数据分析结论缺乏足够的泛化能力。例如,对东部地区政府官方文件的文本挖掘有可能会呈现出很多只有在东部地区才有的特点。此时,所得到的结论就很难推广到中西部地区。一个可能的解决策略是进行交互验证,即首先利用有限的数据进行模型拟合,之后用剩下的数据验证模型的泛化表现。但是与传统的机器学习方法不同,文本挖掘并非对某一连续型变量进行预测,因此如何用验证数据来评判模型的优劣对于文本分析而言仍然是一个亟待解决的问题,这本质上也可以看作是下文所谈到的验证问题。
验证:通过算法获得的文本分析结果一直以来都因为缺乏足够的验证手段而受到诟病。例如,主题模型获得的主题在多大程度上可以作为是对原始文本信息有“代表性”的抽离,这一问题一直以来缺乏一个被广泛接受的指标②CHANG J,BOYD-GRABER J,WANG C,et al.Reading tea leaves:how humans interpret topic models[C]//BENGIO Y,SCHUURMANS D,LAFFERTY J,et al.Advances in neural information processing systems.Cambridge:The MIT Press,2009:288-296.。传统的分析过程可以使用主题词语义一致性得分或者两两互信息得分来进行衡量③韩亚楠,刘建伟,罗雄麟.概率主题模型综述[J].计算机学报,2021(6):1095-1139.,这两种方法都是一种内样本(in-sample)的评估手段,即在获得主题估计之后,观察特定主题的关键词内部的一致性。但是,由于主题模型的拟合过程就是通过这些主题词的词频或者逆文档频率来构建主题的,因此这种内样本评估很难看出主题的泛化能力。一个比较合理的评估和验证手段应当是外样本(out-of-sample)评估,这方面社会学的计算民族志分析已经有了一些开拓性的探索,或许也应当是未来文本挖掘方法的重要发展方向之一④NELSON L K.Computational grounded theory:a methodological framework[J].Sociological methods&research,2020(1):3-42.。
关于验证的另外一个问题是如何确定文本和变量之间的关系。正如上文所言,研究者对文本进行挖掘之后所形成的一系列结构性信息可以作为变量纳入一系列的因果关系模型甚至预测模型中。以文本作为基础进行此类分析需要对文本所测量的变量究竟是什么有着清晰的认识,但是到目前为止,这方面的工作还有很多挑战。例如,以文本进行因果推断时,文本中既包含了研究者关心的变量,也包含了一些其他混淆因素。此时,以文本为单位所做的分析无法排除混淆因素的作用(即出现所谓的效应替代[aliasing])⑤CHRISTIAN F,GRIMMER J.Causal inference with latent treatments[J].American journal of political science,[2021-09-18].https://onlinelibrary.wiley.com/doi/abs/10.1111/ajps.12649.。此外,文本中的词语彼此相联系,因此以文本进行因果推断有可能违反了所谓的分析单位独立性假设⑥KEITH K A,JENSEN D,O’CONNOR B.Text and causal inference:A review of using text to remove confounding from causal estimates[EB/OL].(2020-05-01)[2021-11-13].http://arxiv.org/abs/2005.00649.。这些问题的核心在于我们对文本加工后所获得的信息在多大程度上能够代表研究者所需要的信息,其本质关涉的是测量的质量和效度。
五、代结语:迈向人机协作的社会科学文本分析
围绕文本信息,社会科学研究者有着多种分析工具可供选择,这些分析工具或以诠释为主导、或以结构分析为主导,或者二者并立。从传统的内容分析到新近的以算法为导向的文本挖掘技术,在研究目标、研究手段和研究对象三个维度上呈现出明显的过渡特点。而围绕着机器学习为基础的文本挖掘,本文从数据清洗、过拟合和数据验证三个方面讨论了其潜在的局限性和未来的发展方向。
尽管我们勾勒出了社会科学文本研究的一个大致的发展趋势,但是我们并不认为新近的方法可以取代早期的方法。相反,我们认为,不同的文本探索手段虽然在不同的历史时期开发出来,但其都有擅长处理的特定研究问题。因此,对于社会科学研究者而言,不是选取最新的方法就一定是最好的,而是应当根据自身的研究问题特点,有针对性地选择最“适合”的研究方法。例如,如果对于文本的叙事感兴趣,那么自然围绕叙事展开的量化分析手段更有优势,尽管新的文本挖掘手段可以在分析效率上对前者有所增益和补充。总之,方法毕竟是达成研究目标的工具,何种工具最恰当是由研究问题决定的。此外,针对同一问题采用多种手段也可以起到方法互补或者互相验证的效果,这也是经验研究者可以考虑的综合性分析策略。
社会科学的文本分析和计算机领域内的自然语言处理方法之间的界限随着大数据时代的到来开始变得越发模糊。实际上,无论是分词等数据预处理技术,还是主题模型这样的新兴技术,其都来自于自然语言处理领域。但是,社会科学的研究旨趣与自然语言处理的主要任务之间还是有所区别。从某种意义上讲,这种区别有些类似于布雷曼所谈的两种统计分析文化①LEO B.Statistical modeling:the two cultures(with comments and a rejoinder by the author)[J].Statistical science,2001(3):199-231.:社会科学研究者希望能够利用文本分析来理解和诠释某种社会现象,但是自然语言处理的主要功能在于对文本进行简化、分类和预测。正因为如此,很多时候,如果社会科学研究者直接把自然语言处理的方法拿来使用的话,会感觉有种隔阂感,或许这种隔膜就来自于两派研究的旨趣和目标差异。鉴于此,尽管在可预期的未来,自然语言处理的技术会越来越多地被社会科学研究者所使用,但是这种使用的目标却有学科差异。
可以想见的是,随着算法工具的日渐丰富,基于文本探索的社会科学研究者将会大有可为。但是如文中所指出的,文本的分析切不可掉入“重机器轻人工”的陷阱。由于文本本身的复杂和多义,单纯通过一些表面特征获取的文本简化信息必定是不完全的。因此,未来社会科学文本分析的努力方向应当是寻找一种人机协作互动的工作方案。这方面比较成功的探索往往用机器做一些探索性和数据简化的工作,之后研究者参与进来对机器所呈现的结果进行诠释和理解②NELSON L K.Computational grounded theory:A methodological framework[J].Sociological methods&research,2020(1):3-42.。如果按照这种人机协作的工作模式,机器的作用在于探索,至于这种探索是否有学科层面上的理论价值和实际生活的现实意义,则由具有理论素养的研究者来进行。从这个意义上讲,机器和人工之间存在了某种分工,各自负责自己所擅长的部分,以共同完成某一研究。
最后,需要提及的是,文本的价值和意义并非是文本本身的属性。实际上,大量的文化社会学理论早已指出,文本的意义是作者和读者互动过程中产生的。因此,单纯关注文本特征,或者仅仅考虑作者信息,对于理解文本而言总是片面的。如何更好地整合读者信息,从而将作者—文本—读者三元一体纳入现有的社会科学分析框架,应当是未来社会科学文本分析需要考虑的问题之一。