自然语言处理在计算传播学研究中的应用、挑战与机遇

2021-09-10石豪

传播与版权 2021年4期

石豪

[摘要]信息技术驱动传播学范式转移，进而增加了学科研究对文字数据挖掘技术的依赖。文章尝试梳理计算传播学的背景和概念，分析计算传播学的学科诉求与自然语言处理技术引入的必要性，阐述自然语言处理技术在计算传播学中的应用与面临的挑战，并对未来自然语言处理技术如何应对学科问题提供有益思路。

[关键词]计算传播学;自然语言学习;研究范式

信息技术的发展推动计算社会科学的兴起。2009年Lazer等学者在《科学》杂志发表文章，提出信息技术强大的数据获取和解析能力为社会学研究范式变革和互联网上人类社会行为的研究提供了新的机会。计算社会学通过考察网络空间中海量的人类行为数据，来消除异质性和噪声因素，使其可以分析复杂的社会系统，关注系统中的社会现象，丰富人们的社会认知，提高学科理论建构深度和跨学科研究的关注度[1]。

计算社会科学视角促进传播学范式转型。计算社会学对海量数据的利用，丰富了传播学获取数据和预处理数据的有效途径。计算社会学的计算分析方法为传播学要素的数据挖掘、分析和检验提供了多种方式。计算社会学中网络科学研究为传播学提供了方法和工具，同时拓展了传播学研究对象的边界。计算社会学对传播学学科的创新引起了Cohen等学者的注意。他们于2011年提出通过信息技术发展新闻传播学这一有价值的洞见。随后，祝建华和王成军等学者在2014年提出建立计算传播学这一研究领域。2015年，第一本计算传播学图书《社交网络上的计算传播学》出版。

经过几年的发展，有关计算传播学在国内外期刊的学术论文数量和引用率都有显著提高。计算传播学研究取向逐渐受到传播学者关注，北京师范大学、南京大学、复旦大学、中国人民大学等高校的多名学者以计算传播学作为目前的主要研究方向，python和机器学习等计算传播学常用知识逐渐被引入传播学研究生课程中[2]。

结合王成军于2014年提出的计算传播学定义[3]，计算传播学是以信息技术和网络科学为数据收集和分析工具，寻找人类传播现象中的可量化基因，用于描述传播现象、传播结构、传播过程和解释传播各要素之间的因果关系的一门传播学新兴研究取向和范式。

一、计算传播学研究诉求与自然语言处理的引入

计算传播学带来的传播学范式调整是多方面的。一方面，计算传播学使得传播现象的研究不拘泥于功能研究，而是对复杂多元的传播现象和群体特征的描述，并进而提炼出新的研究主题及其背后意义。另一方面，计算传播学可以较好地平衡研究者的主观思想和文本研究的客观性要求。信息技术使得学科可以关注假设之外的碎片化、小概率且大容量的事件信息，探究背后真正的传播要素[4]。

计算传播学研究范式对文字文本研究相关工具具有迫切需求。文字文本是新闻传播研究的重要对象，也是在计算传播学研究中数据获取、挖掘和分析的主要内容。相比图像数据，网络空间中的文字文本具有容易获取、数据处理所需背景知识相对较少、数据计算量小等优势。图像数据通常是矩阵格式的RGB像素组成的集合，对图像数据的处理需要运用图像处理和计算机视觉等相关学科知识，而文字文本占用空间极小，同时也不需要图形、图像的背景知识，符合传统新闻传播学者的研究习惯，增加了研究的可及性。因此，文字在计算传播学中具有更广泛的应用。

然而，社交网络上的数据来源缺乏管制，使计算传播学研究面临巨大挑战。网络数据的获取和分析是计算传播学研究的必修课。许多学者倾向于直接获取网络提供的数据和依赖数据来源已经提供的数据框架，如国家统计局、twitter数据接口、Gdelt新闻地图[1]和WOS索引中的SCI/SSCI论文分析等。网络对数据的管制涉及隐私问题和商业机密，所以社交媒体平台通常不会公开数据API。尤其是剑桥丑闻后[5]，网络隐私研究持续受到公众舆论压力，各大网络平台开始收紧数据开源接口。

综上，计算传播学中需要一套行之有效的机器文字语义识别方法作为网络空间的语义文本分析工具，用来提升数据获取能力、处理效率和分析能力，进而满足个性化、定制化的数据获取、组织和处理需求。这时，自然语言处理技术开始进入计算传播学者的视野，成为计算传播学文本研究的得力工具。

自然语言处理（natural language processing，简称NLP）技术是实现机器与人进行语言互动的各种理论和方法。它主要处理的是语言和音频等非结构化的数据，它可以帮助机器理解、解释人类语言，使得机器与人进行语言互动。NPL有自然语言理解和自然语言生成两大核心功能。前者帮助机器理解人类语言，后者让机器可以与人沟通。自然语言处理的原理是通过预处理过程将非结构内容标准化，被标准化的内容可以被机器正确解析，并实现特定功能。其中，对语言的预处理需要经过分词（Tokenization）、词干提取（Stemming）、词形还原（Lemmatization）、词性标注（Parts of Speech）、命名实体识别（NER）、分块（Chunking）六个步骤。标准化过程可以通过机器学习和深度学习两种方法实现。机器学习包括语料预处理、特征工程和选择分类器三个步骤;深度学习包括语料预处理、设计模型和训练模型三个过程。

在计算传播学研究中，基于机器学习的自然语言处理方法较为常用，它包括四种分析方法。一是文本分类。文本分类通常包括监督学习，即在训练集中同时给出特征向量和标签，完善模型分类方法。二是文本聚类。文本聚类是无监督学习方法，在模型训练中仅仅给出特征向量和分类数目，机器通过分析样本特征向量相似性，对其进行聚类，最终达到分类的目的。三是关联分析。关联分析主要是找出特征向量和结果之间的简单关联性、时序关联性和因果关联性。四是趋势预测。趋势预测是通过已有数据得到时间序列分布，找到變化趋势，以达到数据预测的目的[6]。

二、自然语言处理在计算传播学中的应用

自然语言学习目前在计算传播学中应用较广的功能是词频分析、情感分析和语义建模。

第一是词频分析。词频分析是计算传播学者经常使用的功能之一。百度指数、微博热度、抖音热榜等网站热词排名原理是根据分布式大数据系统流处理方法，对经过自然语言学习“分词”技术预处理后的词语信息进行数量统计。而大多数学者研究时通常利用第三方分词库对特定爬取文本数据进行词频分析。

在传播者研究中，Wu等人（2011）通过对Twitter用户进行随机抽样、设定关键词找到了54万关键用户，通过关注度和发帖量锁定了意见领袖和普通用户;Himelboim等学者发现话题注意力分布在服从冥率分布，论证了公众舆论传播的不平等性[7]。在受众研究中，祝建华和Fu等学者都通过社交网络上的发帖和接收频率来寻找受众，发现了社交网络用户的动态流动性，并将受众区分为“围观者”“潜水员”“单篇作者”[6]。在内容研究中，有学者根据网络搜索词对公众注意力进行追踪，如流行词、热词、幸福指数等测量效度[2]。哈佛大学利用扫描500多万种出版物关键词的词频来分析语言与社会变迁。在传播渠道研究中[7]，Petrovic等学者通过统计70多天中新闻对各种事件报道的数量，发现社交媒介与传统媒体在新闻时效性上相似。在效果研究中，Zhao等学者通过分析强国论坛中的帖子数、媒体报道数和公众采纳数，分析公众舆论的宏观效果[7]。

第二是情感分析。情感分析的本质是利用算法依照特定的情感类型对文本进行分类处理，如积极与消极、高兴与悲伤等类型。情感分析任务包括情感分类、主观性判断、意见总结、字典分析和评论有效性分析等[6]。通过情感分析算法，学者可以对网络空间的文字信息的评价对象和被评价主体、传播话题内容和情感倾向、意见传播的时间进行态度分析。

一些学者将情感分析用在电商消费者口碑传播分析中，他们把评分的高低作为消费者积极或消极的指标;或者通过人工标注、词典匹配和共生词网络来分析消费者主观评价的情感倾向[6]。情感分析还可以用于虚假信息的判定。如Jindal和Cupia等学者通过分析同一用户对存在竞争关系的商家评价的差异度，来分析信息的真实度和水军散布流言的方式。情感分析还被学者用来分析社交媒介人群的情感倾向[7]，研究幸福感、孤独感、抑郁感，以及情绪传染网络传播结构和趋同性。如Dodds等学者通过对Twitter用户分析发现人的情绪与节日有关;Zhao等学者通过情绪分析微博用户对新闻事件的看法;Fowler等学者发现了社交媒介的群体情绪传染现象[6]。

第三是语义建模。人类的语言非常复杂，每个词语在不同的环境下具有不同的含义，而语义建模就是通过算法结合语境对词语背后隐含的意义进行解读。这一技术在计算传播学中应用较为成熟的技术是主题解析，即找到所述内容所属的主题类型。

基于此，计算传播学可以研究网络社交媒介场景下的传播者。如祝建华等人探讨了媒体、政党和专业博客在不同主题传播中的议程设置策略。在对社交媒介中的受众进行分类和描述中，Benevenuto 等人找到了社交媒介内容生产者和消费者之间的比例关系。在媒介生态研究中，对于“内容为王”还是“渠道为王”之间的争论是学者热议的话题[8]。Zhao 等人通过内容建模对《纽约时报》和Twitter中的新闻内容主题进行分类，不但找到了不同场景下内容阐述最多的主题，而且区分了以事件为导向的话题、以人物及组织为导向的话题和持续性话题。Qin等学者结合语义挖掘工具找到了“棱镜门”媒体呈现的框架[9]。网络空间的数字痕迹给传播结构和渠道的研究带来了便利，如数字信息的扩散网络和数字媒体与传统媒体信息扩散的差异性[10]。Kwak 等人发现社交媒介中的信息主题扩散倾向于广度; Kim 等人发现新闻扩散与新闻主题类型的关系;Digg等学者发现社交媒体中的协同过滤与集体把关现象[7]。在效果研究中，主题识别被用于研究新闻传播对受众的影响，如研究通过提取论坛网络用户的语义，对比用户知识框架和阐述的异同。还有一些学者通过主题识别找到社交网络人类行为传播特征，如恶性行为、合作行为、导致肥胖行为、吸烟行为、饮酒行为、睡眠行为等[7]。

三、自然语言处理在计算传播学研究中面临的挑战

（一）自然语言处理技术的局限性导致了计算传播学研究的局限性

自然语言处理算法一种是依赖人工的监督学习算法，还有一种是非监督学习的聚类算法。这两种算法都难以满足人们对海量数据进行精确处理的需求。由于算法无法直接找到最精确的文字语义，传播学者只能退而求其次，选择词频分析、情感分析和主题分析作为研究的主要方式[4]。

（二）自然语言处理技术的局限性导致了技术工具的适用性问题

自然语言处理算法直接影响了数据处理结果。然而，大多数传播学者不具有很强的算法研究能力。因此，传播学者在运用自然语言处理作为工具的时候，往往利用别人已经封装完成的NLP框架，无法根据特定应用场景需求制作定制化框架，进而无法满足各类个性化研究的需求。这样一方面会导致同一组数据结果出现偏差和雷同，另一方面会导数据无法被充分有效利用。由于不了解算法构造，因此自然语言处理算法对传播学者来说就是一个无法解释的黑箱。他们无法证明支撑整个研究逻辑的关键变量是否可控，也无法证明通过算法得出的数据结论是否有效。

（三）自然语言处理技术的局限性导致了研究方法的僵化和同质化

自然语言处理方法为传播学者提供了有力的文字文本分析工具，使其得以分析网络空间中的海量文字数据，但自然语言处理技术的局限性和传播学者对技术了解不够深入导致技术框架被重复、不科学的利用，一定程度上也带来了研究方式的僵化[11]。

（四）研究方法的同质性导致了理论研究难以突破

計算传播学的研究大多是传统社会学经验研究的延续，研究过程逐渐演变成对原有理论更加精细化的论证和描述，难以开发出新的理论。许多文章是对已知理论和常识的解释和论证，而不是对未知问题的求解。

四、未来自然语言处理带给计算传播学的机遇

自然语言处理技术不断发展为计算传播学带来了新的可能，也为应对计算传播学研究中的诸多问题提供了新的思路。

第一，2017年谷歌团队提出的Transformer自然语言模型利用attention结构代替了lstm机制，其不但可以有效地分析全局信息，而且在计算复杂度和准确度上也全面超越了RNN和CNN。基于transformer模型的相关研究成果有可能衍生出新的更加精细化、可及性和定制化的文本挖掘技术，进而为未来自然语言处理在計算传播学中的应用提供新方法[12]。

第二，自然语言阅读理解技术的快速迭代为计算传播学文本的精细化、定制化研究带来了曙光。自然语言阅读理解（MRC）算法使机器可以根据语境理解语言含义，总结归纳提炼要点，着力解决语言的多样性、歧义性、鲁棒性和知识依赖，经过MRC到KBMRC（知识依赖的机器阅读理解，Knowledge-Based Machine Reading Comprehension）技术有着显著提高，但在“检测无法回答的问题”和“合理答案的区分”等方面仍面临许多难题[13]。

第三，在计算传播学的研究中，人们通常是先提出模型，再通过统计学等学科进行关联性验证。然而，文字文本数据中通常包含许多难以察觉的隐含变量。这些变量具有小样本、离散和高维等特点，无形中增加了模型设计的难度。而基于无监督学习的自然语言处理技术可以在先不给出具体模型的情况下，直接挖掘数据的特征向量[14]，因此，能够察觉到这些隐含变量，进而弥补假设模型的先天性不足。

第四，自然语言处理将进一步推动计算传播学研究的客观性。为了缩短计算传播学与客观的“科学”之间的距离，计算传播学者一直在致力于用更加客观的方式研究传播对象，随着自然语言处理技术不断进步，其准确性和客观性将大大提高。比如，计算传播学者将调查问卷和访谈替换成了信息技术挖掘下的数据集和验证集，通过海量数据弱化个体间的异质性等。

第五，自然语言处理催生的传播模式和伦理探讨。除了语言理解，自然语言处理的另一个重要功能是自然语言生成，其应用场景为数据新闻，如机器文字写作、社交机器人和AI论文等。随着自然语言处理技术的发展，网络空间将出现更多机器生成的文字文本，同时也为计算传播学的研究对象、模式和伦理提供了新的议题。

[参考文献]

[1]王成军.计算传播学的起源、概念和应用[J].编辑学刊，2016（03）：59-64.

[2]王成军.计算社会科学视野下的新闻学研究：挑战与机遇[J].新闻大学，2017（04）：26-32，146.

[3]王成军.计算传播学：作为计算社会科学的传播学[J].中国网络传播研究，2014（00）：193-206.

[4]谷羽.语义网络分析方法在传播学中的应用及批判[J].现代传播（中国传媒大学学报），2019（04）：155-159.

[5]李晓静，付思琪.智能时代传播学受众与效果研究：理论、方法与展望—与香港城市大学祝建华教授，斯坦福大学杰佛瑞·汉考克教授对谈[J].国际新闻界，2020（03）：108-128.

[6]张伦，王成军，许小可.计算传播学导论[M].北京：北京师范大学出版社，2018.

[7]许小可，胡海波，张伦，王成军.社交网络上的计算传播学[M].北京：高等教育出版社，2015.

[8]张伦.计算传播学范式对传播效果研究的机遇与挑战[J].新闻与写作，2020（05）：19-25.

[9]张伦，钟智锦.社会化媒体公共事件话语框架比较分析[J].新闻记者，2017（02）：69-77.

[10]张伦，胥琳佳，易妍.在线社交媒体信息传播效果的结构性扩散度[J].现代传播（中国传媒大学学报），2016（08）：130-135.