APP下载

有监督机器学习技术在新闻学研究领域的应用与展望

2020-11-17潘卫华

新闻前哨 2020年10期
关键词:新闻学议程机器

◎李 佳 潘卫华

与其他传播科学领域一致, 新闻学研究也已经开始使用计算分析方法。在这些方法中,有监督的机器学习技术得到了越来越广泛的关注。 该技术的主要优点在于其预测能力,例如,预测新闻价值或通用新闻框架的流行度。

那么, 有监督机器学习技术在什么条件下可以对新闻学研究带来促进作用?目前的研究存在哪些问题?新的技术将为新闻学理论的发展会带来哪些变化?本文试加以分析。

一、新闻学领域中的有监督机器学习

有监督机器学习技术与其他统计推断方法、 无监督机器学习技术的最大区别在于其可预测性。举例来说,有监督机器学习是从训练数据中建立一个模式, 并依此模式预测新的实例。相比而言,无监督学习的目的是对原始数据进行分类,以便了解数据内部的结构,在学习阶段并不知道其分类结果是否正确。 而有监督机器学习技术可通过测试大量模型以找到在预测方面性能最佳的模型。

在新闻学研究中, 统计推断的方法主要是用来做自动内容分析, 其最简单的形式就是对数据库中的某些关键字进行计数。然而,这种基于字数统计的文本分析方法不能对文本的前后文或者变量进行关联分析。 而有监督机器学习技术可以抓住大型新闻数据库中更多的潜在和隐含变量,从而可以比简单的字数统计更好地理解文本的含义。

机器学习算法的目标是对文本进行编码, 并用特定的标签进行标注。针对简单的分类应用,一般会采用二进制的编码方式, 来判断文本所展现出来的情绪是积极的还是消极的,或者文本内容主要针对的是男性用户还是女性用户。随着机器学习技术的发展, 有监督机器学习技术甚至可以实现自动编码,从而进一步降低时间和财务成本。从目前的研究结果来看, 研究人员普遍认为有监督机器学习技术非常适合自动内容分析, 采用自动编码的方式可以弥补精度降低所带来的损失。

总的来说, 在新闻学研究中采用有监督机器学习的方式做内容分析是很有必要的,其主要原因有三点。 第一,一般来说机器学习无需对文本数据进行重新采样, 从而可以在不增加成本的情况下同时对多个文本进行分析。第二,有监督机器学习可以提升新闻学研究的可靠性。 研究人员可以共享训练数据和算法, 从而保证标签的标记方式完全相同,也就降低了人为操作导致错误的可能性。 第三,有监督机器学习可以促进新闻理论研究, 帮助探索新的新闻学研究方法。

二、当前存在的主要问题

如上所述,采用有监督机器学习技术的优势之一是可以处理更大的样本量,但大的样本量也存在一定的问题。第一,可能存在数据质量较低的问题,这也是自动化和可靠性之间的固有平衡。 第二,对大样本进行处理,其统计能力或者性能会在达到某个阈值后不再提高, 过大的样本量也增加了得出微不足道的结论的可能性。 第三,已有的社会科学方法论已经在抽样理论中得到了较好的发展, 在某些情况下使用相对较小的随机样本进行抽样往往会产生更好的结果。

在可靠性方面, 目前主要质疑的是机器学习模型是否真能够捕获其目标变量的深度内涵和细微差别。事实上,目前的机器学习技术还无法掌握人类语言含义内在的细微差别。 在文本分析中所使用的机器学习技术往往仅限于明确的概念,比如用来判断某文本是否属于娱乐新闻的范畴。当机器学习技术应用到多项分类任务中时, 其预测的准确性会受到较大影响。此外,机器学习模型的可扩展性也会受到新闻学研究领域依赖性与特殊性等方面的限制。比如,人们的审美、爱好、政治倾向等都会随着时间改变,其对新闻传播的影响也随之变化。 有监督机器学习技术不仅需要大量的训练数据, 而且在某些领域或时间段可能表现不佳。 因此,要想实现标准化的自动编码或者机器学习模型,几乎是不可能的。

三、新闻学研究与计算机科学的融合

在线新闻数据的丰富和可用性加速了新闻学研究和计算机科学之间的融合, 这很大程度上超出了以往新闻学的研究范围。目前来看,计算机行业研究者的首要重点是算法及其性能,而较少关注该算法如何提高我们对新闻的理解,这可能导致一种低水平的经验主义。在某些情况下,研究中使用的与新闻相关的数据可以与任何其他类型的文本互换。目前,关于如何利用模型理解媒介这一社会机构的理论研究很少。 这可能是由于计算机科学家和新闻学者都习惯了两种不同的统计建模文化, 计算机科学家将统计数据视为做出准确预测的工具, 而社会科学家则将统计数据视为根据理论假设揭示变量之间因果关系的工具。 不同的理论方法也反映出模型评估的不同标准。

为了在新闻学研究中可持续地使用机器学习技术,我们认为需要确保机器学习技术集成到新闻学研究现有的认识论框架中。新闻学研究是本身就是跨学科领域的研究,因此,如何在传统的新闻传播学研究中融入计算机科学方法,使有监督机器学习技术成为新闻学研究现有方法框架的补充是值得探索的。

四、未来的研究方向探讨

不断变化的社会技术环境已向新闻学者提出了新的挑战。 新闻学的许多核心理论在当代数字新闻生态中得到了进一步发展。我们认为,可以利用有监督机器学习技术来对新闻学理论研究进行补充。

举例来说,上世纪媒体环境相对简单,议程设置理论蓬勃发展。 但在当前的媒体环境中,这一理论都受到了挑战。议程设置理论放大了媒介的主导作用, 但忽略了受众的能动性。 下面来简要说明为什么有监督机器学习技术可以帮助我们应对复杂的媒体环境对议程设置理论的挑战。

议程设置意味着因果关系主张,一般来说,预测和因果关系是相辅相成的。 有监督机器学习技术可以用于建立模型, 该模型可以根据以往的议程来预测未来某个时间点的议程。 首先,需要两个分类器,一个用来确定主题或事件在不同的媒体平台上是否属于同一类别, 另一个用来确定产生信息的参与者的类型 (权威机构、 新闻媒介、普通大众等)。 然后,构建一个可以处理预测时间相关的数据序列模型。 一旦有了一个可以预测未来议程的模型,我们可以将该模型运用到实际的新闻生产中。 该模型的预测结果, 与实际的议程设置结果势必存在一定的差距。 在新的媒体环境中,有监督机器学习技术可对媒体数据进行分析, 并通过学习实际的议程设置结果对算法进行修正,使预测模型不断完善。 这意味着,有监督机器学习技术可以帮助解释不同的因素, 如受众的反馈意见对下一阶段的议程设置有怎样的影响, 从而使我们更好地掌握媒体生态。

总而言之, 机器学习技术可以用来对新闻理论辅以解释,通过在理论研究中应用有监督机器学习技术,我们可以更深入地了解这些理论在当前时代所经历的变化。

结语

我们分析了基于有监督机器学习技术在新闻学研究领域的现状,并指出了未来的可能发展方向。 我们注意到,有监督机器学习技术在大型数据样本、 可扩展性和成本效率的假定优势并非在所有情况下都适用。根据项目的目标,基于传统方法构建的样本可能更合适。

有监督机器学习技术目前在新闻研究中的应用仍然由算法主导,但为了进一步发展,我们需要考虑如何将有监督机器学习技术纳入现有新闻学的典型理论研究中。 这里潜在的研究方向是利用有监督机器学习技术的预测能力来掌握数字新闻生态系统的复杂性, 使预测能力与解释性研究相协调。 当然,有监督机器学习只是一种分析方法,绝不能替代新闻学者已拥有的丰富的背景知识, 只有让机器学习技术与当前新闻学研究方法相辅相成, 才可能得到更加令人满意的研究成果。

猜你喜欢

新闻学议程机器
机器狗
机器狗
德国《2010议程》议会辩论的话语分析
第六届全球深商大会议程
未来机器城
论博士格·德力克对新闻学和教学的贡献
G20为推动落实2030年可持续发展议程注入新动力
新闻学理论在网络媒体时代的变革与创新
当代新闻学的网络化发展
会面议程