APP下载

从解构到重构:结构化新闻的概念承递、价值与未来*

2019-05-24何德俊

中国出版 2019年9期
关键词:知识库结构化数据库

□文│胡 兵 何德俊

结构化新闻不管作为一种技术还是一种新闻范式,研究其概念承递与研究变迁可为当下自动化新闻的纵深发展提供新的思路。然而,目前国内外只有少数学者在进行结构化新闻的研究,且多为新闻数据如何结构化的技术性论文。综观这些论文,与本文研究的结构化新闻(新闻的原子化与再利用)在研究对象上有所不同,在研究视角上也存在差异。国内既缺乏结构化新闻的实践,对结构化新闻的研究也只停留在概念的认知层面,缺乏深度和广度的研究;而本研究采用“微宏互补”的研究视角,注重思辨性和宏观性。希望当下新闻生产者能看到结构化新闻对新闻业带来的深远影响以及发展机遇。

一、结构化新闻的概念承递与研究变迁

尽管“structured journalism”在国外也是近几年才出现的概念,但与其相关的研究已存在十几年。它的前身是数据库新闻(database journalism),其也属于近几年热门的自动化新闻(automated journalism)领域。 “structured journalism”在国外发展的脉络如何?其与同由数据库新闻演进而来的数据驱动新闻(data-driven journalism)又有何不同?

1.后“数据库新闻”阶段:解构新闻

数据库新闻,作为计算机辅助报道的同义词,可以追溯到20世纪50年代。到了20世纪90年代,记者们开始尝试从一些数据库中找一些数据集,挖掘新闻专题,这些数据库既包括政府公开数据库,也包括媒体自己的数据库。[1]早期的数据库新闻没有以机器可读的方式将新闻信息保存起来,这些数据的价值没有被挖掘,无法重新利用或聚合成新的故事。只是在形式上通过新闻链接的方式,利用原有的新闻信息资料对已有的新闻报道元素进行深度和广度描述链接。[2]

互联网的发展给数据库新闻提供了一个新的定义。传播学者维贝克·卢森(Wiebke Loosen)将数据库新闻定义为“通过使用与媒体无关的发布系统将原始资料(文章、照片和其他内容)充实数据库,并将其提供给不同的设备”。[3]传统新闻将文章作为最终产品,而数据库新闻生成不断维护和改进的事实数据库。[4]2007年起数据库新闻迅速发展,包括英国广播公司(BBC)、《卫报》《纽约时报》和美国国家公共广播电台等多家新闻机构在网站上发布应用程序接口(application programming interface,API),开放给用户提供数据。这些新闻机构将新闻内容视为数据,承认他们活动的核心不是编写故事,而是数据收集和数据分发。到了2011年,一些项目的数据库本身就可以被视为新闻网站,读者可以通过数据库接口对数据库进行检索和分析,从而发现新的“新闻”。至此,数据库新闻演变成一种由结构化数据碎片组成新闻内容的信息管理准则,重在对新闻故事的解构,将新闻信息碎片化后存入数据库以备后用。

2.结构化新闻阶段:原子化新闻

由于业界逐渐发现非结构化数据(不可以用行列表格呈现的数据)在新闻生产过程中的重要性,希望找到一种自动化的方式去“解构”这些新闻故事中的元素,并将这些元素保存起来进行再利用,继而自动生成结构化的“新”报道。结构化新闻的概念亦随之出现。随后,“structured journalism”一词见诸于一些记者的博客中;BBC新闻实验室、《纽约时报》研发中心、《华盛顿邮报》、尼曼实验室、杜克大学记者实验室、密苏里新闻学院雷诺兹新闻研究所等也相继开展了以“structured journalism”标识的研究项目或实践项目,例如“政治事实(PolitiFact)”项目对政府或非政府人员在公开场合发表的政治陈述文本进行处理,并将每一个个案呈现出来供用户查询。结构化新闻就是将日常的非结构化新闻文本处理成结构化数据并再次利用在新的报道中或者将其可视化。[5]新闻故事拆分得越小,获得的价值越大,所有的故事都是在一个不断扩张的网络当中相互关联的。[6]因此也有学者把结构化新闻称为“原子化新闻”。

随着数据挖掘技术的发展,新闻数据库中的数据价值被挖掘出来,“数据新闻”(data journalism)或称为“数据驱动新闻”(data-driven journalism)是“数据库新闻”的另一个演进方向。结构化新闻与数据驱动新闻都与“数据”有着密切的联系,但两者的本质却并不相同。数据驱动新闻强调从数据当中去挖掘新闻故事,是一个“数据—新闻”的过程。而结构化新闻则是对新闻文本及内容的解构和重构,强调构造和维护基于新闻内容的知识库,并最终生成更多新闻故事,是一个“新闻—数据—新闻+”的循环增值过程。

3.自动化新闻2.0:重构新闻

2016年,第三次人工智能浪潮席卷各行业,自动化写作系统的开发与应用也风生水起,“自动化新闻(automated journalism)”一词逐渐普及。而“structured journalism”一词却在国外媒体和文献中少有出现,仅有一些“结构化故事(structured stories)”“结构化叙事(structured narratives)”表述。媒体和学术机构开放的以“structured journalism”标识的项目大多都没有更新。由此可见,从2017年起国外已逐步用“automated journalism”“算法新闻(algorithmic journalism)”或“机器人新闻(robot journalism)”等词代替“structured journalism”。结构化新闻表述的变化也预示着对结构化新闻研究重点的变迁:其一,结构化新闻不像数据库新闻只关注对新闻信息解构成“原子”存入数据库,同时也强调将这些“原子”重构成新的更有价值的新闻报道,也就是说“解构”与“重构”同样重要。其二,新闻记者逐渐将注意力集中到蕴含价值更大的非结构化数据之上,不仅对结构化的新闻信息进行解构,更关注非结构化新闻信息的解构。

二、结构化新闻的技术框架:I-T-O模式

结构化新闻主要涉及自然语言处理(natural language processing,NLP)和自然语言生成(natural language generation,NLG)技术,其核心在于知识库的构建。赖特(Reiter)等人曾使用“I-T-O模式”去解释NLG技术在新闻生产上的应用。[7]笔者借用这个“I-T-O模式”分析结构化新闻的技术架构。“I-T-O模式”分别对应输入层(Input)、处理层(Throughput)以及输出层(Output),如图1所示。

图1 “I-T-O模式”下的结构化新闻技术框架图

1.输入层

所有自动化新闻都需要先读入大量的数据。输入层主要有数据读入和事实核查两个环节。

数据读入(data ingestion)。与一般的机器写作不同,结构化新闻的输入并不只是诸如体育比赛、金融股市等高度结构化的数据,传统的非结构化新闻文本才是结构化新闻的主要输入源之一。媒体的历史新闻数据库以及社交媒体的公开API也是结构化新闻数据输入的主要来源。随着技术的成熟,图像、视频等也在逐渐成为结构化新闻的输入数据。

事实核查。为确保新闻报道的真实性,对于已读入的文本数据,必须要进行报道真实性、发布媒体权威性以及数据精确性等事实核查操作。目前,依靠机器已经能实现大部分的核查操作,但涉及伦理道德等问题的审核依旧需要人工干预。

2.处理层

该层主要负责新闻文本的“结构化”。

信息抽取(information extraction)。采用NLP技术和文本挖掘方法的信息抽取就是将非结构化数据“结构化”,将新闻文本拆分成零散的“信息碎片”,从中发现新知识并将其转换为可理解的有用信息,然后对这些碎片进行语义标注(tag)并存储起来。简单说,NLP的工作就是“读”新闻,将文本置于上下文中理解。信息抽取具体包括三种关键技术:命名实体识别、关系抽取和事件抽取。

命名实体识别。日常的新闻文本中通常包含着大量的人物、地点、组织等要素。在NLP技术中,这些要素被称作命名实体(name entity)。在对文本数据进行预处理后(包括分词、词性标注),就要发现命名实体并确定其类别。关系抽取。关系抽取的作用是获取文本中实体之间存在的语法或语义上的联系。例如,从“马云是阿里集团的首席执行官(CEO)”这个句子中可以抽取出:“马云”和“阿里集团”的关系。事件抽取。事件是新闻语义特征构建的中心。结构化新闻中的事件抽取主要指从大量的新闻文本中抽取出相关的事件,该过程一般分成“元事件抽取”和“主题事件抽取”。前者着重对单一事件的时间、地点、人物的抽取。而后者主要是抽取某一主题下的系列事件。

知识库的构建与更新。随着大量的新闻文本等非结构化数据不断输入,处理层将构建一个庞大的“知识库”(knowledge base)。这是结构化新闻生产过程的核心步骤。知识库实际上是对数据库的扩充与升级。知识库系统利用知识库对输入的数据信息进行推理之后,提供给系统使用者的是判断分析后的结果,而不仅仅是向用户提供可检索的信息。在知识库平台后面实则是语义网的建设。

3.输出层

“数据库新闻”侧重于强调将新闻“解构”后存入数据库,以备再利用。而随着NLG技术的发展,结构化新闻逐渐强调“解构-重构”这一完整过程,“重构”可以是人工完成,也可以是机器自动完成。输出的文本可以是非结构化的也可以是结构化的。

人工编辑。从输入层到处理层,文本数据已经实现了“结构化”并构成了一个知识库。可以说,这个庞大的知识库就是记者大脑的延伸,其中所储存的数据和关联规则能够提供大量的人物关系和背景材料,从而有效地提高记者写作的效率和质量。

自然语言生成(NLG)。NLG技术是机器实现自动化写作的核心技术。简言之,NLG的工作类似于填字游戏,是“写”新闻,把结构化、模块化的数据组装成易理解的书面叙事。在结构化新闻的输出层,机器将自动从知识库中读取相应的“原子”,根据原本的关联规则和特定的语言模板将这些“新闻原子”取出并重新组合成新的自然语言形式的新闻报道。

三、结构化新闻的价值

结构化新闻是一种信息表现机制,为新闻提供了另一种范式。[8]正如电视时代要求新闻是可视化的,结构化新闻则能更好地适合数字时代,更容易被读者理解。结构化新闻将为新闻消费者、新闻生产者、新闻编辑室以及不断变化的媒体环境提供一个可持续的前进方向。

1.新闻消费者:个性化阅读和填补“记忆漏洞”

尼葛洛庞帝曾提到“超媒体(hypermedia)”的概念。他认为:数字世界的信息空间可以通过一组多维指针来进一步引申或辨明。整个文档结构仿佛一个复杂的分子模型,大块信息可以被重新组合,句子可以扩张,字词则可以当场定义,这些连接可以由作者或读者在出版前后自行嵌入。[9]“结构化故事”网站(www.structuredstories.com)是一个新闻数据库,它不仅允许每个人对某个新闻事件进行持续收集、使用和改进;而且受众阅读新闻时可以选择多种新闻呈现形式,包括“要点”“时间线”“图片集”“结构化故事”(内容中标注动词、名词,并可连接至维基百科)、“新闻5W卡片”等形式,受众还可根据对事件的感兴趣程度选择新闻呈现的详略,让消费者对报道产生“流连忘返”的反复阅读的欲望,从而实现个性化阅读。

为了追求时效性,网络媒体的新闻报道往往只能“管中窥豹”,无法对包括事件背景在内的各个方面进行详细叙述,受众难以对事件进行全面了解和把握。类似地,曾经关注过该事件的读者也可能因为时间间隔太长而忘记事件的前因或背景,这就是读者的“记忆漏洞”,而且每个读者的“记忆漏洞”是不一致的。《华盛顿邮报》有一个实验项目“知识地图”(Knowledge Map),该项目在文章中使用大量的注释文本(如姓名、主题和事件),当读者点击摘要、图片或其他辅助材料时,这些注释会出现在侧边栏中,使读者的“记忆漏洞”得到填补。

2.新闻生产者:信息再加工和深加工创造新闻价值

美国文学教授杰·戴维·波尔特提出了“写作空间”(writing space)的概念,他问:是不是可以设想一种写作空间的存在,使得作者可以同时思考和呈现几条不同的叙述线?[10]结构化新闻背后庞大的知识库提供了一种新型的“写作空间”。它将散落在互联网中的离散的碎片信息重新整合到一张庞大的知识网络当中,碎片之间的关系和逻辑依旧保留下来。根据需要,这些碎片将以特定方式混合和重组,从而实现当天新闻与历史资料的无缝聚合,发挥传播的长尾效应。记者在寻找新的报道角度、创造新闻价值的同时,还应植入产品逻辑,将自己定位为“做产品”而非“写文章”,将文本生产从静态的、完成式的工作,变成动态的、始终进行式的生产过程。

3.新闻编辑室:数据财富和分散共治

知识库是新闻编辑室的“数据中心”,也是“信息联结中心”。数据的每一次“流动”都会“自我增值”,能够为使用者带来更丰富的内容或更多元的角度。套用梅特卡夫法则(Metcalfe's Law),网络价值以用户数量的平方速度增长,知识库的价值则以新闻报道数量的平方速度增长。同时,新闻也有不言而喻的市场价值,各个新闻编辑室所拥有的结构化的知识库是不可复制的,是新闻编辑室的一个新的经济基础。“买新闻”可以发挥成本效能,新闻素材在媒体内部实现市场化流通,形成媒体融合的观念和思维。

戴维·温伯格提出了“三阶秩序”的概念,他认为:照片放进相册是“一阶组织”,图片资料库的目录卡是“二阶物件”,它指向的是一阶图片所在的位置。而内容被数字化,该内容的相关信息也由数位组成——这就是三阶秩序。[11]在二阶世界中,我们需要专家来逐个检查信息、思想和知识,然后将其整整齐齐放好,过去我们的报业等许多产业和机构都是基于这一事实之上。传统的新闻故事生产方式并不允许人们做过多的组合和修改,而结构化新闻(三阶秩序)则是万物皆可被重构。结构化新闻的生产蕴含了新闻编辑室文化和思维的转型,“无序中的有序”一种责任共担的自治管理文化正在新闻编辑室兴起,它能让新闻编辑室内的个人和团队直接对内容负责,不仅可以提升内容的生产效率,内容本身的地位也会大大提升。

四、机遇与挑战

虽然结构化新闻蕴含着丰富的价值,但结构化新闻并没有像数据新闻那样逐渐成为一种特色鲜明的新闻范式,反而其概念还有弱化的趋势。现阶段结构化新闻存在许多挑战,同时我们也应看到人工智能技术的发展给其带来的发展机遇。

1.机遇一:“事件驱动”的自动化新闻的发展

在实现发稿快、产量高之后,自动化新闻将向深度内容、写作风格等纵深领域发展。美国“结构化故事(Structured Stories)”项目的目的就是为了让记者和机器以结构化的方式解构新闻事件而并非输入传统的非结构化文本,以便让机器找到新闻的中心语义特征——事件,完成复杂的写作。卡斯韦尔(Caswell,2017)发表的论文首次使用了“Automated Journalism 2.0”一词,[12]强调以“事件驱动”的叙事报道不同于目前大多数机器生成的简单描述性新闻,其能够解释、放大和阐述重大事件及其内在价值,帮助受众更丰富、更微妙地去理解叙事信息,满足受众的情感需求。从简单故事到复杂叙事的自动化写作需求,将推动结构化新闻的发展。

2.机遇二:媒体“中央厨房”的发展

从某种意义上讲,结构化新闻的知识库类似于“中央厨房”的新闻稿库。虽然“中央厨房”也是以内容的生产与传播为主线的公共平台,但是,结构化新闻所依托的知识库比目前“中央厨房”的新闻稿库更有价值。其一,建设“中央厨房”的目的是为了融媒体的发展,实现稿件共享。但实际上,在传统媒体上发布的新闻稿件并不适合直接在新媒体平台上发布,在标题、报道风格、新闻用语等方面传统媒体和新媒体平台有着本质不同。而结构化新闻是将新闻故事拆分后使用,拆分得越小获得的价值越大,越有利于新媒体平台创新组合使用。其二,“中央厨房”的新闻数据库虽然积累和共享新闻报道中的事实、理论和背景材料,但它并不能有效地对事件间彼此的关系和逻辑进行识别和保存。结构化新闻的发展将促进媒体的“中央厨房”发挥更大的作用,两者相辅相成,共同发展。

3.挑战一:技术和编辑

尽管在技术上捕获和存储新闻的结构化事件和故事数据的能力在不断提高,但有些问题仍未完全解决。例如目前对新闻事件的分词系统切割文本的“碎片”还不够细;以事件驱动的结构化新闻的文本碎片构造和NLG模版逻辑的设计比目前流行的机器人写作所使用的NLG模版要复杂得多。[13]来自编辑层面的挑战可能更大。结构化新闻在生成过程中离不开人的干预,新闻生产应从数字泰勒主义到人机共生。[14]一方面,新闻的素材是在网络上自动抓取的,因此最终生成的新闻在事实性、合法性上都需要经过编辑的二次核查才能被分解再重新利用。[15]另一方面,目前人工对新闻的“结构化”,即对结构化事件和故事数据的碎片化,比程序对新闻自动“结构化”的效果要好,准确率更高。

4.挑战二:人才结构和培养

结构化新闻的发展必然要求“媒体+科技”。虽然科技具有无穷无尽的迷人力量,但媒体要拥抱科技,借助科技力量探索新的内容生产方式,就必须要有技术人才。然而,媒体不是同时拥有了记者编辑和技术人员就算大功告成了。技术人员不了解新闻生产,传统媒体人不了解如何用技术呈现内容。因此,我们的媒体要担负起复合型媒体人才培养职责,一方面,对技术人员既要培训新闻生产流程,也要培养他们的新闻敏感性;另一方面,要培养记者的计算性思维,让记者能以软件开发者思考代码那样的方式思考新闻。

五、结语

不管结构化新闻未来发展如何,把非结构化的文本、声音和图像等进行结构化,形成知识库,却是一件非常有意义的事情。凯文·凯利认为,被抓住的每一个机遇都会引发至少两个新的机遇。[16]自动化新闻只是这些结构化数据的应用之一,其他的应用,如智能语音聊天、智能商业、政府智能应用等,都可能驱动这些结构化数据平台的发展。例如在智能医疗中,通过对病历信息结构化后所获得的数据进行分析,可以发现病情与食物之间的相关性。“重组”(remixing)产生价值。圣塔菲研究所的经济学家布莱恩·亚瑟(Brain Arthur)认为“所有的新技术都源自于已有技术的组合”。适用于经济增长和技术增长的事实同样也适用于媒介发展。

猜你喜欢

知识库结构化数据库
汉语近义词辨析知识库构建研究
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
数据库
数据库
数据库
数据库