APP下载

机器写作在气象融媒体服务中的应用研究

2022-01-07胡小羽

电视技术 2021年11期
关键词:气象机器天气

胡小羽,孙 通,胡 康,王 磊

(1.江西省气象服务中心,江西 南昌 330000;2.深圳市国家气候观象台,广东 深圳 518040)

0 引言

随着技术的发展,新型媒体平台不断增多,大众获取气象信息的渠道趋于多样化,传统公众气象服务方式难以满足日渐增长的公众服务广度和深度要求,融媒体气象服务成为当前主流的发展方向。面对多平台、多需求、多数量的新要求,融媒体气象服务产品在产出速度和数量上都面临新的挑战,依靠人力很难快速形成产品的海量输出。机器写作的引入可以实现气象数据自动生成图文和音视频产品,有利于弥补气象融媒体服务人力产能不足的短板。

1 机器写作技术的应用现状

机器写作指的是运用算法收集、处理数据并自动生成稿件的计算机程序。理想情况下,写作机器人可以脱离人力干涉,自动且快速地生成各种题材的文字稿件,包括并不限于新闻资讯、服务说明、诗歌文学、文字脚本等内容,且能够不断学习、自我迭代,从而达成辅助或代替人类写作的目的[1]。

目前,机器写作技术已经从理论逐步走向实践,在国内外多个领域,尤其是传媒领域获得了较为广泛的应用。国外已经使用机器写作的媒体有纽约时报(blossom)、美联社(WordSmith)、华盛顿邮报(Heliograf)等,国内有新华社(快笔小新)、腾讯(dreamwriter)、今日头条(张小明)、南方都市报(小南)等,写作内容以财经、体育、科技新闻以及每日热点资讯为主。

随着机器深度学习领域的拓宽,部分新闻写作机器人涉及了部分天气资讯的写作,主要以天气灾害和天气新闻播报为主,但还存在两点不足:一方面,主流产品以抓取相关网络数据为主,在气象数据上的可选范围小,难以进行更复杂和详细的天气描述,同质化程度高;另一方面,产品主要以文本为主,基本没有常规运行的音视频产品,难以适应当前的融媒体环境,大众覆盖面较窄[2]。

想要更好地利用气象数据,实现多种形式产品的生产,就要用机器写作技术实现“气象数据-文本”,并以此为基础,引入当下成熟的文字转语音技术以及气象数据可视化技术,最终以气象数据为基础,自动快速形成气象融媒体产品。

2 气象融媒体机器写作的制作模式

机器写作技术模仿或代替人类工作,本质上是一种自然语言处理系统(Natural Language Processing,NLP),根据不同的数据来源和产出需求,发展出了模板式、抽取式及生成式3 种模式。

2.1 抽取式机器写作

抽取式机器人会对文本进行语义分析,识别冗余信息,抽取重要内容,通过摘录或概括的方法压缩文本,形成对于既定文字的摘要,再加以计算确保文摘的连续性,这种技术广泛应用于新闻内容概括和文摘生成[3]。

在气象融媒体服务当中,抽取式机器写作可以以新闻综述和信息汇总的生成方式,通过抓取已经存在的相关服务信息和新闻,对某种灾害性天气服务进行汇总型整理,尤其是对于已经结束的天气过程,让大众有更加全面的认识。但由于气象实况和预报主要以数据为主,该方式难以表达天气预报及相关服务。

2.2 模板式机器写作

模板式写稿机器人主要通过优化算法,在预先存储的大量写作模板中,选择与给定材料相匹配的模板,将信息加以组合生成文本,是目前应用最成熟、实现最容易的一种机器写作方法,但生成的内容相对固定化。

模板式机器写作可以较好地形成气象融媒体服务“数据-文本”的流程,为了规避模板固定化、内容同质化的弊端,可通过加设气象数据条件判定,即以气象服务内容特征为依据,设置数据呈现的触发机制,筛选当天最为突出的实况内容和预报特征,在文字用语、图片配色上做差异化分类,能够在一定程度上规避产品的大量同质化问题[4]。

2.3 生成式机器写作

生成式主要通过深度学习和增强学习技术实现。机器通过大量的文学作品样本进行训练,学习各类写作风格、建立写作模型,再根据输入的文字片段获知任务需求,预测并生成与需求相匹配的文稿,进行输出。

在理想情况下,生成式机器写作是比较好的解决方案,能够通过深度学习,不断自我迭代,但在实际操作过程中还面临大量技术挑战,如样本的补充难度、模型训练的复杂度、同义词的问题、情感倾向问题、歧义性问题等等,因此距离实际生产应用还有不小的距离。

笔者认为,基于气象数据量大的特性,以及重预报、重防范的服务特性,模板式机器写作可以更好地侧重于天气过程的发生发展,可以作为主要的机器写作方式,从而实现数据驱动、自动生产文本的快速流程,并通过数据判定、模板更新、更替图片配色等方式,弥补内容同质化缺陷,发挥特长。

3 气象融媒体机器写作的实现方法

3.1 整体架构

气象数据自动生产气象融媒体产品的实现需要4 个模块,即数据管理模块、文稿生成模块、语音合成模块以及视频合成模块,如图1 所示。数据管理模块读取和保存气象实况和预报数据,文稿生成模块主要完成将气象数据转化为文本的工作,语音合成模块采用外链文字转音频技术,形成音频产品,视频合成模块将选用的气象数据生成图片,最终结合音频产品输出成视频。通过各个模块的写作,可以实现气象数据对文字、音频、图片和视频的自动生成,由一组数据形成整套多样态的气象融媒体服务产品[5]。

图1 气象融媒体机器智能写作结构

机器写作技术主要应用在文稿生成模块,该模块是整个体系的基础和核心,基于模板式机器写作方式,该部分主要通过文稿模板素材库和数据触发规则来实现,当气象实况和预报数据满足触发条件,则对该组数据进行模板文字匹配。

3.2 机器写作文稿生成

机器写作文稿生成部分的主要内容由两大部分组成,一是数据触发规则,二是文字模板素材。基于气象数据的特性和大众对气象服务的主要需求,需要分别对两者进行细致的设定。

3.2.1 数据触发规则

数据触发规则需要判断是否触发描述该天气,以及如何有区分、有轻重地描述此类天气。气象数据包含气象实况数据和预报数据,气象实况数据具有气象要素、时间、不同量级定义、地理位置等复杂信息,每个时段所有站点拥有的全要素气象实况数据,信息量大且庞杂,需要从大量的信息中筛选出对大众生活有影响的天气要素,有重点地进行描述。预报数据包含时间、天气、区域等信息,同样也需要从面到点的概括式、聚焦式说明。

数据选取规则需要根据不同气象要素分类设定,一条规则需要包含规则的id、触发优先级、规则内容以及触发动作等信息,可以让大众更加明确天气的强度。比如气温要素,需要配置“如果文本生成时间>08 时且<14 时,且未触发最低气温数据,那么就使用08 时气温全省平均值”。而如果是降雨,则需要配置“10 mm 以上站点占10%~30%,触发最近24 h 累计雨量,使用降雨站点数量以及主要量级。当最高量级为大雨以上时(≥25 mm),还需调取最高量级站点数量、最高值站点名称及其数值。”

地理分布规则,主要为了更加明确地归纳天气发生发展的地理位置,并使用约定俗成的区域划分方式。以江西省为例,可以划分为赣北、赣中、赣南等区域,大众可以更加直观地认知该天气的覆盖面。

3.2.2 模板语料库

根据细分的判定规则,需要对每一种天气要素的不同强度分类进行细致的模板文字梳理,比如对于高温,当全省日最高气温满足“30 ℃<全省最高气温平均值(c)<35 ℃”这一条件时,在文字内容的分类上考虑使用一般表达强度,简单描述现状。“昨天全省最高气温平均有(c)℃。”而当日最高气温满足“30 ℃<全省最高气温平均值(c)<35 ℃,且30%以上站点数值≥35 ℃”时,文字部分需要体现热的强度升级,如“昨天,全省热浪席卷,日最高气温平均有(c)℃,(c2)个县区出现了35 ℃以上的高温,其中(c3)最为炎热,高(c4)℃。”

同时,针对不同天气对大众生活影响的方向不同,需要有侧重的服务关照提示。比如“气温波动大,需要关注气温变化,合理调整着装”“气温偏高,午后雷雨多发,大家出门的时候记得备一把雨伞,防晒防雨两不误”。不仅呼应和总结了未来天气变化的重点,同时还在一定程度上体现了人文关怀,使文稿更具有“人味”。

根据触发的规则,机器会选取合适的模板作为输入,生成数据替换后的最终语句。同一个触发规则有可能对应多个文稿模板,此时可以对文稿模板定义优先级或者采用随机、轮询的方式选择。

3.2.3 音视频产品生成

音视频产品的生成主要通过引入成熟的相关转换技术来实现。在机器写作完成数据筛选和文本生成后,音频产品将会由文字直接转换而来,视频的画面部分可以通过对触发数据的气象数据可视化技术实现,经过规则匹配之后,系统筛选出使用的数据种类和时次。根据这些信息,在素材库中搜索对应的可视化图片产品。这些图片产品会作为素材,替换After Effects 模板中的资源,然后进行渲染,最终生成视频。

4 应用前景及缺陷

4.1 应用前景

以机器写作技术为基础,引入音频和数据可视化技术,可以很好地解决气象融媒体产品在短时间、大批量、全平台、多样态覆盖的难题,能够在一定程度上解放服务人力。主要有以下优势。

(1)数量多,极大丰富常规的气象融媒体产品数量,实现多平台、多时次的气象融媒体产品投放,节约服务人力,可以让公众气象服务人员投入在创造性内容以及重大气象灾害的相关服务产品上。

(2)速度快,在突发气象灾害,尤其是短时强对流天气等生命史短暂、影响区域狭小、时空分布复杂的天气过程时,利用机器写作,可以快速制作并发送服务产品,特别是可补充融媒体产品制作欠缺的县区一级。

(3)性价比高,一次投入多次使用。由于气象内容的数据转产品的特性,只要形成多样化的逻辑模板、不断抓取语料库,后期辅助人工审核即可,可减少大量人力成本和从业人员的教育时间成本。

4.2 不足及思考

气象融媒体机器写作的应用能在一定程度上缓解目前气象融媒体产品的产能不足和供需矛盾,但同样面临着一些风险,具体如下。

(1)内容同质化风险。快速、大量的模板内容出现,使得相关内容同质化现象明显,很容易带来审美疲劳,导致关注度流失,应当更多频次地更新语言模板和产品样态。在重大气象服务中,更多专业且精细化的融媒体服务产品,还需更多的专业服务人员的参与。

(2)海量资讯重点模糊。当大量机器生产的融媒体产品投放时,信息呈现爆炸性的增长,容易使得真正重要的内容无法更好地传达到大众面前。因此,在使用和投放中应当更加慎重,尤其是面对气象灾害时,需要更加规律且克制地使用相关技术。

(3)内容导向风险。对于灾害性天气的描述很可能流于数据而缺乏人文关怀,对于灾害的用词的准确性,是否符合灾情中的情感倾向,需要人工把握和审核。

5 结语

机器写作在气象融媒体服务中的应用具有较好的技术可行性和良好的使用前景,该技术的使用将极大地丰富气象融媒体产品的数量和更新频次,但应将人机关系定位在协同服务的位置上,补充人力不足,辅助人工服务,形成差异化分工合作,而绝不是代替人工。机器写作需要不断由人工审核、审慎投放、更新模板,才能避免内容同质化、模糊焦点和内容导向的风险,更好地为大众提供气象服务产品。

猜你喜欢

气象机器天气
机器狗
气象树
机器狗
天气冷了,就容易抑郁吗?
《内蒙古气象》征稿简则
谁是天气之子
盛暑天气,觅得书中一味凉
Weather(天气)
未来机器城
大国气象