“5G+AI”环境下个性化内容生产技术应用研究
2022-08-19孙甲飞冯恩达
孙甲飞 冯恩达 邱 夕
(作者单位:新华报业传媒集团)
1 研究背景
2019年6月6日,我国工业和信息化部向中国联通、中国电信、中国移动和中国广电发放了5G商用牌照,标志着我国的5G技术进入了全面商用化的新时代。5G通信技术高速率、高带宽、低时延的特性可以大大提升现有信息传输的质量与速度。同时,其泛在网的特点使得业界对“万物皆媒”的设想有了实现的可能。截至2019年8月底,中国5G使用人数已突破1亿人。与此同时,随着5G技术的普遍运用,用户阅读新闻的习惯也发生了转变[1]。
依托于云计算、大数据、人工智能等技术领域里的机器深度学习、自然语义理解和推荐系统等应用技术的发展,基于算法的新闻生产日益兴起,写稿机器人成为各大媒体内容生产队伍中的新武器。写稿机器人最早出现在2009年,一款名为StatsMonkey的人工软件完成了一篇关于美国职业棒球大联盟季后赛的新闻稿,速度完胜人类记者,人工智能(Artificial Intelligence,AI)自动写稿技术自此进入人们的视野。之后,洛杉矶时报、美联社等媒体都相继 引入了新闻智能平台。我国在这方面起步较晚,但是发展速度迅猛。2015年9月,腾讯的写稿机器人Dreamwriter在腾讯财经频道发布了一篇名为《8月CPI同比上涨2.0% 创12个月新高》的报道,引起了行内不小的反响,此举可谓开启了国内新闻界利用机器人写稿的先河。随后,新华社的“快笔小新”、南方报业集团的“小南”、字节跳动的“Xiaomingbot”、钱江晚报的“小冰”等一系列基于人工智能技术应用的写作机器人也相继投入使用,且内容产出能力惊人。
2 个性化内容生产技术的应用
2.1 适应高速内容生产要求的热点捕捉方法
5G技术的广泛应用将带来媒介的叙事话语权的转变,话语权正随着媒介生产关系的改变而改变,以前处于价值链末端的媒体消费者借助网络和新媒体技术,逐渐摆脱被动的消费地位,向价值链中端甚至上游环节转移,变成主动的参与者、生产者,他们不再是价值的消耗者,而是价值的创造者[2]。网络上将会有比现在数量级大得多的媒体信息,要从这些信息中抓取热点,再组织成热点新闻报道,就对热点捕捉的效率提出了更高的要求。
2.1.1 改良捕捉算法提高海量数据抓取效率
目前,比较流行的中文信息归纳方法是基于划分或基于密度的聚类方法。针对新闻资讯海量的数据量,以及新闻热点捕捉分类明确、时效性较高的要求,本文推荐采用搜索能力强,且快速收敛的经过改良的K-MEANS算法捕捉文本热点。在聚类之前,可以选用针对文本特征抽取且算法简单、计算效率高的TF-IDF算法,对大量资讯数据降维,进一步提升热点捕捉、数据挖掘的效率。
2.1.2 优化聚类算法快速挖掘新闻热点
考虑到传统的TF-IDF算法只根据词频和文本频率进行特征抽取,而忽略了词汇其他属性对于文本的贡献,所以为了提高效率可以采用优化的TF-IDF算法。优化的TF-IDF算法是在传统的TF-IDF算法理论基础上,对于特征词符号、词汇词性、出现位置及词汇长度等特征添加权重。优化的TF-IDF算法基于多因子权重选择,可以更具针对性、更高效地实现新闻特征向量抽取。同时,传统聚类算法结果常常收敛于局部最优,且由于聚类中心初始选取容易产生聚类干扰。针对这一问题而构造的改进果蝇优化算法(Ameliorated Fruit Fly Optimization Algorithm,AFOA),通过设定文本编码、优化fitness适应值计算、调整个体搜索步长及计算群体适值度方差,避免了传统聚类算法的缺点。使用AFOA算法结合大数据技术,可以实现热点新闻话题的快速发现与挖掘[3],生成热点卡片辅助采编写稿。
2.2 带有温度感的内容生成方法
2.2.1 结合温度采样的自动内容生成
对于给定的选题,可以通过LSTM长短记忆算法来完成文本的自动生成(如图1所示)。LSTM是一种深度学习算法,它能够对文本的统计潜在空间进行机器学习,对当前标记词的下一个标记进行建模和训练进而得到语言模型[4]。一旦训练得到这样的字符级神经语言模型,即可从中采样,利用循环神经网络,生成与训练数据具有相似特征的文本。
在研究中,笔者在模型中输入选题,即模型的条件数据,模型会循环生成接下来的文本内容。生成的输出文本将被循环添加作为LSTM层的输入。其中通过对语料库中的词汇进行softmax得到概率分布来生成输出。由此,循环可以根据实际需要生成任意长度的文本序列。通过对语料库的筛选限制,可以在一定程度上对机器生成内容的文风进行约束,从而避免生成和公用机器写稿平台文风极度相似的新闻稿件。
在生成文本的过程中,生成下一个输出的采样策略尤其关键。经研究,贪婪采样的概率分布的熵最小,会得到预测度最高的结果,但这样形成的文本重复词汇较多且不连贯。与之相反的纯随机采样概率分布的熵最大,会得到最有创造性的结果但采样过程中无法控制随机性的大小。因此引入softmax温度参数temperature∈[0,1]来表示采样分布的熵的大小,用于对模型softmax输出进行加权,得到合适的概率分布。更低的温度参数会产生文风更确定的文本,而更高的温度会生成更具创造性也更不可控的文本(当温度参数temperature=1时,甚至可以创造出新的词汇)。
2.2.2 基于情感分析的文本采纳
情感分析又称为意见挖掘,可以自动分析文本中包含的情感,是自然语言研究的重要领域之一[5]。其基本过程是通过抽取计算文本中包含情感的词汇,得到该文本的正负情感导向。在写稿机器人的应用中,对于完成的稿件,可以使用情感分析识别挑选合适当前情感导向的文本。
在实际应用中,可以在使用NLTK自然语言工具对选题进行中文分词后,将得到的情感词汇使用SentiWordNet基于WordNet进行情感分析。SentiWordNet将词林中的每个词条对应不同的情感值(Sentiment Score of the Meaning,SSM)。目前,词库包含十多万条记录,每条记录都由6部分组成,即词性分类、词条ID、正向情感分值、负向情感分值、同义词词条名、注释。在SentiWordNet中,同一个词可以包含不止一种词性,如名词、形容词、副词和动词等。而在同一词性中,一个词也可以有不同种含义。不同的词性和含义将对应不同的情感值。同时,每一种含义都有对应的指数值(IndexNum),1/IndexNum即该词义的权重系数。对于某词第i种含义的情感值有:
考虑该含义权重系数,由此得到情感得分:
在对稿件文本进行情感计算之后,可以根据其情感倾度,选择情感导向更合适的文本。例如:对于期望具有正面情感倾向的稿件,可以挑选情感得分更趋近1的文本;对于期望描述客观中立的稿件,可以挑选情感得分更趋近0的文本,筛去情感得分为负的文本。鉴于此,可以利用情感分析对LSTM自动生成的稿件进行筛选。
2.3 个性化内容订制
2.3.1 从订阅到订制
进入Web 2.0时代以来,网络上的信息开始和浏览者有了交互,信息订阅功能的加入使某一位作者或者栏目有新的内容发布时用户可以收到提醒并可以快速浏览到指定内容。之后“订阅”理念慢慢衍生为现在普及率很高的“关注”功能,成为现在互联网内容与用户交互的基础手段之一。而订阅和关注都是需要用户作为兴趣的主动暴露者来实现的内容定向推送。随着科技的进步,用户呈现出了越来越“懒”的趋势。字节跳动等公司利用大数据技术和机器学习算法,根据机器对内容的理解、用户画像、受众情境等信息,预估并在应用程序中推送用户可能感兴趣的新闻内容[6]。
基于人工智能等技术进行个性化推送现在已经得到各大媒体的广泛应用,但目前主要是把互联网上与用户匹配度较高的内容推送给用户。随着“5G+AI”在媒体行业的深度应用,智能引擎可以在5G网络快速回传大量实时用户数据的情况下通过智能算法利用用户画像、用户场景等信息帮助内容生产者发现选题、确定事件切入点,拓展报道的广度、深度,预判内容的传播效果,从而根据内容推送前置指导内容生产,实现内容定制化。
2.3.2 适应交互式阅读的内容定制生产
《2019年中国网民新闻阅读习惯变化的量化研究》基于3万人的问卷调查得出结论:新媒体已经成为我国公众获取新闻信息的主要渠道。其中腾讯微信是用户最多、最广泛的新闻信息获取平台[7]。微信正以其社交属性与强联系的传播特点成为目前和未来的主要传播媒介,可以适应此类带有强联系、社交属性的渠道传播、阅读的内容,极有可能成为“5G+AI”时代新闻内容的爆款。
目前,写稿机器人仅用0.3秒就可以生成一篇新闻稿件,这为交互式新闻生产提供了速度上的保证。在此基础上,使用目的导向的对话机器人模型,在人机对话的过程中逐步收敛用户需求,便可实现快速的、个性化的交互式新闻生产。例如:每年“两会”都会有大篇幅的报道稿件,但不同用户关注的点很可能不一样,新媒体平台就可以通过对话过程聚焦用户的不同关注点,匹配智能媒资库中的编目数据实时生成内容,将图、文、视音频通过交流的形式传递给受众。
任务导向的对话机器人系统在指定的自然语言生成语料库中预训练后,使用SC-LSTM模型进行编码,可以帮助用户通过交互模式更准确地获取期望的资讯[8]。任务导向的对话机器人实现交互式新闻的过程如图2所示。
3 结语
人工智能及其机器人写作技术正在蓬勃发展,伴随着5G的发展,低延时、高速度的特性在热点捕捉方面得到充分利用,由此机器化内容生产和信息推送可以加入温度感,加入深交互,使得内容生产更加个性化,进而推动个性化内容生产技术的应用和发展。