APP下载

基于Tensorflow的Text Summarizaion模型自动生成新闻标题

2017-11-07

福建质量管理 2017年19期
关键词:烟袋新闻标题解码

(景德镇陶瓷大学 江西 景德镇 333000)

基于Tensorflow的Text Summarizaion模型自动生成新闻标题

田江童薇羽

(景德镇陶瓷大学江西景德镇333000)

随着人工智能的快速兴起,Google发布的深度学习框架TensorFlow在短短两年内,就成为了当前最流行的深度学习项目。

在图像处理、音频处理、自然语言处理和推荐系统等场景中,TensorFlow都有着丰富的应用。虽然开源没多久,但是TensorFlow正在快速的参与到我们的工作生活当中。

Tensorflow;Text Summarizaion;自动 生成

一、研究背景

随着互联网的迅速发展,网络中的新闻资源呈指数级增长;在众多的新闻中,如何让用户又快有好的阅读到自己感兴趣的新闻资讯成为了当下的研究热点;本文为某新闻企业通过接入智能推荐系统,在其APP端增加智能推荐模块,就能为APP用户私人订制感兴趣的新闻。

二、研究方案

文本自动总结的模型一直都是深度学习中的研究热点。有一些诸如TFIDF和TextRank之类常规算法,其基本原理是直接抽取文本中重要的句子。目前常用的模型是seq2seq,它是基于Encoder-Decoder的一个结构,首先将原始文本中的句子encode成一个固定大小的向量,然后通过decoder部分一个字符一个字符生成目标句子。

Tensor意味着数据,Flow意味着流动、计算和映射,这也体现出数据是有向的流动、计算和映射。TensorFlow的结构由会话(session),图(graph),节点(operation)和边(tensor)组成,它使用图(graph)来表示计算任务,图在被称之为会话(Session)的上下文(context)中执行,其状态是通过变量(Variable)来维护的,使用feed和fetch可以为任意的操作(arbitrary operation)赋值或者从其中获取数据。

这篇文章中我们将采用基于Tensorflow的Seq2seq+Attention模型,训练一个新闻标题自动生成模型。 加入Attention注意力分配机制,是为了使Decoder在生成新的目标句子时,可以得到前面Encoder编码阶段每个字符隐藏层的信息向量,提高生成目标序列的准确度。

三、数据处理

样本数据为某企业新闻客户端2016年11月份的新闻,超过10M的语料数据,包含新闻标题和新闻正文信息。由于在Encoder编码阶段处理的信息会直接影响到整个模型的效果,所以对新闻数据的预处理工作需要非常细致。对新闻中的特殊字符、日期、英文、数字以及链接都要进行替换处理。

文本预处理后,就是训练样本的准备工作。这里的Source序列,就是新闻的正文内容,待预测的Target目标序列是新闻标题。为了保证效果,正文部分不能过长,这里设定分词后的正文不超过100个词,不足用PAD字符补齐,设定标题不超过20个词。在生成训练样本的时候,定义了create_vocabulary()方法来创建词典,data_to_id()方法把训练样本(train_data.txt)转化为对应的词ID。

四、算法解析

Seq2Seq是一个基于输入的sequence,预测一个未知sequence的模型。模型由Encoder编码阶段和Decoder解码阶段两部分构成。模型编码阶段Encoder的RNN每次会输入一个字符代表的向量,将输入序列编码成一个固定长度的向量;解码阶段的RNN会一个一个字符地解码,如预测为X。在训练阶段时会强制将上一步解码的输出作为下一步解码的输入,即X会作为下一步预测Y时的输入。

当编码阶段输入的序列过长时,解码阶段LSTM模型将无法针对最早的输入序列解码。Attention注意力分配机制,在解码阶段每一步解码时,都会有一个输入,对输入序列所有隐含层的信息进行加权求和,能够很好的解决这个问题。

将分词后的新闻文本数据拆分为训练样本和测试样本,共四个文件:train_data.txt,train_title.txt,test_data.txt,test_title.txt 。新闻正文内容和其对应的新闻标题需要分开存放在两个文件内,一行为一条新闻样本。

五、实证效果

运行脚本,训练好的模型将被保存下来,部分预测好的Text Summarizaion如下:

ID新闻正文新闻标题模型生成标题112882故宫长城央视大楼鸟巢水立方有名地方不胜枚举地界老百姓生活相关市井本土北京胡同推荐北京胡同游攻略瞧瞧北京普通百姓生活每条胡同故事细细的品味体会魅力pstrong烟袋斜街strongp烟袋斜街位于地安门外大街鼓楼前什刹海前海北侧此街东西斜形走向全长232米烟袋斜街元朝时期抄近道走出一条烟袋斜街当年居住旗人嗜好抽烟烟叶装在烟袋中烟袋需求与日俱增斜街上一户一户开起烟袋铺街道宛如一只烟袋得名烟袋斜街街道两侧建筑典雅朴素颇具明清传统风格其前店居形式呈现出古风犹存市井风情展现出浓郁北京传统风貌烟袋斜街北京北城有名气文化街北京什么地方最出名北京有名地界旅游攻略推荐112803北京是因为它作多年首都作这么久首都全是因为北京优秀全赖800年前千万别张国字脸迷惑他本名叫完颜迪古金朝第四位皇帝历史鼎鼎大名海陵王皇帝先爷爷说起爷爷完颜阿骨打即金太祖金朝第一位皇帝公元岁完颜阿骨东北白山黑水间无数次厮杀终于灭辽朝建立金国建都宁府哈尔滨市城区白城电视剧中阿骨打是右边那位穿高档动物皮草北京优秀全赖年前不错细心读者发现这位阿骨丐帮帮主乔峰结拜兄弟那位金太祖六年皇帝去世女真族兄终弟及传统金太祖弟弟完颜晟即位金太宗金太宗岁去世前不想皇位传给弟弟想传给儿子太祖太宗两派子孙夺位几个回合有人举牌北京优秀不用再思考为什么来北京北京优秀文化遗产112337中国多地雾霾齐发城市发布雾霾预警城市朦胧模式华北黄淮地迎本轮雾霾最重时段京津冀省份局部重度霾北京今夜污染物迎来本次污染峰值今晨上午四川湖南局地有强浓雾应对重污染天气京津冀环保部门联动执法停工停产禁行中小学停止室外活动京津冀省份今日局部重度霾夜间空气中湿度增大污染物扩散条件转差华北黄淮空气质量下降华北黄淮地雾霾袭北京河北天津发布重污染预警中央气象台预计18白天夜间华北黄淮本轮雾霾过程北京南部天津西部河北中部河南中部陕西关中山西中部局部地区重度霾另据交通运输部发布路况多地雾霾齐发中国发布雾霾预警中国发布多地雾霾预警

六、总结

随着互联网的迅速发展,网络中的新闻资源呈指数级增长,通过深度学习自动生成的标题往往能很直观的体现新闻的主题内容,便于读者快速的浏览新闻,准确选择自己感兴趣的内容,节约时间成本,能够给读者带来很好的体验感。

智能推荐已经成为一种势不可挡的趋势,随着人工智能的发展,算法推荐必将成为内容领域的主流之一。如果将基于Tensorflow的LSTM主题分类的个性化推荐和非个性化推荐相结合,不仅能很好的解决用户冷启动问题,而且可以满足企业的个性化需求和用户的实时智能推荐。

田江(1987-),男,汉族,江西上饶人,统计学硕士。

)

猜你喜欢

烟袋新闻标题解码
《解码万吨站》
奶奶的烟袋
解码eUCP2.0
鼓楼旁的斜街
谈新闻标题的现实性
网络新闻标题与报纸新闻标题的对比
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
无意间击中幽默的新闻标题
谁是真正的主人?