APP下载

微信公众号文本自动摘要研究

2022-02-06程子轩颜成伟李铖硕

产业与科技论坛 2022年17期
关键词:文档公众自动

□程子轩 颜成伟 李铖硕

移动互联网时代下,新媒体与大数据技术飞速发展,以微博、微信、短视频等形式为代表的新媒体已然成为人们交流、休闲、学习、生活的一部分。微信相继推出微信公众平台、朋友圈、消息推送等功能服务进一步扩大用户群体规模,至今全球已有超过13亿微信注册账户。微信公众平台凭借庞大的微信用户群体迅速成为最具影响力的信息传播媒体平台之一。然而庞大纷杂的账号主体直接导致了微信公众平台信息质量参差不齐、信息过载现象严重。因此,如何在海量、雷同的信息海洋中筛选出真正需要和感兴趣的内容是广大微信用户面临的困扰,更是微信公众平台需要关注并有待解决的问题[1]。

一、微信公众号文本摘要的意义

微信公众平台的使用场景主要是移动网络环境和智能终端,用户受到手机、平板电脑等智能终端设备屏幕较小和阅读时间碎片化的限制,很难在短时间内浏览和阅读几千字的文章,知识过载和冗余给用户带来较差的阅读体验和较多的精力投入。因此,微信公众平台文本知识摘要生成具有重要作用和意义。

(一)微信公众平台文本知识摘要生成能够提高用户知识获取效率。依靠自动化技术抽取生成概括性知识摘要,一方面能够将文章内容大幅度缩短,可以给用户提供判断是否继续阅读的依据,极大地节省了用户的时间和精力,给用户带来较好的阅读体验。

(二)知识摘要自动化生成能够提高微信公众平台知识重用效率,实现知识整合和序化组织。知识摘要的生成能够减少和过滤冗余信息,提取文档中的主要知识和思想观点,整合多篇文档中知识资源内容,得到完整的高质量知识资源,实现知识的重新整合和序化组织。

(三)微信公众号摘要自动化生成能够为新兴的智能服务与市场分析方向提供强有力的支撑。微信公众号摘要自动化生成能够为微信公众平台知识组织与服务、智能检索与问答、领域热点追踪和分析、行业咨询等新兴的智能服务与市场分析方向提供强有力的支撑,具有较高的商业价值。尤其对于微信公众平台推送类的学术类公众号媒体,自动化知识摘要生成能够在很大程度上减少平台编辑的人力和财务成本,提升用户体验度。目前市场上能够提供自动化知识摘要的服务平台较少,所以从商业应用角度具有一定的研究意义和价值。

二、微信公众号文本数据特征

(一)微信公众平台数据形式。微信公众平台支持推送消息的形式包括文字、语音、图片、录音、图文消息、名片、视频等,多种内容形式可以同时存在于一条群发消息中。微信公众平台发布的文章中采用单一媒体形式的较少,以文字为主的图文消息最为普遍。部分公众号在文章中插入背景音乐或同步朗读语音,使内容表现形式更加丰富。随着2020年1月微信视频号系统内测,微信公众号内的视频发布逐渐向微信视频号账号转移。因此,微信公众号知识资源的形式主要是以文字配图片的形式为主,同时包括音频、视频等多种媒体形式。

(二)微信公众号知识类型。按照知识的专业深度不同,微信公众号知识资源可分为科普型知识、专业科普型知识、专业发展前沿、专业知识以及学术专题型知识等。科普型知识的受众最为广泛,大部分公众号会不定期发布科普型知识内容,对知识普及起到积极宣传的作用。专业科普型知识的受众也十分广泛,普通微信用户对此类知识的关注度根据专业所在领域的热度不同有所差异,如健康、科技、金融等领域专业科普型知识受关注较多。相关领域的垂直类微信公众号会不定期发布专业科普型知识,使微信用户对感兴趣的领域知识有进一步的了解和掌握。专业发展前沿、专业知识和学术专题等类型的知识由于对微信用户专业基础知识有一定要求,因而受众相对较少,受众群体以研究生、高校教师和科研工作者为主。专业发展前沿、专业知识和学术专题等类型的知识主要由学术类微信公众号发布,这类公众号的运营主体主要为科研机构、学术期刊、高校图书馆等,一些垂直类公众号也会少量发布专业发展前沿类知识内容。学术微信用户通过公众号能够掌握前沿的专业知识内容,并通过平台与其他学者对感兴趣的知识内容进行交流碰撞。

(三)微信公众平台数据资源特征。一是微信公众号知识资源呈现出碎片化特点,适合碎片化阅读。当前,由于生活节奏加快,碎片化阅读已成为移动互联网环境下的主流阅读模式,而微信公众号上的知识类型和传播形式正符合现代人需求和时代发展趋势。二是在将专业的知识内容提炼、分解、重组、并深入浅出图文并茂地演绎出来,对知识资源的质量也提出了更高要求。例如,一些学术期刊公众号如果单一复制母刊文章进行发布,则很难收获较好的传播效果,若能将原文基础上进行二次加工,可以使用户在短时间内掌握论文精华,有效提高阅读量及微信传播指数(WCI)[2]。三是微信公众号知识资源存在大量信息冗余。微信公众号数量众多,各公众号专业水准参差不齐,部分文章原创性不足,内容相似的热点话题文章被不同公众号频频推送的现象随处可见。大量引用或转载都造成了信息资源的浪费,给用户阅读和使用造成了一定的困扰。因此,如何从繁多的消息推送中甄别出有效信息、提高阅读效率成为微信用户的迫切需求。

三、文本自动摘要技术概述

摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文,能够概括和总结文档的中心思想和核心内容。早在20世纪50年代,自动文本摘要已经吸引了人们的关注。在20世纪50年代后期,Hans Peter Luhn利用词频和词组频率等特征从文本中提取重要句子,用于总结内容[3]。文本摘要自动化生成是指运用现代计算机的自动化技术从原始文章中抽取或重新组织生成包含中心内容、概要信息或者作者的情感态度的主题或语义内容的句子,并将这些句子按照一定顺序形成文章摘要的过程。

自动化摘要生成有多种分类方式。按照研究对象的文档数量多少可以分为单文档自动摘要和多文档自动摘要。对于微信公众平台的知识摘要生成,提取单篇文档中知识摘要即是单文档知识摘要生成,提取某一领域知识相关的多篇文档中内容即是多文档知识摘要生成。按照生成摘要的用途,可以将自动文档摘要分为面向信息浏览和基于情感态度分析两类。有些摘要是为了方便用户浏览文档的概要信息,有些而是为了分析出文档中作者的情感态度。微信公众平台自动化摘要生成主要是为了便于用户查找知识内容和概括性浏览,因此需要进行面向知识浏览的自动化摘要生成。此外,按照自动文档摘要中是否含有原文中句子可以分为两类:一类是直接从文章中抽取权重排序较高的原文句子,不对原文档中句子进行修改,按照一定顺序组织形成文档摘要,即抽取式方法;另一类是通过对原文的“理解”,组织生成新的语言句子对文档的主题、概要信息进行融合表达概括,即生成式方法。由于生成式方法形成摘要过程中需要解决语义表示、推理和信息融合等问题,比抽取式方法复杂、难度大,且抽取式自动文档摘要生成是从原文中选取关键句组成摘要,在语法、句法上错误率低,整体效果优于生成式自动文档摘要。因此,本文采用抽取式方法对微信公众平台知识自动化摘要生成开展研究。

四、微信公众号文本自动摘要过程

采用抽取式方法进行微信公众号文本自动摘要生成具体分为语料获取、预处理、文本特征化、摘要抽取和效果评价五个步骤。

在语料获取阶段是采集微信公众号发布的文本数据,平台内部人员可以直接通过平台数据库调取,外部人员可以利用搜狗微信平台进行数据爬取。预处理阶段是将非结构化或半结构化的文本数据转换为结构化信息,常用操作包括去除标记、分词、词性标注、去停用词等,可以减少噪声、提升文本质量。文本特征化是将自然语言表示为计算机能够识别处理的特征项,然后再对这些特征进行降维处理。Word2vec模型的出现为文本向量化提供了便利,Word2vec可以根据给定的语料库,利用训练好的模型快速有效地将一个词语转换成向量表达的形式,为后续的文本挖掘准备。摘要抽取是核心阶段,目前基于图模型的自动摘要方法比较常用,这种方法是将词、句子等文本单元以及他们之间的相互关系作为顶点和边,建立相应的语言网络图模型,并从中识别出重要的句子,相关算法包括PageRank、LexRank和TextRank等。摘要抽取完成之后是效果检验,对于较小的样本量可以采用Edmundson方法进行文本摘要效果评价方,即计算自动文本摘要与人工摘要的句子平均重合率,对于样本量较大的可以采用ROUGE方法,包括基于N-gram共现统计的ROUGE-N方法,基于最长公共子序列的ROUGE-L方法,基于对顺序词对统计的ROUGE-S方法等。

自动化摘要技术作为知识集成组织的重要形式,可以协助用户在较短时间内快速了解文章内容,解决知识过载和知识冗余等带来的问题,极大地提高用户阅读及获取知识的效率。引入自动生成摘要技术实现微信公众平台知识资源序化组织,能够有效解决文本知识冗余与人工阅读能力有限之间的矛盾。

猜你喜欢

文档公众自动
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
公众号3月热榜
公众号9月热榜
公众号8月热榜
公众号5月热榜
自动捕盗机
Word文档 高效分合有高招
让小鸭子自动转身
自动摇摆的“跷跷板”