网站内容自动摘要方法及其在高校年鉴编制中的应用
2021-11-01马玉庆刘一翔张根熹万宇明
马玉庆, 刘一翔, 张根熹, 万宇明
(上海交通大学 电子信息与电气工程学院, 上海 200240)
0 引言
年鉴是特定年份特定区域或领域所发生的重要事件的记录。年鉴的编制既是对事件的记录与整理,也是对特定范围内工作的汇总总结。对管理者进一步决策,起到辅助支持作用。高校年鉴编制对各院系围绕教学、科研所开展活动及所取得的成果进行分类汇总,一般有院系行政管理人员完成。由于高校教学与科研工作具备专业化、创新性强的特点,办公室行政人员在进行年鉴编制时存在如下挑战。
(1) 教学科研与行政管理人员由于专业隔阂原因,造成年鉴编制人员进行年鉴材料内容筛选、分类困难。高校教学科研活动一般与所在院系专业相关程度高,年鉴材料中涉及到大量专业相关学术内容,年鉴编写行政人员在进行内容筛选时,较难对其成果的专业水平进行准确评价,教学与科研交叉融合进一步造成年鉴编制内容分类甄别困难。
(2) 实验室与行政管理分离造成年鉴编制内容收集困难。高校年鉴编写主要是对教学、科研基层组织,例如实验室或授课教师重要活动或成果的记录。由于实验室科研以及教学管理活动与行政管理常常是部门分离的,并且,教师和实验室科研人员在年鉴材料收集方面积极性偏低,因此通过人工方式进行年鉴材料收集是一个耗费人力时间的过程。
针对不同类型年鉴编写,相关学者分别围绕方法创新、制度建设等方面展开研究。罗洁琼等[1]认为年鉴条目是年鉴编写的关键部分,提出可以从年鉴条目材料收集的覆盖性、年鉴条目标题的准确性,以及年鉴条目内容的质量3个方面,提高年鉴编写水平。孙永华等[2]从年鉴框架结构设计出发,结合区域发展中高新区现代工业与科技领域、外向型经济、旅游经济等特色,认为突出区域特色,推动创新编写,是提高区域年鉴编写水平的关键。针对高校年鉴编写,罗应梅等[3]认为完善年鉴编写制度与流程、加强年鉴编写人员培训是持续推进年鉴编写工作健康发展的基础,同时认为互联网和数字化技术会成为年鉴传播的趋势之一。
自动摘要技术是基于计算机的自然语言理解的重要内容,在行政档案、企业知识管理等领域有较多应用。姜志祥等[4]生成式摘要方法中存在的问题,提出并设计了基于自注意力与指针网络的自动摘要模型,通过基于深度学习的语义处理技术,提升自动摘要算法的准确度。从年鉴词条生成角度,由于深度学习对于训练数据有一定的数量要求,因此存在工程应用的难度。章成志等[5]对书评内容进行摘要,利用词向量以及近邻传播聚类等方法构建图书属性词集,在此基础上利用TextRank算法生成图书内容摘要[6]。该研究表明自动摘要技术可以对文本内容进行分析,并区分文本内容的类别,例如属于书评内容还是属于书籍内容,从而对文本内容进行分别处理。在年鉴生成过程中,对于年鉴资料的分类是抽取年鉴词条的依据,本文在年鉴自动生成研究中借鉴了相关聚类方法的应用。同时,由于信息化的普及,年鉴资料的来源主要来自于企业网站等平台,网页内容自动抽取有较多研究与应用,例如王雪梅等[7]利用标签和分块特征进行新闻网页内容抽取,以进行新闻网页内容分析。在年鉴生成方法中,利用企业网站内容分析可以提高年鉴资料的收集效率。
基于以上分析,本文利用网页内容管理、图像分类标注与文本自动摘要方法对互联网内容进行自动分析,研究行政档案自动摘要与应用系统设计。课题利用网络爬虫技术进行网站数据抓取,利用专家经验构建领域词库与概念关系,形成内容评价指标体系,在此基础上进行分词以及权重计算,根据权重结果判定事件的重要程度。通过原型系统的设计实现以及学院网站分析结果,验证了本项目所设计方法的可用性。
1 年鉴条目及自动抽取方法设计
高校行政年鉴条目内容主要涵盖年度科研、教学活动等活动中重要事件。一般地,高校年鉴由学校和院系不同级别行政管理人员协同完成。年鉴整体架构和类目等,由学校统一制定,各院系在统一年鉴架构的指导下,进行年度重要事件材料收集,以形成条目和大事记内容[8]。
条目和大事记内容的编写是一个繁琐的过程,需要对年度发生的各类事件进行整体梳理、归类和重要性评估。为了提升年鉴条目信息收集的效率,本文以条目生成为例,研究提出基于网络爬虫的网站新闻内容自动抽取与分析方法,以生成年鉴条目推荐列表,其抽取分析过程如图1所示。
图1 面向网站新闻的年鉴条目自动抽取方法
由图1可知,年鉴条目自动抽取方法主要包括3个部分,即网站结构抽取、新闻内容抽取以及条目推荐。
网站结构抽取部分,由于年鉴条目和大事记主要收集本行政单位年度发生的重要活动,因此网站分析目标主要是本部门的官网或公众号,网站结构相对固定、可根据网站开发文档获知。
新闻内容抽取部分,则需较大的灵活性,本文主要借助自动摘要研究中较成熟的分词工具,进行新闻内容关键字的抽取。虽然从生成条目的角度,单纯的关键字并不能完全反映条目或大事记的全部内容,但是从新闻所反映的活动事件重要性评价角度,关键字是较重要的评价依据。
条目推荐部分的主要目的是通过对新闻内容的评估,挑选出可能列为年鉴条目的新闻材料。如何进行新闻内容重要程度评价是关键。本文借助领域知识图谱思想,设计了关键词关联与权重指标体系,构建结合领域关键词层次及权重分配的内容评价方法。
2 关键词权重指标体系构建
在年鉴条目的自动生成过程中,除了内容自动摘要外,从年鉴角度对新闻内容进行重要性评估是条目自动生成的关键。在新闻内容重要性评估方面,领域专业人员一般需要将先验知识与后验统计结果两方面相融合。因此,本文借鉴知识图谱概念,设计了领域关键词权重指标体系,将领域专业知识与关键词统计结果相结合,计算所分析新闻的活动重要程度,以判断是否列入条目推荐列表。
关键词权重指标体系元模型及指标体系示例如图2所示。
图2中,左侧虚线框内为指标体系的元模型。指标体系中包含3类元素:指标项、属性项和关键词。
图2 关键词权重指标体系元模型及指标体系示例
条目=(指标项1,指标项2,……,指标项n);
指标项={指标项|<属性项,权重>};
属性项={<属性项,权重>|<关键词,权重>}
其中,年鉴条目是由若干并列的指标项组成,它们彼此独立,按时间构成大事记的基础。指标项间由于是各自独立的,因此不区分权重。
3 年鉴条目自动抽取原型系统设计
首先,首先使用Request库,通过网站URL地址、page=
urllib.request.urlopen(url)、contents = page.read()和soup = BeautifulSoup(contents,"html.parser")建立soup对象。
然后,在Web中找到新闻内容的存放位置(p),使用Soup对象的find_all功能,提取内容并写入分析文件txt中。其代码片段如图3所示。
图3 获取新闻内容代码片段
图3所示的伪代码以utf-8的编码格式打开txt文档,遍历HTML页面中p标签内的文字,并将其写入1.txt。
对于存储在文件1.txt中的新闻内容,本文采用Jieba库来获取特定新闻的关键词,伪代码如图4所示。
图4 新闻关键词提取伪代码片段
图4伪代码片段中,首先是读取出目标txt文档中的文本,并用Jieba库中的Lcut函数处理得到处理成关键词的对象文本,并对关键词进行遍历筛选,最后返回出频率最高的前len(cha)个关键词。
5 总结
年鉴编写是行政办公室的重要职能工作之一。但是,也是一项耗费时间人力的任务。对于高校年鉴编写还存在专业壁垒,具有一定的挑战性。本文研究了网页内容抽取方法,设计了年鉴词条评价模型,并进行了关键词体系构建;设计了年鉴词条自动抽取方法,并进行了原型设计验证。该方法对于提升年鉴编写效率有一定借鉴作用。