基于TF—IDF算法的文本信息提取
2018-10-27于韬王洪岩
于韬 王洪岩
【摘 要】随着大数据时代的到来,数据量呈几何倍增长。文本信息是人们接触最多的信息,关键信息作为对文本主题的高度概括,成为用户了解文本主题的快速渠道,如何快速有效的挖掘文本关键信息成为研究的关键问题。本文以本溪市政府工作报告为研究对象,将文本信息进行抽象,利用TF-IDF算法实现对文本中頻繁出现的短语进行批量自动提取,统计频繁短语出现的频次,进而提取关键信息。通过对政府工作报告的提取,可以看出政府建设本溪的总体趋势,并且积极响应国家号召,总体推进本溪政府工作不断向前。
【关键词】关键信息提取;TF-IDF算法;频繁短语;词频统计
中图分类号: TP391.1 文献标识码: A 文章编号: 2095-2457(2018)16-0117-002
DOI:10.19694/j.cnki.issn2095-2457.2018.16.053
【Abstract】With the advent of the big data era,the volume of data has increased exponentially.Text information is the most accessible information, and the key information,as a high summary of the text theme,has become a fast channel for users to understand the theme of the text.How to quickly and effectively excavate the key information of the text has become the key issue of the research.This paper takes the Benxi municipal governments work report as the research object and abstracts the text information.TF-IDF algorithm is used to automatically extract frequent phrases in the text,and the frequent occurrences of frequent phrases are extracted, and the key information is extracted. Through the extraction of the government work report,we can see the general trend of the governments construction of benxi,and actively respond to the national call,so as to push forward the work of benxi government.
【Key words】Key information extraction;TF-IDF algorithm;Frequent phrases;Word frequency statistics
0 引言
人们每天通过网络了解国内外事件,获取自己所需信息。网络早已成为人们了解信息的重要方式,随着大数据时代到来,信息量暴增,信息交换、传递的方式也随之增多,但在众多信息传递方式中,文本信息在目前依然占据上风。如何快速有效地了解文本关键信息成为关键问题。在大数据时代,我们对大数据和数据挖掘已然不陌生,数据挖掘是主动地挖掘大数据中价值信息,文本也是数据挖掘的重点研究领域,因此提取文本中关键信息十分关键。
TF-IDF(Term Frequency-Inverse Document Frequency)算法是是一种用于信息检索与数据挖掘的常用加权技术[1],是一种统计方法,用以评估字词对于文本集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。也就是说一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。本文通过TF-IDF算法对政府工作报告进行提取,得到了可靠的结果,结果可信度强,适合对文本进行关键词提取的工作。
1 TF-IDF算法
TF-IDF算法是经典的关键词提取方法[2-3],是目前应用最多的基于统计信息的关键词提取方法。分为三大模块:
1.1 文本预处理模块
输入文本a,首先进行分词等预处理操作,然后把文本a的内容看成由特征词组成的集合,文本a可以用特征词的集合表示为ai=(t1,t2…,ti,…tn)其中ti是特征项。
1.2 权重计算模块
根据各个项ti在文本ai中的重要性给其赋予一定的权重wi,TF-IDF算法通过特征词的词频(TF)和反文档频率(IDF)来计算特征词ti的权重wi,文本ai的特征词的权重计算公式如下:
TF(ai,ti)表示特征词在文本中出现的次数,DF(ti)表示在文本数据集中出现特征词的文本个数,M表示文本数据集总的文本数,IDF(ti)表示反文档率。
1.3 提取关键信息模块
按照权重wi从大到小对特征词ti进行排序,选择前m个词作为文本a最终的关键词。
2 实验设计
通过实验验证本文提出的词频统计规律的正确性,验证TF-IDF算法的有效性和可行性。本文实验均在 Windows 10系统下运行,CPU 主频 3. 40 GHz,内存8 GB,开发工具pycharm,运行环境Python3.6,算法实现采用Python语言。
2.1 实验数据集
在对词频分布规律进行研究时,没有固定、标准的数据集。在以往有关词频分布规律的实验中,多以文章、文献或书籍作为实验数据。本文以政府工作报告作为实验数据集。
本文实验数据具有以下特点:
(1)实验数据质量高: 为保证数据质量,本文选择的是高质量的政府工作报告。
(2)实验文本说服性强:本文选择具有权威性的政府工作报告作为实验数据集。
(3)实验文本数量多:本实验以本溪市9年的政府工作报告作为实验数据。
2.2 算法验证
本文在中文文本上验证TF-IDF算法的可行性[4-5],通过与真实值的趋近程度来判断算法的准确率。首先将每个政府工作报告抽象为一个文本a,进行输入。然后将文本a化成特征项组成的集合,方便提取关键词,接着计算每一项的权重,通过权重计算公式计算出每一项的权重,接着按照每一项的权重大小进行排序,取出排名靠前的几项作为关键词。
3 实验结果
接下来对提取结果进行简要分析:结果包含了2010-2018年间的提取关键词。2010年政府工作報告的重点是推进项目发展、抓好招商产业、实现产值20亿元以上、完善沈本工作等。2011年主要工作重点是抓好新城工作,并坚持发展文化。2012年主要工作重点是加快全市重点集群产业工作,完成企业工程增长10亿元,并发展旅游业等……2018年重点在加快企业改革,发展旅游等。通过9年间的提取结果,可以看出在这9年间政府以建设本溪、推进项目发展工作贯彻始终,积极响应国家号召,在坚持大方向的前提下,不断完善每个基本点,总体坚持改革与发展。并通过对企业、旅游、文化等的促进,总体推进本溪政府工作不断向前。
4 结语
本文将TF-IDF算法与关键信息提取相结合,提出基于TF-IDF算法的文本信息提取方法。首先对TF-IDF算法进行研究,利用文本预处理模块、权重计算模块、提取关键信息模块对文本进行处理,提取了政府工作报告的关键信息,得到了大致的发展方向与研究重点,并且验证结果与真实值基本吻合,此种方法为快速获取文本关键信息提供了支持。
【参考文献】
[1]孙飞.基于论坛关键字搜索的改进TF-IDF算法及其应用,江西师范大学,2015.5.
[2]罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法,计算机应用,2016.3.
[3]张旭成,宋传宝.基于文本类别信息熵的中文文档关键词提取,中国中文信息学会会议论文集,2007.10.
[4]许梦馨.基于复杂网络的文本关键词提取分析平台,南京邮电大学,2017.10.
[5]杨玥.中文文本主题关键短语提取算法研究,西安理工大学,2017.6.