APP下载

数据挖掘方法在文本分析中的应用*
——以十九大报告、习近平讲话等文本为例

2020-05-13张林泉

关键词:图谱导图文本

张林泉

(广东女子职业技术学院)

0 引言

党的十九大召开以来,如何让十九大精神往深处走、往心里去、往实里落,一直是人们关注的大事.针对存在理论学习思想认识站位不高、观点理解不深、思想脉络含糊不清、框架掌握不全等问题,给出文本分析新视角,丰富研究手段,开展思维导图政治学练,文本挖掘都是十分重要的.以习近平十九大报告、讲话等文本为研究对象,基于Python自然语言处理方法,运用语料库,探索引入数据挖掘方法进行理论学习,创新理论武装新模式,旨在有计划地提升理论学习的系统性、整体性和连贯性,提高政治站位,坚定维护核心,坚守精神高地,永葆政治本色,切实学深悟透,真正做到学思用贯通、知信行统一.

1 文本文件的思维导图梳理

思维导图作为一种可视化教学辅助工具已引起中外学者的广泛关注[1].以思维导图的形式分析比以文本的形式具体写出来更快、更具体、更形象,能够从全局上把握十九大内容.思维导图研究可以提供一种有效的宏观分析框架,能提纲挈领地从整体上把握十九大报告的理论价值和现实价值.有利于深化拓宽思想政治教育研究的视野;有利于进一步完善研究方法,推动课程改革创新;丰富和发展新时代中国特色社会主义教育的理论内容;有利于学习贯彻落实新思想、新论断.依据十九大报告,参考习近平谈治国理政、党章、习近平相关重要论述等相关资料法规,分三大板块、十三部分梳理制作了十九大报告全文(中英版)的思维导图,理清了重大理论的“思维脉络”.思维导图可以展示党的十九大报告的逻辑结构[2](如图1所示),党的十九大报告总体框架的逻辑体系[3],习近平新时代中国特色社会主义思想和基本方略的逻辑结构[4-6],“四个伟大”的内在逻辑[7-11].

图1 党的十九大报告的逻辑结构

2 文本文件的词云和知识图谱挖掘

词云图是文本挖掘中最重要的可视化技术,它应用核心词汇的字体体积衡量词频的大小,配以不同的颜色和形状,更直观地反映词汇的重要性差异.词云图通过对文本中出现频率较高的“关键词”予以视觉上的突出,使文本的阅读者仅需快速浏览便可把握文本中的核心信息.知识图谱是结构化的语义知识库,用于迅速描述物理世界中的实体、概念、属性、相互关系等.Shiffrin R M认为知识图谱的研究目的是帮助研究者简化海量复杂的信息,揭示知识发展结构,研究方法是发现数据信息处理和绘制图形[12].对文本数据基于Python 的第三方库 jieba、WordCloud 、NLTK(Natural Language Toolkit) 进行分词和基于“词频-逆文本频率” (TF-IDF,Term Frequency- Inverse Document Frequency)提取关键词、去停用词和统计词频,生成词云.Gephi是一个开源跨平台基于JVM的复杂网络分析可视化软件,可用于探索数据分析、链路分析、社交网络分析、生物网络分析等[13].对文本关键词提取(information extraction) ,建立共现矩阵,进行主题关键词共现分析,利用复杂网络分析软件Gephi构建主题知识图谱,揭示高频词之间存在的潜在联系,获取文本的基本框架.文本文件和图2表明:中国特色社会主义是改革开放以来党的全部理论和实践的主题,“八个明确”和“十四个坚持”从理论和实践结合上系统回答新时代坚持和发展什么样的中国特色社会主义、怎样坚持和发展中国特色社会主义.“发展”这个词的节点中介中心度(betweenness centrality)值568.85在整个语义网络中最高,凸显了“发展”在语义网络中极高的重要性.

图2 十九大报告知识图谱

图3 深圳方案(2020~2025)词云

图4 抗击疫情表彰讲话词云

词云、知识图谱的文本挖掘方法,在整体把握习近平新时代中国特色社会主义思想的逻辑架构和特点上,具有重要价值,有助于更清晰地把握新思想引领下中国改革发展的脉络.《深圳建设中国特色社会主义先行示范区综合改革试点实施方案(2020~2025年)》中提出了新时代党中央赋予深圳的历史使命,如图3所示.党中央支持深圳实施综合改革试点,以清单批量授权方式赋予深圳在重要领域和关键环节改革上更多自主权.深圳要在重要领域推出一批重大改革措施,形成一批可复制可推广的重大制度创新成果.习近平使用“十个必须坚持”总结经济特区40年改革开放、创新发展积累的宝贵经验,对新时代经济特区在更高起点上推进改革开放作出了六方面重大战略部署.体现了新时代中国特色社会主义思想、“十四个坚持”与深圳40周年的讲话“十个必须坚持”一脉相承,必须倍加珍惜、长期坚持,在实践中不断丰富和发展.由图5~7可见“发展”、“和平”为时代的主题.发展为了人民,发展依靠人民,十九届五中全会为全面把握新发展阶段,全面贯彻新发展理念,推动更高质量、更有效率、更加公平、更可持续、更为安全的发展,着力构建新发展格局指明了前进的方向.

图5 深圳40周年讲话知识图谱

图6 抗美援朝70周年讲话词云

图7 党的十九届五中全会公报词云

3 文本文件的情感分析

文本情感分析是自然语言处理的一个重要部分,与语音情感分析类似,通过处理提取给定文本中的信息来衡量说话者、作者的观点、感觉、态度和情绪,广泛用于分析公司调查、反馈、社交媒体、电影评论、商品、用户评论等,其构想是分析人们对一个特定实体的反应,并采取基于他们的情感的有见地的行动[14].VADER是一个基于词典和规则的情感分析开源python库,可输入想要识别的文本进行情感分析.针对通用场景下带有主观描述的文本,自动判断该文本的情感极性类别并给出相应的置信度,情感极性分为中立、积极、消极、复合.以十九大报告全文(英版)“14个坚持”前4个为例,表1给出了情感极性分析值,多项呈现积极、中立、消极、复合的倾向,其中,坚持全面深化改革积极值为1(见表1).

表1 情感分析

4 文本文件的结构分析

短语结构树(constituent tree)与依存树(dependency tree)是自然语言处理(Natural Language Processing, NLP)中的两种典型的树结构[15].短语结构树用来表达句子的句法结构,其只有叶子结点与输入句子中的词语相关联,其他中间结点都是标记短语成分如图8所示.句法分析主要揭示语言成分的关系,重视该成分在句法结构的作用.

依存树用来揭示句子中词与词的依存关系,分析识别句子中的“主谓宾”、“定状补”等语法成分,以更好地理解语义关系,其每个结点都是一个词语如图9所示.

图8 短语结构树constituent tree

图9 依存结构树dependency tree

5 结语

综上所述,利用Python多样化自然语言处理方法,对文本文件的内容进行系统深入研究,在全面系统的基础上,抓住关键信息、挖掘隐含信息、突出重点,提高理论研究效率.首先,通过词云对文本中出现高频词,把握文本中的核心信息;其次,通过知识图谱,进行主题关键词共现分析,揭示高频词之间存在的潜在联系、内在信息,获取文本的基本框架,形象化地展示信息;再次,通过情感分析,对信息进行分析和决策;最后,通过结构分析,揭示语言成分的关系和句子中词与词的依存关系,更加客观分析其内在的信息,更好地理解语义关系.梳理这些体系的逻辑结构,探讨和寻找它们之间的内在联系,对于更好地从宏观上把握、微观中领悟,进而更加深入地学习领会好党的十九大精神和习近平系列讲话,落实工作部署,具有重要作用.

猜你喜欢

图谱导图文本
基于图对比注意力网络的知识图谱补全
文本联读学概括 细致观察促写作
绘一张成长图谱
初中群文阅读的文本选择及组织
应用思维导图 提升学生化学学习力
思维导图在历史知识复习中的应用
作为“文本链”的元电影
图表
党的十九大报告思维导图
第6章 一次函数