《习近平谈治国理政》文本计量研究
2016-07-28许佃兵
关 琳,许佃兵
《习近平谈治国理政》文本计量研究
关琳,许佃兵
专题前言
“南京大学中国智库研究与评价中心”是江苏省委宣传部和南京大学共建的以智库研究和评价为主要方向的机构,挂靠南京大学信息管理学院,目前正从事“中国智库索引(CTTI)”的开发和数据采集工作。本组文章是在项目调研材料上提炼加工而成,涉及智库文本和智库成果的量化分析、智库网站影响力评价和智库人才评价。本组文章的共同点在于:将分析建立在实证材料和实证方法的基础上,探索新时代索引编制的理论和技术方法。CTTI希望能增强现代索引的内容分析和评价功能,以拓展现代索引理论的视野。李刚
摘要文章采用文本分析方法研究《习近平谈治国理政》一书的索引和注释,以词频统计为基础,提炼该书的理论思想要点。以网络新闻分析结果和搜索引擎的检索热点作为参照,对文本分析的结果加以验证。研究发现:采用文本分析方法分析该类著作,能够更加高效、全面地提炼思想精华;比较网络新闻报道和集中学习两种宣传方式,发现集中学习对著作中思想要点的提炼更全面。
关键词习近平谈治国理政文本分析数据可视化思想政治学习智库研究
引用本文格式关琳,许佃兵.《习近平谈治国理政》文本计量研究[J].图书馆论坛,2016(5):9-16.
1 研究方法
《习近平谈治国理政》(以下简称《治国理政》)一书由北京外文出版社于2014年9月出版,该书收录了习近平作为党和国家领导人在2012年11月15日到2014年6月13日期间的讲话、谈话、演讲、答问和批示等。全书围绕“治国理政”这一主题提出了很多新论断、新观点、新思想,对新的历史条件下党和国家发展的现实问题和重大理论作了解答,是中共新一届中央领导集体的执政方略和治国理念的集中展现。《治国理政》的出版在我国网络媒体中产生了巨大的反响[1]。
本文采用文本计量方法[2]对《治国理政》的索引和注释部分的词汇和短语进行词频统计和计量分析。按照词频统计规则,区分高频词和低频词,并采用可视化方法,尝试使用词云[3]、高频词分类统计、数据地图[4]等文本分析工具,筛选高频词中的代表性部分,从多个维度加以分析。
词云由Rich Gordon提出[5],是将文本中的词汇按照词频高低决定词汇大小或色彩突出表现的图形化工具。目前发展出多种成熟的针对中文的词云工具,如“图悦”。采用这种直观的方式,可以使读者第一时间获取文本信息的重点;但由于以字体、颜色等图形特征来表达数据,所以其缺点是无法表达单个词汇的词频。
数据地图是一种地理数据表达方式。当数据中普遍含有地名信息时,可以采用数据地图工具将地名出现的情况投射到实际地图上,使地名在数据中的统计情况与实际地域分布情况相结合,地名信息更直观,读者对数据中的地理信息一目了然,但这种表现方式只对地名数据有效果。
本文还使用武汉大学研发的新闻采集分析工具(ROST News Analysis Tool,ROST)[6],自动采集和分析主流网站对《治国理政》的报道和转载的内容摘要,对该书的宣传重点加以分析。再结合百度指数,对该书的检索热点加以分析。从网络传播的角度,评估使用文本计量方法对此类专著的索引和注释开展分析的可行性和准确性。同时,以文本分析为出发点,检验《治国理政》蕴含的重要思想在网络中的传播情况。
2 中华民族复兴是 《习近平谈治国理政》的中心主题
书后索引是检索书内内容、定位知识点、揭示理论和学术创新点的重要工具。虽然我国图书有书后索引的不到4%,但领袖的经典著作往往都有书后索引。《治国理政》编制了主题索引,收录了932个主题词,在《治国理政》中出现共计3997次。通过对书后主题词索引词的出现频次的统计,可以发现其关心的主题,出现频次越高的主题词,往往是该书的中心主题。经统计,《治国理政》书后主题索引词分布规律如图1所示。
图1 词频统计
其中存在“习近平”等少量高频索引词和大量的低频索引词,整体分布基本符合齐普夫定律[7]。子图为柱状图,所列为词频较高的部分索引词。由于《治国理政》收录了习近平的讲话、演讲等文稿,所以“习近平”作为最高频词汇是显而易见的。为便于后续处理能够更加直观地发现书中的内容要点,于是进行简单筛选,去掉最高频词“习近平”和最低频词即只出现一次的索引词(共计384个),绘制词云,如图2所示,可直观看到在该书中提到次数较多的词,如“中华民族”“中国特色社会主义”“中华民族伟大复兴”“改革开放”“中国梦”在词云中突出显示。在词云工具中可以放大看清该图中所有索引词,对该书索引有全面直观的认识。
图2 词云
对《治国理政》的高频词与低频词分界的临界值,可根据Donohue提出的高频词、低频词分界公式来确定。经过计算,得到高频词阀值T为27,即词频在27以上的索引词为《治国理政》的高频词,经统计只有16个。为了与图2词云作对比,做适当扩充,统计词频在20以上的词,共计30个。
如果将词频以统计表的方式列出,则与图2相比,词频统计列表的方式可以直观感受到高频词之间的频次差异。此外,采用词频统计表的方式也便于有针对性地开展专项研究。30个高频词大致可以分为3类:第一类包括“中华民族”(102次)、“中华民族伟大复兴”(69次)、“中国梦”(59次)、“中华民族伟大复兴的中国梦”(37次)、“小康社会”(36次)和“两个一百年”(20次)等6个相关主题词。这6个词虽然只占索引词总数0.6%,词频数却占总频次8%,可见其在习近平治国理政思想体系中的重要地位,揭示了习近平治国理政思想的目标和远景。中华民族的历史命运和民族复兴大业是习近平治国理政思想的中心主题,民族命运和前途也是全球华人的最大公约数和最根本利益所在。第二类索引词包括“中国特色社会主义”(76次)、“社会主义现代化”(38 次)、“科学发展”(31次)、“科学发展观”(21次)、“核心价值观”(24次)、“社会主义核心价值观”(21次)、“马克思”(27次)、“马克思主义”(25次)、“邓小平”(28次)等9个索引词,占总频次7%,这从侧面说明坚持社会主义、马克思主义和邓小平理论在习近平治国理政思想体系中占据核心地位。第三类索引词包括“中国共产党”(26次)、“党中央”(24次)、“中央政治局”(24次)等3个索引词,它们在书中共出现74次,占总频次1.8%,这反映习近平一贯坚持的加强党的自身建设、党要管党的基本思想。中国共产党是治国理政主体力量,这是习近平治国理政思想的基本原则之一。
上述三类主题词印证了习近平治国理政思想的三个基本特征:第一,中华民族的伟大复兴是中国梦,相关表述构成了习近平治国理政思想的目的论。第二,坚持中国特色社会主义道路、理论和制度构成了习近平治国理政思想的认识论和方法论。只有坚持中国特色社会主义的道路、理论和制度,才能实现中国梦,才能实现中华民族伟大复兴。第三,中国共产党是治国理政的主体力量,实现中国梦和走中国特色社会主义道路都离不开党的领导。
3 《习近平谈治国理政》中的国名、地名、人名与缩略语
《治国理政》索引中共涉及除中国外的国家和地区名51个,共出现160次。其中国家名34个,共出现76次;地区名17个,共出现84次。使用数据地图方式得到国家和地区分布情况,如图3所示。
图3 国际和国内地名分布
从图3中可以发现,《治国理政》中提及次数最多的国家是俄罗斯(14次),其次是美国(6次)。美国和俄罗斯是习近平施政过程中考量最多的国际因素。习近平提及俄罗斯的次数远超美国,既说明中俄之间存在巨大的共同战略利益,也说明中美关系近年来出现了一些问题。美国为阻止中国崛起,维持自己的超级大国地位,通过亚洲再平衡和推动TPP自由贸易区战略,进一步挤压中国的生存空间,迫使中国加强与俄罗斯的联系。图3还揭示,除俄、美外,在地区分布上,南、北美洲国家提及较少;大洋洲没有提及;近年埃及、利比亚、埃塞俄比亚等非洲国家政局动荡,非洲这一传统友好国家聚集地在该书中提及较少,只有加纳、肯尼亚、坦桑尼亚和南非四个政局稳定的非洲国家被提到。与前述关注度较低的地区相比,该书对欧洲、中亚地区和南亚地区的关注度十分高。在历史上,由中国经中亚地区到达欧洲的陆上丝绸之路是连接亚欧大陆的桥梁,与此对应的是经由南亚抵达阿拉伯海的海上丝绸之路。对欧洲、中亚和南亚国家的大量提及,与该书中收录2013年以来习近平提出建设“丝绸之路经济带”和“21世纪海上丝绸之路”(简称“一带一路”)(4次)的战略构想相吻合。无疑,涵盖“丝绸之路”(该书提及15次)、“丝绸之路经济带”(6次)和“丝路精神”(5次)的“一带一路”战略构想是该书的重要思想之一。
《治国理政》索引中共涉及我国地名22个,共计出现111次。将地名词频导入数据地图,得到分布情况,见图3。从图3中可以看出,除陕西和石家庄外,其余均为直辖市和沿海省市。陕西作为习近平政治道路的起点,多次提到属于情理之中。值得注意的是,东北三省和众多中西部省份在该书中并未提及,或许意味着西部大开发、振兴东北老工业基地和中部崛起等国家战略已走过政策密集部署阶段。统计发现,所有22个省市地名中,词频位列第一的是台湾(14次),其次是北京(13次),该书对“两岸关系”(14次)的多次提及,这与近年对台政策的转变和两岸关系的变化密不可分,从侧面体现了国家领导人在对台关系的处理上进入了政策灵活调整时期,掌握了台海关系的主动权。
《治国理政》索引部分涵盖了大量人名,共涉及除“习近平”外的人名87个,总共出现210次。按频次排序,前十位是“邓小平”(29 次)、“马克思”(27次)、“毛泽东”(17次)、“胡锦涛”(9次)、“江泽民”(7次)、“列宁”(6次)、“普京”(6次)、“崔世安”(4次)、“孔子”(4次)和“梁振英”(4次)。《治国理政》中的理论建立在“马克思主义”(25次)、“邓小平理论”(17次)“和“毛泽东思想”(6次)基础之上,以“马克思主义中国化”(2次)为主要路径。如图4所示,按照国别对人名词频进行统计,发现除中国外被提及的国家中,俄罗斯以33次高居榜首,俄罗斯总统普京是出现次数最多的在任外国领导人,再次凸显当下俄罗斯对中国的重要意义。图4所示按照身份对人名词频进行统计,可以发现,该书提及的人士身份种类非常多,既包括国家和地区领导人,也包括古今中外的思想家、文学家和科学家。另外,习近平的家人也均有所介绍,描绘了生活中的习近平。在作家之中,除鲁迅(1次)、莎士比亚(1次)、雨果(2次)和歌德(1次)之外,国籍均为俄罗斯,可见俄罗斯文学对习近平的影响非常突出。
图4 人名词频统计
《治国理政》索引中除去人名、地名等索引词外,还包含一些缩略语索引,即用双引号括起来的短语。这些缩略语往往凝结了重要的战略思想和方法策略,是对施政方略和理论成果的高度概括。按照索引次数,排在前十位的缩略语是“两个一百年”(20次)、“三个代表”重要思想(17次)、“四风”(6次)、“三股势力”(5次)、“和而不同”(4次)、“一带一路”(4次)、“老虎”“苍蝇”一起打(3次)、“两岸一家亲”(3次)、“明者因时而变,知者随世而制”(3次)和“缺钙”(3次)。有些缩略语多次出现、反复强调,在该书收录的演讲、讲话、谈话中用于阐述中心思想。比如,“两个一百年”的奋斗目标在党的十五大报告中首次提出,在党的十八大报告中重申,在该书收录的数次讲话、座谈中强调了20次之多。在上下文语境中,强调“两个一百年”奋斗目标作为对“中国梦”远景目标的铺垫和阐释,使得“中国梦”的理论体系更加完整明确。再如,“三个代表”重要思想,在上下文语境中,与“邓小平理论”(17次)和“科学发展观”(21次)多次共现,用于阐述中国特色社会主义理论体系的构成和延续性,是该书的理论基石,也是党员与干部坚定信念、增强“三个自信”(1次)、“功崇惟志,业广惟勤”(2次)、避免精神上“缺钙”和“软骨病”(2次)的思想武器。
有些缩略语是《治国理政》中提出的最新思想的高度凝练。比如,“四风”一词首次出现于2013年4月28日习近平在同全国劳动模范代表座谈时发表《实干才能梦想成真》的讲话中。“四风”包括形式主义、官僚主义、享乐主义和奢靡之风。在2013年6月18日党的群众路线教育实践活动工作会议上,习近平在讲话中将党内存在的矛盾和问题聚焦到“四风”上。在2014年1月14日第十八届中央纪律检查委员会第三次全体会议上所做的《深入推进党风廉政建设和反腐败斗争》讲话中,习近平将“四风”与严明党纪和反腐败结合在一起,并提出“老虎”“苍蝇”一起打的行动策略。经过多次发展和升华,“四风”与“照镜子、正衣冠、洗洗澡、治治病”(1次)、“三严三实”(1次)等共同形成了一套加强党风建设的思想和话语体系。
此外,还有一些缩略语是引经据典和引用舶来品的结果。比如,“明者因时而变,知者随世而制”(引自《盐铁论》)先后3次用于阐释党的宣传工作发展、经济发展和时代发展的语境中,极具说服力。再如,在强调区域一体化和亚太经合组织的协调作用的重要性时,引用“意大利面碗”(1次,引自《美国贸易政策》),对各种特惠贸易协议下的优惠待遇和原产地规则的剪不断、理还乱的现象一言以蔽之。在亚太经合组织工商领导人峰会这样的场合下,中国致力于构建的地区合作框架的重要性不言自明。
4 《习近平谈治国理政》揭示了习近平丰富的文化积淀
除书后索引外,《治国理政》的引文也值得分析。习近平是中共第一位拥有博士学位的总书记,理论学养深厚,文学素养极高。《治国理政》共出现引文133处,这些引文出现在讲话、演讲、谈话中,是为阐释思想、说明问题而引用的典故。对注释中引文的分析,有助于加深对该书的认识和重要思想的理解领悟。在该书注释中,引用最多的是《论语》(14次),其次是唐诗(11 次),之后是《孟子》(7次)、《礼记》(6次)、《邓小平文选》(5次)、《毛泽东诗词集》(4次)、《毛泽东选集》(4次)、《周易》(4次)、《史记》(3次)、《管子》(3次)、《老子》(3次)、《尚书》(3次)。
我国领导人历来喜欢引用先贤经典,《治国理政》多次引用《论语》《孟子》,足见儒家思想对习近平的影响。《邓小平文选》《毛泽东选集》是该书的理论源头。值得一提的是,该书对《毛泽东诗词集》多次引用,这与习近平对毛泽东的认可和习近平青少年时代所处的文化背景密不可分。对于注释中引文的分析,可以在学习该书的过程中,对作者的文化背景有所了解,从而对作者所构建的理论体系形成更加深刻的认识。
5 《习近平谈治国理政》强大的网络影响力
前文分析表明《治国理政》中蕴含诸多重要精神和理论创新。下面针对网络中对该书的新闻报道和检索情况加以分析,找到该书出版一年来网络新闻对该书的宣传重点,与前文分析互为检验。
5.1网络新闻摘要分析
网络新闻摘要在本文中是指网络中报道该书的新闻的摘要。通过对网络新闻摘要的分析,可以直接把握该书在网络中的宣传重点。笔者采用ROST对主流网站进行自动化数据收集,关键词为该书书名,即《习近平谈治国理政》。信息来源设置为“百度新闻”“必应网页”“百度网页”“雅虎网页”“谷歌网页”“奇虎论坛”“搜狗网页”。再使用该软件集成的工具,对收集的网页摘要提取高频词,过滤无意义词,提取其特征并构建网络,最后得到图5所示新闻摘要高频词网络。
图5 ROST NAT新闻摘要高频词网络
从图5中可以看出,网络媒体在宣传该书的过程中,将“党风廉政建设”“反腐败斗争”“三严三实”等党风建设的重要思想作为宣传重点。对“和平发展”“两岸交流”和“中国梦”等主题并没有特别侧重。一方面可能的原因是该软件具有局限性,不能覆盖所有网页;另一方面则可能是该书出版不到一年,作为施政纲领,尚需要时间持续发酵,在实践中宣传和完善。
相较于ROST这种采用自动收集和分析的大数据分析方式,本文第3节给出的基于索引和引用开展的文本计量分析方法,可以更精确和全面地得出该书的思想精华。
5.2网络搜索热点分析
网络搜索热点是指网络中检索《治国理政》信息时的关注热点。对网络搜索热点的分析,可以有效把握网民对该书的关注焦点。笔者采用百度指数[9]作为分析工具,以“习近平谈治国理政”为关键词,展开分析,如图6所示。
图6 百度指数分析
从图6可以发现,《治国理政》中“反腐败斗争”“中国梦”“依法治国”等重要思想是网民关注度较高的热点。其中“中国梦”“依法治国”虽然没有出现在前述网络新闻摘要的热词中,但依然是广大网民检索的热点。在百度指数热门搜索的相关检索词中,除去对该书原文的检索外,对于学习该书的心得体会和学习笔记等的检索也占到相当数量。由此可见,组织针对该书的集中学习,并以输出心得体会或学习笔记为结果,相较于网络新闻报道,更容易使该书的思想得到充分挖掘。但也发现,就该书理论要点的宣传覆盖效果而言,组织集中学习在信息点的提炼方面,虽然优于网络新闻报道,但相较于文本分析方法,依然遗漏了相当多的理论要点。为此,笔者建议在对《治国理政》这类著作的宣传中,应首先以前文所述的文本分析法对内容加以提炼,再组织专项学习,从而实现事半功倍的效果,而重要文献的思想精华也会得到有效保留和全面传播。
6 结语
本文提供了一种对于重要文献的新研究思路,即以索引和注释为切入点,以文本计量方法,通过“断章”“取义”的方式快速抓住书中蕴含的重要思想,并采用大数据方式对网络媒体数据批量分析,以此为参照对比,发现采用这种研究思路,可以精确、全面地掌握此类文献的重要思想。同时,本文以《治国理政》为例,以百度搜索引擎为出发点,分析《治国理政》的检索情况。本文发现,对于这类著作,相较于网络新闻的宣传,采用集中学习方式,会保留更多的思想要点。此外,本文对今后此类著作的高效和全面学习给出了建议,也为该书思想的精确提炼和快速传播提供了新的推动力,为此类大部头文献的快速阅读、高效率学习和重要思想有的放矢的宣传推广提供了捷径。
参考文献
[1]习近平.习近平谈治国理政[M].北京:外文出版社,2014.
[2]胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011(6):78-142.
[3]图悦[EB/OL].[2015-08-10].http://www.picdata. cn/.
[4]地图汇[EB/OL].[2015-08-14].http://www.dituhui. com/.
[5]“词云”——网络内容发布新招式[EB/OL]. [2006-04-07].http://media.people.com.cn/GB/ 22100/61748/61749/4281906.html.
[6]武汉大学沈阳的博客[EB/OL].[2015-08-10].http:// blog.sciencenet.cn/home.php?mod=space&uid=239936 &do=blog&id=383137.
[7]张忠友.齐夫定律的理论基础及其实践意义[J].情报科学,1989(5):62-66.
[8]孙清兰.高频、低频词的界分及词频估计方法[J].情报科学,1992(2):28-32.
[9]百度指数[EB/OL].[2015-09-05].http://baike.baidu. com/link?url=rIQgEaOHwOK-UtoCBHc1mlEhUh D8SHR_WFFxneskS3Nc7nItxDWdjJ5zGyFejajba_9 HeK03AcgZ31hdH2eoI_.
作者简介关琳,女,南京大学信息管理学院博士研究生;许佃兵,男,江苏省委宣传部副研究员。
收稿日期2016-03-28
Text Measurement on THE GOVERNANCE OF CHINA BY XI JINPING
GUANLin,XUDian-bing
AbstractIn order to get all of the key thoughts from THE GOVERNANCE OF CHINA BY XI JINPING,this paper reviews the indexes and notes of the book with text analysis methods,based on word frequency statistics.Using the analysis results of internet news and the hot access points of search engines as reference,the authors verify the text analysis of the book,and find that the key points of that kind of works could be extracted more efficiently and comprehensively using text measurement methods.In addition,key thoughts drawn from a work by massed learning may be more comprehensive than by internet news reports.
KeywordsTHEGOVERNANCEOFCHINABYXIJINPING;textanalysis;data visualization;ideological political learning;think-tank research