基于人名抽取的新闻人物关系分析
2018-01-19丁梅肖松刘少俊
丁梅 肖松 刘少俊
摘 要:新闻是碎片化、微观的信息,在一定数量的前提下可以提取出宏观、原先未知的知识,如新闻人物分布规律、热点人物界定。利用R语言和哈工大“语言云”工具从2015-2016年台湾《联合报》新闻元数据中抽取10 000个人名,使用MongoDB和D3.js对查询结果进行可视化,形成知识图谱。研究发现,新闻人物的分布在普通人群中高度集中化(0.943‰)、在新闻人物之间两极化(2.3%),因此急需建立规范的人名库,以便进一步完善人名抽取逻辑。
关键词:人名抽取;MongoDB;元数据;新闻人物;知识图谱
英文摘要Abstract:Under a certain amount of source, we can extract macro and unknown knowledge, such as the distribution of news characters and the definition of hot news figures from fragmented and microscopic news information. R language and Language Cloud produced by Harbin Institute of Technology are both used to extract the top ten thousand names from the metadata of Taiwan United Daily News 2015-2016, while MongoDB and D3.js are employed to visualize the results into graphs. As a conclusion, the overall distribution of news figures features centralization in the general population(0.943‰) and polarization among the news figures themselves(2.3%). Besides, the creation of the standard name database is in urgent need so that the extraction logic of people′s names can be improved.
英文关键词Key Words:name extraction; MongoDB; metadata; news figures; knowledge graph
0 引言
在现代数字图书馆中,报纸与期刊论文、学位论文、会议论文、专利信息等以电子文献的形式供读者检索、阅读和传递。报纸等传统纸质媒体的电子化有以下特点:① 发行渠道由以前的纸质刊物通过邮局发行转变为现在的电子网络发行;②阅读界面从黑白到彩色,从模糊的扫描图像到任意缩放的精确内容;③检索功能从无到有[1]。
目前业界对多种类型的电子文献如期刊论文,已经发展并构成了比较成熟的研究分析对象及内容,例如论文间的引证分析、作者学术圈关系图谱[2]、论文关键词对研究热点的引导分析等[3]。但是对报纸以及新闻的分析并未形成体系[4],从信息管理角度看,需要逐步建立新闻内容研究框架。
电子化的报纸信息(新闻)与論文不同,具有较强的时效性和地域特征[5],体现主编个人风格,适合浅阅读。从数据管理角度看,其数据结构简单,无需区别摘要和原文,继而无法按照统一的主题或者分类规则对其进行划分,只能通过标引生成用户可检索的关键字[6],所以对新闻信息的挖掘异常困难。
报纸是本地信息的实时反映,同时也表现出风土人情、社会形势及当代热点人物。对于报纸新闻文献的文本挖掘,是抓住舆情动向的重点。舆情监控手段依赖于文本挖掘软件对特定名词的抽取和词频统计。与互联网新闻相比,报纸新闻更正式、严谨[7],因而更具有分析价值和意义。在电子出版普及和文本挖掘技术进步的推动下,对报纸新闻进行分析是可行的。已有学者提出对新闻中的开放数据进行挖掘,可以获得新闻线索[8]。根据查雷(Chamley)在媒介可信度研究中对报纸准确性的研究,报纸新闻与互联网新闻最大的区别在于:报纸新闻的发布者即是有效信息源,不存在无法溯源的问题。台湾地区有4家主要报纸:《中国时报》、《苹果日报》、《联合报》、《自由时报》[9]。其内容不仅是研究台湾问题的学者关注对象,也是台湾普通民众想要了解的信息,但是由于报纸的地域特征,岛外订购不易实现。现在,报纸的电子发行解决了运输及时效问题[10],使得岛外研究人员也可以实时获得这些报纸中的新闻。
不同的报纸媒体对同一事件采用的不同叙事修辞批评方法,反映出记者、编辑乃至主编的主观意识,再加上带有倾向性的辞藻运用,不停冲击着新闻报道的客观性[11]。因此,大部分报纸无法成为研究台湾地区新闻的载体,只能选取立场公正、客观的报纸作为了解台湾地区热点新闻人物及其关系的媒介。立场一贯中立的《联合报》是学者们了解台湾地区政治、经济、文化、民生的有效渠道,作者通过单位订购获得了以年度为单位的新闻元数据信息,以此作为研究载体,不仅为台湾问题研究提供可靠、易获得的信息来源;也为关心台湾形势的普通数字图书馆读者提供查阅和了解的渠道[11]。本研究从宏观角度分析报纸对热点人物的关注度,通过编程和统计分析工具挖掘新闻人物之间的关系,结合人工分析提炼相关知识。
媒体人往往注重把握新闻内容对读者的影响以及与报纸整体风格、立场的一致性[12]。因此不会从宏观角度控制新闻人物曝光次数及由曝光量累积而显现出来的信息。所以,排除主观意识对数据的影响后,本研究通过数据直接得出一段时间内的宏观信息,为分析台湾地区的其它报纸、其它地区的报纸,乃至电视新闻和简讯中的热点人物提供分析模板。
1 研究设计
本研究所需的2015全年、2016全年《联合报》元数据由福建省台湾文献信息中心提供,并长期保存于福建省台湾文献信息中心。为尊重报纸的知识产权,本研究仅公开元数据的统计信息。研究步骤包括:
(1)逻辑处理。采用“语言云”工具从新闻的全文数据中抽取台湾地区热点人物姓名,并对数据进行频次和贡献分析。“语言云”以哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”为基础,为用户提供高效精准的中文自然语言处理云服务[13]。由于姓名多样,为确保研究的普遍适应性,本文以1 000个常见姓名为参照库,与新闻内容进行比对和记录,作为本研究数据采集范围。
(2)数据处理。采用MySql数据库存储新闻元数据、热点人物姓名数据及分析过程数据。使用R语言对过程数据进行概览和标准化处理。
(3)将分析结果导入MongoDB[14],与D3.js[15]搭配完成对本研究成果数据的可视化。
2 数据分析
公众人物的姓名常出现在报纸上,但其出现具有较大随机性,有的公众人物由于某些热点事件,在一段时间内频繁出现,有的只是稍微提及。可见,热点公众人物相对于大众来说,是少量且随时间变化的。因此可依据帕累托法则定义热点人物:①出现次数排名前20%的人物。根据帕累托法则,重要人物在所有人中只占20%,即对于本研究的10 000个人名来说,出现次数前200名的为热点人物;②占总出现次数20%的人物。在对10 000个人名的出现次数进行统计后,计算每个人名在总次数中的比重(贡献率),从第一名开始累计,到20%为止,该范围内为热点人物。
2.1 人名抽取结果
通过表1和图2可以看出,姓名出现次数存在明显的两极分化,热点人物与非热点人物的被关注度差距愈加明显。无论采取哪种定义热点的方式,表1中的名字都是热点人物。以2015年热点人物数据为例,第一名“蔡英文”的贡献与第十名“林佳龙”的比值约为7∶1(1.44%∶0.26%);2015年的数据分化更为明显,约为10∶1(2.12%∶0.24%)。每出现7条提及“蔡英文”的新闻,仅出现1条包含“林佳龙”的新闻,然而“林佳龙”本身已是热点新闻人物。出现次数最多的前10个姓名的累计贡献率存在明显下滑,由2015年的6.54%下降为2016年的5.69%。与之对比的是,名单第一个姓名(“蔡英文”)的贡献率明显增长,由2015年的1.44%上升为2016年的2.12%。2015-2016年,所有10 000个人名的总出现次数从51万下降为44万。可见,报纸媒体对于热點人物的关注趋于集中,同时对于出现次数较少的人名减少了关注。对于非热点人物来说,将面临越来越少的出现次数,新闻曝光度的马太效应明显。
从贡献率曲线的陡峭落差可知,对于人名出现次数严重不平均,热点人物与非热点人物、热点人物之间均存在较大差距。贡献率曲线的数学模型首先应排除正态分布,且该模型可能服从某种指数分布。
2.2 人物共现
由表2可以看出,共同出现次数最多的是蔡英文与马英九,两者是工作上的继任关系;一同竞选过同一职位,也是竞争对手关系。与友好关系相比,蔡英文与马英九之间不友好的关系更能吸引新闻媒体的关注和报道(498次),所以蔡英文与林全的合作关系被关注得较少(309次)。以柯文哲为中心点的人物关系中,他与蔡英文的联系最为紧密,其次是其发言人林鹤明。在2016年换届大选中失败的前台湾地区领导人马英九仍旧吸引着新闻媒体的目光,与陈水扁、李登辉等并列历任地区领导人名单,在多则新闻中被一同提及。
在以10 000个人名为端点、一次共现为一条连线绘制而成的云图中,2015年度的新闻人物关系云图总体棱角较为分明,内部色块分散,有明显的分区和抱团,显示出在该年台湾地区主要新闻热点人物之间的关系亲疏有别。从人力资源管理角度看,2015年为一个团队发展过程中的组建期和振荡期[16]。2016年的云图浑然一体,色块过渡柔和,说明人物之间的关系链条或圈子已经进入稳定状态,是团队建设的规范期和执行期阶段。2015-2016年正值台湾地区换届选举,本研究的数据佐证了该事件对台湾社会关系造成的影响。
蔡英文的关系网线段稠密,而陈水扁的则略显稀疏。在2015-2016年度的新闻内体关注热点人物中,陈水扁与其他热点人物的联系少于蔡英文。从颜色变化来看,与蔡英文联系紧密的热点人物数量也多于与陈水扁联系的热点人物数量。
2.3 数据引申
根据图5 的分位统计,以2015年数据为例,有34人获得了9.96%的报道次数,其中5人获得了4.95%的报道次数,占热点人物曝光度的一半。被关注的人物占极少部分,从读者角度看,与移动阅读APP情况类似[17],每天在报纸上能够看到的新闻人物约1 409人次,然而总是相同的30余人(大于10%的可能性),马太效应显著。
根据文献计量学中的齐夫定律,文献中的词频与排名的积为常数[18]。在本研究中,若将热点人物的名字作为统计对象,被报道的次数则可以理解为“词频”并予以排名。通过数据计算发现,新闻热点人物被提及的频率与排名的乘积显现出单一的增长趋势(上升凸曲线),未能符合齐夫定律(下降凹直线)。与文献中的词语受语法、语义、主题的约束相比,新闻内容随机性更大,所以暂时未见符合统计学规律。
3 研究结论
本研究分析了200名新闻热点人物,按照新闻所属的报纸板块可以分为3类:政治人物、娱乐人物、体育人物。按报道次数从高到低依次为:政治人物、娱乐人物、体育人物。从报道中提及的政治人物所属党派来看,未见《联合报》有明显的关注度方面的偏向,对各党派和阵营均给予了相同的曝光频率。《联合报》对娱乐人物的报道在两个统计年度内均未进入前10名。相对于岛外娱乐人物,《联合报》更关注本土主持人、谐星、歌手。2015年度,排名最高的娱乐人物(热点人物总排名第38名)是本土歌手江蕙,她以25场“祝福”巡回演唱会告别了歌坛。与外界对台湾歌手的感受不同,岛外知名的娱乐人物并不像在岛外那样受关注,如周杰伦总排名第49,吴宗宪总排名第56。《联合报》对于体育人物的关注度则相反,该报对岛外的体育明星有较高关注度。
与蔡英文共同出现次数最多的岛外政治领导人是习近平主席,《联合报》也同样关注美国、日本领导人及其之间的关系,如川普与希拉蕊(希拉里)、柯林顿(克林顿)、安倍晋三。
在对“语言云”处理过的数据进行人工分析时也发现了一些错误和问题。
(1)人名库亟需进一步完善。本研究采用的文本挖掘逻辑将台风名字“苏迪勒”、企业名称“远雄”、地名“罗东”、“云林”等误认为人名;“财政部长”“张盛和”被截取为“张盛”,陈水扁的儿子“陈致中”被截取为“陈致”,“台北市长”柯文哲被截取为“柯文”;蔡英文和小英、陈水扁和阿扁,并未作为同一个人来对待。
(2)虽同为中文文献,在对不同地域的新闻或文献进行分析时,需考虑语言使用习惯。如陈男、林男(分别指姓陈、姓林的男子,在新闻报道中多为代指)、陈情(动词,意为陈述和表达个人意见)、周休(名词,指每周休息的天数)被误认为人名并进行了统计。
(3)人物关系分析需考虑文化背景。“康熙”确实为人名,但台湾报纸中的“康熙”是指于2015年停播的一档很受欢迎的娱乐节目《康熙来了》。“毛揆”是对时任“行政院长”毛治国的尊称,而非他的名字。“金钟”是台湾一年一度的电视制作奖,2015年娱乐人物“吴宗宪”对评奖结果的不满将双方推进到了本研究共同出现次数的前100名。
4 结语
对于报纸新闻文献的统计分析,可以揭示未知但有效的信息和知识。由于新闻的时效性和突发性导致人们对新闻进行宏观控制极其困难,所以针对新闻的统计信息是自然、真实的,能够反映现实情况。不同于人的主观感受,数据能够揭示与表象不同的现实,例如江蕙并不是大陆民众普遍认可的最受欢迎的台湾歌手之一。《新闻联播》中常见的以可视化呈现的数据新闻,正是对新闻数据统计分析的成果[19]。
参考文献:
[1] 李萌.如何有效提升民众对数字出版的接受程度[J].出版广角,2015,10(8):14-16.
[2] 管淑娟.論网络背景下报纸的突围[J].河南社会科学,2013,21(10):87-89.
[3] 邢毅.报纸新闻报道的叙事修辞批评方法探究[D].重庆:重庆大学,2015.
[4] 丁君朋.以宏观促微观 以理论促实践——从新闻心理学角度论电视、报纸、网络等不同媒介对受众接受心理的不同影响[J].新闻研究导刊,2016,7(13):70-71.
[5] 杨思洛,邱均平,丁敬达,等.网络环境下国内学者引证行为变化与学科间差异--基于历时角度的分析[J].中国图书馆学报,2016,42(222):18-31.
[6] 白蓓,蒲剑,曹玥,等.基于ESI的临床医学学科热门论文分布及其研究热点[J].医学信息学杂志,2016,37(5):63-68.
[7] 刘琼.中国网络新闻可信度研究[D].武汉:华中科技大学,2011.
[8] 毕秋灵.数据新闻中的开放数据应用[J].湖北社会科学,2016,7(7):190-194.
[9] 杨敏.近代中国报纸数字资源的建设和利用研究[J].图书馆工作与研究,2014,6(220):60-64.
[10] 祁涛.报纸信息数据库建设:现状、空间及营销路径[J].中国出版,2015,23(12):36-38.
[11] 郝丽伟.英国《卫报》数据新闻研究[D].保定:河北大学,2014.
[12] 陈小.台湾报纸风险传播研究[J].新闻界,2013,16(10):56-59.
[13] 哈工大社会计算与信息检索研究中心.语言技术平台云[EB/OL].http://www.ltp-cloud.com/.
[14] MongoDB,Inc..MongoDB[EB/OL].http://www.mongodb.com/.
[15] BOSTOCKM Inc..D3 Data-Driven Documents[EB/OL].https://d3js.org/.
[16] 李雨桐,党延忠.基于交互记忆系统的团队发展状况分析方法[J].管理科学学报,2016,19(4):16-31.
[17] 李彪.移动阅读APP的发展态势与社群化发展战略[J].现代出版,2016(1):35-38.
[18] 马费成,宋恩梅.信息管理学基础[M].武汉:武汉大学出版社,2015:90-94.
[19] 徐笛.数据新闻:发展现状与趋势[J].中国出版,2016,10(10):12-15.
(责任编辑:江 艳)