基于微信公众平台的老门西文化资源知识图谱构建
2022-07-29谢丹丹何晓涵臧乐乐赵步阳金陵科技学院
谢丹丹 何晓涵 臧乐乐 赵步阳 刘 丹 金陵科技学院
微信公众平台作为一种新兴网络传播媒介,对文化的传播发挥着重要的作用。现以“最忆是金陵”微信公众平台中的推文为研究对象,采用主题标引的方式对平台所发布的推文人物、地理位置主题词进行标引,并在此基础上利用社会网络分析软件Gephi,挖掘推文中所包含的人物、地理位置、主题资源之间存在的关联,进而生成知识图谱,以期促进文化资源的保护与传承。
近年来,微信公众平台逐渐成为大众获取信息资源的主要途径之一,它能够突破时间和地域的限制,以其高度的信息交互性、传播呈现的多元化以及信息获取的便捷性等优势赢得用户的青睐。鉴于此,越来越多的文化资源开始通过微信公众平台进行传播,如“艾可语言文化”“与君学”“国学府邸”等。微信公众平台作为一种网络信息传播媒介,在传播文化资源方面产生了覆盖面广、形式多样、共享效率高等社会作用,对用户的交往方式、思维方式和精神世界产生了积极影响,能够有效促进文化的传承与传播。社会网络分析是一种重要的社会学研究方法,它能够揭示存在于社会网络中的各种关系。本研究采用社会网络分析法,以文化类微信公众平台中的推文为分析对象,揭示文化资源中不同主题之间的关联,以期为文化资源的传播提供相关指引和参考。
理论基础与研究现状
关于社会网络分析的定义,《当代西方社会发展理论新词典》和《马克思主义百科要览下卷》都将其定义为研究社会结构和社会关系的一种方法。除工具书外,国内学者也对其进行了一些分析总结,如朱庆华、李亮将社会网络分析归纳为对社会网络中行为者之间关系的量化研究,这些行为者是社会网络中的“点”,行为者之间的各种关联则是社会网络中的“边”,“点”和“边”所组成的集合即构成了社会网络。张存刚、李明等人从社会网络的基本特征着手,归纳了关系取向和位置取向这两种社会网络分析取向的主要内容,并在此基础上对社会网络分析的特征进行总结,即蕴含社会学基本假设,反对任何文化论、实在论和方法论个人主义。社会网络分析把研究焦点聚集在社会系统的层面上,它关注的是整个互动领域和社会情境的作用。
以CNKI作为检索数据源,以“社会网络分析”作为检索词,检索字段设置为“篇名”,年代不限,检索共获得相关文献1900余篇。由此可见,国内关于社会网络分析的研究已具有一定规模,所涉及的学科领域范围也十分广泛,涵盖了图书情报、新闻与传媒、社会学、计算机应用、教育管理、企业经济、旅游、建筑科学、农业经济、体育等学科。在图书情报学科,研究者主要围绕社会网络分析在企业竞争情报战略、学科趋势分析、学术期刊评价等领域的应用进行研究;在新闻与传媒学科,研究者主要围绕社会网络分析应用于网络舆情传播分析、网络连接关系研究、网络信息传播影响力等进行研究;在社会学学科,研究者主要围绕家庭关系、人口迁徙、社会空间重构、社会交往等方面展开研究。
数据来源与工具选择
数据来源
数据源应具备两方面的特点,一是具有大量的用户;二是信息资源具备准确性、有效性和真实性。经过前期走访和网络调研发现,“最忆是金陵”微信公众平台发表了大量的与南京老门西文化相关的原创推文。陶起鸣主编的《烟火门西》(南京出版社2021年版),这部30多万字的南京选本所收录的73篇文章,以南京老门西的杰出人物、普通百姓、民居建筑、街巷风貌、民风习俗为主要关注点,以非虚构的方式记录了老门西的过往,即从“最忆是金陵”公众号1000余篇原创作品中精选出来的。可以说,这些选文展现门西市井或个人,或集体,或城市的记忆,是不可多得的了解近代以来南京城市形象发展和变化的第一手资料。鉴于此,本研究决定以“最忆是金陵”微信公众平台的推文作为文化资源的数据来源,通过对该平台上近5年的1046篇原创文章进行阅读和整理,筛选出其中的277篇与老门西文化密切相关的文献作为构建老门西文化资源知识图谱的数据源。
工具选择
社会网络分析工具类型较多,且各具特色。目前使用较多的社会网络分析工具有Ucinet、Gephi、Pajek、NetMiner等。其中,Ucinet支持矩阵格式的数据,能够实现聚类分析、中心性分析、凝聚子群分析等;Gephi是一款免费的开源工具,支持中文菜单显示,输入数据格式多样化,能够进行中心性分析和聚类分析;Pejek也是一款免费软件,主要用于大数据集的网络分析和可视化,能够进行数据结构关系挖掘、聚类分组;NetMiner是一款收费软件,允许用户以可视化和交互的方式探查网络数据,支持邻接矩阵、联系变量和行动者属性数据三种类型变量。各款软件基于其特征,使用环境会稍有差异,如Ucinet因其综合性和兼容性较强、运算功能强等特征,更适用于处理多重复杂关系问题的中大型数据,Gephi基于其强大的可视化功能以及动态分析特征,更适用于进行观测性分析。通过对几款社会网络分析软件的综合对比,本研究选取Gephi作为老门西文化资源知识图谱的构建工具。
老门西文化资源知识图谱构建
文化资源主题词的提取
标引是对文献资源进行主题分析,从自然语言转换成规范化的检索语言的过程。在数字化环境下,标引仍是有效进行数字信息资源组织的重要方法。鉴于此,本研究拟采用主题标引来揭示老门西文化资源中所包含的主题内容。通过对微信公众号“最忆是金陵”中的277篇与老门西文化相关的推文内容进行阅读分析,发现人物和地理位置是老门西文化资源的两个重要主题类型。因此,在主题词标引时,选择二个视角,以揭示老门西文化资源中所存在的不同关联类型:①对推文中的人物进行标引,以揭示人物之间的关联;②对推文中的地理位置进行标引,以揭示老门西不同地理位置之间的关联。
共现矩阵构建
共现一般是指文献特征性描述信息共同出现的现象,广义的共现矩阵(Co-occurrence)包括共词、共被引、共联等形式。在本研究中主要为共词形式,即人物姓名之间共同出现的频次、地理位置名称之间共同出现的频次。共现矩阵是进行关联挖掘与聚类分析的基础,因此在构建知识图谱前,需要在上一阶段主题标引结果的基础上,分别建立人物共现矩阵和地理位置共现矩阵。下表列出了人物共现矩阵的部分数据。
在表中,人物共现矩阵来源于不同人物共同出现在同一篇推文中的频次,如“胡恩燮”和“胡光国”在277篇推文中共同出现21次,两个人物之间关联紧密;“胡恩燮”和“陈作霖”在277篇推文中共同出现5次,两者之间关联较为紧密;“郑板桥”和“陈作霖”则没有同时出现在任何一篇推文中,二者之间基本没有关联。
表 人物共现矩阵(作者绘制)
知识图谱构建
1.人物知识图谱
将所构建的人物邻接表导入Gephi软件中,得到老门西文化资源的人物知识图谱。在该图谱中,共包含85个节点,240条边,每个节点代表老门西文化资源中所涉及的每一位人物,节点越大,表示该人物与其他人物之间发生的关联越多。通过该人物知识图谱可以看出,“胡光国”“胡恩燮”“陈作霖”三位人物的节点最大。人物之间的关系强度是由节点之间的连线粗细来体现的,连线越粗,表示人物之间的联系越紧密,在该图谱中,“胡光国”和“胡恩燮”、“邓石如”和“郑板桥”、“胡恩燮”和“赵彦修”、“胡光国”和“陈作霖”等人物之间关联紧密。
图密度表示实际有的边数与最大可能边数之比,是衡量网络图中各个节点之间紧密程度的指标,数值范围为0至1,值越大,节点之间的关联越密切。通过计算,人物知识图谱的图密度为0.067,可以看出“最忆是金陵”老门西相关推文中的人物之间的关联紧密度还不够强。特征向量中心度是网络图的一个重要衡量指标,代表节点的中心性,通过对人物知识图谱特征向量中心度进行计算和排序发现,人物“陈作霖”的特征向量中心度达到1,说明“陈作霖”是老门西人物知识图谱中的一个重要节点。从图1中也可以看出,“陈作霖”与其他人物之间存在的关联也最多。实际上,如果读者对于陈作霖有所了解的话,就会知道,作为近代以来重要的南京地方文史名家,他毕生致力于南京乡邦文献的采集、整理和编纂,同时又能在治学之余,细致考察南京的街头巷尾和山川风情,加之他交游甚广,这些都为他研究南京地方文史打下了坚实的基础。特别是他所撰的《金陵琐志五种》中的《凤麓小志》,以南京凤凰台即今门西地区为中心,按照地、人、事、文的顺序,精心考证了这一地区街道、古刹、园墅的兴替以及历代名人、经济情况等。应该说,人物知识图谱所反映的陈作霖的地位,是与其为门西所做出的文化贡献相适宜的。
图1 老门西人物知识图谱(基于Gephi软件由作者绘制)
除“陈作霖”外,特征向量中心度值相对较高的人物有“胡恩燮”“胡光国”“何允恕”“詹坦”等15人,均在0.8以上,其他人物的特征向量中心度值都相对较低,均在0.4以下。模块化是根据图的连接关系对节点做归类。对人物知识图谱进行模块化计算得到该图谱的模块化指数是0.485,人物知识图谱中的人物节点共被划分为13类。
2.地理位置知识图谱
通过计算,地理位置知识图谱的图密度为0.033,地理位置之间的关联度较弱。对该图谱的特征向量中心度进行计算和排序可以看出,“愚园”的特征向量中心度达到1,说明“愚园”是知识图谱中的一个重要节点,也是老门西文化资源中的一个非常重要的地理位置。从图2中也可以看出,“愚园”与其他地理位置之间存在的关联也最多。除“愚园”外,特征向量中心度值相对较高的其他地理位置分别是“春晖堂”“延青阁”“鹿坪”“觅句廊”等。通过模块化计算,得到该图谱的模块化指数是0.519,相较于人物知识图谱而言,聚类更加明显。从图2中可以看出,位置知识图谱中的人物节点共被划分为10个类,其中,由愚园、春晖堂、延青阁、鹿坪、觅句廊、愚湖、栖云阁以及清远堂等节点所构成的模块中,各位置节点之间的连线较粗,关联较为紧密;除此之外,由钓鱼台、老门西、中华门等位置节点所构成的模块中,各位置节点之间关联也较为紧密。
图2 老门西地理位置知识图谱(基于Gephi软件由作者绘制)
本文以“最忆是金陵”微信公众号中与老门西文化资源密切相关的推文为来源,在对推文进行主题标引的基础上,构建人物共现矩阵和地理位置共现矩阵。利用社会网络分析软件Gephi,对人物之间、地理位置之间分别进行网络可视化分析,并建立知识图谱,旨在挖掘推文中所包含的老门西人物之间、地理位置之间存在的关联及其紧密程度。通过知识图谱及算法计算发现,在老门西文化资源中,存在一些关键的、具有重要影响力的人物和地理位置,如陈作霖、胡恩燮、胡光国、冯煦等人,以及愚园、春晖堂、延青阁、花露岗、中华门、钓鱼台等地理位置。
基于社会网络分析方法,以知识图谱形式展示文化资源,能够更加立体化、形象化地呈现出文化资源中所包含的各种类型的信息资源及其相互关联,如本研究中的人物、地理位置信息资源。这种形式能够帮助人们更加深入地了解南京老门西的相关文化资源,从而促进人们对于近代以来南京城市形象发展变化的理解和认识,并有效实现南京城市历史文化资源的传承与传播。