基于知识图谱的Web信息关联网络分析与主题社区发现
2018-09-13黄琳凯
黄琳凯
摘要:文章研究当前中国对于知识图谱的应用和对于Web信息关联网络的研究状况,分析当前主题社区发现方式,比照不同方式的优势与不足,借鉴优点。通过研究,文章认为基于知识图谱的Web信息关联网络分析知识图谱介绍是一种全新的方式,有助于主题社区的发现,能提高运行的效率和精度。
关键词:知识图谱;Web信息关联;网络主题社区
知识图谱是指对大量科学文献的新生信息,借助诸如统计学知识、图论、计算机技术等科学技术手段,以可视化的形式来展现科学学科体系之间的内部结构、项目特点、研究前段等信息的一种科学方法。知识图谱用于Web信息分析,对于主题社区的发现大有帮助。
1 知识图谱介绍
1.1 知识图谱特点简介
知识图谱有以下几方面的特性:(1)用户搜集的数次越多,所涉及范围越大。(2)赋予字串不同的崭新的意义,而不只是单纯的简单字串。(3)涵盖了所有的学科,方便了用户搜索时的连续性。(4)为用户找出更为精确的信息,作出更全面的表述并提供更具思考力的相关信息。(5)把与核心词相关的知识脉络成体系地展示给用户。(6)从整个因特网寻找筛选有价值含量的信息让用户能够收获更多相应的公共资源。
1.2 知识图谱的应用
1.2.1 基于知识图谱的学科方法研究
从知识图谱出发,进行研究的学科主题识别方法,探究的是融合多种有关计量学的方法和科学理论知识图谱技术,深入浅出地研究分析不同学科在知识研究体系上的内外部结构关系,分辨和测量不同学科各个领域的科研热点方向及其未来发展变化方向的方法研究,从而有助于更好地帮助进行科研工作的人员从浩如烟海的科技文献中快速掌握不同学科的内外部结构与热点话题,这将成为新的宏观环境下科学技术决策者高效开展科学技术治理工作的全新手段和新路径。
1.2.2 基于知识图谱的中国品牌理论演进研究
按照研究的对象作为分类标准的话,可以把对于品牌的科学研究划分为两个不同类别:(1)将品牌相应的活动作为实验对象的研究;(2)以品牌相应理论为对象的科学研究。将品牌活动作为研究对象,在中国已经有了将近20年的发展历史,到今天已经形成了颇为丰硕的知识研究成果[1]。在这样的背景下,将品牌理论作为所要研究的对象,引入知识图谱的相关理论和研究方法,系统性地探讨当今中国存在的品牌理论发展的内部规律,发现其知识基础、核心理论的知识构架与进化脉络,揭示研究的热点和研究前端,评论当今主流的学术群与相应观点的代表人物,探索并创立品牌学及其主要知识理论体系。首先,在中国的品牌理论构架与知识理论基础的知识图谱研究中,凭借21世纪前后在中文社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI)源刊发表的4 000余篇论文和将近3 000条参考文献作为核心数据,采用关键词分析方法,描绘和解析品牌主干理论的网络图谱,从而发现品牌核心理论的动态知识结构及在不同时间下的发展脉络的主题变化;将发展阶段和科研维度结合,构建出关键演化路径分析的科学模型。其次,在中国品牌理论研究热点和探索前端的知识图谱研究中,以2010年在csscr源刊发表的2 000余篇论文和将近2 000条参考文献作为数据,结合文献引用网络图谱中高频次文献的内容数据分析和引文献的关键词共现网络图谱进行研究,发现了品牌理论的研究重点和主要研究方向。再次,在中国品牌理论研究的主要学术群与观点领军人物的知识图谱研究中,基于例文分析、共同分析和社会结构网络分析等多种方法,绘制并且分析了核心的作者群合著的共现社会网络,探索并评论了中国品牌理论研究的具有超高影响力作者、主流的学术群体、派别及其代表人物。最后,在划分品牌的含义、外延及其定义之间关系的前提之下,提出了一個实验中的实操性品牌的概念及全方位的品牌管理模式;依据理论形成的内部机制及理论的构架情况,提出了对于品牌进行科学分类的标准和范围,构建了品牌学的科学知识体系,探讨并提出了关于品牌学这一理论的知识构架的规范范式、框架及其“学科一研究方法一对象”多维的动态结构。
1.2.3 我国关于管理学学科演化的知识图谱探究
在管理学知识的体系中,管理科学知识的来源是多种多样的,一方面包括根据严格的数学推理模型以及科学逻辑思维得到科学理论管理知识,另一方面也包括基于故事讲述而总结出来的管理相应知识,当然同样包括依照比较进行归纳从而得出的管理知识。但是必须指出的是,目前管理“丛林”问题仍然存在,而且有着进一步分化和细化态势,在目前的管理科学研究的领域,充满着类型差异明显和分类众多的研究方法[2]。为了更为全方位了解新世纪管理科学发展的学科结构,研究管理科学发展的路径与所获得的成就,知识图谱的方法应运而生。首先,对我国管理科学研究学者进行知识图谱分析,界定高产作者,给出高产作者的分布,并对10年来高产作者的演变进行分析。其次,对我国管理科学的科研机构进行知识图谱分析,包括其类型分析,整体分布以及地域分析。最后,绘制我国管理科学基金项目的知识图谱,对重点基金项目进行分析以及演化研究,分析不同研究机构与重点基金项目的支撑情况。我国管理科学“学科结构”知识图谱研究:管理学发展态势大好,逐步形成了三大逐渐趋向于成熟的分支学科领域:企业与事物管理、管理的基础与方式、宏观角度的管理与政策理论研究。目前在我国管理学被引频次较高的作者有张维迎、陈劲、陈小悦等。我国当前具有较大影响作用的文献有张维迎的《博弈论与信息经济学》、傅家骥的《技术创新学》等。目前中国的管理科学界的合作体系具有较高的群聚性质,具有微观的世界效应,管理科学界的科研人员之间的合作频率与效果随着时间的推移正在逐步提高。在目前合作网络中,具有较强的团体结构,且相应团体的数量也正在逐年增长,专业社团规模也在不断壮大。但不足之处是,不同社团与社团之间的对接数量较少。
2 Web信息关联网络分析
2.1 面向Web數据集成的数据融合问题研究
随着互联网的高速发展,Web技术凭借其广泛性、互通性、便捷性和融合性等诸多特点快速风靡全球,并且已然渗入社会各方面领域,网站与网页的数目正在以指数级爆炸式增长。怎样准确、高效地集合到大量的具有较高价值的Web信息,对于例如市场商业情报分析、舆论情况分析、商业智能化等方面的分析应用十分重要,具有非同一般的实用价值和现实意义[3]。但是,比较于传统方式下数据集成的数据源,Web数据具有方式多种、阐述自由、发布开放等特点,这导致集成到的结果冗余度高、精确性能差、数据分散程度高,极大地降低了集成数据的质量。综上所述,如何减少冗余量、去伪存真、联系数据,从而高效地融合数据,不仅是保证集成数据质量的核心所在,也是深入进行准确数据分析和发掘的基础。作为Web数据集成的核心构架,数据融合是集成数据的质量保障和探究挖掘的基础。
2.2 面向信息检索的Web文本挖掘方法研究
当今,互联网早已成为一个平民化和大众式的信息交流平台。通过Web数据挖掘的探究,把新的Web文本挖掘技术和方式使用到互联网信息搜寻与检索中去,利用Web文本挖掘的研究成果来改善信息检索中关于网页分类、聚类的精度和效率,改善检索结果,提高Web信息搜查和使用的效率,能够间接或者直接地解决当前搜索引擎准确度不高、召回率低下、信息量过多、提供的服务形式相对单调等方面缺陷,从而最终为信息检索系统演化到一个新的水平提供相应技术前提。
3 主题社区研究现状
3.1 基于LDA模型的社交网络主题社区挖掘
在互联网媒体当中,以微博为典型的社交网络已经是社会舆情的主打要地。对于社交平台中隐藏的主题社区的挖掘,具有很高的商业推广和舆情监控价值。近些年来,概率生成主题模型(Latent Dirichlet Allocation,LDA)在数据挖掘领域实现了大规模应用。但是,在通常情况下,LDA主要适合于文本的处理还有一部分数字信号。实际上并不能很合适地用来处理关于社交网络用户产生的关系数据。对LDA实行修改,提出适合于处理互联网用户关系数据的模型,发现社交网络中的主打社区。
3.2 基于分布式非负矩阵分解的大规模主题社区挖掘
当今互联网的主题社区发掘具备重要的实用价值,但现存方法的可扩展性不高,对于高效挖掘规模相对较大的复杂网络的主题社区反应性能差。针对这一问题,部分研究者提出了一种以分布式非负矩阵分解为基础的主题社区挖掘方法。这一方法基于非负矩阵联合分解模型,能够有效统一集成节点链接和内容信息挖掘主题社区。
4 结语
知识图谱作为一种新的研究方式,借助科学理论和研究技术,能对Web信息关联网络进行分析。虽然当今国内已经有针对于此的分析,但应用知识图谱的较少。并且,该方法能够作用于主题社区的发现,无疑具有高度的实用意义和推广价值。
[参考文献]
[1]施生生.精确Web信息抽取关键技术与系统研究[D].南京:南京大学,2017.
[2]汪沛.基于领域知识图谱的个性化推荐方法研究[D].昆明:昆明理工大学,2017.
[3]邵元新.基于Web的工业产品知识图谱构建及应用[D].沈阳:沈阳航空航天大学,2017.