知识图谱在人物档案利用中的 应用研究
2018-10-11刘晓影
刘晓影
一、知识图谱及其发展现状
知识图谱(Knowledge Graph)2012年由谷歌正式提出,其本质是语义网络知识库,关注数据的本体和语义,强调的是实体、以及实体之间的关联,它是一种以语义三元组为结构的知识库,以图模型描述语义关系,其中的结点代表实体或者概念,连接的边则代表各种语义关系。知识图谱获取大量计算机可读的知识,对从不同来源收集到的数据进行融合并利用清洗技术进行再加工,然后将其表达成更接近人类认知的形式,以便用者能够更好地组织管理和利用海量信息。随着知识图谱的研究深入和各种工具的出现,知识图谱作为一种信息分析工具,已经成为一种新的知识管理思路,在搜索引擎、各种智能系统以及数据存储领域都有应用。知识图谱已经成为互联网基于知识的智能服务的基础设施,成为推动人工智能发展的核心驱动力之一。
二、知识图谱应用在人物档案利用中的可行性
1.优势
知识图谱具有直观、定量、高效等诸多优点。对人物档案加以更好的利用,首先要将其变为机器可识别、可读的数据,在此可以借助知识图谱来进行人物档案的中文实体识别。知识图谱可以将来自不同档案来源的数据整合,打通人物相关联的数据脉络,将复杂的人物档案有序化,可以有效地提高对人物特征提取,分析人物关系,解决实际的问题需求,提高人物档案的利用率,推动档案公众化服务进程的加快。知识图谱对半结构化和非结构化数据的良好处理能力,可帮助高效地实现档案中人物信息的分类和完善标签,同时,知识图谱还具有非常多的优势,它的规模巨大、语义关系丰富、结构友好,比如常用RDF来表示等等,可以用于辅助深度理解语言和支持推理,帮助机器识别人物档案的各种记载,将各个人物档案进行深度关系的推理。
2.解决的问题
知识图谱可以用来改善检索结果,为搜索提供结构化结果。比如检索人物档案中关于北京大学的内容,不仅显示涉及北京大学的档案内容,也会检索到可相关人物,相关高校内容。知识图谱可以帮助进行人物档案标准化利用,将各种类型的记载用统一的规范进行录入和整理,形成有分类的人物档案数据源,方便之后的使用。还可以进行人物关系抽取,促进相关人物的档案共同研究。档案使用者可以以自然语言提问的形式提出信息查询需求,问题输入进去以后会先进行解析,分析使用者的真实意图,然后根据理解到的意图去从各种人物档案数据资源中进行查询和检索,然后对查询和检索的结果做一个排序筛选,从而进行最终结果的输出,这就需要依托大量高质量的数据和知识,还需要强大的自然语言处理系统。在人物档案的电子数据录入中应用知识图谱还可以减少人力成本,替代非常大的工作量。再者,知识图谱还能够对人物档案进行图结构的分析,用原生态的语义网络形式进行描述,能够清晰的展示对使用者需求的人物档案信息。
3.比较传统的工具
采用人工进行人物档案的整理,在档案电子化环节中需要非常大的工作量,而且还可能有错误并进行另外的人工校对。人类思维对人物档案可以进行分析,进行演绎、推理、类比、归纳等,人類拥有的情感、想象力、猜想方式、教育背景等会影响分析的全面性和深入性,不同的人对信息有不同的解读和推测,会产生歧义;之前使用计算机进行人物档案开发利用,多采用统计的方法,对收集到的数据进行简单的分类、排序,存储以及计算,对人物信息进行描述。而采用知识图谱,是计算机模拟人类的行为进行语义分析,可以进行垂直领域的语义理解。知识图谱通过可视化的表现方式,更直观、鲜活的展示人物关联,将复杂档案来源处理成简便易懂的方式,知识图谱比传统的统计工具更好更精准的分析,比起人工的分析也更方便快捷,节省时间精力人力,不容易遗漏一些细节方面,还可以辅助进行决策分析,帮助使用者确定需要阅读的档案和展示需要的内容。
三、知识图谱在人物档案利用中的应用场景
1.检索人物档案
利用知识图谱将人物档案资源按知识利用的要求组织起来,推动档案智能检索研究与应用的发展。用户检索人物档案,将传统的基于关键字的检索推进到基于语义的实体搜索,可解释的人工智能不仅反馈问题的答案,还反馈这个答案是怎么来的,只有具备解释性,用户才会相信这个模型。用户进行档案的搜索时,机器会根据他的检索词,最大程度地还原用户的使用偏好及业务需求,在此基础上进行精准推荐,推荐需要阅读的档案内容。在现代智能检索系统的帮助下,根据用户的要求,自动搜寻相关知识,最大限度地满足用户利用需求,从而为用户创造更多、更大的价值。使用知识图谱进行人物档案检索,可以使用户体验得到提升、降低用户的使用成本。对于进行科学研究的经常查阅同一类型档案的人员,可以通过其基础信息和行为数据进行更为快速的检索和反馈。当用户搜索某个名人时,系统会自动根据图谱中的人物关系向用户推荐关联性较强的人物或事。还可以用知识图谱做一个间接的匹配,用中间实体概念和概念桥接两个完全不相关的事件或人物,把两个看上去语言描述完全不一样的东西进行匹配。
2.人物关联分析
知识图谱将大量数据放在一起,可以作为让机器理解语言的背景知识库。机器理解语言是一件非常复杂的事情,进行自然语言的处理往往需要上下文,很多语言的表达是隐形的,委婉的,还具有语义的多样性等等,这都让机器对语言的处理困难重重。知识图谱将自己知识库里的人物档案分析出主题以及分类,将语义关系联系到一起,进行深层关系推理,不仅仅进行简单的关系表示。上海图书馆名人手稿档案关联开放数据集,包括上海图书馆馆藏的24万余种手稿及档案的元数据,数据经过语义化的清洗、加工、转换进行知识组织之后,不再是简单的关于文献的描述性元数据,而存在着丰富的人与人、人与文献、文献与文献间的关联关系,可以通过时间轴关联同一时期同一年份的人物手稿,还可以通过地域的不同对名人手稿进行分类,是研究近现代历史、人文、经济、社会等问题的宝贵资料。
3.不一致性检验
知识图谱经过众包和多源校验,使得其质量较高。采用单一数据源的人物档案信息分析有可能会由于数据的片面性而导致分析的偏差、失误与孤证难立。知识图谱融合各个领域中的结构化数据如各种关系数据库、半结构化和非结构化数据如文本资料数据,可能使用多个知识抽取工具为每个数据项从每个数据源中抽取相应的值,对出现不一致性的地方进行自动标注,减少人工的工作量。在人物档案利用中,可以综合利用不同层面、不同平台、不同类型的多种人物档案数据源,相互补充、相互关联,充分利用数量众多的文字、实物等记录,以进行多角度知识发现,从而实现更全面、深入的分析;还可根据同一历史事件、同一人物分析结果的一致性对结论的可靠性进行交叉验证,以此来真正提高人物档案电子化的科学性、准确性与可靠性。
四、知识图谱在人物档案利用中的应用方法
1.数据挖掘
目前,人物档案资源并非凭借现代化的技术和设备就能很好地被利用,即使利用,在很大程度上也已难达到预期的效果。从人物档案海量的文本、图像等各种结构化、半结构化、非结构化数据中抽取实体、实体属性、实体之间的关系,由此来构建知识图谱,一般以图模型来描述语义关系,其中的节点表示实体,而链接节点之间的线条来刻画属性或关系,显示真实的相关信息。通过数据挖掘,发现蕴藏在人物档案资源中的各类隐性知识因子,将人物档案中的知识尽量显性化,为广大用户利用这些知识创造条件。在档案中提取涉及的实体和概念,然后在知识图谱中查找相关的实体和属性值,也就是将人物档案与知识图谱中已经有的相关的实体和概念相匹配,同时将该实体的其他属性以及周边有关系的实体一并记录。将分散的记录关联起来,有利于知识聚合的实现,发掘出新的知识,从而达到对人物档案进行深层次开发的目的。
2.实体识别
识别文本中的实体,并将它们连接到知识库中是让机器理解语言的第一步。实体识别出来的实体名通常是有歧义的,比如北京一词,它可能是在说古代时的太原,也可能是在說现在的首都,还可能是一本小说的名称,一首歌曲。解决这个问题的关键是有效地利用实体本身属性以及实体名出现时上下文的信息。采用启发式方法与知识图谱的分析形成互补和验证,数据数量不够、缺少知识背景时,利用人的经验在解决问题时采用已经行之有效的方法。中文相较于英文有一个很大的特点是中心词在后面,因此在对人物档案进行信息匹配时应从后向前进行匹配,以提高工作的效率,这样的叠加匹配也可以提高人物识别的准确率。
3.知识推理
知识推理是按照某种策略由已知判断推出新的判断的思维过程。知识图谱补全和去噪是知识推理的两大基础应用,现有的知识图谱由于数据来源的不全面以及知识获取的遗漏,不可能构建完备的知识图谱,利用知识图谱中已有的知识去推理出新的事实,从而尽可能地对知识图谱进行补全。知识图谱的知识推理不仅仅局限于以基于逻辑和规则为主的传统知识推理,还可以有更多样化的推理方法。知识图谱关注大量的具体实例三元组,以中立的方式描述概念,概念之间的关系和它们的属性,由于知识图谱自身实例为主导的特征,不局限于本体主要的概念层面的抽象推理,通过知识图谱的语义关系网,可以用关系来推断一些人物档案之间的联系。对于描述同一个人、同一事件的同一词进行相似判断,两个词可能是同一种描述的不同表达,但语义上的相似可以将两个词,两个档案内容联系起来。
(作者单位:上海大学图书情报档案系)