图谱背后的秘密知识图谱解读
2017-08-31技术宅
技术宅
现在无论是在微信朋友圈、PPT还是很多新闻中,我们都可以看到大量的知识图谱。这些媒介通过一张张简单的图谱阐述了很多原来需要很多笔墨才能表达清楚的事物(图1)。那么什么是知识图谱?它可以应用在什么地方?对于一般人来说构建知识图谱又有什么实际意义?
科技扫盲——认识知识图谱
如上所述,现在我们经常在各种媒介上看到知识图谱。它是将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱进行展示的一种技术。实际上如果单从表面看,知识图谱其实就是一张包含各种知识结构的图片,当然我们也可以理解成一张由知识点相互连接而成的语义网络。知识图谱其实和我们生活中小孩玩的磁力棒游戏很类似,它包含各个知识节点(钢珠)和节点关系(磁力棒),这样这些钢珠和磁力棒就组成一张知识图谱(图2)。
那么知识图谱是怎么出现的?严格来说“知识图谱”是一个舶来品,2012年5月负责Google搜索引擎的大神Amit Singhal在一篇《Introducing the Knowledge Graph: things, not strings》博客文章中提出“Knowledge Graph”(即知识图谱)的概念,这篇文章被国内媒体广泛转载,知识图谱概念就逐渐开始在国内传播,因此“知识图谱”最早是在搜索引擎中应用的。
知识图谱的构建——认识图谱背后的秘密
如上所述,“知识图谱”最早是在搜索引擎中应用的。那么搜索引擎服务商为什么要在搜索引擎中引入“知识图谱”的概念?它又是怎样建立起来的呢?
大家知道随着互联网的普及,我们大量的信息是通过互联网获取的。在这个网络中,每张包含信息的网页就像是上述图片中的“钢珠”,网页之间通过“磁力棒”(超链接)建立关联关系。为了获取到自己所需的信息,人们主要通过在搜索引擎中输入关键字进行搜索,然后在搜索结果中找到自己所需的信息。但是大家知道,现在互联网上的信息数以亿计,为了能够让人们在海量的搜索结果中快速找到所需的信息,搜索引擎厂商们就引入了“知识图谱”这个概念。当然除了谷歌,现在百度、搜狗等搜索引擎也在使用“知识图谱”,以搜狗搜索為例。
当我们打开https://w w w. sogou.com/输入“比尔·盖茨”作为关键字,这样在搜索结果页面右侧就会出现和比尔·盖茨相关的知识图谱,如比尔·盖茨的亲情、友情、爱情,以及与其相关的经济人物、书籍等内容,这就是一个典型的知识图谱的应用(图3)。
那么这个图谱是怎么建立?知识图谱的关键是节点和节点联系,以上述搜索为例,这里的节点就是各个搜索关键词的页面。作为搜索引擎它会通过网络爬虫收集海量的网页数据作为节点,有了这些节点数据后关键就是如何将相关联的节点数据建立对应的联系。
搜索引擎要为用户建立知识图谱,关键是要理解用户的搜索意图。还是以上述搜索为例,搜索引擎在响应用户输入关键词“比尔·盖茨”后,除了可以展示直接的搜索结果(“比尔·盖茨”的搜狗百科内容),还可以将“比尔·盖茨”相关的关系以图解方式列出知识图谱。这是因为搜索引擎可以对用户输入的关键词进行智能学习和判断。比如搜索引擎可以根据用户之前搜索的大数据进行分析和学习,知道用户在输入类似“比尔·盖茨”关键词时,很多用户还希望了解“比尔·盖茨”相关的数据,如其妻子、合作伙伴,甚至和其地位相似的经济人物等。当然搜索引擎还会通过深度学习(通过人工输入特定关键词,或者抓取搜索大数据),了解到用户普遍的搜索需求,从而可以在用户输入关键词后能够对自身存储的数据进行关联(如上例列出“比尔·盖茨”的亲情、友情、爱情关系图谱),迅速将相应的知识图谱展现在用户屏幕上。显然知识图谱的建立是大数据分析、深度学习、人工智能这些先进技术的结晶(图4)。
知识图谱 不仅应用在搜索引擎
通过上述例子我们知道知识图谱在搜索引擎中的应用,显然通过知识图谱我们可以获得比较全面的搜索结果。虽然知识图谱在搜索引擎中率先应用,但是随着知识图谱的普及,它也逐渐应用在我们的日常生活中。
比如很多朋友在进行互联网金融投资(P2P)时,为了避免踩到平台自融的雷,我们一般会通过工商查询系统查看股东关系,很多平台股东会在多个公司交叉持股。为了能够更方便地对股东交叉持股的关系有个清晰的了解,此时使用知识图谱来表示持股信息就是一个很好的方法。通过预先查询特定股东参股的公司,然后根据实际持股信息绘制知识图表,这样股东持股信息就一目了然了(图5)。
显然利用知识图谱可以将一些关系复杂、书面语言难以描述的关系利用知识图表清晰地表达出来。同样我们可以将其运用在很多方面,比如记忆单词的时候,很多朋友喜欢使用一些基本词根来进行扩展记忆,那么我们可以利用词根来制作一张知识图谱帮助我们记忆单词(图6)。