知识降维作图谱 人工智能有阶梯
2019-04-25臧根林
臧根林
由谷歌(Google)旗下DeepMind公司戴密斯.哈萨比斯领衔的团队开发的阿尔法围棋(AlphaGo)人工智能机器人在2016年3月与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,引爆了新一轮人工智能热潮。人工智能研究从1956年开始,经过三起三落,至今已经60多年了,但始终发展没有达到我们的期望,现在有了大数据技术,在机器学习模型训练方面有了重大提升,在语义理解、图像识别等方面都有了不少突破,也出现了AI播音员等,但我们发现要实际运用的时候,人工智能离我们还有相当远的距离。比如无人驾驶汽车,试验阶段是没有问题的,真正上路为我们服务,能在复杂路况下像老司机一样安全驾驶,谁也说不清还需要等多少年。
怎么样才能让人工智能为人类服务?我认为这个问题非常像把一条狗训练成警犬的过程。狗的智商不如人类,但在“硬件”方面有优势,比如奔跑速度、嗅觉等等,我们要训练一条狗成为警犬,就必须让它学习,能理解人类的意图,知道要它做什么。训练狗的过程实际上是知识降维的过程,我们人类脑子里的知识结构非常复杂,其存储结构、关联思维、决策判断过程至今也无法完全研究明白。要把这么复杂的知识结构让狗能理解,只能把维度降下来,比如找出一包毒品可以得到一份食物的奖励,也就是将毒品这个实体和它喜欢的食品这个实体建立了关系。训练人工智能其实也就是这样,计算机的计算、存储能力可扩展,超级计算机可以实现我们人类无法达到的高性能计算,但无法完全模拟我们人类的思维,只有我们把知识结构降维,形成一个计算机能看懂的结构,它的优势才能发挥。这样降维后形成的知识,基本上围绕着实体、实体的属性、实体之间的关系这三个要素展开,这种知识架构就是知识图谱。特别是现实世界中的大量知识是非结构化的,如声音、图像等,而计算机擅长处理的是结构化数据。知识图谱可以实体的结构化信息和非结构信息关联起来。所以有一种说法,叫知识图谱是大数据走向人工智能的阶梯。
知识图谱本质上就是一个用图数据结构等技术作载体,描述客观事物及其关系的大型知识库。在具体实现上,知识图谱用语义网(Semantic Web)中的资源描述框架(Resource Description Framework,RDF)对知识体系和实例数据二个层面的内容进行统一表示,共同构成一个完整的知识系统。
世界本身不存在结构化或非结构化问题,在信息化时代之前也没有人去区分结构化或非结构化,但人类进入信息化时代,什么都想通过计算来得到结果,就产生了信息是否结构化问题。所以这个问题是人类为了将就计算机而产生的问题。知识图谱把这个问题进一步加深了,因为我们不仅仅想让计算机帮我们计算信息,还想让计算机学会跟我们人类一样去思考去判断,也就是现在很热门的人工智能。为了教育计算机看懂人类的知识,我们类似给幼儿设计看图识字本一样,将知识整理成知识图谱。
知识图谱的本质是具有有向图结构的知识库,知识图谱是人工智能应用不可或缺的基础资源。知识图谱分为两类:通用知识图谱和领域知识图谱。通用的知识图谱可以认为是百科全书,比如Google 知识图谱、DBpedia、YAGO和Freebase等;领域知识图谱是基于领域数据构建的知识图谱,用于领域分析研究工作。通用知识图谱的本体根类型,基本上就是实体(entity),然后再分类。通用知识图谱和领域知识图谱,从基础架构上基本相同,但由于领域知识图谱面向更为复杂的领域数据和场景,从构建和应用上来讲更加复杂。
虽然知识图谱概念由美国谷歌公司在2012年5月首次提出,但知识图谱这样的理念和表达思路在中国已经存在超过二千年,五行理論和相生相克图就是一个典型的知识图谱结构。知识图谱描述的关键三要素是实体、属性和实体之间的关系,五行相生相克图(图1)正是完整表达了这样的三个要素,金、木、水、火、土每个字不但表达一种类型实体,而且字面本身已经蕴含了属性解释,如“水”字自然就是指世界上一切液体性质的实体,每个实体都和另外四个发生联系,四条连线代表了实体之间相生或相克的关系。
在很多领域的知识图谱,其实和五行相生相克图都有相似之处,图2就是是公安部门数据存储的常用分类,将数据分为人(人口信息)、地址(门牌楼等)、案件、物品(刀、枪、毒品等)及组织(某黑社会、邪教组织等)。
知识图谱可以用于各个行业领域,用于领域的数据整合和业务分析,比如政府辅助决策、媒体分析、电商分析、金融分析、公安情报分析、学术领域、学科分析、军事信息搜索等。面向不同领域有不同的领域本体(Domain Ontoloty),领域本体是领域知识图谱的基础概念。在领域知识图谱工程中,最先需要确定的是本体中的对象类型。各个领域都有自己关注的主要对象,领域的信息化是围绕这些对象而产生和收集数据,所以在构建领域知识图谱中,这些主要对象就是知识图谱中主要的对象类型。
领域知识图谱构建的过程,就是分别将领域中的结构化数据、半结构化数据和非结构化数据加工成知识对象和关系的过程,针对三种类型的数据分别构建,构建后的文本类型和多媒体类型的对象,又可以通过人工或机器的方式进行知识加工,从中提取有价值的实体、事件和关系。图3显示的就是领域知识图谱构建和知识加工原理。
大数据技术发展非常快速,2012年在中国开始提出大数据,短短几年时间已经从一种高大上的技术变成了基础性的技术,各行各业都在使用大数据。但如何让大数据发挥更大价值,大家都把目光转向人工智能的时候,发现人工智能离自己实际使用有相当的距离,甚至无从下手。其实,先把大数据构建成自己领域的知识图谱,形成机器学习、模型训练的知识资源,正是通往人工智能的阶梯。