知识图谱的行业应用与未来发展
2018-05-14刘柳
刘柳
大数据时代的到来,使得人工智能技术获得了前所未有的长足进步。同时,随着人工智能对数据处理和理解需求逐日增加,知识图谱升温。融合知识图谱与深度学习,已然成为人工智能进一步发展的重要思路之一。知识图谱应用领域日趋广泛,如互联网金融、医药等领域,本文就知识图谱的行业应用与未来发展进行深入阐述。
多领域发挥重要作用
知识图谱本质上是基于语义网络(semantic network)的知识库,旨在描述客观世界的概念、实体、事件及其之间的关系。
知识图谱(Knowledge Graph)的概念最先是由谷歌于2012年正式提出,主要用来支撑下一代搜索和在线广告业务。2013年以后知识图谱开始在学术界和业界普及,并在搜索、智能问答、情报分析、金融等领域应用中发挥重要作用。
搜索:理解自然语言
基于知识图谱的搜索引擎开始具备更精确的语义分析能力,可以清晰辨别出自然语言问题。
坐拥海量数据的互联网巨头,基于生态闭环,其数据能够自我生长、消化吸收、形成新的知识体系,源源不断地产生知识库和知识图谱。
基于庞大的知识库和知识图谱,产生了支持自然语言沟通的SIRI、EVI和Google Now等语音个人助理。2011年,IBM研发了Watson问答系统,Watson参加了Jeopardy!(危险边缘)问答类电视节目,打败人类冠军。
脸书利用知识图谱技术构建兴趣图谱(interest graph),用来连接人与人之间分享的信息,2013年基于此构建了社交图谱搜索工具graph search。当时,《连线》杂志认为脸书推出社交图谱搜索工具一方面是要在网页搜索领域击败谷歌;另一方面是要在垂直搜索领域击退求职领域的LinkedIn、约会领域的Match,以及餐馆点评领域的Yelp。
在国内,微软必应、搜狗、百度等搜索引擎公司在谷歌提出知识图谱一年后纷纷发布了自己的知识图谱产品,如百度“知心”、搜狗“知立方”(现为“立知”)等。搜狗作为国内首家构建和应用知识图谱的搜索引擎,将基于知识图谱的人工智能技术和差异化内容内置到产品中。根据搜狗2016年财报显示,其搜索流量急速攀升,移动搜索流量较2015年底增长70%。百度的知识图谱也已广泛应用于众多产品线中,从2014年上线到2017年,其服务规模已增长约160倍。
腾讯汇总了微信、QQ和公众号超过20万亿次的阅读点击量,数百亿笔支付数据,全年约1300億次视频点击量,70亿次新闻点击量,四十余万款上线APP等数据,构建了社交知识图谱,并用于服务旗下众多产品,并在语音搜索、智能问答等新趋势中积蓄势能。
今日头条每一个用户的每一次操作行为都帮助它提高关系的准确度和维度,以此构建更加完善的知识图谱。
生命科学:降低研发诊断成本
由于研发新药花费较高,医药公司非常关注如何缩短新药研制周期,降低研发成本。欧盟第七框架下的开放药品平台Open Phacts项目,就是利用来自实验室的理化数据、各种期刊文献中的研究成果以及各种开放数据,包括Clinical Trials.org,美国开放数据中的临床实验数据,来加速药物研制中的分子筛选工作,已吸引辉瑞和诺华等制药巨头参与。
Watson取得巨大成功之后,IBM成立了Watson group(事业部),对各种行业进行认知突破。其中在医疗方面,IBM启动了登月计划(moon shot),通过整合大量医疗文献和书籍以及各种EMR(电子病历)来获取海量高质量的医疗知识,并基于这些知识向医护人员提供辅助临床决策和用药安全等方面的应用。
金融:识别及预防欺诈
金融仅次于医疗,是知识图谱应用最广泛的领域,在反欺诈、搜索和营销方面均有深入应用。
国外的Datafox和Spiderbook,国内的通联数据等,通过从互联网提取上市公司的相关数据,包括产品、公司供应链关系、竞争对手关系等,整合为知识图谱帮助企业或投资机构进行全网数据的关联分析、影响传播和预测。
反欺诈在金融风控中举足轻重,但基于大数据的反欺诈存在两个难点:一是如何整合不同来源的结构化和非结构化数据,并有效地识别出身份造假、团体欺诈、代办包装等欺诈案件。二是不少欺诈案件涉及复杂的关系网络,如组团欺诈。
知识图谱是基于关系的表达方式,可轻松解决以上两个问题,因此在反欺诈中获得广泛应用。首先,知识图谱可以提供非常便捷的方式来添加新的数据源。其次,知识图谱本身是直观的关系表达方式,可以帮助更有效地分析复杂关系中存在的特定的潜在风险。
比如,荷兰的法律对破产不追责,因此很多人利用法律漏洞建立团伙进行企业倒卖,通过将其中一些公司申请破产以非法获得很多免费资源。荷兰政府希望找到幕后组织避免大量损失,但政府各个部门和组织的数据非常分散,导致各个部门无法得到完整的信息判别上述团伙,而传统的数据集成方法需要依赖经验丰富的专家对数据库进行手工集成,大大增加了工作量和处理周期。引入知识图谱,进行有效的去中心化的高效知识融合,可快速确定可能性最大的元凶,相关部门就可以对其进行有针对性的深入调查。
农业:多媒体知识指导
大量的农业资料以不同格式分散存储,传统的关系数据库模式不适用于复杂多变的领域,无法实现定义所有可能的知识点并构建关键数据库模式,而知识图谱这种更加灵活的知识表示模型可以实现管理。利用抽取挖掘技术从各种多源异构数据中获取相应的知识,并用统一图谱进行表示,形成完整的知识库,刻画作物知识、土壤知识、肥料知识、疾病知识和天气知识等。通过图谱关联到图片信息,形成多媒体知识图谱,病变图片信息相比专业知识更加直观,也更方便农民使用。
客户服务:个性化前瞻性关怀
维护客户的原则即希望对于信用好的用户能前瞻性地了解其需求,并在用户抱怨或询问信息时,可以预判其需求,并帮其解决,从而减少沟通次数和沟通时长。为此系统需要判断用户的信用等级,并根据用户的当前消费情况和行为来自动化判断其可能的行为。
Amdocs是美国最大的第三方账单审计和客服中心,其客户包括AT&T、 Verizon和SPRIN,Amdocs对电信行业的设备、账单、支付、消费模式等知识进行数据分类和商业概念归类,经过提取整合各种数据源,形成统一的知识,并配合业务规则和贝叶斯网络来形成决策引擎,对用户的信用和各种行为结果进行预测,最终达到个性化前瞻性的客户关怀。
此外,知识图谱在媒体和政府均有不同程度的应用,如英国广播电台最早采用了知识图谱技术,近期热论的新闻自动写作机器人也是基于知识图谱技术。Palantir则是美国最早在政府领域使用知识图谱技术的公司,该公司帮助美国政府成功定位到了本拉登的位置。
赋能认知智能
知识图谱对于人工智能的价值在于让机器具备了认知能力。机器认知智能在应用方面是广泛、多样的,体现在精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等多个方面。
智能分析
由于缺乏诸如知识图谱此类背景知识,各类工具理解大数据的手段有限,限制了基于大数据的精准与精细分析,大大降低了大数据的潜在价值。因此尽管越来越多的行业或者企业积累了规模可观的数据,但这些数据非但未能创造价值,甚至可能因消耗大量的运维成本而成为负资产。
知识图谱的发展提供了强大的背景知识支撑,可以赋能舆情分析、商业洞察、军事情报分析和商业情报分析此类基于大数据的精准分析。
知识图谱和基于此的认知智能为精细分析提供了可能。如汽车制造厂商等制造企业都希望实现个性化制造运用于精细分析案例。知识图谱构建关于汽车评价的背景知识,如汽车的车型、车饰、动力、能耗等,提取消费者对汽车的褒贬态度、消费者改进建议、竞争品牌等评价与反馈,并以此为据实现按需与个性化定制。
智能搜索及推荐
第一,精准理解搜索意图。在缺乏上下文的情况下,基于知识图谱的认知智能可帮助搜索工具辨别出核心词和修饰词,如可应用在电商搜索引擎。
第二,实现对多元复杂对象的搜索。搜索的对象将从以文本为主到图片、声音,甚至是代码和视频、设计素材等。
第三,实现多元化搜索粒度,如段落级、语句级、词汇级的搜索。这将率先在知识管理领域得到大范围应用。传统知识管理大都只能做到文档级搜索,这种粗粒度的知识管理已经难以满足实际应用中细粒度的知识获取需求。
第四,实现跨媒体协同搜索。传统搜索以单质单源数据的搜索居多,文本搜索难以借力视频、图片信息,图片搜索对文本信息利用率不高。未来借助认知智能,可联合检索社交网络、地图、文本与图片信息等多个渠道多种媒体的信息。
因此未来的推荐趋势就是精准感知任务与场景,基于背景知识,实现行为与语义融合的推荐,想用户之未想。
知识型内容推荐。任何搜索内容背后都体现着特定的消费意图,很有可能对应到特定的内容、场景和知识背景。建立相应图谱,实现精准推荐,将显著增强用户对于推荐内容的信任与接受程度,这对于电商个性化推荐而言至关重要。
冷启动下的推荐。利用外部知识,特别是关于用户与物品的知识指引冷启动阶段的匹配与推荐,让系统尽快度过冷启动阶段。
跨领域的推荐。有效利用知识图谱这类背景知识,可以跨越不同平台之间的语义鸿沟,实现跨领域推荐。如微博作为媒体平台,淘宝作为电商平台,二者的语言体系、用户行为完全不同,实现跨领域推荐以后,可向经常晒山峰照片的用户推荐购买登山装备,商业潜力巨大。
智能解释
可解释性决定了人工智能系统的发现、推理和决策结果能否被人类采信,因此可解释性成为了金融、医疗、司法等诸多领域中阻碍人工智能系统落地应用的最后一关,而知识图谱在实现人工智能可解释性方面具有重要作用。可解释人工智能实现以后,将率先大幅度提升金融领域智能投资决策、信贷风险评估的采纳率,也将大幅提升人工智能在医疗领域确诊方面的采纳率和应用范围。
自然人机交互
人机交互将会变得更简单自然。自然人机交互包括自然语言问答、对话、体感交互、表情交互等,需要机器能够理解人类的自然语言,要求其具有较高认知智能水平及强大的背景知识。会话式(Conversational UI)、问答式(QA)交互将逐步代替传统的关键字搜索式交互。未来,Google NOW、siri、amazon Alexa等语音助手及下一代对话机器人将代替我们阅读、浏览,甚至代替我们看电影、电视剧,然后回答我们所关心的任何问题。
深刻影响社会结构
以深度学习为代表的人工智能获得巨大进展,但深度学习的不透明性、不可解释性已成为制约其发展的障碍,“理解”与“解释”是人工智能需要攻克的下一個挑战,而知识图谱为“可解释的人工智能”提供了全新的视角和机遇,并带来新科技、商业和社会新纪元—认知时代的黎明。
对于人类而言,知识图谱赋能人工智能之后,将增强人类的能力,让我们可以理解和运作社会中复杂的系统,提升我们驾驭科技的能力,改善人类的生存环境,人类与机器的交互将更加自然、有预见性、有情感性。
对于企业而言,产品和服务将具备认知能力,这将对企业产生颠覆性影响,将重塑其所处行业的形态,革新行业的各个关键环节。当前已有越来越多企业将人工智能升至企业的核心战略,在电商、社交、物流、金融、医疗、司法、制造等众多领域将会涌现出越来越多的人工智能赋能的案例。
对于社会而言,除了探索发现能力将得到长足进步以外,认知系统接受领先从业人员的训练,掌握政治、经济、法律、医学、销售和烹调等专业术语,能够理解和传授复杂的专业技能,将大大缩短社会培养人才所需的时间,甚至取代人类做出部分社会管理层面的工作决定。越来越多的知识工作将逐步被机器所代替,将对社会结构产生深远的影响。
总之,知识图谱将赋能认知智能,而认知智能是一种能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的人工智能技术。认知智能的发展本质上是不断解放人类脑力,伴随而来的将是机器生产力的进一步解放,最终将导致生产关系的改变。