科学知识图谱数据层构建前沿
2018-02-21陈巍,肖骏
陈 巍,肖 骏
(1.珠峰财产保险股份有限公司, 北京 100055; 2.湖南有色金属研究院, 湖南 长沙 410100)
1 研究背景
科学知识图谱是知识工程的分支,在大数据时代,知识图谱让机器理解网上非结构化的文本,增强人工智能在搜索、机器人、智能穿戴家居及系统安全等方面[1-4]的可信性和可解释性。近年来,科学知识图谱由信息可视化已经演变成知识可视化,它是揭示前沿科学技术、成果和评估的一种方法手段[5-11]。
知识图谱的构建有自顶向下(top-down)与自底向上(bottom-up)两种方式,分为模式层与数据层,一系列的事实组成数据层,知识将以其为单位进行存储[12,13]。模式层构建在数据层之上,是图谱的核心。从架构而言数据层是根基,一个优质的科学知识图谱[14]需要补充前沿研究成果来整合和优化数据层,仅局限于大数据的自身逻辑或图谱来构建技术架构方面是远远不够的。
2 前沿研究技术
优质的科学知识图谱可以透视各领域中知识体系结构的关联与演变,要获得优质图谱,必须紧跟科技前沿:
1)智能AV系统。基于多尺度熵及协调驾驶行为的自动运转运输信号系统是一款对无人驾驶和私家车之间协调的系统[15-17],指纹和情感性格分析可以保证用户和AV的交互。物联网保证了水陆空实行智能交通体系的可能性[18-20]。相关研究内容支撑智能交通领域知识图谱核心技术数据层的构建。
2)智能安全系统。依托于非线性降维的高维数据可视化和基于大量威胁数据建立的知识图谱,在安全领域不仅可以为系统漏洞定位[21]提供优质的辅助信息,而且能为现有操作系统提供更好的隔离防护支持[22]。Ding[23]提出使得三个变量在低维隐空间下联合的新方法,同时保留数据固有结构。此外,非线性降维方法[24]和可视化、抽象化、系统化等特点,在多层结构联合学习方法中[25,26]和高度碎片化的移动平台安全防护[27]上也有广泛的应用。
3)无人驾驶船舶在海上航行时,其运动状态时刻受到飓风、海流、潮汐和波浪等水文要素的影响。其中恶劣天气是造成事故的主要诱因,如大风浪、海啸、极地航行等等[28],因此借助于大数据,将风险进行有效的量化分析是安全航行的首要工作[29-33]。
4)智能材料探索系统。基于第一性原理并借助于海量高质量数据,可以绘制高维度的知识图谱。例如Shi等人[34-37]利用金属原子-氢原子作用力数据来预测复杂催化剂度化程度,Jin[38-42]借助于基因图谱预测真实反应器中的细菌生长状态。
5)深空探测采样技术。Tian等人基于月壤颗粒与采样钻具相互作用模型,提出了一种能够提高月壤取心率的新型取心钻具[43,44]。该新型取心钻具借助于模拟试验环境及月壤样心扰动仿真数据[45,46],以输送量最大和钻进功耗最低为优化目标,对螺旋钻杆的结构参数进行了优化设计[47-49],提出了包装容器的结构参数参考值[50]。
6)癌症药物数据库图谱分析法。Kou等通过对数据库的集合分析发现新的癌症成因:点突变致癌症蛋白结构改变并且突变成簇排列[51],药物设计中通过构建抗癌药物图谱并对热点归类进行癌症靶点药物设计[52-57],通过对蛋白质-DNA非活性中心图谱分析[58]和DNA损伤和药物观测系统[59-60],研发抗癌新药。
3 结语
以学科知识为对象的“科学知识图谱”能使研究者发现隐藏知识规律,可将学科网络结构、知识单元互动和群体演化等隐含复杂关系以图示展示,它是开展知识管理,识别和分析学科发展新趋势、跟踪前沿动态并辅助科技决策的简便工具。