狭义安全知识库构建研究
2015-11-02闫世杰范修斌陈永刚闵乐泉
闫世杰,范修斌,陈永刚,闵乐泉
(1北京科技大学自动化学院,北京10083;2北京博文广成信息安全技术有限公司,北京100094;3国家信息中心,北京100045)
0 引言
吕述望在文献[1]中提出了知识安全的概念,并对知识安全进行了讨论。在数字世界中,最初人们处于数据与通信保护阶段,然后是信息安全阶段,之后逐步发展到知识安全阶段。知识安全是数据安全、信息安全之后的一个自然过渡。在当前的知识经济时代,人类已经逐渐离不开数字世界。知识安全研究数字世界中知识表达、知识创新、知识安全传承、知识安全传递、知识安全存储、知识安全利用、知识挖掘、知识泯灭等方面的问题。在数字世界中,如果不重视知识安全,将带来知识白化、公民丑化、知识创新产权失控、国家资源不清、知识恶性使用、知识退化、知识失传等严重的问题。在数字世界中,知识表达难,安全传承不易;知识保存难,安全传递不易;知识认证难,安全审计不易;知识挖掘难,产权保护不易。吕述望进一步指出在数字世界中知识应该具备三个特征:被证实的、真的、被相信的。
几十年来,数据库系统和人工智能的理论与应用,分别作为计算机科学与技术的两个不同领域,获得了很大发展。一方面,随着数据库理论的深入研究,为了克服数据库模型在表达能力方面的不足,加强语义知识成分,使数据库具有推理能力,已经提出了若干更高抽象层次的概念模型,有的已利用了相应的知识表达方式。这和从人工智能角度提出的若干知识表达方式十分相似;另一方面,无论是人工智能理论本身,还是人工智能的技术和应用,都有一个以知识来描述完成智力行为的能力的问题,即关于知识库的问题。当前知识库在人工智能、智能城市等领域发挥着越来越重要的作用[2-24]。
知识在形成、传输、存储、保存、使用等方面特别在当今网络时代面临各种各样诸如文献[1]中提到的安全威胁。例如在因特网上查询某些知识时,存在知识严重白化的现象,小而言之误导学习,大而言之误国误民。因此当前讨论知识安全以及构建安全知识库势在必行。
相对于知识库的应用,本文重点对如何构建狭义安全知识库进行研究。本文在相关文献的基础上,给出了狭义安全原子知识库的描述定义以及数学定义,证明了两个定义之间的一致性。狭义安全原子知识库的概念是已有知识库研究结论的继承和发展。通过狭义安全原子知识库概念,以及对推导规则作用范围的限制,本研究可以解决已有知识库不相容的矛盾。狭义安全原子知识库的概念的可以指导我们从细致的层次上研究知识库以及构建知识库。继而给出了狭义安全知识库的数学定义,并给出了分析。
文中给出了构建狭义安全知识库的方法,并证明了该方法是正确的。
本文的狭义安全知识库的狭义是相对于知识库的应用来说的,即仅从逻辑角度以及构建中的信息安全角度来讲是狭义的。本文其余部分的组织机构如下:在第1节引入狭义安全原子知识库的定义,给出了其数学性质和说明实例。在第2节引入狭义复合安全知识库的定义,给出了其数学性质和说明实例。第3节讨论狭义安全知识库的安全构建方法。第4节对全文进行总结。
1 狭义安全原子知识库
1.1 狭义安全知识库的描述定义
文献[14]给出了关于知识库的如下定义:
定义1[14](知识库)知识库是人工智能和数据库技术相结合的产物。它是以一致的形式存储知识的机构。知识库中的知识是高度结构化的符号数据。知识库的基本内容可描述为:KB=F+R,其中KB代表知识库,F代表事实集,用数据库的术语来说,相当于实体及其属性所对应的数据集合;R代表规则集,其中所包含领域知识或启发式知识,在数据库中,通常是隐含于数据结构或完整性约束中,而在知识库中,则主要是通过某种知识表示方式,与事实一样显式地表达出来。
文献[14]指出,知识库和数据库的区别在于知识库中不仅包含显式表达的事实,而且还包含显式表达的包括常识,经验等在内的领域知识和启发式知识等。
基于知识库的定义,本文给出狭义安全知识库的如下概念:
定义2(狭义安全知识库的概念)
如果定义1中的知识库“是安全的”,则称该知识库是狭义安全知识库。
下面对狭义安全知识库定义中的“是安全的”进行进一步刻划。吕述望在文献[1]中指出:“在数字世界中知识应该具备三个特征:被证实的、真的、被相信的”。我们将其用在狭义安全知识库的定义“是安全”的解释中。
定义3(狭义安全知识库定义中的“是安全的”的刻划)
如果知识库中的一条知识是被证实的、真的、被相信的,被证实的是指被逻辑证明或实验证明的,真的是指该条知识具有真理性的,被相信是指该条知识是公理性的或被公理推导出的,则称这条知识是安全的。如果知识库中的每条知识是安全的,并且是相容的(即该知识库系统无矛盾),则称该知识库是安全的,即该知识库是狭义安全知识库,又称该知识库是狭义安全原子知识库。
例1[25]基于如下五条公理的几何是欧几里得几何;(1)由任意一点到任意一点可作直线;(2)一条有限直线可以继续延长;(3)以任意点为心及任意的距离可以画圆;(4)凡直角都相等;(5)对于每一条直线L和L外一点P,恰好只存在一条过P的直线与L平行。也就是说可以构建狭义安全原子欧几里得几何知识库。
在狭义安全原子欧几里得知识库中,基于欧几里得公理体系可以推得若干定理,这些公理与定理构成了狭义安全原子欧几里得知识库的主体内容,显然这些定理是“被证实的”、“真的”、“被相信的”。
因为这些定理是被逻辑证明的,因此是“被证实的”;因为这些定理是真命题,所以是“真的”;因为这些定理是基于欧几里得公理体系推导出的,所以是“被相信的”。
但是这些定理在非欧几何体系里不一定是“真的”。这也是研究构建狭义安全原子知识库的初衷。
例2[25]基于如下五条公理的几何是罗巴切夫斯基几何:(1)由任意一点到任意一点可作直线;(2)一条有限直线可以继续延长;(3)以任意点为心及任意的距离可以画圆;(4)凡直角都相等;(5)在平面内,从直线外一点,至少可以做两条直线和这条直线平行。也就是说可以构建狭义安全原子罗巴切夫斯基几何知识库。
例3[25]基于如下五条公理的几何是黎曼几何:(1)由任意一点到任意一点可作直线;(2)一条有限直线可以继续延长;(3)以任意点为心及任意的距离可以画圆;(4)凡直角都相等;(5)在同一平面内任何两条直线都有公共点(交点)。也就是说可以构建黎曼几何狭义安全原子黎曼几何知识库。
1.2 狭义安全原子知识库概念的意义
由定义1可知,知识库KB=F+R,其中R是规则集。如果R中的公理是不相容的,基于R,通过自动推理或人工推理得到的新知识就会出现相悖的知识,则这样的知识库是不一致的,因此是不安全的。例如例1、例2、例3两两之间的公理就是不相容的。如果把它们两两之间的公理放在一起作为公理基础显然是不可行的。通过狭义安全原子知识库概念,就可以解决这些矛盾。
狭义安全原子知识库的概念的可以指导我们从细致的层次上研究知识库以及构建知识库。通过狭义安全知识库的建立,可以为人们建设可信的查询知识的环境,就会防止知识白化,便于知识传承等。并且能够在学术上做到百花齐放、百家争鸣。狭义安全原子知识库的概念是数据库以及以往的知识库中没有的概念,是知识库研究的概念细化和发展。
在上述描述与分析的基础上,我们在下节给出抽象的狭义安全原子知识库的数学描述。
1.3 狭义安全原子知识库概念的数学定义与性质
综合定义1、定义2以及定义3,我们给出狭义安全原子知识库的数学定义如下:
定义4一个狭义安全原子知识库数学定义为:
其中PKB代表狭义安全原子知识库,PF代表狭义安全原子知识库事实集,PR代表狭义安全原子知识库规则集。且满足如下条件:
1 PR是自相容的;
2 PF与PR是相容的;
3 ∀pkb∈PKB,pkb可由PF以及PR推出。
注:PKB、PF、PR中的P可以理解为prime即本原的意思。
进一步细化,我们可知:
性质1 一个狭义安全原子知识库其PR=Pa∪Pr,其中Pa是PR中的公理集,是推导知识的基础,Pr是PR中的推导知识的方法。
由定义4、性质1,有:
性质2 一个狭义安全原子知识库PKB=PF∪Pa∪Pr。
Pa是决定狭义安全知识库的性质的根本,Pr是知识的知识,PF是PR的输出。因此从狭义安全知识库的数据形式上看,Pa、Pr是相对静止的,而PF是动态的、演化的。
下面讨论定义3与定义4的一致性。
命题1 定义3中给出的狭义安全原子知识库与定义4给出的狭义安全原子知识库的数学定义是一致的。
证明 定义3中给出的狭义安全原子知识库中的每条知识是被证实的、真的、被相信的。定义3中狭义安全知识库中的被相信的部分包含定义4中的狭义安全知识库的Pa,又因定义3中狭义安全知识库的相容性,因此定义3中给出的狭义安全原子知识库与定义4一致。
由命题1可知,数学化的狭义安全原子知识库的定义是合乎逻辑的。
当然,为了知识库的系统性,我们还需要把相关的狭义安全原子知识库复合在一起形成复合知识库。下节将对此进行讨论。
2 狭义安全复合知识库
定义5(狭义安全复合知识库)
多个狭义安全原子知识库的集合,称之为狭义安全复合知识库。为区别于一般的集合符号,我们记一个狭义安全复合知识库为:
其中n≥1,每个 PKBi,i=1,2,…,n为狭义安全原子知识库,仅表示狭义安全原子知识库空间存储上的并集,任意两个狭义安全原子知识库之间没有其它关系。
为方便起见,简称狭义安全复合知识库为狭义安全知识库,称n为狭义安全知识库的复合指数。
由性质2可知:
性质3
由性质3,一个狭义安全知识库仅仅是复合指数个狭义安全原子知识库在存储空间上的简单累加而已。一个狭义安全知识库中的每个狭义安全原子知识库,其Pai、Pri仅作用于PKBi内部,对其它的 PKBj,i≠j没有作用。
性质3克服了以往一般知识库刻画时的粗线条情况。同时也为我们如何建设狭义安全知识库指明了方向。
上述第1、2节,从逻辑安全角度,给出了狭义安全知识库的分析。下面我们再从狭义安全知识库建设时的信息安全角度,来论述狭义安全知识库。
3 狭义安全知识库的安全构建方法
在性质3的基础上,我们从信息安全角度,讨论狭义安全知识库的安全构建方法。
3.1 狭义安全知识库构建的组织机构建设
要构建狭义安全知识库首先要建立相应的组织机构,参照文献[36],给出组织机构如下图:
图1 狭义安全知识库构建的机构图
该组织机构可以采取紧耦合或松耦合两种组织方式,视具体情况而定。
狭义安全知识库构建领导小组负责领导聘请领域专家组成员、制定相应的工作计划、日常工作制度以及管理制度,负责各个狭义安全原子知识库构建组的组长的任免,负责管理整个狭义安全知识库的构建过程。
领域专家组成员要具有领域的代表性、权威性。
各个狭义安全原子知识库构建组,由相应的组长和骨干构成,组长应为绝对领域权威。并负责对组员的各类相应管理。
各狭义安全原子知识库构建组组长要制定相应的狭义安全原子知识库具体构建计划,对组员要进行明确的任务划分和完成期限,并上报狭义安全知识库构建领导小组。在狭义安全知识库构建领导小组组织领域专家组评审通过后,各组执行狭义安全原子知识库具体构建计划。
对组员形成的知识库相应知识,组长要按具体工作计划和时间节拍,上报领域专家组,并向狭义安全知识库构建领导小组申请阶段性鉴定;狭义安全知识库构建领导小组在组织领域专家组评审通过后方可将相应知识加入相应安全知识库。
3.2 狭义安全知识库中每条知识的数据结构
为在建立狭义安全知识库中的每条知识的可靠性,我们对每条知识要进行结构化保护。
每条知识的数据结构如下:
图2 狭义安全知识库中每条知识
其中,y0表示该条知识的狭义安全原子知识库的序号,y1表示该条知识在其狭义安全原子知识库中的种类;x0是知识的信息内容为知识信息的长度,x1是知识信息阅读器,l1=为知识信息阅读器的长度,x2是知识提供者对y0、y1、x0与x1的数字签名知识提供者数字签名的长度,x3是知识鉴定者对 y0、y1、x0、x1、x2的数字签名知识鉴定者的数字签名的长度。
一般情况下,对狭义安全知识库中的每条知识,y0与y1的长度是固定的,x1是y0与y1的函数,即由y0与y1唯一决定;l2=l3=256即可。知识提供者对应于图1中的各组组长或骨干,知识鉴定者由图1中的领域专家组成员担任。这些领域专家组成员通过对每条知识的严格鉴定确保对狭义安全知识库的支持。
对于知识提供者以及知识鉴定者的数字签名算法,可以按我国的电子签名法具体实施。
签名验证算法可以参照国家密码管理局制定的签名验证算法。
传统的签名验证算法是证书认证体制[26-28],其代表的算法是PKI(Public Key Infrastructure),即“公钥基础设施”,它利用公钥密码算法为网络应用提供加密和数字签名等密码服务及所必需的密钥和证书管理体系。当前的PKI层层CA架构以及交叉认证在管理上和大规模网络认证上造成了困难。
另一类认证体制是标识认证体制[28-34],其代表算法是IBE,其优势是标识即公钥,但其架构一般情况下与我国的电子签名法是相悖的。
当前文献[26]给出一种基于标识的证书认证体制 CFL,CFL是证书认证与标识认证混合一种认证体制,是证书认证与标识认证的继承和发展,其具有可证明安全性、自认证性、可重构性、可以做到芯片级、轻量级、管理简捷等特点,可以方便在狭义安全知识库的构建中使用。
也就是说,在管理中心的支持下对图1中的所有成员颁发证书,对每名成员实行证书管理。
命题2 在图1狭义安全知识库构建的机构图、在图2的数据格式以及在证书管理中心的支持下,建立的知识库是狭义安全知识库。
证明 在各个原子知识库的建立中,首先由于各组成员以及相应的领域专家能够构建各个原子知识库的Pa,且相容;继而能够建立各个原子知识库的Pr;在自动推理机以及人工推理下,可以构建各个原子知识库的PF。又在数字签名的支持下能够做到数据化的各个原子知识库的每条知识是完整的,从而确保是真的。因此命题成立。
注:鉴于当前自动推理机的能力所限,为建设可用性强的狭义安全知识库,我们应当充分发挥人工推理的作用。
命题2同时也给出了构建狭义安全知识库的方法,即首先建立严格的组织机构,每条知识严格遵循数据结构,并在证书管理中心的支持下进行数字签名。
在构建狭义安全原子知识库时,通过严格的组织机构、通过对每条知识的数据结构检查、通过签名验证,这样就可以确保狭义原子知识库中的知识是相容的,防止了知识被篡改,保证了知识的完整性,并对知识的提供者以及鉴定者进行了责任管理,防止了知识的白化,保证了知识是被证实的、真的、被相信的。因此,这样就可以构建狭义安全原子知识库了。在此基础上就可以构建狭义安全知识库。
例如基于命题2、基于欧几里得五条公理可以构建狭义安全原子欧几里得几何知识库;基于命题2、基于罗巴切夫斯基五条公理可以构建狭义安全原子罗巴切夫斯基几何知识库;基于命题2、基于黎曼五条公理可以构建狭义安全原子黎曼几何知识库。在此基础上就可以构建包含欧几里得几何、罗巴切夫斯基几何、黎曼几何的狭义安全知识库了。
例如,中华人员共和国宪法第十五条规定:国家实行社会主义市场经济。显然这与美国宪法是相悖的。因此可以建立狭义安全原子中国法律知识库、狭义安全原子美国法律知识库等并构成狭义安全复合法律知识库。人们可以基于该知识库学习和研究法律,同时也可在此基础上构建法律专家智能系统。
中医的理论基础主要包括阴阳、五行、运气、脏象、经络等学说,显然其与西医理论基础是相悖的。因此可以建立狭义安全原子中医知识库、狭义安全原子西医知识库等并构成狭义安全复合医学知识库。人们同样可以基于该知识库学习和研究医学,同时也可在此基础上构建医学专家智能系统。
同理,我们也可以构建狭义安全复合经济学知识库、狭义安全复合物理学知识库、狭义安全复合哲学知识库等,服务社会、造福人群。因此构建各类狭义安全知识库具有着重要的积极意义。
在上述研究的基础上,本文给出如下猜测:
1)目前大量的信息系统将演化为知识系统;
2)当前的信息安全管理中心将演化为知识安全管理中心;
3)今后各类狭义安全原子知识库层出不穷;
4)信息安全的五大属性将演化为知识安全的五大保障技术;
5)安全知识库将与物联网、移动通信网、云计算、网际物理系统(CPS,Cyber-Physical Systems)等深度结合。
4 结语
在相关文献[1,15,18,19]等的基础上,本文提出了狭义安全原子知识库的描述定义以及数学定义,并证明了两个定义之间的一致性;给出了狭义安全知识库的数学定义。给出了构建狭义安全知识库的方法,并证明了该方法是正确的。本文狭义安全知识库的狭义是相对于知识库的应用来说的,即仅从逻辑角度以及构建中的信息安全角度来定义的,因此是狭义的。知识库构建的逻辑安全、构建中的信息安全、应用中的信息安全构成广义安全知识库。在以后的研究中我们将进一步讨论广义安全知识库,特别是对知识库的应用安全进行研究。本文的研究结果为广义安全知识库的研究提供支持,可以为各类知识库的建设、人工智能以及智能城市的建设提供参考。
[1] 周雪.吕述望教授谈知识安全与未来网络[J],信息安全与通信保密,2012(3):20-21.
[2] 王正中.智能城市建设及其发展[J],可编程控制器与工厂自动化,2006(9).
[3] 陈如明.智能城市及智慧城市的概念、内涵与务实发展策略[J],数字通信2012(5):3-9.
[4] 熊玲芳,杨世瀚,吴尽昭等.城市智能交通系统知识库的综合推理[J],计算机与数字工程,2013(2):214-217.
[5] 廖晓锋,王永吉,范修斌等.基于LDA主题模型的安全漏洞分类[J],清华大学学报(自然科学版),2012(10):1351-1355.
[6] 卢美律,张渡.机器学习:理论方法及应用[J],科学前沿,1995(2):12-16.
[7] 闫友彪,陈元琰.机器学习的主要策略综述[J],计算机应用研究,2004(7):4-13.
[8] 陈凯,朱钰.机器学习及其相关算法综述[J],统计与信息论坛,2007(5):107-112.
[9] 敖志刚.人工智能及专家系统[M].第一版.北京:机械工业出版社,2010:66.
[10] Tom M.Mitchell,机器学习[M].曾华军,张银奎.第一版.北京:机械工业出版社,2003:124.
[11] D Heckerman.Bayesian networks for data mining[J],Data Mining and Knowledge Discovery,1997(1):79 -119.
[12] C Kellogg.From Data Management to Knowledge Management[J],Proceedings of the Australian Computer Conference-1987,1987(1):75-84.
[13] 董军,肖少拥.知识库系统的现状与发展趋势[J],计算机技术与制动化,1995(3):1-4.
[14] 吴顺祥,吉国力.数据库系统与知识库系统的对比分析[J],计算机工程与应用,1999(9):83 -85.
[15] 杨勇,邹时林,蔡源.知识库系统的原理[J],华东地质学院学报,2001.(4):334 -337.
[16] 史忠植.知识发现[M].第二版.北京:清华大学出版社,2002:57.
[17] John F.Sowa.Knowledge Representation:Logical,Philosophical,and Computational Foundations[M],第一版.北京:机械工业出版社,2003:45.
[18] 许文艳,刘三阳.知识库系统的逻辑基础[J],计算机学报,2009(11):2123-2129.
[19] 胡昌.基于知识库的安全需求获取方法[D],天津:天津大学计算机科学与技术学院,2011.
[20] 朱承,曹泽文,张维明.知识库系统建模框架的发展与现状[J],计算机工程,2012(8):3-5.
[21] 谢晓方,姜震.基于关系数据库的知识库系统设计方法[J],微计算机应用,2004(3):227 -230.
[22] 柳菁.美国机构知识库版权问题的解决方式及启示[J],数字通信,2013(5):157-160.
[23] 孙艳艳.欧美日智能城市建设及对我国的启示[J],城市管理与科技,2012(5):78-80.
[24] Setsuo Ohsuga,崔靖,日本数据库系统和知识库系统理论研究的现状[J],计算机科学,1985(1).
[25] John Stillwell.数学及其历史[M].袁向东,冯绪宁.第一版.北京:高等教育出版社,2011:249.
[26] 陈华平,范修斌,吕述望,基于标识的证书认证体制CFL:中国,2011102500094[P].2013.03.06.http://publicquery.sipo.gov.cn/index.jsp?language=zh_CN.
[27] C.Ellison.SPKI Requirements[C]//Internet Engineering Task Force,USA:the Internet Society,1999:2.
[28] C.Ellison.SPKI Certificate Theory[C]//Internet Engineering Task Force,USA:the Internet Society,1999:8.
[29] Adi Shamir.Identity_Based Cryptosystems and Signature Schemes[J],Advance in Cryptology,1984(196):47-53.
[30] D.Boneh,M.Franklin.Identity_Based Encryption from the Weil Paring[J],Advance in Cryptology - CRYPT2001,2001(2139):213-229.
[31] 南湘浩.CPK标识认证[M],北京:国防工业出版社,2006:98.
[32] 南湘浩,华平,组合公钥体制标准[J],信息安全与保密通信,2008(8):21-22.
[33] 王公浩,王玟,吴铎等,CPK随机碰撞概率分析[J],信息安全与保密通信,2008(11):87-88.
[34] 马芯宇,龙翔,范修斌.无碰撞CPK的种子库构建和选取方案[J],计算机工程与应用,2012(27):99-104.
[35] 谢宗晓,刘琦.信息安全管理体系实施案例及文件集[M],第一版.北京:中国标准出版社,2010,137.