人工智能教育研究专家系统构建框架及实施
2020-01-10李强
李 强
人工智能(Artificial Intelligence,缩写AI),最常见的定义有两个:一是马文·明斯基(Marvin Lee Minsiky美国人工智能学者)提出的“人工智能是一门科学,是使机器做那些人需要通过智能来做的事情”;另一是尼尔森(Nils John Nilsson 美国人工智能学者)提出的“人工智能是关于知识的科学”,研究知识的表示、获取和运用。[1]通俗地讲,人工智能是制造近似人类接受信息(看、听、感受),处理信息(分析、判断),产生结果(表达、行为)的机器或系统,尽可能替代人类实现人类社会行为。该领域的研究主要有机器人、语言识别、图像识别、自然语言处理和专家系统等,专家系统是其中最令人瞩目的热点。
一、专家系统及其结构和功能
(一)什么是专家系统
专家系统,缩写为ES,是智能化的计算机程序系统,其内部含有某领域丰富的专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法,模拟人类专家处理复杂问题。有学者(Firebaugh)比较了人类专家和专家系统,认为专家系统的主要特征应该包括解决问题、学习、重构知识、打破规则、了解自己的局限、平稳降级以及保持简单的推理引擎和利用冗余性。[2]
在发展初期,ES就是一类“问题求解”的计算机程序,可以辅助人们进行定理证明和逻辑推理,但还不能解决复杂的实际问题,因为复杂的实际问题还不能用计算机理解的方式表达,计算机还不能“看懂”。1965年,图灵奖(Turing Award)获得者,最早倡导“知识工程”(Knowledge Engineering)的美国人工智能专家爱德华·费根鲍姆(Edward Albert Feigenbaum)与诺奖获得者、遗传学家莱德伯格(Joshua Lederberg)合作,在总结“通用问题求解系统”成败经验的基础上,开发了世界上第一个专家系统程序DENDRAL。DENDRAL 中保存着化学家的知识和质谱仪的知识,可以根据给定的有机化合物的分子式和质谱图,从几千种可能的分子结构中挑选出一个正确的分子结构。DENDRAL 的成功被认为是人工智能研究的一个历史性突破。
至今,ES的发展经历了三代:第一代就是以费根鲍姆的DENDRAL 为代表,具有高度专业化、求解专门问题能力,但体系结构的完整性、可移植性、系统透明性和灵活性等方面尚不足,求解问题能力尚弱。第二代以著名的MYCIN(也是费根鲍姆的研究小组研制的)为代表。MYCIN 是较著名的帮助医生诊断传染病和提供治疗建议的ES。MYCIN体系结构较完整,移植性有所改善,而且其人机接口、解释机制、知识获取技术、不确定推理技术、增强ES的知识表示和推理方法的启发性、通用性等都有改进。第三代属多学科综合型系统,采用多种人工智能语言,综合采用多种知识表示方法和推理机制及控制策略,并开始运用知识工程语言、骨架系统及ES开发工具来研制,典型的如HPP’-80。
近年来,在总结前三代ES的设计方法和实现技术的基础上,已开始研发新一代ES。第四代ES采用“多ES高度集成协同”的工作模式,具备高级描述语言和知识表示语言、高级人工神经网络知识获取和学习功能、全新的推理机制、纠错和自完善能力、先进的智能人机接口等,实现多知识库、多主体型的ES。ALPHAGO 系统就是典型的代表之一。
(二)专家系统的基本结构
1.知识库。知识库用来存放专家提供的知识。知识库包含所有用“如果:〈前提〉,于是:〈结果〉”形式表达的领域知识规则。人工智能中的知识表示形式有很多种,ES中常用“产生式规则”。ES的问题求解过程就是通过知识库中的知识来模拟专家“思考”的,因此,知识库是决定ES质量水平的关键,知识库中知识的质量和数量决定着ES的质量水平。
2.综合数据库。综合数据库中包含求解领域问题的世界范围内的事实和断言。它还用于存储推理过程中所需的原始数据、中间结果和最终结论。
3.推理机。又称规则解释器,它运用控制策略(推理程序)为ES用户找到可以应用的知识规则。推理机针对当前问题的条件或已知信息,反复匹配知识库中的规则,获得新的结论,以得到领域问题求解结果。
为使计算机能“理解应用”某领域专家的专业知识,必须要采用计算机能“懂”的方式表示知识。目前常用的知识表示方式是产生式规则,基于规则的产生式系统是由知识库、综合数据库和推理机三部分组成,因此,知识库、综合数据库和推理机组成了ES的核心。
4.人机界面。也称人机交互界面,是ES与用户进行交流的界面。通过该界面,用户输入基本信息、回答系统提出的相关问题,系统输出推理结果及相关的解释信息等。
5.解释器。解释器能够根据用户提问对结论、求解过程作出说明,因而使ES更具人情味和可信度。例如,ES可以通过解释器向ES用户解释系统为什么要向用户提出该问题,计算机是经过怎样的推理过程得出最终结论的,等等,这使ES不仅为用户提供问题答案,而且提供该答案的可信度估计。
6.知识获取。通过“知识获取”模块,专家和用户可以扩充和修改知识库中的内容,因此它是ES知识库构建和不断提升水平的关键。将来甚至可以逐步实现知识库自动学习功能。
(三)专家系统的基本功能
ES基本工作流程是:用户通过人机界面回答系统的提问,推理机将用户输入的信息与知识库中规则进行匹配,并把匹配结论存放到综合数据库中。最后,通过人机界面将最终结论呈现给用户。因此,ES一般都具备以下主要功能:
存储功能——存储问题求解所需的知识、具体问题求解的初始数据和推理过程中涉及的各种信息。
推理功能——根据输入的数据,利用已有的知识,按照推理策略解决问题,并能够对推理过程、结论或系统自身行为作出必要的解释。
更新功能——提供知识获取、机器学习以及知识库的修改、扩充和完善等维护手段,以有效地提高系统自身的问题求解能力及准确性。
表达功能——提供用户接口,便于用户使用,又便于分析和理解用户的各种要求和请求。
上述诸多功能中,存储和推理是ES的两个最基本的功能。
ES是一个基于知识的系统,它利用人类专家提供的专门知识,模拟人类专家的思维过程,解决人类专家都可能难以面对的问题。因此,高性能的ES应具备启发性、透明性及灵活性特征。[3]
(四)专家系统构建的条件和原则
1.技术性条件。ES虽然是基于“知识”的系统,但其对“知识”有一定要求。ES对“知识”及其所属领域的要求是其构建的技术性条件,这类条件主要有以下几方面:在该知识领域有真正公认的专家;该领域专家对该领域知识相关问题的答案基本一致;领域专家能够描述和解释他们解决领域问题的方法;领域知识容易获得;涉及的相关问题难度不太大,范围不宽泛;用户给出的任务很好理解,而且不是太新;用户给出的任务不涉及大量常识。
2.经济性条件。ES构建需要耗费大量人力和财力,在构建前,还需要评估ES未来实用价值,这是ES构建的经济性条件,这类条件主要有以下几方面:应用领域对构建ES的需求程度如何?任务完成或问题解决是否带来较高效益?领域问题解决过程是否适用ES的技术路线?领域内人类专家是否稀少,专家知识是否昂贵?领域内人类专家是否损失严重,问题解决代价是否较高?问题解决环境是否不友好甚至具有危险性?
3.构建基本原则。相关研究者和设计者一般比较强调以下原则:
其一,专门性原则。ES要面向专业性强的专门任务。用户提出的任务要具体明确,指向性强,能较快产生具体经济或社会效益。
其二,最小化原则。ES的构建要坚持“最小系统”原则,针对领域问题解决采用最核心最原型的系统设计,首先实现解决最核心问题的功能,以后逐步修改、扩充和完善,这也尽量降低初期成本。
其三,合作性原则。ES的构建和发展需要领域专家、知识工程专家等多方专家合作以及直接用户的参与。多方合作参与不仅可以提升工作效益,而且对知识获取水平的提升具有重要意义。尤其是对于规划型、预测型的ES,意义就更加重大。[4]
其四,工具辅助原则。由于近来ES 开发工具的发展,以及ES开发任务复杂程度的快速提升,ES开发工作越来越需要借助良好的开发工具支持。
二、教育研究ES的基本框架
(一)什么是教育研究
教育研究,一般是指以教育科学理论为基础,以教育领域内发生的现象为对象,以探索教育内在规律为主要目的,以教育规律指导推进教育实践改革和发展为主要作为的创造性社会活动。
教育研究的主要类型包括基础研究、应用研究、评价研究、行动研究和取向研究。[5]一般意义讲,一项规范的教育研究工作或者活动要包含以下环节:选择研究方向,聚焦研究问题,立项研究课题,实施研究计划,总结研究成果,落实成果转化,追踪转化效果,发现新研究问题。
为方便“教育研究专家系统构建”主题的表述,这里以国家或省市级教育规划课题研究为标准,本文此后论及的教育研究均指教育规划课题研究。
(二)教育研究的过程和关键环节
按照教育规划课题研究的一般要求,研究课题立项才是规范的教育研究的真正开始,《教育规划课题管理办法》[6]一般要求研究者填写课题申请评审书,其中规定要填写的重要内容包括以下几方面:
第一部分,课题名称、主题词、研究类型和研究成果形式等。
第二部分,课题设计论证,其中要填写“选题”“内容”“价值”“研究基础”。“选题”中要写出本课题国内外研究现状述评和选题的意义;“内容”中要填写本课题研究的主要思路(包括视角、方法、途径、目的)和重要观点(提出研究假设);“价值”中要填写本课题的创新程度、理论意义和应用价值;“研究基础”中要填写研究者已取得的相关成果和主要参考文献。
其余部分,包括完成课题的条件和保证、课题组已经取得的相关成果、预期成果形式和安排、经费预算、推荐专家和单位意见、评审意见和结果。[7](具体内容略)
规范的教育研究一般包括以下关键环节:
1.聚焦问题。现实社会中教育现象丰富多彩,教育问题复杂多样,作为规范的教育研究,必须首先聚焦研究的核心问题,确定具体研究范围和问题域。要完成这个聚焦的过程就要搜集查阅国内外大量的相关研究资料,对其中相关的研究观点进行全面考察和评述,要根据研究意义、价值、创新从优的取向,发现有价值的研究新层次、新角度和新问题。
2.提出假设。在确定了研究新问题之后,依据专业规范,设计和表述研究假设。研究假设要具备科学性、明确性、可检验性。按照性质和复杂程度分,研究假设包括描述性假设、解释性假设、预测性假设、条件式假设、差异式假设、函数式假设等。(研究假设是ES构建中的重要问题。)
3.设计方案。就是根据研究假设的需要和研究者的实际能力,具体制定研究技术实施计划,包括研究课题的具体表述、研究类型的确定、主要研究方法的选择、研究技术路线的规划以及研究成果的预期设计等。
4.实施研究。依据研究技术路线,在设计的范围或层次内具体落实研究计划和步骤。遵循计划的研究思路和方法,搜集整合分析研究对象的反馈信息,积极印证研究假设。同时,客观分析研究获得的信息,若发现与研究假设不符的证据,要予以重视,认真分析,必要时积极调整研究技术路线,甚至调整初始的研究假设。
5.总结成果。根据研究计划总结研究结论,并形成研究成果。提出研究结论要慎重,总结研究成果要全面,评价研究成果要密切联系实际。总结研究成果时还要认真反思本研究的局限和不足。
6.成果转化。按照研究计划,积极推进成果转化。成果转化有两个目的,一是落实研究成果的经济社会价值;二是发现研究成果的不足,以引出新的更深层次的研究问题。
实践证明,教育研究水平甚至成败的关键更多取决于前文所述的第一、二、三环节,特别是研究者能发现和选择一个好的研究问题,准确表述这个研究假设。有研究者认为,选题有三个来源:有争议的理论问题、亟待解决的实际问题和写作中生成选题。[8]
(三)教育研究ES构建的可行性
教育研究是一项复杂的社会活动,从准备、立项、实施到总结、转化,从计算机技术视角看,是个包含多层子系统、关系复杂、用户问题复杂多样的大系统。这样复杂的大系统,是否需要构建ES,是否可能构建ES 等重要问题需要进行认真考察和整体分析。
1.对教育研究ES的经济性条件进行考察
教育研究领域和用户是否真的需要ES?回答应该是肯定的。依据:一是,教育研究本身专业性较强,从准备、立项、实施到总结、转化,需要依据专业性较强的视角、方法和思路去设计、实施和评价,因此,承担者在教育研究全过程和各个重要环节都需要专家级的观点和技术支持。二是,随着国家教育事业改革实践的不断深入和发展,“群众性”教育研究越来越受到重视,国家教育事业各层面的工作都希望积极开展教育研究,在教育研究的指导下不断推进,使较多专业水平和经验相对不足的承担者也积极参与进来,他们特别需要教育研究ES的支持。三是,随着国家经济社会的形势发展,对教育研究的成果水平要求越来越高,对教育研究成果的转化服务范围和层次要求越来越广,越来越细。这都要求教育研究承担者需要ES的多层次多方面的支持。四是,随着中国特色社会主义教育事业发展新阶段对教育学学科发展的新要求,以及哲学、心理学、生理学、社会学、伦理学等教育学相关学科的研究和发展,我国教育学学科在新阶段的政治性、科学性、专业性、服务性等亟待进一步增强,教育学学科的新概念、新观念、新思路、新范式都需要积极研究,需要ES的支持和辅助,以尽快形成我国新阶段教育研究的新特征、新趋势和新成果。
2.对教育研究ES的技术性条件进行考察
教育研究领域是否有真正公认的专家?回答是有的。这里讨论的“教育研究”是特指教育规划课题研究,而不是泛指一般教育问题的研究。这里讨论的教育研究ES是支持和辅助教育规划课题研究的准承担者在实践探索和理论考究中发现研究新问题,将新问题转化为一个符合教育科研规范的课题,并进行研究实施设计,以至辅助研究实施,取得研究成果。全国教育科学规划领导机构,以及各省市自治区级的教育科学规划领导机构,都有公认的教育研究专家。教育研究领域专家对该领域的“知识”相关问题是否有基本一致的答案?回答也是有的。但这个回答的依据较复杂,需要比较全面的分析:一是,关于教育规划课题研究的规范和要求的“知识”问题是有一致的答案的,这个内容在各级别课题管理办法中都已明确写明。二是研究类型和研究技术路线等设计方法和规范的“知识”问题也都有一致答案,这是教育学科本身的要求。例如定量研究的基本规范、调查法的基本要求等。三是关于具体课题的命题及主要研究假设的设计和表述“知识”问题是否有一致答案?这个问题比较复杂,因为具体课题和假设涉及了教育学科的基本理论问题及教育学各分支、交叉学科的基本理论问题。不同的专家因研究领域、视角和层次的不同,对某个研究领域内的“知识”问题可能答案不一致。但是,作为本文讨论的教育研究ES来讲,这个不一致也不是障碍,将构建的教育研究ES的主要功能和目的是辅助准课题承担者把自己选定的研究问题设计意向转化为符合教育规划课题研究规范的课题命题和假设,而这个转化过程可以与未来构建的教育研究ES的“综合数据库”中已有的、规范结题的相同领域和类型的课题命题和假设相比较而部分或全部实现。
3.教育研究ES构建如何落实ES构建原则
首先,教育研究ES 要坚持专门性原则。要讨论教育研究ES将来要面向哪些专业性强的专门任务,解决教育研究中的哪些专门任务能较快产生具体经济或社会效益。如果我们将教育研究整个大系统按照前文所述划分为“聚焦问题”“提出假设”“设计方案”“实施研究”“总结成果”“成果转化”6个子系统,那么就要依据已有的教育研究经验和未来教育研究的发展需要,研究确定这6个子系统中哪些专门任务是最重要的,或者说其中哪些专门任务是用户最需要求助ES的。
要准确回答这个问题,必须进行深入的调查研究和较全面的教育研究成果文献研究。笔者就此提出一些假设性观点,供相关研究参考:“聚焦问题”中的文献全面综述、“提出假设”中的假设准确表述、“设计方案”中的研究方法和创新点恰当选择、“实施研究”中的研究技术路线的保证和重要信息的获取、“总结成果”中的研究重要信息的分析评价、“成果转化”中的成果转化局限分析评价等。这些专门性任务可能是未来教育研究ES构建的重点。
其次,教育研究ES的构建要坚持最小化原则。针对教育研究领域问题解决采用最核心最原型的系统设计,实现解决最核心问题的功能。未来研究中,可以依据具体的调研分析结果再进一步聚焦最核心问题。例如,“提出假设”中,再聚焦用户提出哪类假设最为困难?(可能是条件式假设,或者差异式假设。)“实施研究”中,再聚焦用户执行哪种研究技术最困难?(可能是实验法或调查法。)教育研究ES构建中,ES就是由那些辅助用户解决最核心最重要的具体任务的局部ES逐步集成的。
(四)教育研究ES的教育专业脚本
讨论了教育研究ES的技术框架之后,还要讨论教育研究ES的专业脚本。这个脚本不是技术性的,但要在ES构建技术理念指导下,未来教育研究ES构建的架构中,体现教育研究自身规律和特点的,为提升教育研究整体水平服务的关键点和重要关系。教育专业脚本的设计需要涉及计算机脚本语言,计算机脚本语言是比较专业的问题,我们这里不做解释。[9]
首先,“已有的研究观点”是个重要“角色”。教育研究这台“剧”就是依据已有的“观点”按照教育发展逻辑产生新的“观点”,教育研究简单讲就是要发现和整理出新旧观点之间的逻辑关系和演变过程。
其次,“恰当的研究方法”也是个重要“角色”。这里包括从“聚焦问题”“提出假设”“设计方案”等,直到“成果转化”,所有研究环节中的重要方法及其正确选择与应用。“研究方法”是保证教育研究全“剧”有始有终和圆满落幕的重要条件。
再次,“对研究获取信息的合理评价”,这并不是“小人物”,而常常为研究者忽略,甚至歪曲。研究的根本目的是运用合理的思路和方法进行充分的论证,而不是急于得出结论,教育研究尤其如此。因此,教育研究ES 要高度关注“下结论”的条件和方式。
最后,“直接佐证材料”,这里指“提出假设”“设计实施”“总结成果”等各环节的佐证材料,而且保证其为“直接”佐证材料,是与本研究逻辑关系最密切的佐证材料。直接佐证材料也是贯穿全“剧”的重要“角色”。
按照教育研究承担者的视角,教育研究主要情节可以概括为四大部分:预备、立项、研究和评价。预备情节是前提,立项情节是关键,研究情节是基础,评价情节是保证。
三、教育研究ES构建前期准备重点
构建教育研究ES是一项规模巨大的工程,虽然要坚持专门性和最小化原则,但是在构建初期必须对工程全面把握,系统考察,顶层设计,从全局高度安排协调步骤和突破的重点。
前文已述,构建教育研究ES要在全面调研的基础上设计和实施,哪怕是局部的专门化最小系统也要做前期充分的调研,在此基础上由教育研究领域专家和知识工程师(计算机技术人员)以及最终用户共同参与谋划设计,综合不同专业视角的考察与思考结果,才能保证ES构建成果的技术和专业水平以及健康可持续发展。
首先,从技术角度分析构建重点。知识库、综合数据库和推理机组成了ES的核心系统。从技术角度看这也是教育研究ES的技术构建重点。
教育研究ES知识库的重点是教育研究知识的产生式规则的设计。前文已述,在ES中运用较为普遍的知识是“产生式规则”。产生式规则,以“IF(如果)…THEN(于是)…”的形式体现,IF 后面是条件,THEN 后面是结论……但这是知识产生式的基本原理,对于教育研究领域的知识来讲,是更复杂多层嵌套的知识逻辑关系。教育研究ES根据领域知识的复杂性特点将来肯定需要采取更先进的知识表达规则和技术,目前以神经网络算法为主要代表的新一代ES设计往往不是固定程序驱动,而是发展为“环境模式驱动”下的知识推理过程,知识的收集、编码、存储、管理方式完全不同于传统模式。例如谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入下,它能迅速自学围棋,并以100:0的战绩击败“前辈”。其关键技术是采用了新的reinforcement learning(强化学习算法),能让系统自主学习,并达到“惊人”的知识水平。[10]
综合数据库的重点是更加全面有序地采集、储存、管理世界范围内教育研究领域的事实和断言,存储和处理效率更高。事实和断言以何种方式表达更具权威性、专业性、规范性,是数据库构建的重点和难点,既要符合ES的技术要求,也要保持教育研究领域知识的专业性和特殊性。
推理机的重点是推理算法复杂化。教育研究ES的构建肯定不是传统算法能胜任的,要根据教育研究专业性特点和需要慎重选择和设计推理算法。这要与知识库设计协调配合,一并进行,保证未来教育研究ES知识产生式系统达到人工智能技术的前沿水平。
而且,从技术角度评测知识库和推理机等重要模块的指标很多,教育研究ES的构建前期要依据教育研究知识特点对评测指标进行全面修订。
其次,从教育专业角度分析构建重点。从教育研究专业视角看,立项系统肯定是全局重点,其中尤其是假设提出辅助系统是重中之重。如果将来的调研结果支持这个结论,那么,观点评述式和假设表述式就是立项系统的重点研究和设计内容。教育研究已有观点如何按照ES的技术规范和思路去评述,如何设计规范的假设表达式,这都是教育研究ES的知识产生式的最主要内容。用户的假设表述如何识别、存储、管理、匹配、修订、表达、解释……一系列重要问题都是这方面设计参与者必须高度关注和深入研究的内容。
再次,从ES用户角度分析构建重点。应当注意,用户中可能有未经教育研究专业训练的人员。从ES用户的角度看,提出新问题可能是最为困难的,最需要ES辅助支持,因此,聚焦问题提出辅助系统应该是构建重点。这个系统的构建重点又集中在文献检索分析和研究综述表述两个方面。人类研究者提出新问题能力不足的表现往往在于“重检索轻分析”“重罗列轻概括”。聚焦问题提出辅助系统可以针对这些最具体的问题开展设计,当然这方面设计要涉及大面积、多层次的文献检索、匹配等难题。目前文献检索系统发展较快,但是其主要功能只是检索,距离ES的标准还相去甚远,需要重新设计或作较大改造。
最后,有必要对教育研究ES设计构建实施的参与者给予重要提示——必须坚持“主体性保护”原则,即参与者有义务对未来教育研究ES用户提示以下重要问题:教育研究ES是在一定的技术规范下模拟教育研究专家的思考和判断,给出的建议是有局限的,很可能忽略或者去掉了一些“活知识”,而这些“活知识”可能才是真正有价值的。这需要给用户足够的提示。教育研究ES始终是辅助,最终下结论的还是研究者本人,因此,教育研究ES设计构建过程中要始终提示用户保持主体性,这应该成为教育研究ES设计构建的一个特殊原则。