创造力与评价：人工智能的建模探索及其哲学问题

2024-11-11高新民严国红

社会科学研究 2024年6期

〔摘要〕人工智能在建模创造力时既重视研究创造力与评价的关系这一带有哲学意义的问题，也重视在自主创新计算系统中建构有自评和评他功能的评价模块。这样的研究既让创新系统如虎添翼，又向哲学提出了许多新的问题，甚至在创造力、价值、评价及其关系问题上开辟了新的研究领域。受人工智能评价研究的启发，应该而且可以从哲学上重思创造力与评价的关系，进而获得新的发现。人的创新活动除了受已发现的机制、变量的制约之外，一定还有类似于计算创新系统中的内嵌评价模块，它让创新主体在创新的过程中经常不断地反思、验证、评价自己的创新活动，思考已做的工作相对于自己过去和别人已做的同类工作有无重复，有无进步，并根据评价适时调整自己后面的创新活动，最终让创新成果凸显。

〔关键词〕人工智能；创造力；计算创造力；评价

〔中图分类号〕B0〔文献标识码〕A〔文章编号〕1000-4769（2024）06-0142-10

西方最近二三十年的人工智能（以下简称AI）不仅十分重视对有创新能力的软件的开发，其突出成果有帮人写学术论文的ChatGPT和能打败世界下棋冠军的软件等，而且有以创立系统完整理论体系为目标的基础理论和工程技术研究，其结晶就是计算创造力这一AI的专门研究创造力建模的部门的诞生和快速发展。我国在前一方面的表现不错，但鲜见对作为一门AI分支的计算创造力的系统理论研究。我们这里之所以关注计算创造力的评价研究，一方面是因为这样的研究是推动计算创造力研究向前发展的杠杆，至少是“计算创造力研究纲领”的组成部分，另一方面是因为，这一研究将创造力与评价究竟是何关系的问题尖锐地摆到了哲学面前，同时向传统的评价论和创造力哲学提出了尖锐的挑战。根据传统的观点，评价对创造力尽管至关重要，但评价是外在于创造力的活动或过程，与创新的活动或过程没有什么关系，一成果是否是创新成果，不能由成果的作者说了算，只能由外在专家或专家团队来评价，因此评价外在于创新活动。AI专家为了让计算系统表现的创造力是真正的、具足诸必要要素的创造力，一直在思考这样的问题，即评价是否应被建构为计算创新系统中的必然组成部分？如果说计算创新系统由很多子系统或模块组成，我们是否应为之建构一个内嵌的评价模块？质言之，评价究竟属于计算系统内的构成，还是从外面加之于它的东西？评价属于内在评价还是外在评价？相应的工程实践研究表明，让评价成为创造力的组成部分，更有利于计算创新系统表现创造力。因此，计算创造力的理论探讨和工程实践便促使我们从哲学上思考这样的问题，即人的或一般的创造力与评价究竟是何关系？人类的创造力难道没有包括评价这样的构成吗？如果有，专门研究创造力的构成、样式与本质等一般性问题的创新观是否应予修改和发展？

一、AI创造力评价研究之缘起与“事后评价论”

计算创造力的评价问题是计算创造力的设计、建构、工程实现和应用绕不过去的问题，例如任何被设计要表现创新能力的软件一经诞生，研发人员和用户的第一反应就是对之加以评价，即判断它是否有预期的创造力。如果根据一定的标准得出了它无创造力的结论，即意味着该创新软件研发的失败，反之，则意味着研发的成功。事实也是这样，下述成果就被研发人员、专家、用户评价为有像人类作者一样的创新能力，如“绘画小子”软件的作品有创新性因此能公开出售；HR发现系统发现的定律出现在了数学文献中；Ludi系统发明了颇受欢迎的游戏，人们竞相购买。①

计算创造力研究对创造力与评价关系问题的关切，或者说，在其中专门开辟一个以评价问题为对象的领域，是由所谓的“责任问题”引发的。所谓“责任问题”是指计算系统是否真的履行了创新的职责这一问题。例如，如果计算系统上面表现出了所谓的创造力，那么这种创造力是应归之于计算系统本身还是其后的设计、研发人员。由于真正实现这种创造力的角色、主体容易混淆，这里的评价问题也被称作角色分辨难题，例如既可说计算创造力及其作品是由计算机扮演的角色完成的，也可说是由更广泛的计算环境（其中包括设计人员）所完成的。随着研究的推进和拓展，计算创造力研究中的评价问题便演变成了一个由众多子问题组成的有自己逻辑结构的问题域。其首当其冲的前提性问题是，创造力是否只是一纯粹的价值论的评价问题？是否像有的人所说的那样，创造力只存在于旁观者眼中，是因评价而有的？另一与此有一定关系的问题是，评价问题是否是计算创造力研究的应有之义？或计算创造力研究是否应该介入评价问题？在这里，探讨评价问题是否可能、必要、合法？根据一种观点，评价属于价值论范畴，或者说作为问题是属于价值论问题，而计算创造力是事实性研究，因此不应过问评价问题。这当然是有争论的，事实也一直存有激烈的争论。评价问题中最具工程实践意义和哲学价值论及评价论意义的问题是这样的创造力与评价的关系问题，即创造力的评价是否只能由创新主体之外的人或计算系统来评价（他评），或者说，是否可由创新主体自己来评价（自评）？作为活动或过程的创造力与作为活动或过程的评价究竟是什么关系？前者除了一般创造力理论承认的那些过程之外，是否还包括评价这样的构成？

前述的两者关系问题是由计算创造力研究中的评价模块的具体设计和建模工程所引发的，因为要在计算创新系统中处理评价问题必然面临这样四个问题。（1）谁来评价创造力？这一问题在创造力支持工具和协作创造力的评价设计中更为突出和困难，当然在有独立自主的创新能力的自主体的设计中也必然出现。其回答不外三种可能：一是由计算系统自己评价，此评价为元评价，如系统知觉自己的加工过程，思考自己的思考，这样的评价在已有的计算创新系统中很常见；②二是用户的评价；三是第三方评价。（2）评价什么？这里有这样一些可能的选项，如对创新成果或结果的评价，对过程的评价，用户对协同创新系统的创造力的评价，以及对用户和系统的相互作用的评价，等等。在过程评价中，有的强调要从技能、技巧、欣赏和想象等角度去评价。在协同创造力中，关键的待评价的要素是人与机器的交互。这里要考察的是界面，如可用性、表现力、有效性、所产生的效果等。就内在方面而言，评价还应关注人机交互的动力机制，这是所有协作创新的天然的组成部分。例如在完成一幅画的创作时，人与机器之间就有一种交互的动力学。可对它作认知建模，戴维森把这模型称作“创造性的意义构建”。③（3）何时予以评价？计算系统的评价既可随创新在时间上的推进而作出，也可在创新过程完成后进行。前者可称作形成性评价，这种评价是生成和检测回路的组成部分，其作用是为系统的进一步探索提供反馈信息。后一评价可称作总结性评价或事后评价。其作用在于，为系统未来的发展提供指导。（4）怎样展开评价？要做出评价，必须解决方法论和评价尺度问题，当然还有大量哲学、价值论、评价论和工程技术方面的问题。

下面，我们将重点围绕上述创造力与评价的关系问题来考察和思考计算创造力所做的工作，进而一方面挖掘其内隐藏的哲学价值论和评价论启示及意义，另一方面对计算创造力评价研究中存在的问题作哲学的思考，以助推经验科学的具体研究步入健康发展的快车道。先看计算创造力研究中的“事后评价论”。

早在计算创造力诞生之前，“事后评价论”就存在于哲学之中，且是关于创造力与评价关系的主流观点。它认为，评价不是创造力的内在构成，而是外在于创造力的，从时间上说，评价后于创造力，即只有当创造力发生后，才有可能对之作出评价。质言之，评价是事后的评价，其任务是弄清人们在什么情况下把一过程或结果称作是“有创新性的”。根据这一评价理论，一种行为是否是创新行为，是否有创造力，完全是一个评价问题。因此根据这一理论，创造力就没有什么真实的本体论地位。这一观点类似于心灵哲学中的解释主义或归属主义。根据这一理论，心智之类的东西不是实在存在的，而是为解释、评价的需要而归属于人的，就像地球上没有经纬线，人们为了解释的需要而把它们归属于地球一样。计算创造力研究诞生后，不仅出现了一种指导工程建模的事后评价论，哈德森是其主要倡导者，而且它还与别的创造力实有论展开了激烈的争论。

创造力实有论是计算创造力中占主导地位的观点，麦考马克和威金斯等权威人士认为，计算系统之所以被评价为有创造力，其输出之所以被认为有创新性，是因为它生成了这样的成果，这成果不仅是那个“技术偶像”的成果，而且它凭自己的工作获得了这种称赞。①质言之，该成果之所以被评价为创新成果，是因为它以及生成它的过程作为本体论事实发生了，因而有本体论地位。威金斯等人认为，机器完成的行为如果由人完成，并被认为有创新性，那么就可说机器的行为是创新行为。根据这一类观点，计算创造力的评价便有两种进路：一是从外部，由编程人员、工程师、用户等对机器实现的计算创造力作出评价，此评即他评；二是机器对自己完成的创新过程及成果的自评。②

哈德森针对创造力实有论尖锐指出，创造力不在主体身上，不在AI专家研发的有所谓创新能力的软件之中，只存在于旁观者眼中。例如一个人或一软件完成了一行为之后，旁边的评价者根据自己的评价标准，说他或它完成了新颖而有用的行为或成果，此行为或成果即为创新，否则就不是。因此有无创造力，完全是一个评价问题。既然如此，计算创造力研究的出路就是探讨如何设计出这样的人工系统，它们能完成人们认为有创造力的输出，要如此，就要研究智能、学习、推理的基本构成，而不是直接去研究创造力。在哈德森看来，人们创造出了所谓的新成果，其实与过程没有什么关系。因为许多生成了创新成果的过程有时也可生成不被认为有创造性的成果。因此结论只能是，创造力是一种事后的现象，与过程无关，只与旁观者、观察者的描述、评价有关。既然如此，“去探索创造力的根源是没有意义的”。③

哈德森不否认主体能生成新颖而有用的成果，但认为它们是所有有用的认知过程的结果。这些过程不能完全描述我们事后评价为创新的东西，但由于拓展了我们对创新成果后面的驱动力的理解，因此既有助于我们对正在发生的东西的理解，也有利于我们对它的建模。如果是这样，那么计算创造力的研究就应关注事后的评价，设法弄清人们在对象满足什么条件时才会把一过程或结果评价为“创新”，然后在设计有创造力的计算系统时，通过相应的技术手段让计算系统营造这样的条件。果如此，该计算系统也会被评价为创新。很显然，这里既有解释主义的思想，也体现了图灵主义的精神。

为了证明上述关于创造力与评价关系的认知，哈德森作了这样的经验研究，即研究网上的语料库，考察人们是怎样使用与“创造力”有关的一系列概念，在什么条件下才会使用，如“发明创造”“新颖性”“令人震惊”等等。通过大量的数据分析，哈德森似乎找到了这些评价语词在相关语境下出现的频率、特点和规律，最终，他得出结论说，这些材料能证明创造力只与事后评价有关，与实际的过程没什么关系。①

哈德森认为，这一事后评价论对计算创造力研究有这样的意义：（1）它能为理解人的创造力提供计算框架；（2）它更容易让机器表现创造力；（3）它能以工程学方式增强人类的创造力，改善人类的生活。②在我们看来，说事后评价论有利于机器更快捷地表现创造力，这的确不假，其工程学上的难度也小得多，因为它强调的是建模人类创新过程的效果，而不太关注用什么样的过程和机制去实现这样的效果。没有过程和机制的建模当然省了很多事情。很显然，这是一种发展计算创造力的实用主义的路线。

二、内在评价论：创造力的第二性本质与内嵌评价模块

内在评价论的矛头既指向了以事后评价论为代表的外在评价论，也针对这样的类似于图灵测试的评价模式，如把机器完成的成果与人的创新成果加以比较，或者用双盲法将这两类成果拿出来让评价者分辨和判断：它们是否是由人创作的，如果回答是肯定的，那么该成果的评价就意味着通过了测试，即应被评价为有创新性的成果。科尔顿等人认为，这样的评价在理论上是错误的，在实践上是有害的。错误的表现是，它把评价问题简化为测量问题，而评价如后面要论述的，远比测量复杂。实践上有害的表现是，假如一个艺术品交易商用这样的测量、比较方法来评判，那么他就会吃亏，因为如果他没看出这作品是机器完成的，他就会蒙受经济损失。最重要的是，这样的评价对人工计算系统的发展是不利的，因为它将创新局限在人的创新的范围内，以人的创新为标准，坚持人类中心主义，或以人类创新为计算创造力研究的唯一的“原型实例”。其实，创新的形式多种多样，除人的创新之外，还有非人的创新。科尔顿等人说：“事实上，计算系统用有趣的但非人类的方式创新的潜力是许多研究者的有趣的驱动力。”③

在创造力与评价的关系这一评价论中更根本的问题上，科尔顿等人发表了颇有见地的看法。在他们看来，评价不像无关论和“事后评价论”所说的那样，是创造力之外的过程，而是其必然的、有机的构成，质言之，创新能力一定包含有评价能力。就人而言，后者始终伴随着前者，即人在创新的过程中一定会经常使用自己的评价能力，一定会基于评价对创新过程进行监督性干预。有时，评价有引导创新的作用，如及时把不好的、低劣的选项排除出去，使其向更好的选项进化。科尔顿等人以诗人为例指出：“一个没有评价自己作品能力（进而必要的监督性干预能力）的诗人根本就不是诗人。”④这里预设的是这样的创新观，即创造力一定是包含有创新主体、创新动机、意愿、过程、结果和评价的大系统，不仅如此，评价过程一定贯穿在创新的全过程中，并随时发挥着监督、反馈和调节的作用。

科尔顿不仅赞成将评价作为创造力的一个模块或组件来建构，即为人工创新系统建构内嵌评价模块，而且在建构关于评价的模型的基础上，做了大量的工程实验。他强调，要建模创造力，必须以对创造力的独特认知为基础，同时关注一软件的创新过程和结果，这是因为在建构和执行一系列的生成新产品的软件的过程中，创新行为有不同的时间线。更重要的是，创造力在本质上不是第一性质，而是第二性质。这是建构评价理论必须看到的前提性的事实。看不到创造力的这样的本质，评价理论说得再多，都将离题万里。这从一个方面说明，创造力的评价与对创造力的本质的认识密不可分。我们知道，第一性质和第二性质两概念是伽利略最先倡导后得到洛克完善和定型的概念。第一性质指的是事物自在具有的、不依外面事物变化为转移的性质，如形状、空间等；第二性质是若干事物发生关系时作为高阶属性表现出来的性质，最典型的例子是色声香味，它既不在外物上，也不在感知这些属性的人身上，而是在两者发生交互作用时凸显出来的。科尔顿与其合作者认为，创造力只能是第二性质，即“不是人或软件内在固有的属性，因为它离不开创新主体自身、别的主体或旁观者对人或软件所表现的某些行为的知觉、看法”。⑤具言之，只有当被创造出来的成果，如思想、产品，真的有其他同类思想、产品所没有的东西，同时有人承认它们是创新成果时，才有创造力的出现。可见，创造力是由多种因素共同决定的函数性的性质，评价就是这多种因素中不可或缺的一员。

计算创造力不仅有上述本质特点，还有强弱之分。这是科尔顿等人仿照AI的强弱二分法提出的关于计算创造力的一种分类。在他们看来，这也是建构评价理论时必须优先看到的又一前提条件。弱计算创造力主要表现在诗歌、绘画和游戏等领域，其目的是生成不断提高的、有艺术价值的作品；强计算创造力的目的是提高有创造力的主体对系统的创造力的认知。这两种创造力没有互补关系，甚至有冲突，如提高软件的自主性会提升人们对创造力的认知，但会降低被生成的成果的价值。这就是所谓的“潜热问题”。①

科尔顿等人的评价模型以对评价与目的关系的认识以及对创造力的强弱划分为基础。他们认为，目的会影响所用的评价方法，如要评价弱创造力的目的方面的进步，就要评判所产生的成果的品质，但对强创造力的目的而言，更有意义的是评价软件做了什么，人们为什么认为它们有创造性，是怎样形成这种看法的。为了作出这样的评价，他们提出了FACE描述模型和IDEA模型。前一模型的目的是要将对软件完成的创新行为的描述形式化，如将软件完成的创新行为分为基础层次的行为（在此层次，基础对象产生出来了）和过程层次的行为（在此层次，生成基础对象的方法产生了）。IDEA模型的作用在于，能将这些创新行为对人们产生的影响形式化。有了这些模型后，他们便将这些模型应用于特定的系统，以弄清创新行为的真正主体是编程员还是软件。其问题在于，当用FACE模型来描述系统时，它不能完全反映程序员和程序的创新行为的相互作用。为解决这一问题，科尔顿等人补充了形式化的又一个阶段，其目的就是要弄清建构创新系统方面的进步。在这一阶段，他们把FACE和IDEA模型对创新行为的质、量和多样性的客观测量，与用户对软件的行为和输出的品质的认知整合在一起。这是一个评价所建构的创新系统是否有明显或隐藏的进步的“两步走方法”。第一步是用图形来揭示建构和执行系统时的各种时间线，第二步是对图形作出比较。②

难能可贵的是，科尔顿等人的评价理论和工程实践不仅不排斥反而明确承认接受了哲学观点的指导。他们说：“我们的方案自始至终受到了各种哲学观点的推动”，同时建立在对各种评价方案所用方法的批判性反思的基础之上。③

科尔顿等人的新的评价模型由于既有综合、借鉴又有创新，因此能具体地澄清、揭示、评价计算创造力研究中的进步，消解过去研究中的这样一些难题，如软件创新的评价、创新软件进步的标准研究中的种种困难，以及这样的难题，即在长时间的程序执行过程中，怎样认识程序员和软件各自所做的工作，怎样分辨他（它）们的创造性工作，等等。另外，他们的模型还有这样的意义，即既适用于回答一般研究的进步与否，又适用于评价特定的软件系统。之所以有此功能，是因为他们的模型融合了这样一些元素，如公众、同行对进步的理解，强与弱评价方案以及常见的、里程碑式的进步评价等。从技术上说，它包含有描述了时间线中的创新行为的生成系统图。这系统生成图还能把来自程序员的创新行为与程序的创新行为明确区别开来。在应用时，他们的形式化抓住了这些直觉概念，如输出成果的品质，所完成的创新行为的量、层次和变化，受众对软件行为的评价。

当然，这一模型仍是当前计算创造力评价试错探讨中的一种选择，有很多不完善、需进一步探讨的方面，例如他们承认，尽管他们试图对输出成果的品质、新颖性和典型性作更细粒程度的评价，但仍“很不完善”。④再如，他们的模型尽管从IDEA描述模型中引入了受众反思评价图式，尽管用图形方案来描述建构生成性软件中的时间线，但要更好反映软件在运行过程中的功能还需做一些改进工作。另一需要改进和发展的工作是开发、建构更为复杂的、能被认为有创造力的系统，只有这样，才能生成高品质的输出成果，受众才愿说软件有创新性，并乐于欣赏和享受它的输出。

三、评价论的“软”“硬”问题与基于交互设计的评价方案

鲍恩是计算创造力研究中卓有建树的专家，涉及广泛且新论迭出，其评价理论建构也独树一帜。它是综合和创造性深掘的产物，如既是基于对交互设计的思考，同时又受到了对人类创新行为的人类学理解的启发。在这里，他的创造性建树表现在，鉴于过去哲学的价值研究以及计算创造力评价研究的“软”的一面，通过对“软科学”和“硬科学”的元科学探讨，试图为计算创造力的评价研究提供经验基础（实即有科学上可测量的、可定量研究的事实根据），使之不断减少其软的一面，不断向硬科学趋近。根据鲍恩的看法，软科学是精确性、定量性、可操作性较低的科学，其变量难以控制，有时甚至没法知道变量究竟是什么，许多概念不精确、不具体、不具可操作性，与事实的经验关联性不明确，即缺乏经验基础。已有计算创造力研究特别是它的评价研究大多具有软科学性质，或“落入了软科学的窠臼”。①硬科学用的是受控实验和精确测量所提供的精确材料。可见，这里的软和硬说的是学科及其概念、理论的可操作的程度。在鲍恩看来，现今计算创造力及其评价研究的任务就是要不断向硬科学过渡。这也是他自己的评价理论追求的一个目标。

计算创造力的已有研究由其软的一面所决定，尽管很热闹，但其绩效是不令人满意的。与AI的其他领域相比，AI的其他领域都能看到算法的渐进式改进，而“计算创造力研究者都在为本领域的这样内在的模糊性所困扰”。②再者，计算创造力研究中盛行的是一种实用主义的、演示性的方案，如热衷于“建构工作模型”，构建和展示能表现某种有创新能力的系统，等等。③这就是说，该领域太过关注工程技术方面的发明创造，而不太重视对计算创造力的基础理论探讨。评价的研究更加不令人满意，正如博登所说，这是计算创造力中的致命弱点。鲍恩是赞成这一结论的。④

在鲍恩看来，人工创新系统评价研究的一个出路就是探索并弄清其后的经验基础，建构有经验基础的评价理论体系。这里所谓“经验基础”是指将理论术语关联于科学上可测量的事实的一种实践。为评价研究提供经验基础的过程其实就是我们前面述及的让软科学上升为硬科学的过程，类似于自然主义所说的将那些常识的、模糊的、抽象的、定性的概念、理论加以自然化、计算化的过程，亦即是建立抽象概念与精确科学所描述的事实之间关联的过程。这是知识应用之有效性所必需的，对于将关于系统设计及其方法的探讨转化为评价理论的科学上的进步是必不可少的。要如此，当务之急是夯实评价研究的经验基础。这是可以做到的，出路是借鉴和发展交互设计方案，进而建构交互创新评价系统。

由于创造力特别是人工系统实现的创造力是依赖于情境的创造力，因此建构有经验基础的评价系统其实就是建构交互创新评价系统。所谓交互创新评价系统是一种对立于内在主义或窄创造力评价论的强调主体与情境交互关系的宽理论，是情境主义创造力理论在评价中的体现。从根基上说，这一方案是受人的创造力及其评价的启发而形成的。它强调的是，认真研究“可用性”“用户经验”之类的概念，重视人工系统和使用创造力的丰富文化模型的人之间的交互，积极利用这样的有更好经验基础的方法论工具，它们把人工创新系统定位于文化情境之中。根据这一方案，个体的创作及其作品不完全由个体自己所决定，而一定与环境、生活历史有关。⑤既然如此，就不能像过去那样在人工系统内部设计评价过程，只考虑孤立的内在因素，不考察关系性、结构性、情境因素的作用，而应同时看到内外复杂因素的作用，并据以去建构评价标准、体系和方法论。

根据鲍恩的交互设计方案，评价时仅仅关注系统的输出是不够的，而应同时关注交互过程中的复杂因素。这里的“交互”指的是人与人工创新系统或有创造力的机器的交互。就评价而言，指的是在评价人工系统的设计时要关注人机交互。这一方案是针对计算创造力的评价研究中只关注“人评价”这一倾向及其问题而提出的。另外，如果把有创造力的软件看作是一种工具，一种没有完全自主性的合作者，或没有自己权利的东西，那么人类艺术家与软件自主体的交互就不是一种持续的连贯的过程，不是通往自主创新系统的一个站点。这就是说，在交互方案中，人工创新系统是有自己自主性和权利的实在。①

四、计算创造力的元评价问题

人之所以有评价能力，其必要条件之一是，人有元评价能力，即对评价作出评价的能力，这是人的评价能力的基础性构成，亦是其评价能力得以改进和发展的一个条件，例如人在对某对象作了评价后，会进一步思考，这评价是否合适，有什么问题，是否需改进，等等。很显然，要让计算创新系统有自评价和他评价的能力，还应在计算创造力评价研究中关注元评价问题，探讨如何让计算系统有元评价能力。因为计算系统只有能完成元评价，才能拿出更好的评价来指导计算系统的进一步的创新行为。这样的探讨不仅有理论意义，而且有实践意义，即有助于开发对计算创造力研究人员有用的工具。

元评价研究可做的工作还有很多，如对计算创造力已有评价研究的元反思、元批评。很显然，这样的元评价研究是计算创造力作为合格的AI的研究部门的应有之义，因为随着计算创造力评价在AI中的升温和强势发展，大量评价方法、策略和方案如雨后春笋般涌来。面对它们，自然应思考这样一些元问题，每种方法的利弊是什么？判断它们好坏的标准是什么？合理的、可行的评价方案的标准是什么？等等。②

开展计算创造力元评价研究是计算创造力发展的必然要求。众所周知，计算创造力评价已成了计算创造力中的一个新的、热门的研究领域。其内在必然性在于，机器若能知道创新标准，就有了生成合格的创造力以及拿出更好创新成果的前进方向，例如它能根据掌握的标准，基于实时评价，在多种可能选择中选择那个符合创新标准的选项。是故，它成了当前计算创造力研究中的一个重点和热点，在每次国际计算创造力研究讨论会中，它都成了重中之重。但正如博登所说，它又是计算创造力研究中的致命的薄弱环节。其原因很多，研究课题的歧义性、模糊性可能是其中的一个原因。这里的评价有两种可能：一是人工系统所完成的对自己行为过程及结果的评价；二是旁观者的评价，如用户、研究者、设计者、受众等的评价。前者同时是哲学和AI的理论及工程实践问题，后者是纯哲学问题。之所以同时是哲学问题，是因为，不管是哪种评价，都没法回避用什么标准或方法来评价这一问题。其复杂性还在于，尽管这是一个薄弱环节，但毕竟有许多人在研究，因而有许多评价方案，其中有影响的有，里奇的经验标准、皮斯等人的FACE模型③、科尔顿等人创造力三脚架模型和SPECS方法论，等等。④这里的新问题是，这些理论各自的优缺点是什么？有无一种评估策略更合理、更可取？评价、选择的标准是什么？可见，这里没法回避评价的评价问题，即评价的元问题。不仅如此，不解决元评价问题，计算创造力的评价研究不可能有进步。怎样解决评价的评价问题？

要解决元评价问题，无疑应向哲学和别的学科学习，因为它们的已有探讨“对计算创造力研究的共同体来说是有适用价值的”。①为此，约尔丹诺斯对这些学科中的元评价研究成果作了考察和概括。她注意到，这些学科的评价理论为了甄别和比较已有研究的得失，提出了这样常见的元标准，如对于研究人员的准确性和有用性，以及易应用性。科学哲学中对“好理论”标准的探讨也有这方面的意义，如有的认为，判断理论之好坏有真实、可接受、可证实等标准，它们后来被发展为一致性、简单性标准。她看到，计算创造力研究中也有少数人涉及了此课题，如皮斯等提出的两个问题就属于这方面的思考，第一，人工系统在多大程度上反映了人对创造力的评估？第二，它们的适用性如何？皮斯也提出了自己的一元组标准，它们是普遍性、可用性、可信性和构成性反馈方面的价值。萨伽德提出的本体论标准也可看作是一种元标准，不过，可把它理解为约尔丹诺斯所说的“有用性”和“普遍性”标准。②

经过提炼和融合，约尔丹诺斯提出，元评价标准可概括为五种：（1）准确性，主要看评价结果如何准确全面地反映系统的创造力；（2）有用性，主要看评价结果对于理解和潜在地改进系统的创造力究竟提供了多少信息；（3）作为创造力模型的可信性，主要看评价方法论如何可信地揭示了系统的创造力；（4）方法的可用性，主要看评价方法应用于实践时是否便利，是否方便应用；（5）普遍性，主要看方法用于多种创新系统时有多大范围的可用性。③她认为，这五个标准可看作是评价各种计算创造力评价方案的依据，同时，“它们能帮助我们在计算创造力研究中发展更好的评价实践”“能指导我们完善计算创造力评估的研究工作”。④这也就是说，这五个标准既是评价计算创造力中的种种评价方案的标准，也是计算系统内嵌的评价模块在对自己的评价进行元评价时可使用的标准。

在将这些元评价标准应用于对想评价的评价方案时，可这样加以应用，即先进行外部评价，如按一定标准确定参与评价的人，给他们提供反馈表。它们报告的是关于每种创造力评价方案的评价反馈信息，如关于里奇的标准的反馈，关于科尔顿的标准的反馈等。这些反馈表还包括一些简单的比较。被评价的方案是以匿名的且随机编排顺序的方式呈现的，以便尽可能避免主观性、先入为主性。在评价时，可要求参评者完成对结果的初步评价，然后要求他们根据五个标准评价每一种方案，形成关于它们的最终结论。

为了帮助外部评价者准确理解和运用每一元标准，在提供给他们的标准中都应包含两方面的内容，一是问题，二是说明性事例。如第一个标准“准确性”的问题是，你认为这些结果有多准确？例子是，这些结果是否是准确的、全面的、诚实的、公平的、合理的、真实的、严谨的、详尽的、可重复的、客观的。然后，要求参评者根据每个标准用5分制（如非常有用、有用、中等、不是很有用、没有用）对系统的表现打分。最后，要求他们对所评价的方案排出好坏顺序。

在外部评价的基础上，约尔丹诺斯基于自己的研究，依据前述标准对待评价的方案作了自己的分析和比较。她试图弄清的是，这些评价方案是否标志着计算创造力评价研究的发展？如果有发展，是怎样作出发展的？

她的元评价结论很具体，例如根据准确性标准，她认为，里奇的评价标准尽管比较全面，但其评价是根据对创新系统的结果或输出作出的，而没有关注系统的内部过程以及系统与环境的交互，因此其准确性不如科尔顿三脚架模型。最后，她综合外部评价和她本人依据五个元标准所作的评价，得出结论说，SPECS+cc是最好的评价方案。SPECS+cc这个方案①是一种综合性方案。其中的SPECS是由约尔丹诺斯所提出的，但得到了里奇、皮斯等人的支持。在此基础上，约尔丹诺斯又补充了一些创造力组件（creativity components，简称为cc）。她把它们合在一起就成了SPECS+cc。这个评价方案既可看作是关于创造力的定义，当然也可看作是创造力的标准。其特点是高度综合，如强调在评估一种评价方案是否是最好的方案时，即应看它同时是否考虑到了过程评价与结果评价、内部评价与情境交互评价、准确性与有用性，等等。

很显然，要解决计算创造力和人类创造力中的元评价问题，首先当然是要看到这种评价的复杂性，例如这样的评价像别的评价一样，除了受制于适当的领域知识、偏差、测评者信度的可靠性之外，人类参与者的有限能力也限制了许多评估方案的可扩展性。另外，要作出恰当评价，还要解决评价中可能出现的偏差、因人而异性、可伸缩性，特别是评价的主观性，这是计算创造力元评价研究中最困难也最亟待解决的一个问题。要减轻直至消解主观性，出路是尽可能多地找到客观的参照和标志，例如就新颖性的评价而言，应努力避免像过去那样用“软”概念去描述，而设法将新颖性量化为这样的特点，如看待评价的输出成果与别的已有输出成果集群的距离，然后再用模式匹配算法来测量待评成果的惊喜度，用适用度函数来计算其价值或有用性，最后，再用贝叶斯推理来测量输出成果的新颖性。

五、启示与新问题及其哲学思考

计算创造力的评价研究与建模实践对于计算创造力这一AI部门的发展的重要性是不言而喻的，这是因为创造力与创造力的评价有时有相辅相成的关系，有时有包含的关系。正是鉴于这一关系，评价研究越来越被看作是“计算创造力研究纲领”中的重要方面。②

计算创造力的评价研究是人类创造力评价研究的继续和发展。一方面，它借鉴和利用了人类创造力评价研究的积极成果，对里面的大量有争论的、有进一步探讨前景的问题从新的角度作了新的探讨，另一方面，它结合计算创造力的理论探讨和工程实践需要及现实，又提出了许多新的问题，甚至在创造力、价值、评价及其关系问题上开辟了新的研究课题和领域。这些既有积极的AI意义，又有宝贵的哲学特别是价值论、评价论和方法论意义。就方法论而言，计算创造力的评价研究大大扩展和深化了评价方法论的探讨，例如，里面涌现了大量不无思考价值的评价方法论体系，如评价中的依赖于人类参与者的方法论，纯粹以计算为基础的方法论，普适性、通用性、适用于诸多专门评价领域的评价方法论，只适用于某一类领域或对象的方法论，等等。计算创造力的评价研究由于是服务于工程技术需要而开展的，因此这一研究在经验基础、定量、形式化和计算化等方面做了大量值得哲学价值论、评价论关注的工作，例如它不仅找到了大量的评价创造力的标准（新颖性、品质、有用性、价值、惊诧感、意外性、准确性、用户介入系统的程度、离已有知识的距离性、公用性等），而且在将这些标准具体化、量化、可操作化方面作了大量尝试性探讨。其积极意义是不可低估的。

如前所述，计算创造力评价研究的最大意义是将创造力与评价究竟是何关系这一既有工程学意义又有哲学评价论意义的问题尖锐地摆到了我们面前。从前面的考察，我们可以看到，计算创造力领域中多数专家建构的理论和所进行的工程实践探讨都倾向于倡导这样的观点，即创造力的评价尽管有事后评价、他评等形式，但创新主体的内在评价或自评可以且必然是创造力的内在构成，即它与创造力同时有构成和包含关系。这是过去许多创造力理论忽视或遗漏了的事实，因此这些传统的理论在认知上是错误的。就实际效果而言，以这样的理论指导和培训人的创造力，是不利于创造力的开发、培养和发展的。因为就事实而言，善于创新的人在创新的过程中会经常不断地反思、验证、评价自己的创新活动，思考已做的工作相对于自己过去和别人已做的同类工作有无重复、雷同，有无进步，是否贡献以前看不到的新思想或真理颗粒，并根据评价适时调整自己的工作，计算创新系统中的内嵌评价模块也是这样设计的。正是有这样的关系，或者说，正是因为创造力内部包含了这样的模块、构成和机制，因此才有创新成果之形成。当然在有的情况下，创造力与评价又的确是以两种分立的形式或过程表现出来的，例如事后的、总体性的、概括性的评价就是在创新过程及成果发生后完成的。这里似乎有两个独立的过程，即生成过程和评价过程，但问题是，有无不涉及、不依赖于生成过程的评价过程？有无纯而又纯的与评价无关的创新过程？这些显然是新的、带有普遍性的哲学问题，值得哲学家和计算创造力研究专家同时关注。

笔者认为，这里的问题不难化解，例如作一点语言分析不说完全解决问题，至少能为问题的解决扫清障碍。冷静反思一下“创造力”概念本身就会发现，它除了具有事实性的特点之外，还有规范性的一面，即它指什么，或一对象用什么符号、名称去指称，有规范性、应然性特点，就像生了一双胞胎，取了两个名字，其中哪个名称用到哪一个小孩上，是一规范性问题，里面没有对错之类的事实性问题。同样，让一个名称指称什么，指称多大的范围也是如此。“创新能力”或“创造力”作为名称也是这样，可认为它指称的是一种能力，一种能生成新的点子、主意、计划的潜力。若是这样约定，所指的能力的确不包含评价问题，即是纯而又纯的创造力。但在日常和学术的用法中，“创造力”指的通常是现实表现出来的本体论事实或事件，即不同于前面“窄创造力”的“宽创造力”，这样的创造力是由创新主体、过程、文化、环境、产物、评价所组成的大系统。如果这样规定或理解创造力（如此理解合情合理），那么它显然是包含评价模块的。如果是这样，我们就应进一步讨论创造力中的这样的事实性问题，在这种被确认了的创造力的范围内，创造力评价与创造力事实上有何关系，后者怎样制约前者，前者对后者事实上有何作用。这既是一个责任问题，也是一个事关创造力的发展的大问题。事实上，多数人也是在这样的规范下展开合法的创造力与评价及其关系的研究的，并把它变成了计算创造力研究中的一个子领域。相应地，从设计上说，把负责评价的子系统或模块看作是有创造力的计算系统的一个有机组成部分。卡里米（P.Karimi）说：“评价计算创新模型是设计和理解创新系统的重要组成部分。”①如果评价由人工系统完成，那么它的自我评价可以成为触发新的设计目标的一个条件。

计算创造力研究中提出的责任问题也值得关注。这是因为，它既是创造力评价研究的必然要求，又与知识产权保护有关。其探讨的必要性在于，人工系统的有创新性的输出往往由众多责任者完成，特别是多自主体与众多人类主体合作完成的艺术作品，其责任的划分更加复杂、困难，但又必须划分清楚。我们知道，哲学和心理学等学科在过去的创造力研究中一般没有涉及责任问题。由于人们对计算系统上面出现的创造力的归属存有争论，因此引入创造力与责任的关系问题势在必然。在前面的讨论中，我们已看到，科尔顿和威金斯等人把责任看作是计算创造力的本质构成，认为计算创造力是由计算系统作为责任主体完成的并必须且可能为之负责的一种行为或过程。既然如此，计算创新系统就应对自己产生的创新行为承担一定的责任，在设计时，就应让它有责任意识、能力，并有履行责任的机制。这当然是有极大争论的。笔者认为，要解决这里的问题，第一，要看到，这里的“责任”有多义性，如既可指对行为后果负责，即通常意义的责任，又可指行为的完成者，确定行为的责任就是弄清它是由谁完成的。从具体的用法看，计算创造力研究中所说的责任同时有上述两种意义，当然主要是后一种意义。第二，要廓清计算创造力本质研究中的许多混乱问题，要用责任来说明计算系统实现的创造力，要用整体的思维方式具体问题具体分析，如同时看到，计算系统上面表现出的创新行为有时是由计算系统独自完成的，应完全由它负责，有时是由很多事物负责的，包括艺术家、设计师、行为模式、人工系统的内在运作、背景知识、所用的材料等。

让创新系统有自评和评他的模块或机制显然是让这样的系统如虎添翼的工程，对人和对计算机都是如此。现在的问题是，怎样让机器有这样的机制？要找到和建模这样的机制无疑要解剖和认识人类创造力中隐含的有评价作用的机制。根据一种解剖，人类的创新过程实际上是一个从求新到搜新、识新、生新、升新的复杂过程，亦即从随机到照抄、记忆、泛化、过滤、接收、创造或生新的过程。沿着这个谱系，真正的计算创造力在泛化阶段就会出现，到了过滤阶段，创新的质变就开始了。根据这一解剖所找到的机制，要让计算系统表现创造力，就要解决这样的问题，即如何让能概括的系统上升为能过滤的系统。这里的概括指这样的能力，即能在一组个例中抽象共性的能力或将结论推广到更大范围的能力，过滤指的是形成评价结果并对结果作出筛选的能力。很显然，过滤在这里至关重要，它既是创造力的构成，也是创新系统中的评价模块中的关键构成和机制。例如如果系统完成了从概括能力到过滤能力的提升，那么就可断言它在开始创造力转化，进而就可据此作出创新评价，即断言该系统在开始表现创造力。

（责任编辑：颜冲）