知识共享壁垒与ChatGPT
2024-01-06吕乃基
■吕乃基
“知识共享”在管理学领域主要指组织内部员工之间或组织之间知识的共享[1],本文将之扩展到全社会包括个人和各种组织等主体间。与知识共享有关的概念之一是知识熵,知识熵是知识管理效能的一种度量[2],有助于理解并拓展知识共享。为适应拓展的“知识共享”概念,本文将知识熵用于在一般意义上谈论各种组织乃至人类社会。知识熵可以分为静态和动态两方面。静态来看,知识熵描述社会组织内部知识状态的复杂程度。知识熵低,即知识状态丰富、复杂和有序。丰富和复杂不是一团乱麻毫无头绪,有序也不是单调、一律和僵化不变。动态来看,知识熵是社会组织内部或与外部在知识传递过程中传递效率与为克服阻力而发生损失的度量,传递效率越高,阻力越小,知识熵越低。
知识共享主要涉及动态的知识熵,具体有两个含义,其一是在“空间上”为更多人共享,知识只有共享才能增值,才能推动经济和社会的发展;其二是在“时间上”为更多人共享,知识只有在代际之间共享,社会才能延续和前行。知识共享壁垒指知识共享所面对的各种障碍,包括客观与主观两方面。以ChatGPT 为代表的生成式人工智能大模型有助于消解知识壁垒,以减少知识的熵增。
一、知识共享的客观壁垒与ChatGPT
知识共享在客观上的壁垒指知识本身是“壁垒”之源,具体指知识的复杂性、丰富性和积累性。
(一)知识的丰富性
知识的丰富性即通常说的“知识爆炸”。在知识的海洋中,人类只是一叶扁舟,知识的无限性和人体生理和心理极限间存在矛盾。庄子意识到:“吾生也有涯,而知也无涯。以有涯随无涯,殆已!”两千多年过去了,人类取得了巨大进步,然而,对于知识的接受并没有出现同样的突破,人的生理和心理机能与石器时代的人类相比,没有什么重大的变化。
互联网给人类提供了获取知识的便捷途径。以文献获取为例,虽然理论上人类可以几乎无遗漏地获取从互联网上发现的所有文献,但是却由于时间和精力的限制而无法全部阅读,也会因原有知识背景等限制,使阅读往往止步于前几页或某些内容。
ChatGPT 等大模型通过并行感知,可以在极短的时间内并行阅读数百篇论文,从而攻克知识的丰富性壁垒。大模型已经成功“压缩”了人类对于世界的认知,这些认知被称为“语料”,如同“食材”和熔炉内有待加工的“原材料”。大模型将人类以往的几乎全部知识作为自身运行的基础,向包括个人在内,带着各种需求的用户提供所“生成”的内容,让每一个用户都可以站在巨人的肩上。
一个人语言的界限,就是他世界的界限。语言是知识(还有情感等)的载体,知识从一个方面赋予语言以意义。ChatGPT 作为大语言模型,意味着几乎拥有无限的知识。无论是个人还是不同层次的社会组织,均可通过深入而有洞察力的问题和有启发的提示词与ChatGPT联手,从而得以共享ChatGPT的“无限疆域”。
(二)知识的复杂性
知识的复杂性属于知识的质的范畴。自20世纪下半叶以来,科学的发展方向可以归结为沿量子阶梯①“量子阶梯”(quantum ladder)原是物理学概念,此处扩展为科学的研究对象由夸克和电子、质子和中子、核、原子、分子、生物大分子、细胞、个体,到生态和人类社会,相应地,本体论意义上知识的系列由物理学到化学,通过生命科学、生态学、人类学到社会科学,呈梯级结构递进。上行、下行和扩展。沿量子阶梯上行,研究生命和意识的起源,但生命的本质至今众说纷纭,至于人的意识,涉及百亿个脑细胞及彼此间的关系,更涉及千变万化的现实场景,更为复杂、随机和混沌。沿量子阶梯下行,从对物质的研究到对物质结构的研究,有物质的“纠缠”与“叠加”,还有难以区分的组成与被组成的关系,这一层级的知识同样混沌和不确定。沿量子阶梯扩展,科学的研究对象由事物的规律性扩展到偶然性,由孤立的研究对象扩展到环境及其干扰,由实体到关系,由线性到非线性,由纯客观到主体参与,等等。知识复杂性根源在于认识对象的复杂性,如非线性、非对称、无序、不确定,还有纠缠、叠加、模糊、突变、涨落、分形、分岔,以及蝴蝶效应和难以预知的“涌现”。
人工智能在克服知识的复杂性壁垒上成果斐然。在生命科学领域,ChatGPT 用于化合物的结构和功能分析以支持新药开发,在基因组研究中用于基因测序[3];在量子物理学领域,开发出量子计算机和量子通信;在复杂性科学领域,人工智能可以在不掌握原理的情况下,对可能存在大量变量的复杂事物进行预测;等等。大模型本身走上了一条“涌现”之路,人类可用AI提高科研的效率,解开复杂性之谜。
有趣的是,面对量子物理和复杂性科学等领域,人工智能走的大致都是通过借鉴所面对对象的某些特征,从而在应用中展开自己的“认识”的路径。不过,在这样的路径上又会产生新的问题。例如,用遗传算法来解决排序问题,在优化过程中会产生一些比依据任何现有的排序算法的程序都要快得多的排序程序,但科学家并不理解这些指令是如何工作的,也无法将其分解为由可理解的各部分组成的分层体系。
此外,隔行如隔山,知识还因其专业性而难以为外行共享。大模型之大足以填补不同专业之间的知识缝隙,使所有专业形成相对连续的整体而可以理解。像数学语言、物理语言等人类从事专业性工作所需要的“语言”能力,以及相应的思维能力和解决问题的能力,大模型将会逐步胜任[4]。
(三)知识的积累性
知识的积累性涉及知识的代际共享。人类进步的关键之一在于知识的代际共享,代际共享的最大问题是子代的学习。动物界存在这样一个规律:低等动物的子代在出生后即可不依赖父母独立生存,而高等动物的子代在出生后则于一段时期要靠父母的抚养和“教育”。动物越是高等,这一时期就越长,最长的无疑是人类。总体而言,动物受教育的时间成本与其在进化树上的地位成正比。而人类的子代只继承父代的基因,但不继承父代的记忆,没有获得性遗传,这意味着每一代都要重新学习和经历人生的磨难。在人类社会当中,随着知识的不断积累,子代受教育的时间也越来越长,这似乎相应地延续了自然界中的规律,越是进化,受教育时间越长。其结果是,子代要接受更长时间的教育才能达到知识的前沿,才能创造新的知识,从而受教育的时间成本过高,创新变得难以实现。
在大模型的演化过程中,子代或将可以继承父代的记忆,甚至可以控制继承的程度。例如,设置子代继承从100%到清空记忆,或继承两个极端之间的某些记忆。这意味着父代的经验和技能可以不断选择性地累积。但也有人指出,大模型不具备长期记忆。
大模型可以与时俱进,汲取最新的知识,这就意味着人类可以在此基础上一步登顶,站到知识的前沿。知识的积累性在客观上是知识的质由简单到复杂在时间序列中的展开,在主观上关系到个体知行系统的演化与层次[5],这两方面的叠加关系到知识获取的路径,笔者将另文探讨。
(四)知识生态
任何知识都不是孤立的,都与其他知识存在千丝万缕的联系。量子阶梯涉及知识在时间上的顺序、空间上的层次和上下向因果关系,其中最重要的是科学技术与人文社会科学的关系。知识还有由浅入深的次序,以及现象与本质之别[6];知识的复杂性包括对纠缠、叠加和塌缩现象的研究;知识生态不仅涉及每个领域知识链上下游之间的关系,而且也涉及分门别类的知识之间的关系。
此外,知识生态的关键还在于普适性知识与地方性知识的关系。普适性知识在内容上主要是事实和规律,具有普遍性,并经过多次编码使其易于传播交流和共享;地方性知识在时间上嵌入历史,空间上嵌入“地方”,相对“隐性”,需要知识共享的各方持续嵌入同一语境和场景之中,方可感受和领悟。普适性知识是知识共享的基础、最大公约数和主要内容;地方性知识则关系到个体的存在和生存的意义[6]。
以往,知识的筛选、抽取、提炼主要由知识的需求方自己完成。即使有了关键词检索和网页索引之便,知识的整合也是由需求方完成。问题还在于,“抽取”所得到的只是知识的碎片,这些碎片之间并未形成协调与耦合的知识生态。ChatGPT 问世之后,不仅越来越多地接管了知识的筛选、抽取、提炼工作,而且承担了之后知识的重组工作——既最大限度调用普适性知识,又考虑到用户地方性知识的语境,以形成满足用户目的和知识生态的“内容”,中庸而不偏不倚,面面俱到,往往比用户自己想的还要周全。知识生态的构建是生成式AI的真谛所在。
人脑各有差异,然而脑容量再大,存储的量亦有限;可以做出的改进是提升所存储知识的质,其一,提升知识的“阶”,上升到哲学的高度,掌握管理知识的“元知识”;其二,改善知识之间的生态关系,既可以举一反三,“牵一发而动全身”,零存整取,也可以按特殊需要零存零取;其三,借助大模型和元宇宙提升知识生态的“智慧”。
大模型所依赖的主要是已编码的普适性知识,目前正在经由“多模态”而进入地方性知识和隐性知识的领地。大模型与元宇宙的结合将在隐性知识的共享中发挥重要作用。
二、知识共享的主观壁垒与ChatGPT
知识共享必然与所涉及的主体有关,本文对与知识共享壁垒有关的主体所作的区分,源于知识的拥有者和接受者:前者不允许他人分享自己的知识;后者或是主观上拒不接受他人的知识,或是因知行系统的层次和原有知识生态所限而难以接受,或虽接受而浅尝辄止。这是知识共享的主观壁垒,涉及利益、安全、控制和价值观冲突。
(一)来自知识拥有者的壁垒
就知识拥有者的主观壁垒而言,如个人、机构、国家等主体和在有限的范围内就某些领域的知识对其他主体保密,或者要付出高昂的代价才能获得知识拥有者的分享许可,此外还有条块分割等因素形成的壁垒。知识关系到利益,持有知识,特别是持有独一无二的知识从来是个人在社会上的立足之本。“知识就是力量”,“力量”实则“权力”。知识共享对于知识拥有者意味着知识的贬值,会使拥有者失去利益和大权旁落,应用知识的过程也是控制的过程。
在当今世界,知识共享直接面临的门槛是知识产权。乔姆斯基对ChatGPT 持强烈否定立场,指责其“本质是高科技剽窃”[7]。知识产权在于保护和鼓励创新,在特定时空范围和领域有其价值,然而,知识产权也造成了知识共享的壁垒,甚至成为相互对垒的政治筹码。人类文明的下一个方向应该包含知识产权革命。国际保护知识产权协会(AIPPI)2019年发布的《人工智能生成物的版权问题决议》,认为人工智能生成物在其生成过程中有人类干预,且该生成物在符合受保护作品应满足的其他条件情况下,能够获得保护,而生成过程无人类干预的人工智能生成物无法获得版权保护[8]。
一个相关的问题是知识物化形态的共享,知识物化形态的共享壁垒甚至“卡”了需求方的“脖子”。其模式是,不是一开始就构筑知识共享壁垒,而是在知识共享基础上供需双方各自建立起依赖程度不等的产业链后,一旦一方或双方感觉受到威胁或引发安全问题,便构筑起知识共享壁垒中止共享。这对于双方来说都造成损失,但对于较多依赖较少选择权的一方来说知识共享的中止更为致命,即为“卡脖子”。
ChatGPT 的诞生可能成为时间上的某种分界线,今后新创生的知识,将融入数字化运作的宏大过程,作者的身份会越来越快消融在人类与人工智能共同的知识再创造过程中[9]。自由软件运动可以说是这一方向的先驱。随着大模型的运行,知识共享具备了普遍适用的条件,将会转化为生产力和巨大的财富。人类的知识终于走出象牙塔,打破禁锢,在相当程度上成为每个人的共同财富。
知识共享在以往的传递过程中还存在两个问题。其一,知识的提供者众多,知识需求方需要在众多提供方(如智库、高校和形形色色的研究机构等)中进行选择,在内容上涉及政治、经济和文化等各个领域和不同层次,或者处于一二三产产业链从研发、制造到销售的不同位置,需经由接受者整合(前述“知识生态”)。其二,知识共享中的传递往往需要经过多个环节,每一个环节都会有形形色色的主体出于各种动机对知识进行加工处理和转化,因而在知识的传递过程中,难免会发生知识的缺失和变形,导致知识的熵增。
ChatGPT 等人工智能大模型作为具有相当权威的巨量知识的提供者,在相当程度上同时解决了这两个问题,既大大减少了知识提供方的数量,也减少了需求方的选择成本;同时,ChatGPT 等作为相对独立的知识提供方,又大多能提供全方位的一站式服务,经得起多个角度的多次提问,甚至实现交互界面的一键式操作,从而减少在知识传递的各个环节形形色色的知识提供方造成的阻力,降低知识熵。不过,人工智能模型的竞争最终胜出的也可能只是几家头部公司,从而形成人们不愿意看到的垄断和中心化的局面。
(二)来自知识接受者的壁垒
就接受者来说,个人会根据自己的语境,包括知识背景、所持或所嵌入的地方性知识、观点偏向或先入之见,以及价值观的好恶,乃至情绪波动而选择性接受或拒绝这样或那样的知识。即使接受,也可能发生理解过程中的各种偏差。知识共享的限度与接受者的知行系统水平有关。
传统认识论从现象得出普遍原理,在对现象的抽象、分析、比较、分类和归纳的基础上进一步演绎和综合[10]。传统的认识论从线性的因果关系出发在逻辑上不容置疑地推出结论,因而意识形态和价值观预先就内置于回答之中,难以摆脱意识形态的纷争。ChatGPT 在过程上不沿袭传统的认识论,虽然给出的结果因基于人类文本不可避免带有这种或那种意识形态,但是非预设和刻意而为,大致上取人类认识的“中位数”,因而ChatGPT 相对而言易于穿透“地方”的壁垒,超越意识形态,为更多人接受。
其实,ChatGPT 的“推理”过程实际上是人工智能对人类文本的系统性处理。例如,关键词索引依赖于关键词和链接计数之类的能力,无须理解关键词本身及其之间关系之含义;网页排序,即通过查看哪些网页拥有更多外链(特别是来自其他高质量网页的链接)来判断网页质量的高下,无须深入探究网页本身的内涵质量;翻译软件唯一熟悉的就是由字母组成的单词和由单词串起来的句子,以及这些单词出现的概率,它唯一擅长的就是关于文本片段的超高速处理,而不是思考、想象、记忆或理解,甚至不知道单词的含义[11]。
知识共享壁垒还与知识拥有者的身份有关。知识拥有者身份或高或低,接受者与其之关系或亲或疏、或友或敌,都会影响知识是否及在多大程度上得到共享。大模型所依赖的知识,知识量巨大,不属于任何特定主体(此处不涉及知识产权之争)。大模型对知识需求者一视同仁,正所谓“世界是平的”,超越语境和场景且编码,故而输出结果相对公允,具备主体间性甚至某种程度的客观性,并不预设知识之普适性、地方性,以及个性,却在实际上既达到最大程度的普适性,可以与其他知识交流,又可以嵌入各种场景,满足地方性和个性所需。相对而言,知识接受者较易接受知识而不必担忧受到知识背后主体的支配和控制。同样重要的是,知识的接受者可以保留自己的选择权。一言以蔽之,知识极大丰富,个体各取所需。
ChatGPT 为众多从个人到国家的主体提供的不同服务具有基本上一致的语境,在此基本一致的语境下展开合作和博弈,成为个人、机构,甚至国家和民族知识结构的源泉。许纪霖表示,GPT 犹如海平面一般,成为衡量一个好学生的底线标尺[12]。ChatGPT 在其问世前后的区区数年间获取了人类前赴后继数十万年获得的几乎全部知识,ChatGPT 因此而“获得解放”,回过头再来“解放”普罗大众。
然而,赵汀阳告诫,GPT 可能被识别为思想权威或人民代言人[13]。段伟文警告,当心将自动生成的知识视为“神谕”的知识权威幻觉[14]。由于语言模型本身的局限性等原因,ChatGPT 会编造不准确的回答,面临训练数据来源的合规性、数据使用的偏见性、生成虚假信息、版权争议等风险[15]。慕尼黑工业大学和汉堡大学的研究人员判定,ChatGPT 具有“亲环境、左倾自由主义的倾向”[16]。OpenAI 首席执行官奥特曼表示:“当人们说,应该让人工智能与人类的偏好、价值观相一致时,这背后的意思是,要符合‘我个人’认可的价值观和偏好。”[17]人工智能的要义之一是“看齐”,问题是向谁看齐?
(三)知识“双向”共享的壁垒
科技、产业、经济类的知识具有某种“势能”,知识共享由势能高处流向低处。总体而言,由0—1 流向1—100①0—1 是知识的原始创新;1—100 指是“1”的延伸、拓展,体现了知识的物化和社会化。由0—1 到1—100,知识由超常到常规,隐性到编码,普适到地方。,呈现出某种“单向”的流动。因此,拥有知识的一方想方设法控制知识的流动,利用知识产权等设置知识共享的门槛,对于知识的物化形态则采取断供等手段。其实,在这些可能在应用领域引发进步乃至革命的知识领域,还存在逆向的知识共享,那就是100对1的反哺。知识在原始创新的基础上进一步展开其物化和社会化,发现新问题、新需求,从而完善充实作为基础的“1”。其特点是没有高的势能,而是“涓涓细流”或是“水滴”式的反馈,以及难以言表的隐性知识,包括知识在各种场景下的应用所形成的各主体的应用体验,需要供方用心甄别、提炼和汲取。同时,伴随知识逆向流动的还有知识共享形成的资金流,以支撑新的知识共享。
需要指出,上述反哺大致止于“1”,绝少越过之逆流而上,由1 上溯到0。诚如福特所言:“在我生产出汽车之前,我问顾客最需要什么,他肯定会告诉我,是一辆更快的马车。”由此反过来表明“0-1”的革命性。
在人文社科领域,普适性知识是林林总总地方性知识相互交流沟通的最大公约数。在此前提下,通往普适性知识的道路多种多样,条条大路通罗马;普适性知识嵌入于“地方”,涉及的特殊语境和场景更是千姿百态。多样性促进随机涨落,随机涨落孕育分岔,偶然性创造世界。
(四)知识共享的另类壁垒——灌输
知识灌输的情况比较复杂,一方面有其存在的必然性和必要性,另一方面也是知识共享的壁垒,甚至是一种更难以克服的特殊形态的壁垒。
“灌”,居高临下;“输”,需要某种势能。在知识共享的主体间关系上,长辈对晚辈,老师对学生,社会地位高对低,前者对后者具有天然的权力。师者在人际关系上处于高位,在人己关系上心满意足,这是知识灌输存在之必然性的客观依据。在此意义上,任何知识的共享或多或少都伴随着“灌输”,必须以诱导和点拨等途径克服单纯灌输带来的弊病,以唤醒和提升作为知识共享接受方主体自身的知行系统。一万次知识灌输,不如一次苏格拉底所说的“内在唤醒”。中国传统文化中,虽然“三人行必有我师”淡化主体、侧重知识,但主流的“三纲”强化这种权力关系。古希腊“吾爱吾师吾更爱真理”消解权力,将知识置于高于人际关系的地位。
在知识的内容上,如果所灌输的知识直接关系到被灌输者(主要是儿童)当下的生存与安全,如安全使用水电气和食物等方面的知识,以及与人(主要是家人、师生)相处的基本知识,则采用最浅层的灌输,即只给出结论,不提供得出结论的过程。这种灌输有其必要性,实际上也是灌输者如家长和老师应承担的责任,但需要在日后逐步补上相关的知识和推理过程,以使知识共享由依赖主体的权威性,转为依赖知识本身与被灌输者自身的认同。
知识的灌输可以层层加码。在最浅层之上的灌输是对问题只提供一种解。此种类型的灌输常见于简单化的低幼教育,在此之上再进一步的灌输是,宣称所提供的解是唯一正解,其他答案被屏蔽,不容置疑。例如,人多势众之势(包括流量)形成乌合之众,影响个体的判断,拒绝批判性和发散性思维,剥夺接收者的选择权和自主权。知识灌输的层层加码,必然越来越多地渗入和伴随着灌输者对被灌输者的支配与控制。灌输的弊病造成被灌输者个人和群体知识熵增加,从根本上说拒绝了个体知行系统内在的演化,是反人性的。灌输越是加码,“效果”越好,危害就越大,日后要付出更大的纠错成本。
ChatGPT 作为无意识主体,排除主体间支配与控制的纠葛,给予接受者更大的自主权,以客观和全面的知识实现对被灌输者的解放。
无论知识如何共享,知识共享壁垒或多或少总是存在,实际上,知识共享壁垒的存在具有其合理性。这种合理性在客观上维系知识的多样性和可变性,以形成各种知识之间的竞争与合作,构建开放的知识生态;在主观上保持各种主体的相对独立性。所有主体都有在一定时空范围内不可共享的隐私,还有很多企业禁止在工作中使用ChatGPT,担心由此可能泄露商业机密。这些问题实际上关系到共享的界限。知识在客观上的多样性为不同主体的自主选择提供了可能性,主体的自主选择和独特性又为而后知识的多样性创造了条件。
三、克服知识共享壁垒带来新的问题及其应对
如上所述,ChatGPT 具备克服知识的客观和主观壁垒的能力,但也会带来新的问题。大模型使得人工智能拥有了人类几乎全部的知识,实际上是知识最大限度的共享。随后,知识经由ChatGPT 与人共享,往日的知识共享壁垒在相当程度上被碾压和消解。然而,没有经过艰难的攀爬,人类是否能真正理解人工智能等所给出的答案?是否会越来越依赖人工智能?在某种意义上,ChatGPT 的作用不是灌输,却胜似灌输。ChatGPT 等对现行的教育提出严峻的挑战:是教知识,还是教获得知识的方法;是授之以鱼,还是授之以渔。进而言之,是增强还是替代人的知行系统。学习知识虽然可以带来幸福,但假如只是一味接受灌输,就丧失了乐趣。其实,丧失的岂止是乐趣,还有通过交往、评价等在学习过程中所获得的理想、情感、兴趣、洞察力和意志等。一言以蔽之,主体失去自己获得知识和自主行动的能力。
人通过知识获得解放,不仅如此,人还通过获得知识的过程和途径获得解放,在某种意义上,后者更重要。
乔姆斯基曾在一次采访中断言:“学生无法通过使用ChatGPT 学到任何东西,绝对学不到。”[18]胡泳认为,由于有生成式人工智能可以依赖,人类创造力或许会进入一个低谷[19]。不幸的是,一旦将认知自主权部分下放给智能机器,再想要把它拿回来将千难万难。这种“失去”不可逆。乔姆斯基与胡泳所言不虚,只是言过了,还是会有少数(或许越来越少的)人跟得上生成式人工智能的进化。随着主体知行系统功能的下降,最终可能发生大部分人知行系统的退化。
知识共享成功与否的最终标志是:第一,因知识本身而非相关主体及其关系,无论是强迫还是崇拜,特别是权力因素,知识本身须符合事实和逻辑,并与其他同样符合事实和逻辑的知识兼容;第二,有助于个体和群体,最终有助于人类的提升。
ChatGPT 及其他类似的大模型在上述第一点迈步向前,在第二点呢?在推进人工智能以克服知识共享壁垒的道路上,有必要保持和提升人类自身的知行系统,特别是彼此间的合作协调能力。
迄今为止,人类往往聊以自慰的是,Chat-GPT 所共享的主要是编码知识,人类还有说不清道不明的隐性知识,有情有感有意向,驱动或否定理性,而人工智能的一大特征就是不具备情感且无意向性。情感和意向性深深植根于人类的知行系统。人类需要清醒地认识到,在人工智能席卷而来之时,仅靠人类的知行系统并不能助推人类走向未来。当“奇点”临近,人与“硅基生命”之间竞争的内容和方式将决定人类的未来。
在某种意义上,人与人之间的合作协调在当下更为重要。人与人之间需要竞争而非敌对,构筑知识壁垒拒绝知识共享的行为是不明智的。在面对以ChatGPT 为代表的人工智能的高速发展之时更应如此。超越国界和民族的知识共享,实际上为人际的合作协调建造了由知识铺就的大道。人际合作的深度和广度,将决定全人类能否以同一个声音面对以Chat-GPT 为代表的人工智能。人类,如果不能处理好人与人之间的竞争,将难以应对正在出现的人与人工智能的竞争。