ChatGPT 与知识生产和复用:赋能、挑战与治理*
2023-10-22张超韩虓王芳
张 超 韩 虓 王 芳
(1.南开大学网络社会治理研究中心 天津 300071)
(2.南开大学商学院信息资源管理系 天津 300071)
人工智能生成内容(Artificial Intelligence Generated Content,AIGC)是目前最引人注目的前沿技术之一,虽然尚未形成统一规范的定义,但产学研各界普遍认为AIGC 是利用人工智能技术根据用户的个性化需求自动生成内容(如文本、图像和视频)的新型生产方式[1-2]。随着AIGC 算法的迭代发展,美国人工智能公司Open AI 于2022 年11 月30 日 发布了ChatGPT(Chat Generative Pre-trained Transformer)。作为AIGC 的技术代表,ChatGPT 不仅可以生成类似人类的对话,还可以完成包括论文撰写、报告内容生成、新闻编辑、情感分析、代码编写、多语言翻译、答题解析等多种高难度任务[3]。这为人类知识的快速生产和广泛复用提供了可能,同时也意味着Chat-GPT 技术打破了只有人类能够生产和复用知识的局面[4],推动知识生产与知识复用方式的变革,标志着新一轮技术革命的开启。
目前GPT 系列语言模型已从GPT-1 迭代到GPT-4。作为一种通用式的人工智能模型,ChatGPT已在多个不同的领域得到了广泛的应用,包括教育、医疗、科研等。有报道称,ChatGPT 在美国医师执照考试中成绩均达到要求,且生成的答案具有洞察力[5]。此外,在学术界,已有学者通过与ChatGPT 的交互进行论文写作,并将其列为共同作者进行科学论文的发表[6]。这些应用说明ChatGPT 已在知识生产与知识复用方面发挥着重要作用。然而,ChatGPT 强大的创造力是一把双刃剑,给社会各领域知识生产和知识复用带来颠覆性影响和深层次变革的同时,也隐藏着技术、伦理等方面的风险。以埃隆·马斯克和苹果公司联合创始人史蒂夫·沃兹尼亚克(Steve Wozniak)为主要代表的科技界人士联名呼吁暂停训练比GPT-4 更强大的人工智能模型[7];意大利个人数据保护局发表声明,宣布禁止使用ChatGPT[8]。基于此,本文在对ChatGPT 核心技术及其特征优势进行阐述的基础上,探讨ChatGPT 给人类知识生产和知识复用带来的影响与挑战,为思考ChatGPT 的影响和挑战提供一个新的切入点。
1 ChatGPT 背后的重要技术及其特征优势
ChatGPT 具有多项强大功能,是深度学习、无监督学习、指令微调、多任务学习、上下文学习和强化学习等多种技术的集成[9]。其核心技术是生成式预训练Transformer 模型GPT(Generative Pre-trained Transformer)[10]。2018 年,GPT-1 作为GPT 系列语言模型的开端,采用生成式预训练Transformer 模型,通过利用未经标记的语料库进行语言模型的生成式预训练,并针对各个特定任务进行差异性的微调,显著提升了自然语言理解和生成的能力[11]。2019 年,GPT-2 对模型训练数据的质量和规模有了较大的提升,重点解决了GPT-1 在下游任务使用时需要监督微调训练的问题,进一步提升了生成式预训练语言模型的泛化能力[12]。2020 年,Open AI 发布了GPT-3,该模型参数高达1750亿个。在技术路线上去掉了GPT-1 的微调步骤,可以在不需要特定任务训练的情形下直接输入自然语言当作指示,并具备了可以连续回答问题的能力[13]。2022 年,在GPT-3 模型的基础上进行优化后,Open AI 推出了ChatGPT 模型,该模型引入人工标注数据和强化学习两项功能,根据手动标记语言模型产生的最佳回应以优化其在特定任务中的表现,同时通过近端策略优化算法进行微调,使其表现得更接近真人[14]。2023 年,Open AI 发布了最新的GPT- 4 语言模型,其使用多模态预训练大模型,相比于GPT-3 具备了更强大的解决问题的能力,可以接受图像作为输入信息,通过视觉输入能力整合信息,并实现场景分析、多模态文本输出等功能[15]。
1.1 ChatGPT 背后的重要技术
GPT 系列语言模型之所以具备强大的泛化能力与自然语言处理能力,离不开以Transformer 模型为基础的技术架构。Transformer 模型的巨大潜力带来了GPT 系列语言模型在自然语言理解和自然语言生成两方面的技术突破,该模型可以帮助探索自然语言空间和形式表示空间的内在联系[16]。有研究表明,在NLP 领域,Transformer 模型逐渐统一了所有应用[17],而在Transformer 模型中,注意力机制(Attention Mechanism)、多头注意力以及编码器-解码器(Encoder-Decoder)的结构发挥着核心作用,可以协助GPT 系列语言模型实现强大的自然语言处理功能。
注意力机制是由Treisman 等人提出的一种模拟人脑注意力机制的模型[18],它可以帮助确定需要关注哪些输入信息,并将有限的信息处理资源分配给最重要的部分,以此来充分分析输入信息。GPT 模型引入的自注意力机制,也就是将有限的资源分配给最重要的部分来处理信息,它通过给予输入序列中不同位置的不同权重,使得模型能够在处理序列数据时有选择地关注重要的部分[17],极大程度地避免了在神经网络中使用递归,进而大大减少了在实际应用中所花费的时间,提高了对信息生成、整合、输出的效率。
多头注意力机制是对传统的注意力机制进行了扩展和改进。在传统的注意力机制中,只存在单一的注意力权重计算,而多头注意力机制引入了多个并行的注意力头(attention head),每个注意力头都可以学习不同的关注权重,进而寻找在不同子空间中分布的不同注意力的不同角度的关联[19]。GPT 系列语言模型利用多头注意力机制,通过同时使用多个独立的头部,使其能够关注不同的信息,并从中提取更加全面和丰富的特征[20],这样可以提升模型的性能和泛化能力,在处理复杂的关系和长序列数据时更加有效,进而实现其强大的自然语言理解、处理能力。
为了避免循环与重复的卷积,GPT 模型中还采用了编码器-解码器的结构,这一架构包含了连续堆叠的6 层编码器和解码器。通过编码器和解码器的组合,Transformer 模型能够处理从序列到序列的任务,如文章续写、机器翻译等工作。编码器将输入序列编码为上下文感知的特征表示,解码器则根据这些表示逐步生成目标序列。该架构的优势在于能够并行计算和捕捉长距离的依赖关系,同时减少了对序列长度的敏感性[21],减少了重复卷积所带来的相关资源浪费以及算力不足的问题。
1.2 ChatGPT 的训练
ChatGPT 通过引入“人工标注数据+强化学习”的方法来持续微调预训练语言模型[14],同时使用训练奖励模型(reward model,RM)。
训练奖励模型的主要目的是利用人工标注的训练数据来训练回报模型[22]。具体而言,随机抽样一批用户提交的输入指令,使用经过人类反馈强化学习微调的模型对每个输入指令生成多个不同的回答。然后将这些数据两两组合,并由标注人员按照不同维度的标准进行排序,给出结果的排名顺序。使用这个排序结果数据来训练回报模型,以帮助ChatGPT更好地理解人类的偏好,并在生成回答时更好地符合这些偏好。对于训练好的奖励模型,ChatGPT 采用近端策略优化算法(Proximal Policy Optimization,PPO)来更新预训练模型的参数。通过在数据集中随机抽取问题,在近端策略优化模型中生成回答,并利用训练好的奖励模型给出回答的质量分数,通过强化学习的方式更新PPO 模型的参数,通过迭代,会训练出更高质量的预训练模型。
1.3 ChatGPT 的优势特征
ChatGPT 最初面向大众时是基于GPT-3.5 模型,目前GPT 系列的最新版本是基于大规模预训练的GPT-4 模型,可根据文本和图像的多模态输入,将人工标记和强化学习训练相结合,完成各种对话任务。如它可以理解人类的各种指令,完成文本生成、代码编写和修改、图像字幕、图表推理、论文总结等任务。其突出的表现能力可总结如下:
一是多模态(语言和图像)理解和文本生成。继承自预训练语言模型的能力,ChatGPT/GPT-4 可通过文本和图像的提示来准确理解用户的意图,并将其转化为计算机可以处理的形式[15]。这种能力使得ChatGPT/GPT-4 能够应用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等[23]。此外,ChatGPT 可以接收一个初始句子,并以自回归的方式逐步生成连贯的语言,包括摘要生成、长篇文章的自动生成等长文本的场景。并且在回答问题、机器翻译、总结和润色文本等多项文本生成任务中的表现已经达到或超过了人类水平[24]。
二是推理能力强,可模拟人类语言特征。Chat-GPT 的训练数据是从真实人类使用的语言中提取的,模型通过学习大量的语料库,可以开发出类似于人类的语言特征,表现出与真正人类交流几乎无异的聊天(对话)场景[25]。此外,ChatGPT 具有良好的推理能力,尤其擅长回答科学问题和复杂逻辑问题[26]。这得益于它强大的预训练能力和文本理解能力。通过大规模文本数据的预训练,特别是通过在复杂的语境中建立模型,能够达到上下文信息理解和解释文本的能力。这种能力使其在面对复杂的推理任务时具有优势。如ChatGPT 可以给出某个定理的证明,并根据逻辑链进行推理,按照用户指定的逻辑链完成各种任务。
三是开放领域的通用性。ChatGPT 不受限于特定细分领域[27]。通常情况下,其他的自然语言处理技术只能针对特定领域的语言进行处理,如在医学、法律等领域中。而ChatGPT 利用深度神经网络的优势,通过预训练大模型和聚合语言数据集,能够很好地理解语言规则、上下文信息和外部知识库的知识,在各种专业测试和学术基准上的表现与人类相当[9]。如在医疗领域,ChatGPT 可用于筛选患有某种疾病的患者,并结合医学知识库提供建议和治疗方案;在司法领域,ChatGPT 可以帮助律师撰写法律文件,回答法律相关问题,并且它通过了一场模拟律师考试,得分在所有考生中排名前10%[28];在金融领域,ChatGPT 能够分析市场趋势、股票价格和证券交易等数据,并给出有用的建议和决策。
2 ChatGPT 对知识生产的影响
知识生产是一种实践性活动,指各类知识(如真理、原则、思想和信息等)的发明、创造、创新和复用的过程[29]。这一过程涵盖了知识创造和知识产生两种知识生产方式。知识创造指原创性知识的创造[29],研究人员利用扎实的理论基础和科学方法,通过对真实世界的观察、实验、建模等手段,寻求新的见解和发现,体现为“从0 到1”的知识生产方式。知识产生是指对已有知识基础进行复用以生产知识,研究人员以既有知识库为基础,通过对现有知识的重组、解释和应用,推动知识的发展和进步[30],表现为“由1到N”的知识生产方式。ChatGPT 作为一种具备自主生成文本能力的AI 模型,对人类知识生产能力及知识生产过程产生了革新性的影响。
2.1 知识生产主体趋向多元化
ChatGPT 的出现改变了传统知识生产主体的格局,已发展出包括人类、机器和人机协同三种共存形态,人类和智能机器的联接形成了一个强大的超级智能体[31]。首先,人工智能大模型成为知识生产的重要角色。传统意义上知识生产主体主要由学者、专家和研究人员等领域专业人士组成,通过演绎推理、实证归纳等方法,在现有知识的基础上推动新的知识创新[32]。然而,在计算机技术和大数据发展的推动下,ChatGPT 已具备多学科知识储备和一定的逻辑推理和文本生成能力。基于大规模预训练模型和大数据集的学习,ChatGPT 不仅能够及时获取广泛来源的各领域知识,还可以快速处理、理解并分析这些知识,并从中提取有用的信息和观点,形成自己的见解。这一现象说明ChatGPT 能够基于人类已有知识库进行推理和归纳,甚至可以自主决策和知识创新[31]。因此,知识生产的角色不再局限于人类,而是向着人类与人工智能大模型共存的新形态发展[33]。
其次,除专业人士外的广大用户成为知识生产的重要参与者。传统的知识生产门槛较高,普通个体缺乏严格的学术训练,也不具备准确表达知识的能力,因此很难有效参与到知识生产的过程中[34]。然而,ChatGPT 的出现改变了这一局面。因具备强大的知识表达和处理能力,ChatGPT 拥有对语言的深入理解,经过广泛的文本训练,可以基于给定的提示和语境生成类似专业人士回复的内容[35]。因此,借助ChatGPT,任何个体只需要掌握一定的提示工程技巧,就可以引导大模型根据自身需求产生相应的知识[36]。这为广大用户的知识学习和知识生产提供了更多机会,扩大了参与知识生产的人群范围。
2.2 加速多学科知识融合
ChatGPT 能够打破各学科领域间的知识壁垒,促进多学科知识的融合和跨学科知识的出现。跨学科研究是指超越一个已知学科边界进行的涉及两个或多个学科的研究活动[37],不仅能够帮助研究人员获得更多样化的意见和思维模式,提出更好的研究问题[38],而且有助于摆脱流行的理论和范式,带来开创性的进步[39]。然而,人类注意力的有限性限制了不同学科观点的碰撞[40],且由于学科间的知识壁垒,学习和掌握外来学科的知识需要付出一定的时间成本和智力成本,阻碍了跨学科形式的知识生产。ChatGPT 作为AIGC 的代表,能够快速理解各领域的专业知识。借助ChatGPT,研究人员可以通过对话的方式较容易获取并理解不同学科领域的专业知识,节省了研究人员搜索并学习其他学科知识的时间。此外,ChatGPT 强大的推理能力可快速对不同知识内容进行分析总结,通过续写文字、头脑风暴和观点讨论,为研究人员后续的工作提供启发,从而极大地提升跨学科知识生产的效率。
此外,ChatGPT 在实现技术迭代的同时也扩充了训练数据集的语料库,为跨学科研究提供更加全面的知识库参考。根据现有公开资料显示,GPT-3 预训练语料集主要由Common Crawl 数据集、Reddit 链接、书籍、期刊及英文维基百科数据等组成,而微调语料则主要源于GitHub 上的公共代码库[41]。ChatGPT/GPT-4 预训练语料集在维持了GPT-3 的语料基础上,还进行了大幅度的扩充和增强。这种大规模的数据集整合提供了更丰富的知识背景,使得ChatGPT /ChatGPT-4 有超越前一代模型的知识基础和学习能力,能够对更复杂的任务进行更高效的处理和更专业的解析。这不仅提高了模型的准确性和灵活性,也使得ChatGPT 能够进一步促进跨学科领域的交流,推动人类各类知识的大融合。
2.3 催生人机双向赋能的新型知识生产方式
随着人工智能大模型ChatGPT 的应用,知识生产方式将会发生重大变革,演变为人与机器的双向赋能[42],实现人类和智能机器的协同创新[43]。具体来说,一方面,ChatGPT 能够基于已有知识库赋能从想法提出到问题解决的知识生产全过程,提高人类知识生产的效率。ChatGPT 可以自动从大量的文本中对多模态数据的关键信息进行抽取和分析,发现不同领域中隐藏的规律和原理,如基本的统计分析、分类和聚类分析等,提出新的研究问题。同时,ChatGPT也可以帮助研究人员更好地清洗和预处理数据,如填充缺失值与去除噪声等,从而提高科研数据的质量。基于GPT-4 的图像生成能力,GPT 系列模型还可以帮助研究人员更好地可视化处理数据,如生成图表、词云等,从而大幅提升科研工作者的效率;另一方面,人类知识工作者负责对知识进行深层次的把握、推理和解释,通过对话式交互将新的见解反馈给ChatGPT,提高知识生产的质量和价值。应用ChatGPT 进行知识生产时,经过严谨的逻辑推理和批判性思考,人类可以为ChatGPT 的知识生产提供反馈信息,促进ChatGPT 的强化学习和优化升级,进而有助于ChatGPT 生成更贴合人类和社会发展需求的高价值知识。这一双向赋能规律使得人类和机器在知识生产过程中相互促进[44],体现了人类知识螺旋式上升的发展过程。
3 ChatGPT 对知识复用的影响
知识复用是指组织或个人通过特定的方法或技术手段,对已有知识进行重复利用的过程,以实现特定目标并增加知识的价值[45]。知识复用可分为四个阶段,包括知识搜索、知识评估、知识重组和知识生产[46]。这一过程允许知识复用者将现有知识在不同情境下进行组合应用,在实现知识创新方面发挥着重要作用。ChatGPT 的本质就是对已有的知识进行搜索、归纳、重组和再利用[47],进而帮助用户解决问题。因此,ChatGPT 可以说是目前最大的知识复用者,通过将语料库中的知识直接或加工后间接地传递给用户,极大地推动了人类对知识的复用。
3.1 ChatGPT 对知识搜索的影响
传统的知识搜索主要依赖于人类的记忆和手动检索能力,这种方式存在着信息获取效率低下和数据库限制的问题。ChatGPT 的出现提升了知识搜索的速度、广度及智能化水平。首先,ChatGPT 具备强大的算力和丰富的预训练知识,可以根据知识复用者提供的问题和关键词快速搜索到专业性知识,大大提高了知识搜索的效率和范围;其次,基于海量丰富的语料库,ChatGPT 可以将多学科知识整合并形成连贯性的回复,帮助知识复用者突破领域限制,检索到更广泛而准确的知识,拓宽了知识搜索的渠道;最后,ChatGPT 的出现扭转了过去以“记忆”能力为主的局面,强调“对语料检索和理解”的能力。传统搜索和获取知识的方式通常需要大量的阅读、培训和记忆,ChatGPT 的应用则强调准确的检索和深入的理解。面对接入人类知识库的端口,一个准确的问题便可以满足人类获取任何知识的需求,这要求用户提出的问题足够清晰,为ChatGPT 在海量知识库中的搜寻提供明确的指引。当ChatGPT 作出回答后,用户不再需要对它提供的答案进行记忆,而是需要仔细地阅读、理解和判断,以评估知识的适用性。这种转变使得知识复用者从重复机械的劳动转变为创造性活动[42],因为他们不再需要将大量精力用于简单的记忆和重复性任务,而是将重点放在理解和应用知识的能力上。
3.2 ChatGPT 对知识评估的影响
知识复用者是否选择复用知识取决于他们自身对复用知识价值的认知判断。他们需要评估知识的相关性、准确性、有效性以及知识的可学习性和可改进性[46]。传统的知识评估往往依赖于知识复用者的主观判断,其依据的信息来源往往是有限的,因此存在知识评估的主观性和片面性问题。ChatGPT的智能生成能力为解决知识评估的问题提供了全新的途径和工具。首先,知识复用者可以从多个角度与ChatGPT 进行对话交互,对它的回复提出质疑,以检验知识的准确性和有效性;其次,ChatGPT 的智能对话生成能力允许知识复用者根据回答进行更深入的思考和更细致的追问,这一双向赋能过程可以帮助知识复用者理解和评估知识的可学习性和可改进性,从而更好地判断其是否适合用于特定场景。
3.3 ChatGPT 对知识重组的影响
首先,ChatGPT 是基于已有的人类语言数据集进行训练的模型,其所产生的文本本身可以被视为一种知识的重新组合;其次,知识复用者可以利用ChatGPT 生成的既有知识作为创作的起点,通过与ChatGPT 的对话式交互,借助ChatGPT 的观点促进自身对已有知识重新组合的创造性思维的发展,产生差异化的重组想法;最后,ChatGPT 广泛而丰富的语料库能够帮助知识复用者获取到更多样化的知识,这可以扩展他们自身的认知空间,并且可能会获得一些他们之前不知道或难以自行生成的知识,引导并启发他们产生新的观点和见解,进而有助于知识的生产。
4 ChatGPT 给知识生产与复用带来的挑战
4.1 学术伦理规范争议
对现有知识要素的重组能够产生新颖性的科学知识[48]。在此过程中,说明所参考知识要素的准确来源是必不可少的,这可以提高生成知识的可信度[49]。ChatGPT 参与知识生产的主要方式是将人类现有的知识进行重新组合,由于缺乏人类的思考能力[50],其生成的知识均属于已知范围,不具备“创造”的成分[30],因此生成的知识不属于原创性知识。不仅如此,这些知识的参考来源并不清楚。一是因为Chat-GPT 生成的文本不带有引用来源;二是ChatGPT 的训练数据来自网络中现有的大量信息源,包括书籍、文章、图片、音频等,这使得人工追溯其参考内容的出处几乎是不可能的。此外,面对同一个问题的多种不同回答,很难判断ChatGPT 是否抄袭。这会导致知识生产者无意间的作弊行为,对教学和学术诚信产生不利影响。《科学》(Science)的主编赫伯特·索普(Herbert Holden Thorp)以学术期刊负责人的身份声明:禁止在该期刊上发表的论文中使用ChatGPT 或任何其他人工智能工具生成的任何文本[51]。
剽窃源于版权问题。剽窃不仅仅是在文字上的复制抄袭,还包括他人创意、方法、图形以及其他任何有关智力的产品[52]。高效率和高质量的响应使得ChatGPT 的知识生产能力或已达到或超过人类的水平[24]。当使用者运用ChatGPT 进行知识生产时,常常会发现它所生成的文本令人感到惊奇和出乎意料,超出了使用者的期望和知识范围,若直接进行引用则会带来剽窃的风险。因此,研究人员如果直接应用ChatGPT 进行知识生产与复用,生成的内容则很可能与已有的受版权保护的作品相似,进而产生侵权的风险。由于ChatGPT 不具备法律实体身份,无法实际承担责任,因此这种侵权可能会转嫁给知识复用者[53]。这导致研究人员无意间破坏了学术伦理规范,并可能受到相应的惩罚。
4.2 知识权威性降低
利用ChatGPT 的知识生产与复用可能会产生偏见。大语言模型严重依赖训练数据,由于ChatGPT 不具备思考能力,这导致训练数据的偏见会体现在ChatGPT 的知识输出中。目前,ChatGPT 的训练数据和编码过程可能包含有关性别、种族、民族和残疾状况的偏见[53],这会使得ChatGPT 产生包含不公平或歧视性观点的输出。此外,大语言模型遵循用户的提示,根据训练的数据,通过预测最有可能的单词生成句子。这种能力也面临着被扭曲的风险,即有人用刻意编织的提示引导语言模型,躲避ChatGPT 的安全机制,诱导其生成支持种族主义、阴谋论等文本。基于知识生产与复用的视角,根据这些有缺陷的数据所形成的带有偏见的输出可能导致生成知识的失衡和片面性,这不仅会挑战知识的严谨性和权威性,还会对特定群体造成负面影响,加剧社会中的不平等和不公正。因此,在使用训练数据时,研究人员应该有意识地避免强化或放大这些偏见。这需要对数据进行筛选、平衡和调整,以确保模型训练结果的公正、包容和多样化。
ChatGPT 可能会凭空“捏造”知识。ChatGPT 模型的输出是基于已有知识的复用,本质上是通过概率和语言规则来生成文本,而不是经过深思熟虑和实证研究得出的结论。即使ChatGPT 能够提供详尽的解释和推理,但它不能真正理解问题的背景、条件和复杂性。基于这一过程产生的知识存在虚假或捏造的情况[47],通过大量传播后造成错误认知,使人们对知识的正确性和可靠性产生怀疑,甚至会误导用户。因此,对于涉及复杂情境或准确性要求较高的领域,应谨慎使用ChatGPT 生成的知识,并保持批判的思维,将其作为一个工具而非权威来源。
ChatGPT 的知识生产与复用可能导致知识泛滥且质量参差不齐。随着技术的发展,大模型会变成一种普遍性的生产力工具,所有用户都可以通过大模型来进行巨量的知识生产[34]。知识生产主体多样化使得专家和学者在整个知识生成过程中的作用不断被稀释,进而可能会导致知识的泛滥和低质量化[34]。此外,由于用户的输入和反馈对于生成的内容起着至关重要的作用,如果用户提供了不准确或不负责任的信息,或者没有充分验证和审查生成的内容,那么ChatGPT 则可能将接收到的错误信息进行广泛传播,导致人类知识库中的知识质量参差不齐,进而影响知识的权威性。
4.3 话语权力不平衡加剧
ChatGPT 的学习和训练主要是以英文及西方知识体系为基础,它往往倾向于生成与西方文化相关的内容和观点[54]。因此,其他语言和文化的存在可能被忽视或边缘化。第一,ChatGPT 的训练数据主要来源于英文数据库,一方面对于非英语用户而言,可能受到语言障碍的影响,因为翻译和解释跨语言语境的问题可能会导致信息的失真或误解;另一方面ChatGPT 的回复主要基于西方文化和理论观点产生,其他文化背景下的使用者可能无法得到较为全面和准确的回应,这意味着非英语用户可能无法充分参与到知识创造的过程中,限制了多元知识的传递和生成。
第二,从学术研究的观点出发,目前学术界的基础理论多源于西方文化,通常是基于西方成熟理论对不同文化背景的现实问题展开讨论。然而,这存在理论的适用性和可推广性问题。因为异质性的文化背景会产生差异化的认知和需求,导致很多研究结论不具有普适性。映射到ChatGPT 的知识生产与复用中,ChatGPT 所参考的知识内容大多源于西方知识体系,这限制了ChatGPT 在特定领域或文化背景下的适应能力。这不仅会导致ChatGPT 所生成知识与用户自身文化背景的不匹配,而且在某种程度上,通过知识渗透,可能会导致其他语言和文化的话语权力受到挤压和削弱,进而加剧话语权的不平等。因此,努力提升ChatGPT 在多语言和跨文化方面的能力是至关重要的。这需要更多关于其他语言和文化的多样化训练数据,以及相应的研究和开发工作。通过增加对非英语用户需求的关注,并加强与多语言社区的合作,可以促进跨文化交流和知识的平等。
5 结语
知识生产与复用是社会发展和人类进步的重要推动力,以ChatGPT 为代表的AIGC 技术为知识生产和复用提供了新的工具和手段。然而,技术进步是一把双刃剑,ChatGPT 的出现也会带来知识产权保护争议、知识权威性降低、误导性知识恶意传播、知识话语权力等新挑战。为应对这些挑战,需要建立新的知识生产与复用治理规则,包括:进一步建立健全知识产权保障体系,政产学研共同协商创建和实施设立全新的认证或许可制度,开发能够智能检测ChatGPT 生成内容的技术,确保知识产权归属方的权益不被侵犯;减少对AI 生成内容的过度依赖,提升自身学习能力和创造力,同时积极与专业知识持有者进行探讨交流,避免人工智能输出内容的潜在误导;加强AIGC 的治理,突出人类在知识生产与复用中的核心作用,将ChatGPT 视为一种辅助性学习工具而非权威来源,提升批判性思维能力,助力新问题的发现以及更深入地思考。