GPT型技术赋能数字人文:概念解构、应用前景与现实问题
2024-06-17高翔
高翔
摘要:[目的/意义]GPT型技术有望助力数字人文发展,通过对其在数字人文应用的讨论,以期加速数字人文与新兴技术融合,促使数字人文与时代接轨,为数字人文的发展提供全新方向。[方法/过程]通过分析GPT型技术的涵义与发展历程、支撑技术,对比传统数字人文工具,总结GPT型技术在数字人文领域中的应用前景以及当前存在的现实问题。[结果/结论] GPT型技术在数字人文中的前景广阔,如担任智能研究助理,进行全量图文分析,整合碎片知识,翻译多语种语言以及助推人文项目发展落地等,但数据泄露安全问题、生成内容的算法伦理和知识版权问题以及人文知识的准确性和知识创新能力等现实问题有待进一步解决。
关键词:GPT;数字人文;人工智能生成内容技术;对话型语言模型
分类号:TP18;G203
引用格式:高翔. GPT型技术赋能数字人文:概念解构、应用前景与现实问题[J/OL]. 知识管理论坛, 2024, 9(2): 109-119 [引用日期]. http://www.kmf.ac.cn/p/381/. (Citation: Gao Xiang. GPT-type Technology Empowers Digital Humanities: Conceptual Deconstruction, Application Prospects and Practical Problems[J/OL]. Knowledge Management Forum, 2024, 9(2): 109-119 [cite date]. http://www.kmf.ac.cn/p/381/.)
1 引言/Introduction
近年来,人工智能技术蓬勃发展,在诸多领域的应用均取得了突破性进展。为满足用户对于人工智能产品更加综合化、多样化、个性化和智能化的新需求,2022年12月1日,美国人工智能公司OpenAI公布了全新一代对话型语言模型——ChatGPT,在其推出短短5天后,该公司CEO山姆·阿尔特曼通过自己的社交账户宣布ChatGPT用户数量突破100万。两个月后,据相关报告显示,ChatGPT活跃用户数已达1亿,并且在上线第二个月内平均每天有超过1 300万名用户使用ChatGPT[1]。ChatGPT的出现引发了社会各界的广泛讨论,并引起以GPT型技术为代表的新一轮人工智能热潮。2023年3月15日,OpenAI在文本长度、输入模式等多方面对ChatGPT进行升级,GPT4就此诞生。6个月后,OpenAI宣布ChatGPT推出更多模态功能,支持语音与图像输入[2]。GPT技术迭代如此之快,让所有人意识到人工智能正在进入我们的生活。
虽然对于同类型产品国内显得有些“慢热”,但近些年我国在人工智能领域发展迅速。早在2017年,国务院就在颁布的《新一代人工智能发展规划》中提出要把握发展机遇,大力发展人工智能领域核心技术;2020年,教育部在《关于公布2019年度普通高等学校本科专业备案和审批结果的通知》中提到,在2019年普通高等院校的本科专业设置和调整工作中,将有80所高校开设人工智能专业;2021年,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确提出,要瞄准人工智能等前沿领域,聚焦人工智能算法等关键领域[3]。现实中,众多科技、互联网企业(如百度、腾讯等)都在加紧研发甚至已经研发出属于自己的人工智能平台与应用。
与人工智能同样发展迅速的,是数字人文研究与实践。数字人文作为传统人文学科深度应用数字技术之后产生的新形态,是“人文学科”的延伸和发展,是多门学科共同构成的新领域[4]。其研究对象已从最初的电子文本扩展至超文本、图像、音频、视频、网页、虚拟现实、3D等多媒体。借助人工智能、大数据等技术能够进一步实现文本处理、知识探索、数据可视化等[5],从而充实和拓展人文学科的研究领域,推动研究范式的转型。显然,GPT作为近期人工智能领域最热门和功能强大的智能工具代表,将为数字人文的发展带来新的机遇。
笔者先探讨GPT的概念、发展历程以及其支撑关键技术,再对GPT工具与传统数字人文工具进行比较,分析其在数字人文领域的独特优势,进而提炼总结其在数字人文领域中的应用前景和现实问题,以期为以GPT型技术为代表的人工智能工具更好应用于数字人文领域提供参考与借鉴。
2 GPT型技术概念解构/ Conceptual deconstruction of GPT technology
虽然GPT型技术已经在各行业掀起话题热潮,但作为近期出现的新工具,想对其进行深入研究,就必须拨开舆论,从其本身概念、发展历程、支撑技术等方面重新解构。另外,GPT型技术是人工智能领域的新产品,笔者通过将其与传统的数字人文工具进行对比,以期更好地展现其“新”在何处。
2.1 GPT型技术的涵义与发展历程
ChatGPT全称为“Chat Generative Pre-trained Transformer”,即为“预训练聊天生成转换器”,是一种基于GPT-3.5架构的大型语言模型(Large Language Model,LLM),该模型是一种机器学习系统,它从数据中自主学习,在对大量文本数据集进行训练后,可以进行复杂且(类)智能的写作[6]。ChatGPT及之后的GPT模型主要以对话方式进行交互,支持回答问题、承认错误、提出质疑并拒绝不适当的请求等情境[7]。GPT模型除了最基础的聊天功能,还能基于对话的形式为使用者提供文本生成、代码生成、文本翻译等功能。
GPT型技术最早可以追溯到2018年的GPT-1。OpenAI使用12层的transformer结构在BooksCorpus数据集上对GPT-1进行训练[8],GPT-1在有监督学习的任务中,多数表现超过SOTA的模型,证明了transformer模型惊人的学习词向量能力[9]。2019年GPT-2问世,预训练量从5GB提高至40GB,在生成能力上有了更强的提高。在2020年OpenAI发布GPT-3,GPT-3通过在拥有3 000亿个单词的语料库内对拥有1750亿参数的模型进行训练,获得了语言生成、世界知识以及上下文学习3个重要能力[10]。之后,通过对GPT-3进行指令微调得到instruct-GPT初始版本[11],使其能够遵循人类的指令;再通过将GitHub上采集到的159GB的Python代码文件作为数据集重新训练GPT-3得到Codex初始版本[12],使其拥有代码理解与生成能力,再通过大量不同版本的指令微调以及基于人类反馈的强化学习(reinforcement learning from human feedback,RLHF)“创造”出火爆全球各界的ChatGPT[13]。ChatGPT的成功并没有阻挡OpenAI在GPT技术领域的开拓,在2023年3月,GPT-4宣布诞生,相比于ChatGPT,GPT-4在更广泛的数据集上进行训练,在生成能力、任务效率、性能优化等方面均有较高的提升,并且提高了长文本的处理能力、视觉能力以及推理与逻辑能力,在多方面弥补了ChatGPT的不足。
2023年9月25日,OpenAI宣布ChatGPT支持语音与图像输入功能,可以将输入文本通过语音模型生成类人类语音片段,同时也可通过Whisper开源语音系统将语音转化为文本[14]。除此之外,还可以选择与ChatGPT进行对话,并且拥有超高自定义程度,包括但不仅限于语言种类、声音类型等。同时,通过图像输入功能用户可以将图片“喂”给ChatGPT,让其提取关键信息、分析图表甚至讨论图片内容等[15]。这次历史性的更新意味着GPT型工具已具备文本、图像及音频等方式的多模态功能,将以更直观、更多元以及更现实的交互方式影响全人类,引领人工智能的未来。
2.2 GPT模型的支撑技术
GPT之所以能够拥有如此多的功能且能够出色地实现,离不开其中的关键技术与相关架构模型的支撑。
第一,在整体架构上,GPT采用Transformer模型构成基本系统架构。Transformer模型是整个GPT系列的基本组成单元,GPT-1有12层transformer,GPT-2升级至48层,而GPT-3有96层,是预训练模型的核心网络。Transformer是一种神经网络架构,能帮助系统分析文本、图像和音频等复杂的数据类型。Transformer模型本质上是一个基于多头注意力机制的模型,通过注意力机制使transformer不需要再额外地递归或循环,具有递归网络与卷积网络所不具有的并行计算、减少训练时间的优势,再加上本身模型的复杂程度,所以相比于主流机器以往翻译所使用基于RNN的seq2seq模型框架在精度与性能上都要高出很多[16],也赋予ChatGPT不同于过去同类型模型更强的能力。
第二,在算法层上,GPT采用基于人类反馈的强化学习(RLHF)。它可以分成3个核心步骤:①预训练一个语言模型(language model,LM),再通过大量的语料去训练出基础模型,在这一步骤Open AI选择了GPT-3。另外,在这一步Open AI使用了额外的条件或文本对GPT-3进行微调。②从第二步开始,整个RLHF与以往范式形成明显区别,在这一步需要训练一个奖励模型(reward model,RM)。RM接收一系列的文本之后输出一个数值标量奖励,以期从人类视角下定量评判模型输出的回答的质量。③基于强化学习去微调语言模型。RLHF中因为近端策略优化(proximal policy optimization,PPO)算法存在时间较长,且相关原理指南较为丰富,因此成为微调初始语言模型参数的最佳选择[17-18]。
第三,在算力层上,GPT-3.5/4在Azure AI超级计算基础设施上进行了训练[7]。GPT型技术能够达到高度智能化的背后,仅靠一个庞大模型与强大算法是不够的,还需要巨量算力的支撑。早在2019年,微软就已经向Open AI投资,双方达成密切合作,由微软开发的云计算服务Azure AI成为Open AI的独家云供应商,为Open AI提供强大的算力支持与资金[19]。基于此,OpenAI在 Azure 重建了深度学习堆栈,并从头设计一台专用超级计算机。以ChatGPT为例,其总算力消耗约为3 640 PF-days,即假设每秒进行1 000万亿次计算,则需要持续运行3 640天。这样时间跨度大、持续时间久的GPU集群训练,对网络互联底座的各方面都要求严苛,但同时Open AI的模型在微软Azure上的训练也可以实现对于微软Azure的AI能力的提升。
2.3 GPT型技术与传统数字人文工具的比较
数字人文的研究方法其实是“基于数据的研究”[20],通过传统数字人文的研究工具进行数据检索、呈现和对数据进行量化结构分析,常表现为将某一研究对象或材料进行数字化或统计收集相关数据,再对数字化材料与数据进行系统性分析或通过可视化技术呈现。学者在使用这些工具与方法进行研究时,需要投入大量的精力并且过程往往复杂枯燥。例如,学者常常需要改变检索条件与构建不同的检索式才能检索到较为完整的数据与内容;历史材料数字化后,常常通过与语言、历史和考古等领域学者联合进行语料转换与内容提取;在对统计到的数据进行定量分析前,传统数字人文工具难以精确筛查质量不好甚至不合格的数据,只能通过预先设定好的判定模式对数据进行简单过滤,且往往依赖于更费精力的人工过滤。在数字人文领域的研究中还有更多类似的应用场景,因此,传统数字人文工具在一定程度上使人文学者只能对极少的文本进行挖掘,限制了研究的深度与广度。
将以GPT型技术为代表的人工智能工具引入数字人文领域,将会为数字人文的发展带来颠覆性改变。实际上,在ChatGPT问世之前,有许多相关的技术已经在数字人文领域做出尝试,如计算机视觉领域内的OCR文字识别技术在古籍图像文字识别、古籍文本处理等的应用。以人工智能古籍图像处理为例,其机制与ChatGPT类似,通过人工智能去简化古籍的影像资料,同时参考过去人工标注的结果,进而辨认该影像是何种类型,再通过概率比对选择可能性最高的那一项。虽然相关算法本身已较成熟,但对于古籍图像的应用还较少[21]。
GPT型技术不仅与数字人文非常契合,而且相较于一些传统数字人文工具,更加便利、先进与智慧。首先,数字人文通过对文本、数据、材料以及内容进行分析研究,而GPT作为一个生成式的预训练语言模型,能够为数字人文的研究内容提供原始材料、内容分析与辅助研究等。其次,相较于一些传统的数字人文工具,GPT型技术能够让每个研究人员甚至是普通人都能够快速获得想要的服务,可以被迅速应用于数字人文领域研究;将数字人文对内容的分析研究从表面信息组织进化到语义内容组织;将信息检索模式从用户单边检索转变为交互式知识问答以及提高研究分析效率等[22],仅以文献学视角来看,GPT型技术打破了传统文献需要依靠人员去处理的模式,它能够有效地建立文本之间的深层次关系,对自然语言进行深层次处理,包括但不限于关键词抽取、术语映射、实体识别、实体消歧、实体关系挖掘等[23],大大减少了研究人员在这类繁冗任务上的精力消耗,助推数字人文的研究。
3 GPT型技术赋能数字人文的应用前景/ Application prospect of GPT technology empowering digital humanities
GPT型技术在互联网、计算机、办公以及服务等多个领域都即将或已经落地应用,为各领域注入新生命。部分学者对GPT型技术在信息资源管理[24]、图书馆智能知识服务[25]、科研管理[26]、数字出版[27]、档案服务[28]等领域的应用进行了初步的研究和应用展望。而GPT型技术在数字人文领域的研究和应用同样需要进行探索,它能够为数字人文发展提供新的动力,改变数字人文领域生态,具有多种应用前景。具体来看,GPT型技术赋能数字人文的应用前景有以下几个方面:
3.1 智能研究助理:辅助数字人文学者进行知识生产
GPT型工具可以在知识生产领域为数字人文学者提供定制化服务,充当每个研究人员的私人研究助理。首先,GPT工具对于程序设计与规范方面的任务可以较为准确地完成,因而可以辅助学者进行较为专业的数字人文相关资源库的程序设计等,这使得不擅长计算机领域的数字人文学者也能够利用GPT工具设计出符合需求的程序。其次,GPT工具可以对学者的知识生产从设想到验证提出分步指示与初步建议,并辅助他们完成大量重复性的工作(如文章撰写、内容校验等),提高学者知识生产效率,甚至可以通过图像输入、语音对话等形式与GPT工具讨论相关话题以获得具有支持性的建议。另外,GPT工具不仅可以是建议者,更可以转化为知识生产者。研究人员可以通过文本、语音及图像等单一或联合形式将关键词、主题等辅助性信息传递给GPT工具,GPT工具可以为学者提供一个基于问题需求的文本、语音或可视化创意性内容,进行有针对性的知识生产,在数字人文学者寻求将多学科主题与内容融合突破与创新点时,GPT型工具可以为学者提供一个较好的创意与灵感激发途径。
3.2 全量图文分析:助力数字人文量化方法分析
GPT型工具可以协助进行全量文献基础上的研究与分析。数字人文的方法在理论上可以实现全量文献基础上的研究,但在现实中,传统数字人文方法在进行量化方法分析时,由于工具不够智能化等原因的限制,研究人员往往会处于“信息茧房”[29]中,无法判断自己所掌握与收集的数据是否准确与完全,因此传统数字人文领域学者的研究更多地局限在某一片段或某一部分进行量化分析,无法充分展示数字人文的长处。而GPT工具对量化的分析与研究,是一个很好的辅助工具。仅以中文古籍为例,全部中文古籍总量已经固定,已经有其极限。而GPT型工具对这类文献的处理具有很好的作用,只需要将全部文献“投喂”给GPT工具,它就能迅速精通该领域,为研究者提供服务。同时,使用GPT工具也能帮助研究者快速实现数据分析,包括生成Python代码、实证分析与数据检验等,让更多没有数据分析专业技能的研究者也能拥有数据分析的能力,帮助他们更好地进行研究[30]。另外,学者可以通过GPT工具快速提取音频、图像中的主题、标签甚至转化成文本内容,实现多种形式的信息转换;另一方面,研究者可以将自己的想法或文本内容输入,GPT工具可以根据内容创造出符合主题的视觉与语音文件,快速将研究者的抽象想法转发为可视图像。因此,GPT型工具可以辅助学者完成复杂人文研究过程中的文本整理、资料收集、数据分析、实体抽取等工作,让研究者能够在短时间内了解某一研究模块的重点内容、发展趋势等,并提供文本和视觉等多形式的信息数据支持,为研究者进行后续研究分析提供帮助。
3.3 碎片知识整合:实现数字人文智能检索服务
数字人文学科的特殊性,决定了在数字人文领域的研究可能会涉及艺术、历史、人文与社会等多个学科领域的知识。而就个体研究者或研究团队而言,其学科研究方向与知识储备通常较为单一,在研究中对于其他领域的知识往往不了解。而GPT工具则可以根据问题整合碎片化知识,帮助研究者更好地获取自己了解较少的领域相关知识,有利于数字人文领域的知识获取和研究方式优化,开展数字人文研究与跨学科研究,实现多学科交叉融合。另外, GPT工具不仅能被动地为研究者搜集知识与内容,当研究者所询问的问题涉及其他领域知识时,GPT工具也可以基于该问题通过文本、语音和图片形式提供更加丰富和多元的知识内容,为研究者带来新思考与新问题,有助于实现人文研究从“学科孤岛”到“知识共同体”的转变。GPT工具还可以应用于学术交流与合作中的共享平台的搭建。利用其海量的数据内容与知识信息,将其植入数字人文学术公共平台(如图书馆、数字人文网络论坛等),方便数字人文等领域学者学习计算机、传媒等不同学科领域专业知识内容;同时对于不同领域学者的问题输入也能让GPT工具不断学习多领域知识并完善储备,以更好地去满足其他学者的需求,真正形成“我回答你,你反哺我”的良性循环,利于跨领域资源的共享和知识交流,利于数字人文学科的发展与建设。
3.4 多种语言翻译:打破数字人文资源语种壁垒
在数字人文跨学科领域的研究中,对不同语言文献的内容翻译是一个无法回避的工作。而作为一种通用型机器翻译模型,GPT型技术能够协助研究者处理各方面的语料,并能够对内容进行转换,通过对不同语言文本的理解和生成,实现自动翻译。
以ChatGPT为例首先,由于ChatGPT在问世前经过多次基于人类反馈的强化学习,并加之后续的指令微调,使其回答具有较好的逻辑性,在保证翻译内容尽量完整的同时不丢失流畅度。其次,GPT应用可以实现对同一内容进行多语种实时翻译,快速实现知识与资源的语言转换,大大加快了翻译的效率。再次,ChatGPT的翻译不仅是语种的转换,更可以实现语料文本的转换。在数字人文领域,不同学科交叉融合的同时,对不同学科的专业语言也可能相互难以理解,利用GPT可以实现不同语料之间的转换,将某些领域相对专业、生僻的术语转化为更通俗易懂的语言,方便不同学科领域的学者进行跨学科研究。最后,GPT应用不同于传统翻译软件的单次翻译,GPT的本质是一个对话机器人,相比于传统翻译模式需要人工进行原文比对进行纠错,研究人员可以通过在与其对话中对翻译不合适的地方进行更精细要求与重复提问,以获得更好的输出内容。总之,GPT型技术的出现能够打破数字人文资源语种壁垒,为跨语言的知识传递与共享提供新工具,有利于数字人文领域内不同学界、不同国家与地区学者之间的知识交流与资源共享。
3.5 多元交互体验:探索数字人文落地全新方向
当前数字人文领域内的项目主要集中在相关的数据、档案资源收集和整合以及配合前沿技术再利用,如2016年上线的“数字敦煌”项目,即通过将敦煌石窟内的壁画图像资源统一上传至敦煌资源库中,并配合虚拟现实、增强现实等技术,让网友可以在网络平台全方位欣赏敦煌石窟内的高清壁画及相关介绍,并进行虚拟漫游[31]。而将GPT技术引入数字人文领域,可以为数字人文项目更好地落地提供全新方向,即数字人文项目可以不仅限于由资源拥有者单方向提供服务。例如,通过GPT为用户提供定制化的服务,将相关用户输出的主题词、想法等转化成具有独特专属性的创意性内容或实时记录与用户的对话交互等。在项目中,用户通过GPT生成的创意性内容与采集到用户自身的数据(音频、图像等)都可以被录入数字人文项目中,使每个用户都能够参与到数字人文项目的创作、解读、发展甚至是建设中,项目也因为更大范围的资源采集而不断完善。
虽然现如今有许多数字人文项目鼓励公众参与(如“方言保护计划”项目[32],参与者需要上传自己的方言音频参与项目),但多数都是以参与者主动上传数据等方式参与,缺乏一个像GPT这样的技术让用户在项目观看、体验中就能实时参与、记录的工具。GPT技术的加入,让数字人文项目更具生命力,增强了用户对整个项目的参与度与沉浸式体验,也同时让数字人文项目研究有了更高、更广、更深的层次,为数字人文项目未来的发展与落地提供全新的探索方向。
4 GPT型技术赋能数字人文的现实问题/ Practical problems of GPT technology empowering digital humanities
GPT型技术的出现无疑将赋能数字人文领域的发展与进步,但同时也需要关注其本身的不足和由其带来的相关现实问题。只有密切关注GPT型技术的现实问题,并在日后加以改进,才能使其更好地服务于数字人文。
4.1 无限制语料库学习数据泄露风险加大
2023年3月23日,ChatGPT在问世不久就出现了数据泄露事件。许多网友指出,自己在使用ChatGPT的过程中可以在网页左侧聊天记录栏中看到他人聊天记录,甚至出现了一些敏感隐私信息(如信用卡号、邮件地址等)。同样,韩国三星公司设备解决方案部门员工在使用ChatGPT进行优化测试序列、会议记录转换以及修复源代码等操作时,将机密代码泄露给ChatGPT。这就意味着其他人在使用ChatGPT这样一个语言学习模型也可能会得到三星公司的源代码等机密文件[33]。对于GPT这类需要海量数据训练作为支撑的大语言模型,大规模的数据量也将带来较高数据泄露的风险。
GPT工具数据风险主要来源于3个方面:
(1)用户将隐私数据信息输入GPT导致数据泄露。GPT主要通过语言学习来实现超高智能交互体验,并且学习深度会随着问答与使用量的增加而不断加深。这就导致用户在使用GPT时输入的数据也会被其学习,当其他人在使用GPT时也可能通过特定具有针对性的问题来获得你的数据信息。例如,当数字人文学者将某个构想或研究思路输入GPT以期获得实质性的研究方案等,那么当其他人通过“数字人文”“研究方案”等关键词进行联合检索就有可能会在GPT内“套取”到你未公开的初期研究并窃取。
(2)服务器受到攻击。任何人工智能工具的运行都需要服务器的平稳支持,而GPT拥有庞大参数的模型抵御攻击能力比其他中小模型反而更差,并且由于无限学习的特性,其数据量将会越来越大,也就需要配套更强大与安全系数更高的服务器,否则很可能形成“包不住”的局面,一旦被病毒、黑客等攻击将极容易出现数据安全泄露事件[34]。
(3)GPT开发人员失误导致数据泄露。GPT模型需要开发人员不断更新与维护,所以如果开发人员或团队出现失误(如误设数据公开权限等),那么就会让GPT内的原先非公开数据被公开,导致数据泄露。
4.2 生成内容的算法伦理和知识版权问题有待厘清
GPT模型生成内容的算法伦理不容忽视。作为一个对话模型,GPT模型以对话形式输出内容,也因此可能会出现相关的问题。作为一个机器模型,它无法通过自身去鉴别知识库中内容的准确性,并且对于如此体量庞大的数据集,不可能实现全部人工筛选。即使在GPT模型诞生初期会有人员进行数据集的筛选工作,但这也会因为人员的信息素养与专业能力而无法保证完全正确,所以其对一个问题的回答也难以保证完全准确。当它遇到现有知识库中无法直接回答的问题时,很可能为了语法的准确与流畅而选择拼凑、删改语句,导致生成的内容意义发生变形,正确率下降。
另外,数字人文领域常常会涉及多种文化、历史等方面知识,而在面对涉及不同地区文化差异、伦理道德等问题时,GPT模型难以分析出其中深层次的差异与意义,所以产出的内容不免会违反某些地区的文化与社会规章,也因此会在面对不同地区同一对象的不同内容(如文化、法律等)时,出现将不同内容杂糅在一起的情况,最后产出的内容看似正确其实毫无意义,因为其本身不能准确识别内在意义的不同,只是一味为了内容尽可能涉及每个对象。例如,当数字人文学者向GPT模型提出“西方国家与东方国家宗教信仰优缺点对比”等这些需要同时结合主观思想、辩证思维以及大量相关宗教人文知识和案例才能勉强“应付”的问题时,GPT就很可能根据问题关键词重合度等硬性检索指标去某些网站或论坛“拼凑”出一份“看似”靠谱的答案,但这个答案的真实性与全面性也仍需考证。
GPT模型生成内容的版权问题同样需要关注。ChatGPT在学术圈之所以能引起这么高的讨论度,原因在于它被一部分人滥用,如利用其超高内容生成能力去完成作业、论文等,在这样的情况下ChatGPT成为助长学术不端风气的工具。同样,其所生成的内容也可能并不是完全原创,根据语料库所生成的内容可能是某位学者已经出版的内容。GPT模型在内容生成中的版权风险主要有两个方面:①没有获得在先作品权利人的授权,以及在行使著作权时可能侵犯原作品的著作权。②聊天机器人在不同目的与不同场景下的使用,如对聊天机器人生成的内容进行再出版[35]。对于使用者,由于该内容可能来源于不同国家与地区的数据集,由于检验工具与检索工具的限制,致使使用者难以检验内容的原创性,使用者也许将“被迫”陷入版权争议;而对于原创者,自己的作品是否通过GPT模型被侵害盗用也难以得知;而对于整个数字人文领域,数字人文领域所产出的知识、作品以及成果都具有很强的跨学科性,因此更可能被更大范围的学科领域借鉴或使用,如果版权问题没有被重视或解决,数字人文很有可能会比其他领域更容易陷入版权风波。
4.3 人文知识的准确性和知识创新能力有待加强
GPT型技术通过对现阶段人类的知识结构进行学习构建出自己的知识体系,从而具备根据问题智能生成回答的能力。但GPT的智能,只是基于其强大的算力,使其能够快速定位,同时基于人类反馈的相关算法,其能够将相关的知识通过自然语言以一定的逻辑输出。GPT型技术擅长的并不是知识的生成而是知识的整合,它的知识来源都是已知和已有的知识,所以GPT模型很容易处理极强范式性的内容(如应用文、通知等)以及对知识进行梳理、总结等。但这些大多并不能称为知识创新,只是对于现有知识的再加工,GPT模型的知识创新能力还有待改善,这也依赖其日后算法的进化。另外,GPT型技术在服务数字人文领域研究中有一个明显的短板,即人文知识储备量不足且不够准确。人文知识的特点是多与杂,内容涵盖文学、历史、艺术、社会等多领域,且时间跨度大,特别是每个国家与地区、甚至是每个学科领域的人文知识都有其独特性。而数字人文领域的许多研究都与历史文化、前沿思想以及信息技术融合有关,且人文知识伴随人类的发展不断产生,内容不仅庞大且几乎没有尽头,如果GPT无法及时同步这些新的知识库,那么其在数字人文领域发挥的作用也将很有限。
5 结语与展望/Conclusion and prospect
GPT型技术的出现,让人工智能不再是空中楼阁,同时也展现了人工智能独特的优势。数字人文是一门与人文内容以及信息技术密切相关的领域,常常需要将艺术、历史等内容进行“再生”,GPT型技术通过内容的输入、检索、整合以及转换,将单一形式的内容以多元形式产出,与数字人文领域研究非常契合。GPT型技术为数字人文领域提供了一个更加便利的集成式的内容工具,为数字人文领域研究提供更多的选择。通过合理运用GPT型工具,能够满足领域学者完成翻译、知识整合、创意激发、智能检索等多种研究需求,提高学者工作效率以及研究深度及广度,同时也为数字人文项目的发展、应用以及落地提供了更好的方向。但同时也应看到GPT型技术存在的现实问题,GPT型技术在安全、版权、人文、伦理等方面虽然暂时仍有不足,只有更多的人了解它的问题,才能让用户更好地使用它,更好地提升其在数字人文领域内的使用价值。相信未来GPT型技术将进一步发展,在以它为代表的更多人工智能工具的出现与升级下,数字人文发展将有更广阔的发展空间。
参考文献/References:
智东西 ZeR0. 时间线复盘ChatGPT爆火之路: 改变互联网圈的两个月[EB/OL]. [2023-12-06]. https://www.jiemian.com/article/8893975.html. (WISE THINGS ZeR0. Timeline resumption ChatGPT explosion road: two months to change the internet circle[EB/OL]. [2023-12-06]. https://www.jiemian.com/article/8893975.html.)
OpenAI. ChatGPT can now see, hear, and speak[EB/OL]. [2023-12-06]. https://openai.com/blog/chatgpt-can-now-see-hear-and-speak.
中商产业研究院. 2022年中国人工智能行业最新政策汇总一览(表) [EB/OL]. [2023-12-06]. https://www.askci.com/news/chanye/20220824/0921361966713.shtml. (CHINA COMMERCIAL INDUSTRY RESEARCH INSTITUTE. Summary of the latest policies of artificial intelligence industry in China in 2022 (Table) [EB/OL]. [2023-12-06]. https://www.askci.com/news/chanye/20220824/0921361966713.shtml.)
王丽华, 刘炜, 刘圣婴. 数字人文的理论化趋势前瞻[J]. 中国图书馆学报, 2020, 46(3): 17-23. (WANG L H, LIU W, LIU S Y. Perspective research of digital humanities theory[J]. Journal of library science in China, 2020, 46(3): 17-23.)
朱本军, 聂华. 跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述[J]. 大学图书馆学报, 2016, 34(5): 16-21. (ZHU B J, NIE H. Crossing boundaries and engaging communities: digital humanities in a global perspective [J]. Journal of academic librariese, 2016, 34(5): 16-21.)
DIS E V, BOLLEN J, ZUIDEMA W, et al. ChatGPT: five priorities for research conversational AI is a game-changer for science. heres how to respond[EB/OL]. Nature, 2023, 614(7947): 224-226.
OpenAI. Introducing ChatGPT[EB/OL]. [2023-12-13]. https://openai.com/blog/chatgpt?ref=the-writesonic-blog-making-content-your-superpower.
ZHU Y, KIROS R, ZEMELET R, et al. Aligning books and movies: towards story-like visual explanations by watching movies and reading books[EB/OL]. [2023-12-16]. https://arxiv.org/abs/1506.06724.
知乎大师兄.预训练语言模型之GPT-1, GPT-2和GPT-3[EB/OL]. [2023-12-16]. https://zhuanlan.zhihu.com/p/350017443.(ZHIHU DA SHI XIONG. GPT-1, GPT-2 and GPT-3 of pre-training language model. [EB/OL]. [2023-12-16]. https://zhuanlan.zhihu.com/p/350017443.)
BROWN T B, MANN B, RYDER N, et al. Language models are few-Shot learners[C]//Proceedings of the 34th international conference on neural information processing systems. New York: ACM, 2020:1877-1901.
OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[EB/OL]. [2023-12-21]. https://arxiv.org/ abs/2203.02155.
CHEN M, TWOREK J, JUN H, et al. Evaluating large language models trained on code[EB/OL]. [2023-12-21]. https://arxiv.org/abs/1706.03762.
FU Y, PENG H, TUSHAR K. How does GPT obtain its ability? Tracing emergent abilities of language models to their sources[EB/OL]. [2023-12-22]. https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1.
程序员苍何. 【抢先体验】开通使用 ChatGPT 语音版功能保姆级教程[EB/OL]. [2023-12-22]. https://blog.csdn.net/qq_43270074/article/details/133578491. (PROGRAMMER CANG HE. [Preemptive experience] Open a nanny-level tutorial using ChatGPT voice version[EB/OL]. [2023-10-17]. https://blog.csdn.net/qq_43270074/article/details/133578491.)
智东西. ChatGPT能语音聊天和看图了, 五种音色选项, 背后模型细节公开[EB/OL]. [2023-12-25]. https://36kr.com/p/2448933549496450. (SMART THINGS. ChatGPT can voice chat and look at pictures. there are five timbre options, and the details behind the model are open[EB/OL]. [2023-10-17]. https://36kr.com/p/2448933549496450.)
VASWNI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2023-12-27]. https://arxiv.org/abs/1706.03762.
LAMBERT N, CASTRICATO L, WERRA L O, et al. Illustrating reinforcement learning from human feedback (RLHF) [EB/OL]. [2023-12-27]. https://huggingface.co/blog/rlhf.
楷文狗. 【科普向】Chat GPT背后的技术: 什么是RLHF(人类反馈强化学习)?[EB/OL]. [2023-12-27]. https://www.bilibili.com/read/cv22006067. (KAIWEN DOG. [Popular science direction] The technology behind Chat GPT: what is RLHF (human feedback reinforcement learning)? [EB/OL]. [2023-12-27]. https://www.bilibili.com/read/cv22006067.)
新浪科技. 微软向OpenAI投资10亿美元 在Azure平台上开发AI技术[EB/OL]. [2023-12-27]. https://tech.sina.com.cn/it/2019-07-22/doc-ihytcerm5517562.shtml. (SINA TECHNOLOGY. Microsoft invested $1 billion in OpenAI to develop AI technology on the Azure platform)[EB/OL]. [2023-12-27]. https://tech.sina.com.cn/it/2019-07-22/doc-ihytcerm5517562.shtml.)
刘炜, 叶鹰.数字人文的技术体系与理论结构探讨[J]. 中国图书馆学报, 2017, 43(5): 32-41. (LIU W, YE Y. Exploring technical system and theoretical structure of digital humanities[J]. Journal of library science in China, 2017, 43(5): 32-41.)
澎湃新闻. 澎湃圆桌|ChatGPT、人工智能与数字人文: 传统学问的科技未来?[EB/OL]. [2023-12-27]. https://m.thepaper.cn/newsDetail_forward_21973969. (PENGPAI NEWS. surging round table|ChatGPT, artificial intelligence and digital humanities: the technological future of traditional learning? [EB/OL]. [2023-12-27]. https://m.thepaper.cn/newsDetail_forward_21973969.)
中国科学院文献情报中心. 《ChatGPT对文献情报工作的影响》研究报告(简版)公开发布[EB/OL]. [2023-12-30]. http://www.las.cas.cn/zhxw/202302/t20230228_6685890.html. (NATIONAL SCIENCE LIBRARY, CHINESE ACADEMY OF SCIENCES. The research report “ChatGPTs influence on literature and information work” (short version) was released to the public[EB/OL]. [2023-12-30]. http://www.las.cas.cn/zhxw/202302/t20230228_6685890.html.)
陈果, 陈晶, 肖璐. 词汇语义链: 领域分析视角下的词汇语义挖掘理论框架[J]. 情报理论与实践, 2022, 45(4): 170-176, 183. (CHEN G, CHEN J, XIAO L. Lexical semantic chain: a theoretical framework for lexical semantic mining in the perspective of domain analysis[J]. Information studies: theory & application, 2022, 45(4): 170-176, 183.)
陆伟, 刘家伟, 马永强, 等. ChatGPT为代表的大模型对信息资源管理的影响[J]. 图书情报知识, 2023, 40(2): 6-9, 70. (LU W, LIU J W, MA Y Q, et al. The influence of large language models represented by ChatGPT on information resources management[J]. Documentation, information & knowledge, 2023, 40(2): 6-9, 70.)
赵瑞雪, 黄永文, 马玮璐, 等. ChatGPT对图书馆智能知识服务的启示与思考[J]. 农业图书情报学报, 2023, 35(1): 29-38. (ZHAO R X, HUANG Y W, MA W L, et al. Insights and reflections of the impact of ChatGPT on intelligent knowledge services in libraries [J]. Journal of library and information science in agriculture, 2023, 35(1): 29-38.)
王树义, 张庆薇. ChatGPT给科研工作者带来的机遇与挑战[J]. 图书馆论坛, 2023, 43(3): 109-118. (WANG S Y, ZHANG Q W. ChatGPTs opportunities and challenges for researchers [J]. Library tribune, 2023, 43(3): 109-118.)
任安麒. 数字出版领域智能语言模型的应用、风险与治理——基于ChatGPT技术特征的分析[J]. 出版科学, 2023, 31(3): 94-102. (REN A Q. Application, challenges and governance of intelligent language models in digital publishing: an analysis based on ChatGPT technology features[J] Publishing journal, 2023, 31(3): 94-102.)
付永华, 张文欣, 司俊勇. ChatGPT影响下的人工智能档案服务: 突破与挑战[J]. 档案管理, 2023(3): 58-61. (FU Y H, ZHANG W X, SI J Y. Artificial intelligence file service under the influence of ChatGPT: breakthrough and challenge[J]. Archives management, 2023(3): 58-61.)
张玥, 庄碧琛, 李青宇, 等. 同质化困境: 信息茧房概念解析与理论框架构建[J]. 中国图书馆学报, 2023, 49(3): 107-122. (ZHANG Y, ZHUANG B C, LI Q Y, et al. Homogenization dilemma: concept analysis and theoretical framework construction of information cocoons[J]. Journal of library science in China, 2023, 49(3): 107-122.)
知乎武幺六. ChatGPT3.5和4.0真的使用差距很大吗?[EB/OL]. [2023-12-30]. https://www.zhihu.com/question/595517134. (ZHIHU WU YAO LIU. Is there really a big gap between chatgpt-3.5 and 4.0? [EB/OL]. [2023-07-01]. https://www.zhihu.com/question/595517134.)
中国日报中文网. 数字敦煌: 一眼千年, 回首又见画中人[EB/OL]. [2023-12-30]. https://cn.chinadaily.com.cn/a/202101/25/WS600e84a5a3101e7ce973c929.html. (CHINA DAILY. Digital Dunhuang: looking back at the Millennium, I can see the people in the painting again[EB/OL]. [2023-12-30]. https://cn.chinadaily.com.cn/a/202101/25/WS600e84a5a3101e7ce973c929.html.)
方言保护计划[EB/OL]. [2023-12-30]. https://fangyan.xunfei.cn/#/. (Dialect protection plan[EB/OL]. [2023-12-30]. https://fangyan.xunfei.cn/#/.)
澎湃新闻. 从ChatGPT数据泄露事件, 看组织安全稳定自动化的重要性[EB/OL]. [2023-12-30]. https://www.thepaper.cn/newsDetail_forward_22632495. (PENGPAI NEWS. From the ChatGPT data leakage incident, see the importance of organizational security, stability and automation [EB/OL]. [2023-12-30]. https://www.thepaper.cn/newsDetail_forward_22632495.)
王晓丽, 严驰. 生成式AI大模型的风险问题与规制进路: 以GPT-4为例[J/OL]. 北京航空航天大学学报(社会科学版): 1-11[2023-12-30]. https://doi.org/10.13766/j.bhsk.1008-2204.2023.0535. (WANG X L, YAN C. Risk problem and regulation approach of generative AI foundation models: a case study of GPT-4[J/OL]. Journal of Beijing University of Aeronautics and Astronautics(Social sciences edition): 1-11[2023-12-30]. https://doi.org/10.13766/j.bhsk.1008-2204.2023.0535.)
丛立先, 李泳霖. 聊天机器人生成内容的版权风险及其治理——以ChatGPT的应用场景为视角[J]. 中国出版, 2023(5): 16-21. (CONG L X, LI Y L. Copyright risk of chatbot-generated content and its governance—from the perspective of ChatGPT application scenario[J]. China publishing journal, 2023(5): 16-21.)
GPT-type Technology Empowers Digital Humanities: Conceptual Deconstruction, Application Prospects and Practical Problems
Gao Xiang
School of Cultural Heritage and Information Management, Shanghai University, Shanghai 200444
Abstract: [Purpose/Significance] GPT technology is expected to help the development of digital humanities. By discussing its application in digital humanities, we hope to accelerate the integration of digital humanities and emerging technologies, promote the integration of digital humanities with the times, and provide a new direction for the development of digital humanities. [Method/Process] By analyzing the meaning, development course and supporting technology of GPT technology, and comparing them with traditional digital humanities tools, this paper summarized the application prospects of GPT technology in the field of digital humanities and the existing practical problems. [Result/Conclusion] GPT technology has broad prospects in digital humanities and can be used as an intelligent research assistant, realizing full-scale graphic analysis, integrating fragmented knowledge, multilingual translation, and promoting the development of humanities projects, etc. However, practical problems such as data leakage security, algorithmic ethics and intellectual copyright of generated content, the accuracy of humanistic knowledge, and knowledge innovation ability need to be further resolved.
Keywords: GPT digital humanities artificial intelligence generated content technology conversational language model
Fund Project(s): This work is supported by the National Social Science Fund Youth Project titled “Research on Evaluation System of Digital Humanities Collaborative Innovation for Memory Engineering” (Grant No. 22CTQ041).
Author(s): Gao Xiang, master candidate, E-mail: goarx1124@foxmail.com.
Received: 2023-09-28 Published: 2024-03-13