ChatGPT技术原理及未来影响研究
2023-08-21陈国凯
陈国凯
摘要:ChatGPT的发布引起了全球范围的广泛热议,被认为是人工智能领域的一次重大变革,将对人类社会发展产生深刻影响。文章回顾了ChatGPT的发展历程,阐释了ChatGPT的底层技术原理,指出了ChatGPT在数据、资源、模型方面存在的技术局限性,探讨了ChatGPT给常规工作、商业发展、教育模式等方面带来的机遇,并对ChatGPT在学业作弊、学术剽窃、网络信息安全、社会监管等方面带来的挑战给出警示,从而帮助人们正确认识利用ChatGPT这一工具,应对即将到来的变革。
关键词:ChatGPT;生成式人工智能;大语言模型
中图分类号:TP18中图分类号 文献标志码:文献标志码A
0 引言
美国OpenAI公司发布的聊天机器人模型ChatGPT(Chat Generative Pre-trained Transformer),引发社会的广泛关注与讨论。该模型是一种基于自然语言处理技术的生成型预训练深度学习模型,其能够理解和学习人类的语言,以“对话式”的直接互动方式以及“人性化”的语言文本形式,为人们提供连续多轮问答等交流服务。不同于“分析式”人工智能工具,ChatGPT属于“生成式”人工智能工具[1],通过在海量的文本数据上进行预训练,其不仅能根据聊天的上下文真正做到像人类一样互动交流,帮助用户撰写产品文案、课程作业和商业计划书,还能完成代码编写、文章生成以及歌曲创作等任务,极大地提高了用户工作效率,改变了人们对人工智能的传统看法,使人们看到了AI(Artificial Intelligence)大規模落地的曙光[2]。
1 ChatGPT的发展历程
ChatGPT是基于GPT架构开发的对话AI模型,其可以从大量的现成文本和对话集合中学习知识,以生成内容的方式回答各种各样的实际问题。2018年6月,OpenAI发布了GPT-1。该版本采用半监督学习方法,通过在无标签的数据上学习一个生成式的语言模型,再根据自然语言推理、问答与常识推理、语义相似度、文本分类等对模型进行微调,其预训练数据量约5 GB,参数量是1.17亿。2019年2月,OpenAI发布了GPT-2。该版本实质上是一个简单的统计语言模型,主要目的是为给定句子生成下一个文本序列,其预训练数据量约40 GB,是第一代的8倍,最大模型的参数量是15亿,是第一代的13倍。2020年5月,OpenAI发布了GPT-3。其预训练数据量达到了45 TB,是第二代的1 125倍,最大模型的参数量是1 750亿个,是第二代的116倍。该版本已经和前两代不在一个量级上,称为超大语言模型[3],几乎可以完成面向问题搜索、阅读理解、语义推断、机器翻译、文章生成、自动问答等自然语言处理领域中的绝大部分任务。
2022年11月30日,OpenAI发布了最新的大型语言预训练模型ChatGPT,是在GPT-3.5的基础上进一步迭代训练后开发出来的对话机器人。ChatGPT使用人类偏好作为奖励信号来微调模型,能够轻松学会各种词语搭配和语法规则,能明白同一个意思的不同表达以及不同语言之间的关系,不仅可以给出高质量的外语翻译,还能把口语转换成代码,生成更自然、更流畅的文本。2023年3月15日,随着GPT-4的发布,ChatGPT不再是只能通过文字聊天对话,而是进化到能看懂图片,支持文字与图像混合输入,展现了惊人的自然语言理解和沟通能力。
2 ChatGPT的技术逻辑
语言模型的核心就是要根据上下文背景预测接下来一连串文字出现的可能性,ChatGPT底层模型是Transformer架构,采用自注意机制,让模型自己学习应该把重点放在长文字的哪个词上,并且这个机制主要靠一系列的矩阵运算实现,而矩阵运算很容易在GPU中并行计算,所以能让模型更高效地利用海量数据,这也是ChatGPT比此前的语言模型更强大的地方之一。
例如,当给它“计”这个上文时,它可能会生成“算”;当给它“计算”这个上文时,它大概率要补上“机”。ChatGPT本身能做的就只有生成下一个字,其实质功能非常简单,4个字就能概括:文字接龙。具体来说就是:给它任意长的上文,它会用自己的模型去生成下一个字。对于长文字的回答,ChatGPT把它自己生成的下一个字和之前的上文组合成新的上文,再让它以此生成下一个字。不断重复,就可以生成任意长的下文,该过程也叫“自回归生成”。例如,当它根据“计算”生成“机”之后,把新生成的“机”和之前的“计算”组合成新的上文,再让它计算“计算机”后面接什么字。假设这次它生成的是“科”,那再把“科”和“计算机”组合起来,让它计算“计算机科”后面接什么字。不断重复,就能生成“计算机科学与技术”。
除了上文,影响ChatGPT生成结果的另一个因素是它的模型本身。模型就相当于ChatGPT的大脑,即使把同一个上文,送给不同的模型,也会生成不同的结果。例如,有两个人,同样是听到“计”这个上文,一人会接“算”,而另一人会接“息”,因为这两人有着不同行业背景的,一人工作在IT行业,学习到的是“计算机科学与技术”,另一人工作在金融行业,学习到的是“计息周期”。为了让ChatGPT生成设计者想要的结果,而非胡乱生成,在搭好Transformer架构之后,GPT就可以用文字接龙的方式提前训练自己的模型,就是在已知上下文的基础上,让模型预测下一个词可能是什么。
ChatGPT在官方文档中分3步说明其训练方式。第一步是给它提供人类想要的答案作为示范,也就是让标注者自己根据数据库中的问题写下标准答案,然后把问题和标准答案作为数据交给模型来训练。第二步,让微调好的模型根据问题产生一些答案,模型输出的是一系列文字的概率分布,所以每次产生的答案都不太一样。人工标注者会给这些答案按照质量排序,信息量大的答案会排在前面。根据这些数据,设计者就可以训练出一个回报模型,让其根据问题给答案打分。有了回报模型就能进入第三阶段,也就是不断重复提问、生成答案、打分的过程,并不断优化模型的参数,让生成的答案越来越接近用户想要的答案。
3 ChatGPT的技术局限性
尽管ChatGPT表现出出色的上下文对话能力,满足大众对人机对话机器人(ChatBot)从“人工智障”到“有趣”的印象改观,但ChatGPT仍然存在以下一些局限性,需要不断的进化发展。
3.1 ChatGPT高度依赖数据
ChatGPT在未经大量语料训练的领域中缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。在很多领域里ChatGPT都在“创造答案”,因而当用户寻求正确答案时,ChatGPT也有很可能给出有误导的回答。例如,讓ChatGPT做一道小学应用题,尽管它可以给出详细的分析过程,但最后的答案却是错误的。因此,针对可能存在的胡编乱造,ChatGPT就需要用大量优质的语料来进行修正。
3.2 ChatGPT需要巨大的算力(资源)来支持其训练和部署
除了需要大量语料数据训练模型外,目前,ChatGPT在应用时所需的大算力服务器成本以及电力资源消耗是普通企业无法承受的,即便数十亿个参数的模型也需要惊人数量的资源才能运行和训练。如果面向数以亿计的真实搜索用户请求,依然采用免费服务的策略,任何企业都难以承受这一成本。因此对于普通用户来说,还需等待更轻量型的模型或更高性价比的算力平台。
3.3 ChatGPT内容无法被直接增删改查
不论是ChatGPT所记住的信息,还是所学到的规律,都是以同一个模型的形式来表达的,因此无法像操作数据库那样,对这些内容直接进行增删改查。这会产生两个具体问题:一是由于设计者很难理解它所建构的规律,也无法直接查看它记住了什么、学到了什么,只能通过多次提问来评估和猜测它的所记所学,其决策缺乏可解释性,这难免会在使用时带来安全风险。二是由于只能通过再次调整模型来增加、删除或修改它的所记所学,所以无论是训练时间或训练成本,都是普通训练者难以接受的,这难免在更新时会降低效率。如果对于新知识采取在线训练的模式,看上去可行且语料成本相对较低,但由于新数据的引入很容易导致其对原有知识产生灾难性遗忘的问题。
4 ChatGPT带来的机遇
ChatGPT作为互联网现象级、杀手级的应用,不仅向全世界展现了人工智能领域取得的突破性进展,也引爆了对该产业尤其是生成式AI产业的空前关注,为社会发展带来了新的发展机遇和治理挑战。
4.1 提高工作效率和质量
ChatGPT的成功为自然语言处理技术的发展带来重要的推动作用。借助语音识别、自然语言处理等技术,ChatGPT可以帮助人们更快地处理信息、更准确地理解语言,并辅助人们做出更明智的决策。如在客服领域,ChatGPT可以真正智能的自动回答用户问题,帮助企业降低客服人员的成本,提高客户满意度和工作效率;在医疗领域,ChatGPT可以通过数据分析和智能诊断等方式,提高医疗服务的满意度和工作精度。
4.2 创造商业模式和价值
ChatGPT作为一个有趣且实用的人工智能应用,吸引很多普通用户的关注,让人们认识到它在日常生活和工作中的潜在价值,提高人工智能技术普及度,增强人工智能产业发展信心。通过机器翻译、语音合成等技术,ChatGPT可以帮助企业拓展国内外市场和服务范围,帮助企业在客户服务、市场调研等方面进行革新,从而创造新的商业机会和价值。
4.3 赋能教育融合和革新
ChatGPT可以对学生提出的个性化问题予以针对性回答,不仅可以让学生学习更加高效,极大地促进个性化学习,使学生享受到自主学习的乐趣;还可以帮助教师获取丰富的教学资源,辅助教师课前备课、课堂教学反馈获取、课后作业布置,从而提高教师教学效率。融合ChatGPT的未来教育使得对学生进行个性化诊断成为可能,能够帮助学生明晰自身不足之处和薄弱所在,从而进一步弥补差距,提高学习质量。此外,ChatGPT还能够成为诊断教学的专业工具,帮助教师优化教学,推动教育评价革新,提高教学质量。
5 ChatGPT带来的挑战
5.1 助推学业作弊和学术剽窃
学生可能会利用ChatGPT代写家庭作业、完成论文写作、应付学业考试,其生成的文本结果逼真度和满意度都很高,使得作弊泛滥又难以被发现,不利于培养学生批判思考与解决问题的能力。同时,ChatGPT的训练数据来自互联网上公开数据,其生成内容的所有权至今尚无定论。而使用ChatGPT在未经授权的具有知识产权的图片或文字上进行二次创作产生的内容,也会给使用者带来侵权纠纷,不利于知识产权的保护。
5.2 威胁网络和信息安全
ChatGPT并不提供验真或者验伪,其可以直接生产针对性、多样化的剧本,用于诈骗、钓鱼等网络场景,从而达到攻击或者偷窃数据的目的。此外,OpenAI的使用条款规定OpenAI对用户输入和输出内容拥有广泛使用权以纳入训练数据库、用于改善ChatGPT,这可能导致个人信息等数据泄露风险大大增加。若用户在输入请求时,输入个人相关信息、业务数据或涉及商业秘密等的内容,将会增加相关数据泄露的风险。
5.3 增大道德和社会管治难度
互联网内容中不免存在带有偏见、歧视、文化和意识形态侵袭等危害性言论。ChatGPT有机会学到这些危险性言论的模式,使得其在处理一些敏感的话题时,可能会出现不恰当的回答或语言。此外,也会有人刻意提问“如何编造杀猪盘”等类似问题,诱导ChatGPT输出帮助进行违法犯罪的知识,从而使防范该类行为变得更加困难。故如何加强对ChatGPT的监管和治理已成为社会管理者需要思考的问题。
6 结语
ChatGPT作为一种里程碑式的AI应用,在短时间内已经形成了庞大的用户群体,正在改变人类思考和处理问题的方式方法,有望重塑各行业生态乃至整个世界。使用者不仅需要充分利用ChatGPT的优势和潜力,还需要警惕其可能带来的负面影响,采取适当的措施来保障人们的利益和权益,推动AI技术的健康发展和应用。
參考文献
[1]陈永伟.超越ChatGPT:生成式AI的机遇、风险与挑战[J].山东大学学报(哲学社会科学版),2023(3):127-143.
[2]张夏恒.新一代人工智能技术(ChatGPT)及其对人类社会的影响与变革[J].产业经济评论,2023(3):22-30.
[3]朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].新疆师范大学学报(哲学社会科学版),2023(4):113-122.
(编辑 姚 鑫)
Research on the principle and future impact of ChatGPT technology
Chen Guokai
(School of Computer Science, Huainan Normal University, Huainan 232001, China)
Abstract: The release of ChatGPT has aroused wide discussion around the world, which is regarded as a major revolution in the field of artificial intelligence and will have a profound impact on the development of human society.This paper reviews the development history of ChatGPT, explains the underlying technical principles of ChatGPT, and analyzes the technical limitations of ChatGPT in terms of data, resources and models. It discusses the opportunities brought by ChatGPT to routine work, business development, education mode and other aspects, and warns the challenges brought by ChatGPT in academic cheating, academic plagiarism, network information security, social supervision and other aspects.This article can help people understand how to use ChatGPT as a tool to cope with the coming changes.
Key words: ChatGPT; generative artificial intelligence; large language model