ChatGPT技术在图书馆管理中的应用及其安全风险分析
2024-09-15武爱林杨秀敏邱惠娟梁莹莹
摘要:为加深用户对AI技术整体认知,了解ChatGPT这类新型的智能技术的多模态的典型应用。ChatGPT在信息资源建设、信息组织与检索、信息管理算法与技术、人机交互与协同等方面提供借鉴,具有深远影响。并通过思考ChatGPT技术产品,分析ChatGPT在图书馆管理中的应用,及ChatGPT存在的由于技术局限的安全风险。
关键词:ChatGPT;语料;学习能力;图书馆管理;安全风险
中图分类号:G25 文献标识码:A
文章编号:1009-3044(2024)24-0088-03
开放科学(资源服务)标识码(OSID)
1 ChatGPT的支撑技术
ChatGPT(Chat Generative Pre-trained Transfomer)是基于GPT3.5架构的大型机器语言系统模型。完整的ChatGPT支撑技术构成是由计算软硬件及基础设施等构建的。其中包括基础层、多模态训练模型、支持应用技术的应用层(见图1)[1]。ChatGPT最早是一种无标签数据的预训练半监督学习方法。后来通过微调具有对具体任务进行全监督学习的能力。GPT架构(Generative Pre-trained Transformer)生成式预训练变换模型,经过训练,能够自主的展开学习,从而实现高质量的人机对话和具备海量的预训练语料。目前OpenAI最新技术GPT4.0模型驱动功能更强大。具有更好的创造性、协作性、安全性和逻辑推理能力。在算力方面上,ChatGPT利用云计算Azur AID的超算设施支持GPT3.5模型等大型语言训练模型。总算力运行3640天约消耗3640PF-days,可以适应广泛的下游任务[2]。
ChatGPT的支撑技术,AIGC(即Artificial Intellingenc Generated Content)作为ChatGPT的核心技术,是利用人工智能技术来自动产生内容的。AIGC经历了从PGC(Professional-generated content,专业生产内容)、UGC(User-generated content,用户生产内容)、AIUGC+AIPGC才发展到AIGC技术(见图2)[3],AIGC典型技术体现比如,内容撰写、语义理解、数字编辑孪生为文字、图形、音频、视频等复合形式的内容。
RLHF(Reinforcement Learning from Human Feedback)技术是基于人类反馈的强化训练学习,即近端策略优化PPO算法,来更理解性的分析输出的结果,经过海量文本数据语料训练、监督学习、人工纠错、对话模拟形成更接近人类语言的模型。ChatGPT通过机器学习、Gan(Generative Adversarial Networks,神经网络)等多种人工智能技术运用,以人类思维理解、情感认知、信息分析达到智能交流。通过初级预训练语言深度学习从而利用各个场景审视观察达到强化训练。再通过打分模型的训练评估数据输出的质量,从而判别输出一个文本质量评估标记数字模型的优劣。最后基于RL进行语言模型优化,将初始需要调整的任务建模及通过打分的模型,进一步迭代式的更新打分模型(RM)和策略模型(Policy)以达到不断输出适合需求和认知的参数[4]。
Transformer(多层变换器)作为ChatGPT的底层技术,训练与推理并行的能力强大,能够自主地从数据中展开学习,通过人类潜在的能力,比如,预训练、人工清洗数据、人类反馈强化学习这些能力,结合自监督学习能力,能够具备获得具有更大语料数据库、更高更准确的计算能力、能够更好地融入工作内容场景,及具有预测自适应学习的多能力。ChatGPT是依附多种人工智能技术,加之人类智能深度学习,以实现认知语言理解的一种技术模式。在2022年12月公测后,助推新一代人工智能技术的热潮。更有利于图书馆扩展管理服务、提升工作效率。
1) ChatGPT的多模态应用:作为个性的智能认知工具,ChatGPT可以在游戏、娱乐、社交媒体、翻译、编程等方面带来颠覆性重塑。在语言文本产业链中,广泛在教育、医疗、媒介、法律等领域发挥重要作用。例如,电商把ChatGPT聊天机器人技术加入其货物配送应用中,将提升营销和顾客服务和其他自动化服务;可以互动交流有关食材、使用方法、健康饮食、等方面问题,以方便推荐更合理健康的膳食品类。为更好地辅助企事业单位办公,例如,内容撰写,只须把所需资料、数据服务输入ChatGPT中,ChatGPT可以从数据中深度和广度分析、检索知识编写出一份详细、完善的有远见的计划或报表等。ChatGPT在新商业模式下,能够带动传统行业应用,搭建起ChatGPT+医疗、ChatGPT+电商、ChatGPT+制造业、ChatGPT+金融等新的应用场景里[5]。
在高校为解决教育职业数字化提供了不同的契机,为高校图书馆发展提供多重角色。比如:教学管家、个性化辅助员、图书馆咨询员、教学评估员等[6]。
2) 教学管家的角色,ChatGPT的Eysenbach自适应系统可为学生提供个性化指导与辅导。了解学生对知识的掌握程度,以弥补学生对知识理解的漏洞,提升学生学习的成效。为学生职业方向提供规划与咨询,保障学生职业生涯规划更加清晰与明确,助力企业所要求等人才,进行专业性职业学习与培训,构建终身学习的模式。ChatGPT辅助教学上,可以为教师提供智能数字化设备操作说明,丰富教师的教学方式,提高教师教授课程的趣味性,为学生提供针对性辅导以及来自学生的反馈,从而提升教学效率和质量。
3) 图书馆咨询员的角色,ChatGPT可以作为教学与图书馆信息的连接员为学生提供多方面准确的信息。可以让图书馆所有资源发挥该有的作用。中文数据库、外文数据库、电子图书、试用数据库、自建数据库、书目查询、论文查重等功能成为职业教育、高等教育、继续教育三教改革与三教融合的内生力。辅助学生互动学习从而减轻三教融合中因教师、设备资源缺少及环境带来的困难。
4) 个性化辅助员的角色,ChatGPT可以化身AI助理,可以设置一些指定的自定义指令,比如,可以作为某个专业性职业的客服人员或老师、程序员等,为他们量身定制课程、计划、生成代码提供独特的价值。智能辅助提升学习能力和互动体验。可以打造ChatGPT成为个性化虚拟伴侣,鼓励和陪伴在你的左右,评估你当前的表现,提供反馈和鼓励,培养你持续学习的能力。
2 ChatGPT的技术和安全风险分析
1)因为ChatGPT3.5模型巨大的算力消耗,以及1750亿个参数需要上万个CPU/GPU全天24小时不间断输入数据,且花费高昂,故只能通过自行发电来供给运营所需的电力。这就意味着集中发电、公共化电力供应才能真正满足企业的需求[7]。
2)基于RLHF技术,ChatGPT具有推理演绎能力,可以从大量数据中获得敏感用户信息。由于预训练模型深度学习的能力不够强大,用户输入的信息有可能不经许可,不能为其他用户提供数据服务共享,而出现更多数据合规性和法律风险性的问题;智能聊天时,可能演绎出言语上的歧视、偏见、仇恨,而导致用户体验上的不满意。学术上无法提供全面和准确的数据,以及学科领域和专业知识上的不足和偏差等都会影响ChatGPT的演绎。
3)基于AIGC(人工智能生成内容)技术,只要管理者提供必要的提示语,可以协助读者完成需要的各种任务。在内容撰写应用上,生成代码可能隐含有安全漏洞,甚至无意中将私密数据上传到云端模型上,从而导致基于AI生成攻击,无法保障学习体验和用户数据安全,带来敏感信息的泄露风险和挑战[8]。
4)在知识产权和学术道德上,利用ChatGPT撰写、翻译、版权、学术论文等进行训练得到的数据,有可能侵犯知识产权和违反学术道德规范。从而侵蚀独立的科研能力和公平公正的学术氛围。目前可能因为基于原有知识进行的训练学习,缺乏解决问题的能力和持续学习的机制,还需要进一步探索多模态、多场景兼容的新模型来加强学习。通过构架相应的安全技术和制度,搭建解决方案和可信任的机制平台,可以对数据资源的精准要求达到有效配置。才能保障数据采集的准确、客观、降低数据偏差率,以应对未来ChatGPT所带来的安全影响和威胁。
ChatGPT类产品的安全问题是人工智能技术普遍存在的问题,但ChatGPT的生成式人工智能的语言系统模型、数字编辑、文本挖掘等方面关键技术的迭代升级、算力性能的提升、算法效率的增强,使得目标更加完善、精准化[9]。增强了模型的知识量级和泛化特质。它的深度学习可以不断冲破技术瓶颈,有利于技术创新的良性发展及可持续的创新进步。
3 ChatGPT在图书馆管理中应用分析
1)文献情报数据组织方式上的分析,从原来表面信息组织到ChatGPT语义内容组织,以及深度挖掘科技文献知识元对象,到双向对科技文献分析、方法、问题、实验步骤、数据资料、语义内容深入组织上都有深刻影响。图书馆信息机构可以强化研究将人工智能模型如何嵌入到搜索服务中,以及如何融合和友好展示检索结果或答案。基于文献的大数据训练、高质量大型语言模型共同开展检索服务应用,在用户使用方便性和用户体验方面以及检索结果和答案准确性之间进行平衡[10]。推动了信息资源管理、学科理论方法的创新和治理变革,加快信息空间中信息资源在流动和循环速率,对信息资源管理学科研究和实践带来了挑战和机遇。进一步推动信息资源建设的衍生。
2)文献情报知识服务模式上的分析,从信息检索到人机交互上有了极大转变。ChatGPT可以为前台工作提高工作效率和服务质量。ChatGPT可以提供文本大数据语料,搜索、查询、等待、在线引擎的问答检索等等功能,充分发挥图书馆海量优质科技文献语料知识,夯实文献全文本地化建设,通过进行自主大模型训练、图书资料加工、积累多形式应用,可以深化大规模语言模型应用,提升图书馆智能化加工和服务程度的能力。在图创系统中导入ChatGPT程序,比手动录入信息可以更快时间、更高效率、更低成本提升人力的效能和整合查询的效率。
3)文献情报分析方法影响上,从手工操作到大规模智能分析,元数据由原来数据上的准备、统计分析、提炼报告、撰写等手工工作,从而转变为掌握智能服务的数据控制权,具备观点提炼、内容综述、场景问答、语言翻译、语义分析、智能推荐、辅助决策的强大体验[8]。能够在大规模分析知识图谱、图书馆知识库等产品基础上,实现语义理解与信息检索类型上的应用。
4)用户阅读习惯上能够引导人机协同。广大读者的阅读模式可以从语义分析多维度可视化展现出来,交互式应答而形成人机协同的新模式。用户输入文献资源,可自动实现知识抽取、关系揭示,提升了阅读兴趣和学习能力。ChatGPT就像图书馆管理员将大数据海量内容筛选后传递给有需求的用户,检索和问答互相交融。
5)ChatGPT的风险需要图书馆建立安全管控上的有效机制:ChatGPT可能存在复杂的语言结构导致语境不足、不正确的语法等技术上的局限性,而生成结果具有不能理解的偏见,需要进一步优化、改进模型。在数据隐私风险方面,通过检索、查询、问答等行为可以记录分析用户需求和语料,也可能加剧数字鸿沟、数字泄漏,因此需要加密通信信息,防止侵犯个人隐私[11]。在著作权风险方面,要注意完善对算法推荐、深度伪造等新技术应用的规范管理等。
4 结束语
新兴技术是双刃剑,既有机遇,也伴随着风险。ChatGPT作为代表性的新一代人工智能技术,将会对社会生活、经济技术、第四次工业革命带来契机。出现人机一体化、工作方式智能化、生产力的巨大提升,带来生产关系的范式变革,劳动分配方式的改革。然而,ChatGPT技术的影响很大程度上取决于算力瓶颈、数据安全领域能够规范技术研发路径,及可信可控的技术安全屏障。为此要求做好大模型技术创新体系和复合型人才在智能领域的培训、交流、合作。建立起全流程的数据采集与数据安全的规范管理体系优化才能更好地推进ChatGPT的发展。从而推动情报智能、档案智能、智慧图书馆的信息资源等高效流动和循环发展,提升信息空间的创新和效率。结合人类的创新能力能够充分发挥ChatGPT的优势。当前ChatGPT将发展到GPT4.0技术,在模型规模、完善度、推理能力、创造力等方面有明显的改进。也在逐步解决GPT3.5带来的限制[12]。ChatGPT将会是一个重大飞跃和增量级升级,技术能够显著提升到一个更新的高度。
参考文献:
[1] 赵瑞雪,黄永文,马玮璐,等.ChatGPT对图书馆智能知识服务的启示与思考[J].农业图书情报学报,2023,45(3):23.
[2] 陆伟,刘家伟,马永强,等.ChatGPT为代表的大模型对信息资源管理的影响【J/OL】 图书情报知识 2023,28(2):75.
[3] 樊雪寒.ChatGPT的数据安全问题引发关注[N].第一财经日报, 2023-02-27(A04).
[4] 张夏恒.ChatGPT的逻辑解构、影响研判及政策建议[J].西南师范大学学报(哲学社会科学版), 2023, 48(2):102.
[5] 沈丛.ChatGPT将给芯片行业带来哪些利好[N].中国电子报, 2023-03-07(007).
[6] 于文轩,马亮,王佃利,等.“新一代人工智能技术ChatGPT的应用与规制”笔谈[J].广西师范大学学报(哲学社会科学版), 2023, 44(3):69.
[7] 张夏恒.新一代人工智能技术(ChatGPT)及其对人类社会的影响与变革[J].产业经济评论, 2023,18(2):85.
[8] 朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].西南师范大学学报(哲学社会科学版), 2023,48(2):106.
[9] 张智雄,刘欢,于改红.构建基于科技文献知识的人工智能引擎[J].农业图书情报学报, 2021, 33(1):17-31.
[10] build next-gen apps with open AI powerful models【EB/OL】2023.3.22 https://openai.com/api/
[11] gpt-3-encoder[EB/OL][2023-03-22]https://www.npmjs.com/package/gpt-3-encoder.
[12] 令小雄,王鼎民,袁健.ChatGPT爆火后关于科技伦理及学术伦理的冷思考[J].新僵师范大学学报(哲学社会科学版), 2023, 44(1):123.
【通联编辑:梁书】