ChatGPT 类AI-GPT 技术应用对图书馆信息处理的变革探析
2024-04-14王静静叶鹰王婉茹山东大学新闻传播学院复旦大学国家智能评价与治理实验基地南京大学江苏省国际联合信息学实验室浙江财经大学信息管理与人工智能学院
王静静,叶鹰,王婉茹 (. 山东大学新闻传播学院;2. 复旦大学国家智能评价与治理实验基地;3. 南京大学江苏省国际联合信息学实验室;4. 浙江财经大学信息管理与人工智能学院)
2020 年底,采用强化学习神经网络的AlphaFold 在预测蛋白质结构中展现出人工智能(AI)强大的科学应用功能。2022 年11 月30 日横空出世的ChatGPT 更是标志着一个全新AI—GPT时代的到来,成为AI 2.0 时代的标志[1],随即带来巨大的社会影响和经济价值,促进着产业与学术的双重变革和发展。《科学》 杂志公布的2022 年度十大科学突破将生成式人工智能(AIGC,AI—GPT) 作为AI 的重要突破,AI 应用深入到以往被认为只有人类才能涉及的领域,如科学发现与艺术创作[2]。随着AI 技术的快速发展,大语言模型应用如ChatGPT 等很快成为研究热点。作为一种基于自然语言处理(Natural Language Processing,NLP)的AI 模型,ChatGPT类技术应用有潜力为图书馆的信息处理带来革命性的变革[3]。有鉴于此,本文在阐述ChatGPT 类AI—GPT 技术应用研究现状的基础上,探析Chat-GPT 类AI—GPT 技术在图书馆信息处理应用的重点,并探讨图书馆信息处理的可能创新路径,以期促进智慧图书馆建设和图书情报工作创新发展。
1 ChatGPT 类AI—GPT 技术应用综述
ChatGPT 是OpenAI 基于GPT(Generative Pre-training Transformer) 的一种人工智能模型。它利用深度学习方法,通过大量数据的预训练,具备了理解和生成人类语言的能力[4]。除OpenAI公司2023 年3 月14 日推出基于GPT-4 的CharGPT Plus 外,国外的谷歌、Meta、微软、Anthropic 等公司,以及国内的百度、华为、腾讯、科大讯飞、清华大学等机构,都集中资源推进AI 技术的研究和应用落地。其中,Anthropic 公司开发的被称为ChatGPT 最强竞品的Claude 于2023 年7 月完成了版本升级,即Claude2,其在文本分析、代码编写、数学推理等方面具有强大的功能。国内外多机构对AI 技术频繁、快速的更迭,体现AI 技术发展进入空前激烈状态,ChatGPT 类AI-GPT技术在各行各业中的应用及落地也逐渐受到广泛关注。
AI-GPT 技术应用发展日新月异,几个重要里程碑事件堪称ChatGPT 的“史诗级进化”:2023 年3 月,ChatGPT 可与5,000 多个应用交互并能联网获取新知识;2023 年5 月,微软操作系统全面接入GPT—4,ChatGPT 重塑Windows;2023 年7 月,OpenAI 向所有Plus 用户开放代码解析器,GPT—4 API 也全面开放使用。
ChatGPT 类AI-GPT 技术应用之所以能受到业界、学术界广泛关注并取得较大发展前景,得益于算法、算力和数据的大幅提升。算法实现过程主要分为三步:一是借助标记数据集对预训练模型进行有监督微调;二是收集数据并训练奖励模型;三是利用强化学习进行近端策略优化,在进一步微调的基础上进行更新迭代,从而使结果更符合实际情况。在算力层面,如GPT—3.5 在微软Azure AI 超算基础设施上进行训练,总算力消耗约3640PF-days(每秒一千万亿次计算,可运行3,640 天)。在数据层面,OpenAI 公司自2018年开发出拥有1.17 亿参数的GPT—1(Generative Pre-training Transformers) 模型后,又于2019 年发布了最大参数为15 亿的GPT—2,于2020 年发布了最大参数为1,750 亿的GPT—3,虽然2023 年发布的GPT—4 未公布其数据量,但是据相关报道参数量估计达GPT—3 的6 倍[5],即最大参数约为10,000 亿。除性能参数和预训练数据容量有了极大的提高外,训练数据也呈现多样性趋势,包含社交媒体数据、维基百科数据、书刊报纸数据、公共爬虫数据等。算法、算力、数据的提升使得ChatGPT 类AI—GPT 技术输出的答案呈现针对性更强、准确率更高的特征趋势[6]。
ChatGPT 类AI—GPT 技术提供高质量的内容生成和强大的交互性功能,使其应用领域广泛,目前研究主要集中在教育、游戏、广告、媒介等领域[7]。在教育领域,ChatGPT 类AI—GPT 技术对于教师来说已经开始从课程材料准备到课程评价产生全系列的影响[8],而ChatGPT 类AI—GPT技术的参与又影响学生的学习方式。对于教师来说,ChatGPT 类AI—GPT 技术可协助教师准备上课课件,生成符合学生学习水平的教学内容;此外还可根据学生的学习水平自动出题并改题、根据学生学习特点提供个性化的学习内容和反馈,减轻教师重复工作,使教师抽出更多的时间关注学生全面发展。对于学生来说,ChatGPT类AI—GPT 技术可进行作业辅导,这种互动式学习能够实现更好的学习效果,激发学生学习热情。总体来说,ChatGPT 类AI—GPT 技术将在一定程度上颠覆教育领域,但同样面临一定的挑战,如作业及考试作弊、创新思维缺乏等。在游戏领域,个性化内容能够产生最佳体验,而这正是ChatGPT 类AI—GPT 技术所擅长的,不仅允许用户自定义其化身,还能提供多样化的场景和故事情节[9-10]。通过游戏用户画像分析用户兴趣,然后采用自然语言处理技术、情感计算系统和多轮对话系统提供最具个性化的游戏服务,并可在元宇宙中构建沉浸式的虚拟场景[11],实现沉浸式游戏体验的效果。ChatGPT 类AI—GPT 技术在广告和媒体领域所扮演的角色越来越重要,借助多模态信息处理能力,在多轮对话系统辅助下按照用户需求生成广告logo、海报等[12]。此外,ChatGPT 类AI-GPT 技术可以辅助新闻工作人员进行新闻内容写作,节省广告商和新闻工作人员时间和资源的同时创建高度个性化内容,促进媒体的多样性,为受众带来更好的体验,改变广告和媒体服务模式。
图书馆作为保存人类记忆并提供知识加工服务的重要场所同样会受到ChatGPT 类AI—GPT 技术的深刻影响,作为提供公共文化服务的主要机构,图书馆向社会各界提供知识服务,故对图书馆工作人员的信息处理能力提出了较高的要求,这就要求图书馆工作人员具备较高的专业素养和知识水平,从而更好地为各类用户服务,解决用户实际需求。OpenAI 公司的核心宗旨是“实现安全的通用人工智能,使其有益于人类”[13]。在面对ChatGPT 类AI—GPT 技术时,图书馆这一致力于关注技术发展的公益服务机构也一直持积极探索的态度,且已有研究开始关注ChatGPT 类AI—GPT 技术在图书馆领域的应用,重点分析应用原理、场景以及知识服务模式等。图书馆在信息处理方面应持积极主动的接纳态度,面向新技术革命浪潮奋进。
2 ChatGPT 类AI—GPT 技术的图书馆信息处理应用重点
2.1 文献分类与标引
ChatGPT 类AI—GPT 技术可以根据文本内容自动进行文献分类,如ChatGPT 通过统计分析、语义分析等方法,快速理解文献的语义内容,提取关键词、实体等信息。然后综合主题词、背景知识等信息,根据图书馆已有的分类体系,构建文献的分类依据,分析不同主题词和概念之间的关联,从而识别文献的学科交叉属性。ChatGPT类AI—GPT 技术的泛化能力,可在使用人工标注的训练数据的基础上,针对图书馆分类体系训练文献分类模型,做到对新传入文献的自动化分类,这种自动化文献分类方式,可以显著提升图书馆文献分类的效率,节省大量重复劳动。同时,分类质量也可以得到提升,但目前仍需人机协作,发挥各自优势。
ChatGPT 类AI—GPT 技术实现标引能力提升主要依靠自动标引、多语言标引以及候选词标引等功能。自动标引的过程主要包含:通过语义分析等自然语言处理技术快速理解文献的语义内容;然后从文献中提取标题、作者等基本元数据和代表主题的关键词;接着依据图书馆标引规范,构建自动标引内容的评价系统;使用人工标引数据训练标引生成模型;对传入的新文献使用训练好的模型自动生成标引内容;最后根据评价系统不断进行优化,从而达到ChatGPT 类AI—GPT 技术生成的标引可辅助和补充人工编目的目的。多语言标引同样需要先对文献进行语义内容的理解;然后按照一定规范对源语言文献生成标引内容;接着将源语言的标引内容翻译成目标语言;因目前机器翻译仍存在一定的不足,故需人工编目员对机器翻译结果进行审核、修正等操作,人工修正有助于增量训练翻译模型;在收集用户反馈的基础上进行翻译优化;在人工审核和用户反馈双重保证下形成多语言标引库,从而达到使用多种语言进行统一检索的目的。候选词的标引则需将单个词条组合生成候选的标引组合,同样在人工辅助标引和评价系统双重保证下生成候选词标引,达到不断充实候选标引库的目的。不论是自动标引、多语言标引还是候选词标引,都可减轻编目员的重复劳动,提升标引效率和质量,使更多文献能够被规范化组织和检索。
2.2 精准检索
目前,图书馆检索系统主要基于目录检索系统或数据库系统,以关键词或主题的方式进行检索,此类检索方式使用门槛较高、检索思维受限、语言单一。图书馆这种知识服务机构所面临的用户形形色色,对普通用户来说,此类检索方式存在效果、体验差的问题。ChatGPT 类AI—GPT 技术可实现与搜索引擎相结合进行检索的功能,ChatGPT 类AI—GPT 技术可以深度理解用户的查询意图,帮助搜索引擎找回更全面的相关结果,减少遗漏。
图书馆这一类知识服务机构,会面对来自不同国家、使用不同语言的用户,跨语种翻译在一定程度上会影响用户检索信息的质量。ChatGPT类AI—GPT 技术依托机器翻译,支持多语言场景的互操作检索,该类AI 技术的发展可以在生成对话、传输信息时,更好地理解用户的语言表达逻辑,在一定程度上能够消除语言障碍,这大大拓宽了图书馆服务的覆盖面,提高不同语种用户获取服务的便捷性,打破语言之间的壁垒,从而提升图书馆的检索服务质量。
ChatGPT 类AI—GPT 技术能够理解复杂的自然语言查询,提供更精确的文献检索服务,从而提升用户的检索体验。ChatGPT 类AI—GPT 技术还可进行知识图谱构建,通过分析用户的语言表达、关联词汇等建立概念网络,从而更深入地理解用户的真实检索意图,突破单纯文字匹配的局限性。
传统图书馆信息检索多以输入文本的方式进行,此类检索方式存在准确率、查全率较低的问题。而ChatGPT 类AI—GPT 技术的一个明确发展方向是多模态,多模态技术可实现图书馆信息检索多源异构数据的输入,如输入图书的图片、视频、简介等信息,从而促进输入信息在不同维度、不同来源、不同层次的聚合,在细化输入信息的基础上提高检索准确率和全面性。此外,多模态信息的输入为弱势群体用户提供了辅助检索方式,为消除数字鸿沟奠定基础。
2.3 智能问答与咨询服务
ChatGPT 类AI—GPT 技术应用在图书馆的智能问答与咨询服务中,可以为用户提供实时、精准的信息服务。相比于人工服务,ChatGPT 类AI—GPT 技术可提供昼夜不间断的服务,突破人工服务时间的限制,用户可随时提问,提高了服务的可及性。
ChatGPT 类AI—GPT 技术在支持上下文理解方面有了较大的提升,如ChatGPT 可以对整个对话过程的数据进行记忆,从多轮对话中增强学习性,更好地了解用户特征和需求,从而在不同情境下实现对咨询的个性化服务。随着版本升级,ChatGPT 类AI—GPT 技术在支持长上下文理解中有了质的飞跃。Claude 上下文窗口从9k token 扩展到100k token,Claude2 更是将上下文窗口扩展到200k token,即支持大约150000 个单词,这意味着一般人用时大约10 小时读完的等量内容,Claude2 可在1 分钟内消化吸收。借助上下文理解以及较大窗口的上下文支持,可提高图书馆咨询服务的效率,节约用户时间,增强图书馆的公众信任性。
相对于传统图书馆咨询服务一般仅可回答书目简介等信息而言,ChatGPT 类AI—GPT 技术的训练数据则包含文本、图片、视频和表格等形式各异、来源不同的数据,可以借助训练数据,可对用户关注的书目剧情、人物关系等细节进行精准化服务,且能根据读者偏好和阅读习惯优化回答质量。ChatGPT 类AI—GPT 技术借助用户基本信息、借阅历史、搜索词等信息和行为模式可构建用户图谱和情景图谱,用户图谱和情景图谱有利于分析不同情景下用户的信息需求和行为模式,更好地帮助AI 理解用户的情景并给出符合语境的回复。相比单一规则或者简单匹配,这种基于图谱的深度理解可大大提升智能问答和咨询服务的质量和满意度,这也是提升用户体验和服务效率的关键。
ChatGPT 类AI—GPT 技术具有较强的泛化能力,可以快速从大量图书馆相关数据中学习,持续积累知识,从而不断优化并提高回答的质量,能对提问作出及时响应,并根据用户输入自适应响应时间,从而实现精度和速度的双重增益。基于强大的语义理解能力,ChatGPT 类AI—GPT 技术可以推断并回答一些不明确的问题,在一定程度上突破关键词匹配的局限,提升咨询效率。
3 图书馆信息处理的可能创新路径
3.1 智慧图书馆知识库建设
图书馆作为人类知识的殿堂,蕴含丰富的馆藏资源,随着对这些馆藏实体资源(如藏书)进行数字化建设,数字图书馆的发展也在日趋成熟。在当前智慧图书馆发展与建设背景下,除数字图书馆关注的实体资源与数字化实体资源之外,原生数字资源和创新型数字资源为智慧图书馆内容建设增加了智识特征[14]。ChatGPT 类AI—GPT 技术的发展有望为智慧图书馆中多源、多模态、多语言的资源内容建设与信息处理提供强力技术支撑。
馆藏实体资源经数字化、结构化转换与知识组织等过程,能够形成优质可信的基础知识库[15]。如前文所述,利用ChatGPT 类AI—GPT技术能够进行文献自动分类与标引。在此基础上,进一步完善信息资源分类与标注体系,利用ChatGPT 类AI—GPT 技术及其核心的大语言模型强大的语言理解、复杂推理、并行计算、自主学习与知识获取等能力,将数字化实体资源与原生数字资源(如电子期刊)、创新型数字资源(如研究成果与社交媒体中可检索的数据)[16]进行分类、标引、互联共融,使得不同载体的资源之间产生信息流通与知识流动,共建智慧图书馆知识库,助力“全球知识库”(Global Knowledge Commons)[17]建设。
3.2 图书馆用户信息集成处理
读者作为图书馆的用户,是图书馆提供知识和服务的直接对象。用户信息包括个人基本信息、浏览借阅信息、咨询记录等常规化信息。在智慧图书馆建设愿景中,用户不仅仅是图书馆的服务对象,还有望成为图书馆的贡献者,用户与用户之间可进行互动与分享,且用户可自主参与到图书馆建设中。因此,除常规化用户信息,用户个人偏好信息、用户馆内社交数据、用户馆内动态以及用户馆际交互产生的各类数据信息,其规模都会大幅增加。利用ChatGPT 类AI—GPT 技术,可将各类图书馆用户信息集成,构建全方位的用户画像和多样化的情景图谱。
在此基础之上,根据图书馆用户历史和当前行为分析,针对不同用户群体和不同服务场景,可提供个性化的检索服务、智能问答与咨询服务。对于检索目标明确、问题清晰的用户或场景,自动筛选或匹配用户所预期的智能生成内容;对于目标不明确、表达模糊的用户或探索尝试性的场景,嵌入模糊计算、决策理论和优化算法[18],进一步提高信息处理和智能生成内容的精准度,使服务效率尽可能满足用户预期。此外,由于ChatGPT 类AI—GPT 技术应用会将用户输入的文本作为训练数据,因此在图书馆用户信息处理过程中,用户隐私保护与信息泄露问题尤其值得关注。
3.3 图书馆数智化服务开放平台搭建
在当前开放、共享的理念下,国内图书馆的服务平台急需进一步拓展服务应用场景,打造中国化和本土化的数智化服务开放平台。当前,由国内社区自主研发的“云瀚”平台[19]融合了智慧服务,形成了开放的应用生态,已成为下一代图书馆服务中文平台的代表,上海图书馆已经成功实施了部分模块。在前述智慧图书馆知识库建设与图书馆用户信息集成处理的基础上,ChatGPT 类AI—GPT 技术应用有望进一步为图书馆数智化服务开放平台的搭建提供丰富的支持模块、整合多模态生成内容、拓展智慧服务场景,使用户成为平台的主人并深度参与其中,获得更深层次的体验与服务。在平台构建的基础上,进一步开发满足图书馆运行和用户需求的各类移动端应用,以期为用户提供更方便快捷的服务。
此外,在当前元宇宙热潮下,融合ChatGPT 类AI—GPT 技术,打造虚实交互的数智化服务场景,即元宇宙图书馆,用户可以在元宇宙图书馆社区中,沉浸式畅游、交互式阅览。融合当前人工智能、虚实交互等各类新技术,可以搭建图书馆数智化服务开放平台,将有望助力中国图书馆向智慧化转型,真正建成“全国智慧图书馆体系”[20]。
4 小结
图书馆信息处理服务正处于技术变革时代,ChatGPT 类AI—GPT 技术应用作为驱动图书馆信息处理的关键技术之一,提供了前所未有的内容生产能力,有助于实现更智能化和个性化的服务。具体来说,ChatGPT 类AI—GPT 技术应用通过自动标引、多语言标引、候选词标引等方式强化文献的分类与标引功能,减少图书馆工作人员的重复性劳动,提高工作效率和质量。ChatGPT 类AI—GPT 技术应用在与搜索引擎结合、多模态处理、多语言翻译的基础上,打破图书馆信息处理的语言壁垒,实现不同语言场景的融合,并能有效解决由于输入数据维度、来源、层次不同而导致的检索不精准问题。智能问答与咨询服务可依靠ChatGPT 类AI—GPT 技术应用的不间断服务、泛化能力、支持长上下文理解、用户图谱和情景图谱等功能和特性,实现进一步优化。此外,从智慧图书馆知识库建设、图书馆用户信息集成处理、图书馆数智化服务开放平台搭建三个角度,可以发现图书馆信息处理的可能创新路径。
ChatGPT 类AI—GPT 技术应用为图书馆信息处理带来机遇的同时,也形成了一定的影响和冲击,如数据安全、隐私保护、技术稳定性等。三星公司在启用ChatGPT 20 多天后,就因员工私自上传敏感机密数据导致芯片机密泄露。在技术翻译中,ChatGPT 存在难以兼顾不同语言的语言习惯、容易忽略语境中隐含的意思、精准表达欠缺等问题,尤其对于中文来说,语境尤其重要,其关系我们对内涵的理解。面对数据安全、隐私保护等问题,我们有必要加深对ChatGPT 类AI—GPT 技术应用的理解,从而更好地利用这一把双刃剑。图书馆应积极探索利用ChatGPT 类AI—GPT 技术应用进行信息处理的最佳实践,但同时也要重视相关的伦理和法律问题。
该类技术的兴起正逐渐渗透到各行各业,也正在变革图书馆信息处理方式,但无论如何变革,我们不能被技术发展所迷惑,必须清醒地认识到图书馆这种知识服务机构在文化内涵中的独特价值。面对上述问题,除加强技术攻关并规范行业应用外,图书馆信息处理在使用该类技术时要依法依规探索和使用各项功能,做好相应的安全宣传和培训工作,从而增强读者和员工的保护意识,达成图书馆和用户双赢的局面。在面对ChatGPT类AI—GPT 技术应用对图书馆信息处理带来变革性影响的同时,做到效益最大化、弊端最小化。