大语言模型赋能图书馆服务的测评及其应对策略
2024-06-29陈艳艳
摘要:大语言模型为图书馆智慧服务、精准服务的进步提供了巨大可能。文章通过测试国内外多个大语言模型在执行图书馆信息咨询服务时的全面性和准确性,为大语言模型赋能图书馆精准化智慧服务提供参考。以图书馆信息服务中的问题提示语为例,运用语言学方法,在词汇、句子及其关系的层次上分析、比较、统计这些输出结果的全面性和准确性及其原因。从词汇、句子及其关系的角度来看,大语言模型在图书馆精准服务方面的全面性和准确性程度来源于对其词汇、短语、句子、段落等实体及其关系标注的完善性以及算法的先进性与否。图书馆运用大语言模型赋能精准化、智慧化信息服务,建议参照多个大模型的输出结果以互补,再进一步配合相关文献资料予以分析、佐证,以力求所获知识的准确性和全面性,同时还应注重提示语的使用技巧。
关键词:大语言模型;ChatGPT;图书馆赋能;信息服务;精准化服务
中图分类号:G252文献标志码:A
0 引言
2022年11月,Open AI公司推出了里程碑式的大语音模型——ChatGPT-3,5天获得100万用户[1],2023年4月Chat GPT-4发布,周活跃用户超1亿。国内的互联网巨头、人工智能企业也纷纷推出各自的大语言模型,比如百度的文心一言、阿里的通义千问、科大讯飞的星火、字节的豆包等[2-3]。大语言模型(Large Language Model)通过对海量文本数据进行多层深度网络的训练,利用创新的Transformer算法学习语言的结构、规则和语义,从而可以生成具有自然语言风格的文本或回答自然语言的问题。人工智能生成内容(Artificial Intelligence Generated Content,AIGC)作为大语言模型的应用,为智能问答系统带来了颠覆性变革,使其可以高度智能化地理解人类语言,并生成连贯、自然的对话内容[4]。
图书馆正处于由传统服务向智慧化服务转型升级的阶段,尤其是各高校图书馆正着力提升图书馆服务的智慧化、精准化,以期为教学和科研提供更及时可靠的信息支撑。无论是为读者改善阅读体验、提供个性化服务、智能问答和辅导、提高检索效率和准确性,还是为图书馆员提供学习培训支持、数据分析与决策支持[5],大语言模型都将发挥积极作用。对大语言模型赋能图书馆服务中的全面性和准确性进行研究,将有助于这一智能技术在未来的图书馆精准化、智慧化服务中发挥更有力的作用。
1 大语言模型赋能图书馆服务研究现状
目前,大语言模型与图书馆服务相关的研究大多集中在归纳总结大语言模型在图书馆中适用的不同应用场景[6-9]和大语言模型为图书馆行业带来的机遇与挑战[10-12]等方面。在大语言模型与图书馆服务中应用的研究方面,符荣鑫等[6]从理论着手,应用概念的分析、比较、综合、抽象的方法,归纳总结出AIGC的6个共同特征和9个差异特征。王翼虎等[4]通过大语言模型微调+langchain本地知识库的联合应用方案,验证了其在图书馆参考咨询服务中的可行性。赵浜等[13]应用实证的方法,在两个大语言模型GPT-3.5-Turbo和ChatGLM-6B上进行测试,从宏观角度出发对其总结、拓展、分类、对比、推理、计算、检索、转换、编程等能力水平进行分析评价,得出大语言模型在执行多数典型情报任务上都展现出了较强能力的结论。虽然已有文献对大语言模型在赋能图书馆各项任务以及从思维方法两个角度对大语言模型的表现进行了测试,但从图书馆某项任务的完成度,并不能解释大语言模型生成内容全面性和准确性与否的原因,从思维(分析、概括等)的角度也无法理解其处于目前水平的根本原因。因此,大语言模型能否为图书馆很好地赋能,应先对其进行较为客观的、全面的了解,而不能满足于根据大模型目前显现的能力而进行简单地“畅想”[14]。实际上,大语言模型性能高低的原因主要取决于两个方面:一是知识图谱的完整性,二是算法的有效性。知识图谱的完整性决定大语言模型提供答案的全面性、准确性。算法的有效性决定知识(词、句等)之间关系识别的正确性。图书馆各项任务赋能的水平归根结底是模型理解语言底层逻辑的水平。目前还没有文献从语言学中词、句及其关系的角度来总结大语言模型的性能现状及其原因。本文从语言学角度,以图书馆信息服务中的问题提示语为例,对10多个大语言模型的输出结果进行统计分析,归纳出大语言模型当前性能现状及其原因,并提出相应的应对策略。
2 研究设计
目前,具有代表性的AIGC包括文心一言、通义千问、讯飞星火、豆包、百川大模型、天工AI、面壁露卡、智谱清言[15]、ChatGPT等。而图书馆作为知识宝库和信息中心、学习中心,需要被赋能的工作往往要求知识的全面性、准确性,因此,主要通过测试这些大模型在信息服务场景中输出结果的全面性和准确性来验证这一指标是否达到。图书馆服务包括读者服务、信息检索、参考咨询、智能推介、科技情报分析、学科服务、培训教育等多个应用场景,无论是将大语言模型嵌入哪种服务场景,都离不开用户与大语言模型之间进行文本交互,以文字(或将语音识别为文字)的形式提出需求其输出结果的必要环节。探究大语言模型赋能图书馆精准化信息服务的准确性、全面性问题,归根到底仍要从语言学底层本质逻辑上进行分析。本文模拟不同信息服务场景中用户与大模型之间的问答环节,从几个问题提示语的输出结果中发现问题并分析原因。
3 研究方法/过程
包括ChatGPT在内的11个模型参与测试,对模型回答出现的问题进行提炼并分析原因。
实例1:(提示语)游泳诱发的心脏病有哪几种?
问题1:回答的全面性不足。各种模型分别给出了游泳可能诱发的心脏病类型中的某几个种类,而通过人工检索文献数据库和开放的搜索引擎,归纳总结,可得出冠心病、心肌缺血、心律失常、心律不齐、心力衰竭、心肌炎、冠状动脉性心脏病等患者都有被游泳诱发心脏病的潜在危险[16-17],任何患有或有心脏病风险的人在潜水前一定要咨询医生[18]。这个结论,说明各模型给出的答案全面性方面都存在不足。
问题2:回答的准确性不足。表现在以下两个方面:(1)错误的上下位关系。比如面壁露卡给出的答案中包括“高血压”,智谱清言的答案中包括“脑供血不足”。“高血压”“脑供血不足”均属于心脑血管疾病,但不属于心脏病,可见面壁露卡将“心血管疾病”与“心脏病”概念混淆,智谱清言将“脑血管疾病”与“心脏病”混淆。(2)错误的对应关系。百川大模型给出的答案中第4条将“静止状态”与“游泳”形成错误的对应关系(见图1)。
原因分析:
首先,参与测试的大语言模型中没有建立字、词等细颗粒度概念的正确上下位关系。在大语言模型的前期标注中,没有将作为上位概念的“心脏病”与其所有下位概念建立准确、完整的关系,或在模型的知识图谱中缺少“心脏病”患者和参与某些运动项目时存在禁忌事项的关系。
其次,参与测试的大语言模型的算法出现问题。大语言模型在回答问题的同时,时间上不允许识别已有训练数据或历史文献中“心脏病”与其下位疾病之间关系这一过程。或者正是由于有天文级的训练文本量来作“训练数据库”,而其算力不足,根本无法支持这种即时搜索和识别功能的准确性和全面性。
最后,参与测试的大语言模型只对其“训练数据库”中某些文献或某篇文章进行知识抽取,而该篇文章中涉及“心脏病”的下位概念不全。从输出结果看,每个大模型给出心脏病的下位概念都不同。甚至针对同一问题,同一个模型多次给出的下位概念也会存在差异。因此,该推测具有一定合理性。
实例2(提示语):如何智能地识别句子之间的各种关系?
通义千问给出的答案如图2所示。
问题及原因分析:
首先,提示语中句子的省略部分识别错误。在上例提示语中,“智能”这一关键词具有潜在含义,表示被省略的主语是“机器”或“计算机”,而通义千问给出的答案对应的主语是“人”。究其原因,除了以大语言模型现阶段的能力还无法达到与人类的思维能力高度一致,提示语表述不够清晰明了也是出现错误的重要因素。
其次,大模型答案全面性不足。除通义千问外的其他9个模型,虽然正确识别出该提示语的主语是“机器”,但从每个模型给出的识别方法来看,有重复、有不同,却都不够完整。例如,文心一言给出的方法是依存句法分析、语义角色标注、关系抽取;智普清言给出的方法是句法分析、语义分析、实体识别、机器学习。其中,ChatGPT给出的方法是较为全面的,包括词向量和嵌入表示、句子向量化、神经网络、注意力机制、语义角色标注、图神经网络、迁移学习、知识图谱、监督学习和无监督学习9种,尽管如此,也没有形成完整的答案体系。其原因应该是这些模型都没有建立“识别句子间关系”与各种技术(人工智能、机器学习、自然语言处理)之间完整全面的对应关系。
最后,同位关系与上下位关系出现混乱。根据提示语的提问,各模型列出的多种方法之间应该是并列的同位关系。而在ChatGPT给出的方法中,同时出现了“监督学习”和“神经网络”,而“神经网络”是有监督学习的方法之一,二者应是上下位关系,而非同位关系。从该问题可看出,大语言模型还没有清晰地建立起词与词之间准确的同位关系和上下位关系。
实例3(提示语):大语言模型输出的结果对应与图书情报中哪些任务?
问题及原因分析:由于在提示语中将“于”错写成了“与”,通义千问模型将“大语言模型输出的结果对应了图书馆情报中哪些任务”理解为“大语言模型与图书情报的关系”(见图3)。
将提示语中的“于”字改正过来后,则给出了相对合理的结果。可见,提示语的表达是否准确、清晰、具体,也会直接影响大语言模型输出结果的准确性。究其原因,一是该模型缺少容错机制,二是没有模糊匹配的算法。
4 结果/结论
4.1 大语言模型输出内容的准确性和全面性不足
主要体现在以下4个方面。
(1)实体词之间的上下位出现错误,如将“高血压”“脑供血不足”识别为“心脏病”的下位概念。
(2)实体词之间的对应关系出现错误或对应关系不全,如将“游泳”与“静止”状态形成错误的对应关系。
(3)实体词之间的同位关系不全,如“监督学习”和“神经网络”这对上下位关系词被当作同位关系词使用等。
(4)某些模型没有容错机制和模糊匹配算法,如提示语中省略主语便无法正确识别句子意思;如提示语中的“对应于”错写成“对应与”,便无法根据其他关键词来识别信息等。
4.2 大语言模型对准确性要求高的学科领域赋能程度有待提高
从本文实例1可见,在医疗信息领域,大语言模型答案的全面性有时低至1/2或1/3。美国学者Nehal等[19]测试了GPT-4对皮肤科患者常见问题的回答,该科医生认为ChatGPT的测试结论中存在2/3的不恰当回答。其中某些答案不完整,某些存在错误信息。这一观点与本文实例1的数据分析结论不谋而合。而Naoki等[20]对GPT-4在诊断健康状况中的准确性进行了评估,得出GPT-4和医生之间诊断准确性相当的结论,但不可回避的是,医生的诊断也存在误诊问题。
另外,基于信息安全性的考虑,大语言模型的信息获取源只能是存在于开放网络上的信息,这些信息可能来自政治组织、非营利组织、公司和个人的文本。而大量有版权保护的发明专利、权威性文献和最新的科研成果是它无法轻易获取的。这也导致了大语言模型输出的结果在准确性和权威性上大打折扣。
4.3 提示语的表述对大语言模型输出结果的影响
实例2提示语中主语的省略和实例3提示语中的错别字,都影响到了大模型输出结果的准确性。除了大语言模型缺乏有效的容错机制和模糊匹配算法,还涉及提示语工程问题。
5 建议/策略
5.1 大语言模型的开发者还需完善大语言模型的知识图谱,并提高其算法
如果训练样本之间没有建立完善的知识图谱,在语言底层逻辑混乱的情况下,便无法正确学习出诸如上下位关系和同位关系、同义关系和反义关系等细颗粒度语义之间的关系。这些因语法、词汇、语义和上下文混淆造成的错误回答,对有相关专业知识储备的用户而言,可利用已有知识对其进行杂质过滤、数据清洗的干扰排除,但会对大量非专业的用户造成极大困扰。因此,训练模型学习出各种概念词汇之间的关系,建立完整的知识图谱仍是解决问题不可缺少的一环。
大语言模型的开发者需继续完善预训练数据文本的知识图谱,并在识别概念之间关系的算法上进一步提高性能。只有增强其输出内容的全面性和准确性,才能达到赋能图书馆精准化信息服务的要求。
5.2 大语言模型与现有的信息检索方式并存,用户可各采其长,避其不足
图书馆作为信息服务中心服务于全学科领域,其用户对信息服务的要求更突出准确性和全面性。而大语言模型发展至目前阶段,所提供的信息服务在此方面仍存在不足。此外,由实例还可看出,依据各个模型预训练时所拥有的“训练数据库”数据量及算力的不同,各个模型之间检索出的答案也存在较大差异,如单独使用,则答案的精准性得不到保障。
图书馆已有的数据库文献检索功能和现有的开放式搜索引擎恰好可以与大语言模型实现很好地结合。用户可以多管齐下,既要尽可能多个模型同时应用,又要与搜索引擎、数据库文献检索功能相互配合使用。例如,若想获得某学科或某研究方向较全面准确的知识点提示,可同时参照多个大模型的输出结果,或求其并集,或互相验证,在多个输出结果的知识要点引导下进行综合考量。再进一步配合相关文献资料予以分析、佐证,以力求所获知识的准确性和全面性。
5.3 注重提示语工程,提高与大语言模型之间交流的有效性
大语言模型任何功能的使用,实质上均可概括为“我问你答”的过程。如何使这种“人”“机”交互的结果达到使用者的预期,则提示语的使用显得尤为重要。从本文实例中可总结提高提示语有效性的方法,以供参考:其一,语境完整。提示语中尽量不出现错字、不省略句子结构,提供尽可能完整的上下文信息。必要时,可采用举例说明、类比的方式,先“教”再“问”,让大模型根据使用者的前情提示来回答。其二,拆分问题,将逻辑复杂的问题拆分为多个简单的小问题,通过引导,由低阶到高阶逐步解决问题。此外,还可配合使用“还有呢?”“请继续!”“可以补充说明吗?”等引导语,促使模型给出更多更全面的答案。
参考文献
[1]文继荣.2023年大模型行业深度研究报告(系统了解“ChatGPT”)[EB/OL].(2023-10-16)[2023-10-20].https://m.toutiao.com/is/idQyGyf7/.
[2]白首穷经之杰.主流AI大模型对比:ChatGPT、讯飞星火、文心一言和豆包[EB/OL].(2023-09-26)[2023-10-20].https://m.toutiao.com/is/idQD3Ygf/.
[3]刘言飞语.字节的豆包,与文心一言、通义千问、ChatGPT在9个问题上的对比[EB/OL].(2023-08-19)[2023-10-20].https://m.toutiao.com/is/idQyESmq/.
[4]王翼虎,白海燕,孟旭阳.大语言模型在图书馆参考咨询服务中的智能化实践探索[J].情报理论与实践,2023(8):96-103.
[5]DANIEL G, SOPHIA N, CARINA W, et al. A SWOT (strengths, weaknesses, opportunities, and threats) analysis of ChatGPT in the medical literature: concise review[J]. Journal of Medical Internet Research,2023(16): e49368.
[6]符荣鑫,杨小华.AIGC语言模型分析及其高校图书馆应用场景研究[J].农业图书情报学报,2023(7):27-38.
[7]寿建琪.走向“已知之未知”:GPT大语言模型助力实现以人为本的信息检索[J].农业图书情报学报,2023(5):16-26.
[8]张慧,佟彤,叶鹰.AI2.0时代智慧图书馆的GPT技术驱动创新[J].图书馆杂志,2023(5):4-8.
[9]吴进,冯劭华,昝栋.ChatGPT与高校图书馆参考咨询服务[J].大学图书情报学刊,2023(5):25-29.
[10]施志唐.ChatGPT对图书馆的影响与应对措施[J].图书情报导刊,2023(4):1-6.
[11]李书宁,刘一鸣.ChatGPT类智能对话工具兴起对图书馆行业的机遇与挑战[J].图书馆论坛,2023(5):104-110.
[12]张强,高颖,赵逸淳,等.ChatGPT在智慧图书馆建设中的机遇与挑战[J].图书馆理论与实践,2023(6):116-122.
[13]赵浜,曹树金.国内外生成式AI大模型执行情报领域典型任务的测试分析[J].情报资料工作,2023(5):6-17.
[14]刘倩倩,刘圣婴,刘炜.图书情报领域大模型的应用模式和数据治理[J].图书馆杂志,2023(12):22-35.
[15]IT之家.百度字节等8家公司大模型产品通过生成式人工智能备案,可上线向公众提供服务[EB/OL].(2023-08-31)[2023-10-20].https://www.ithome.com/0/715/938.htm.
[16]郑剑晖.这些人不宜参加游泳[J].游泳,2005(4):18.
[17]唐春生.心脏病患者到底能不能游泳[J].人人健康,2018(17):19.
[18]叶子明.试试水:尝试水上锻炼[J].心血管病防治知识(科普版),2019(4):54-56.
[19]NEHAL L, LEELAKRISHNA C, CHRISTIAN G, et al. Assessing the accuracy and comprehensiveness of ChatGPT in offering clinical guidance for atopic dermatitis and acne vulgaris[J]. JMIR Dermatology, 2023(6):1-4.
[20]NAOKI I, SAKINA K, MINETO F, et al. The accuracy and potential racial and ethnic biases of GPT-4 in the diagnosis and triage of health conditions: evaluation study[J]. JMIR Medical Education,2023(9): 47532.
(编辑 何 琳编辑)
Evaluation and response strategies of empowering library services with the big language model
CHEN Yanyan
(Library, Henan University, Kaifeng 475004, China)
Abstract: The big language model provides great potential for the advancement of intelligent and precise services in libraries. The article tests the comprehensiveness and accuracy of multiple large language models at home and abroad in executing library information consulting services, providing reference for empowering libraries with precise and intelligent services through large language models. Taking the problem prompts in library information services as an example, using linguistic methods, analyze, compare, and statistically analyze the comprehensiveness, accuracy, and reasons of these output results at the level of vocabulary, sentences, and their relationships. From the perspective of vocabulary, sentences and their relationships, the comprehensiveness and accuracy of the big language model in the precise service of the library comes from the perfection of the annotation of its words, phrases, sentences, paragraphs and other entities and their relationships, as well as the progressiveness of the algorithm. The library utilizes a large language model to empower precise and intelligent information services. It is recommended to refer to the output results of multiple large models for complementarity, and further analyze and support them with relevant literature to strive for the accuracy and comprehensiveness of the knowledge obtained. At the same time, attention should also be paid to the use of language prompts.
Key words: big language model; ChatGPT; library empowerment; information service; precision service
基金项目:河南省图书情报研究项目;项目名称:智慧服务情景下文献资源的精细化组织与精准化服务研究;项目编号:HNTQL-2023-008。
作者简介:陈艳艳(1979— ),女,馆员,硕士;研究方向:图书馆智慧服务、信息服务等。