大语言模型在金融业应用的冷思考
2024-12-10初众张伟强罗成
![](https://img.fx361.cc/images/2025/0115/AryojCAD6hNJ3iKH8Re3Yt.webp)
金融业作为典型的信息密集型行业,信息技术的发展也在不断推动金融领域的科技革命。20世纪中后期,伴随着电子计算机和基础网络的建立,现代金融产业的基础设施水平逐步提高,支付结算体系和电子交易系统实现了从初创到发展。20世纪末至21世纪初,随着互联网尤其是移动互联网逐步普及,金融与互联网的互动形成了一系列新的金融机构、金融产品和金融服务,互联网银行和保险公司纷纷涌现,大数据征信大幅提升了居民的借贷可得性,移动支付逐渐成为居民的主要支付手段。
2022年11月,OpenAI公司推出划时代的ChatGPT产品,该产品能够通过对话的形式为用户解决覆盖各领域的多种任务。ChatGPT的出现让业界看到了通用人工智能(AGI)的曙光,也被称为人工智能领域的iPhone时刻。2023年3月,OpenAI又推出了标志性的GPT-4 模型,将模型能力提升至全新高度,并将其扩展至拥有多模态功能,能够按照用户要求进行视频、音频等创作,被认为可能对电影艺术等领域造成冲击。伴随着GPT系列产品的走红,利用神经元网络搭建的大语言模型(Large Language Models,简称LLMs)成为人工智能领域的绝对热点。
大语言模型及其特点
大语言模型是一类利用深度学习技术构建的人工智能模型,它们通过分析和学习大量的文本数据来理解与生成自然语言。目前大语言模型通常基于变换器(Transformer)架构,能够捕捉语言中的复杂模式和关系。传统人工智能模型一般仅使用几千或者几万个参数,而对于拥有数十亿甚至数千亿个参数的大语言模型,随着模型规模的增加,它们在理解和生成语言方面的能力也显著提高,能够更准确地模拟人类的语言使用习惯,也使得大语言模型能够处理更复杂、更全面的数据和问题,并从中学习到更多的模式和规律。具体来说,大语言模型具有以下特点:
突出的自然语言理解能力
传统人工智能模型往往需要专门的指令理解模块将用户指令转化为模型可执行的指令。这一方面面临指令理解准确率的问题,另一方面面临在不同场景进行迁移成本过高的能力泛化挑战。但大语言模型凭借前期的预训练和微调,用户能够通过自然语言下达指令,模型能够直接遵行用户的任务指令执行。
较好的通用性
凭借其大规模的参数、复杂的网络结构及有效的预训练与微调机制,模型具备了较强的泛化能力。这种泛化能力体现在:一方面,大语言模型可以更好地适应不同下游任务,在文本生成、翻译、摘要、问答等多种应用场景中表现出色;另一方面,大语言模型可以在不同领域的数据上进行迁移,如将基座大模型在大量计算机程序代码上进行微调,得到的大语言模型可应用于软件编程领域,实现代码生成、调试辅助等功能。
具备复杂任务中的推理能力
除了具有通用性外,大语言模型在复杂任务中还展现出了较好的推理能力,能够理解并推断文本之间的逻辑关系并运用逻辑推理能力分析和解决复杂问题。相比之下,传统人工智能方法在这方面的表现相对较差,往往需要有针对性地对所面临的问题进行多步骤拆解,采用多个支持不同计算需求的模型共同服务。
大语言模型在金融业的应用
大语言模型在金融业的适用性
金融业是典型的数据密集型产业,而其中大量的数据是以自然语言等非结构化形式存储,甚至部分数据是由图像、音频或视频等格式存储。传统人工智能模型往往需要先对非结构化数据进行标准化预处理和清洗,才能进行后续计算。而大语言模型技术的一大优势就是具备较强的理解人类语言的能力,对于不同类型的存储方式也具有较高的识别能力,能够更好地处理自然语言数据,这使得大语言模型在金融领域相比于传统模型具有更高的灵活性。
大语言模型能够以自然语言的形式进行输出,本身也具有文本生成、摘要、问答等功能,能够协助金融从业者开展相关工作,减少材料收集、报告文案整理所需的时间,提升服务水平和服务效率。
大语言模型凭借其推理能力,能够对不同来源的数据进行综合分析,可以缩短数据间发生连接与计算的时间,提高数据创造价值的效率。这一特点与金融行业紧密相关,在金融决策时,往往需要对于市场上的各类信息进行综合分析,而大语言模型凭借其在训练中习得的复杂推理能力,能够建立复杂的逻辑联系,为金融决策提供依据。
大语言模型在金融业的应用
目前大语言模型在金融业主要有三类应用模式:一是凭借大语言模型的通用性,基于现有通用大语言模型进行微调落地;二是金融企业凭借自身能力独立开发大语言模型产品;三是金融企业通过应用接口接入通用大语言模型实现自身业务需求。
基于通用大语言模型微调形成金融大模型方面,目前常用的大语言模型架构下均有对应的金融大语言模型。OpenAI的GPT架构下,有AI4Finance Foundation开发的FinGPT开源金融大型语言模型,该模型为研究人员和从业者提供了可访问与公开的资源来开发他们的金融大语言模型,并提供了相关应用接口,如机器人咨询、算法交易和低代码开发。谷歌的BERT大语言模型架构下,FinBERT是其第一个金融领域相关模型,此后其变体还有FinBERT-20和FinBERT-21,这一系列模型基于BERT大语言模型架构,通过在特定的金融数据集上进行微调,使得模型在金融市场情感分析和文本挖掘等多个金融相关的任务中取得了出色的效果。国内方面,度小满基于BLOOM-176B大语言模型研发的千亿级中文金融大模型轩辕,它在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上表现优异,并且在多个金融场景中得到应用。
金融企业自主研发方面,也有不少产品涌现。彭博社2023年3月发布专为金融业设计的大语言模型Bloomberg GPT。该模型基于典型的Transformer架构,采用近500亿参数在独有的金融数据集和一般数据集上进行训练,强化了模型在金融垂直领域的专业理解能力。Bloomberg GPT能够生成金融新闻、预测股票市场走势、分析金融报告和文档、评估风险、提供智能客服等,在金融问题的理解和推理、金融新闻情感分析及金融实体识别等任务测试中表现远超类似规模的大语言通用模型。国内方面,同样专注金融信息服务的同花顺和东方财富分别推出了问财大模型与妙想大模型,均采用Transformer架构,预训练语料均达到万亿级别,借助自身金融数据优势,为用户提供股票分析、新资讯、智能写作等服务。此外,聚焦金融交易系统的恒生电子也发布了金融大模型LightGPT,该模型基于金融数据训练,可适用于投研、投顾、智能客服和合规风控等多领域金融应用场景。奇富科技和招联金融等消费金融机构,也分别推出了适合自身信贷金融服务的大语言模型奇富大模型和智鹿大模型。
通用大语言模型的金融应用接口方面,目前也有科技巨头推出相应产品。微软公司基于GPT-4模型推出为金融业工作人员服务的系统应用Copilot for Finance,用户可使用自然语言提示词快速完成金融数据的处理和分析。腾讯公司基于自研的混元大模型,为金融行业前中后台多个业务场景打造了一系列智能应用接口,助力金融机构展业。阿里云旗下的通义点金应用,定位于智能投研助手,提供AI金融信息搜索、金融文档分析、金融资讯获取、金融投研等多种功能。
大语言模型在金融业应用中面临的挑战
2023年中央金融工作会议提出做好科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章,对数字金融高质量发展提出了新要求。紧跟信息技术前沿发展趋势,并将其应用于金融业的高质量转型发展,是金融科技发展的应有之义。当前大语言模型在信息科技领域受到普遍关注,将其应用于金融领域也是顺势而为,但是也需要看到,大语言模型在金融业的应用也存在一些潜在问题和挑战。
适用性有待提升
虽然大多数大语言模型对于基本的数学问题,如在加减乘除等基础数学上表现优异,但在更复杂的数学问题上,它们的表现并不理想,尤其是在数学运算和数值分析方面的能力较弱,无法像专门的数学软件那样进行高效的数值计算。金融业实践中涉及大量的数学模型和高频计算,盲目使用大语言模型替代很难实现效率的提升。
使用成本较高
大型语言模型训练需要消耗大量的计算资源。例如,GPT-3的token数约为1750亿个,训练成本约为140万美元。对于参数更大的大语言模型如ChatGPT,训练成本介于200万美元至1200万美元之间。这种高昂的成本使得仅有少数大型公司能够承担大语言模型的训练费用。考虑到金融行业的信息源是高度动态的,如不断使用最新的行业数据对系统进行更新,将进一步大幅提高模型训练的成本。
隐私保护不足和存在安全风险
大语言模型需要大量的数据来训练,如何保护底层数据的隐私和安全性是一个重大挑战。金融业务的底层数据很多涉及用户隐私信息,对于此类数据的使用依法受到严格的限制。如何建立用户信息与模型之间的隔离防护机制,维护用户隐私安全尚待进一步研究探索。
可解释性弱和准确性不强
在可解释性方面,由于这些大语言模型的规模极大、内部工作机制复杂,模型的输入和输出之间难以直接呈现可溯源的因果关系,即难以向用户直观地解释说明模型是如何根据输入内容一步步得出其输出结果的。此外,在准确性方面,大语言模型的幻觉问题也是亟待解决的一大难点。幻觉问题是指大语言模型在生成文本时可能会产生一些看似合理但实际上与事实不符或与输入不相关的内容,或可能会产生不准确的信息。金融业是对于信息透明度和准确性要求极高的行业,上述问题对于大语言模型在金融业的应用也造成了一定障碍。
大语言模型在金融业应用的原则
基于上述风险和挑战,金融企业在进行大语言模型应用决策时,应遵循以下底线原则:
分类适用原则
金融企业和机构应当结合自身业务结构与模型需求,审慎研判大语言模型的边际贡献。对于使用结构化数据、运算步骤清晰,且已经被证明有效的数量类模型,鉴于大语言模型在数量计算方面并不具备比较优势,可以考虑继续使用现有模型。例如,目前部分保险公司的精算模型中已使用了人工智能算法架构进行预测和分析,盲目使用大语言模型技术替代原有的传统人工智能算法未必能够提升预测精度和模型效率。但是对于数据结构较为复杂、数据来源多样,尤其是包含大量自然语言信息的场景,如市场情绪分析和大数据智能风控,大语言模型可能有较大的发挥空间,可以考虑推动实施。
成本可控原则
金融行业普遍面临降本增效的业绩要求,大语言模型开发具有较高的硬件和技术门槛,日常运行维护成本也相对较高,自行研发大模型系统会大幅增加企业运营的费用和人力成本,且金融企业模型开发经验相对薄弱,难以有效实现成本控制。加上大语言模型市场当前处于较为火热的状态,近年来美国对大语言模型训练所须使用的GPU芯片的出口限制,进一步推高了金融大模型的落地成本。在这样的背景下,金融企业应审慎评估成本收益,避免盲目跟风上线大语言模型项目。前期可以考虑与科技型企业合作,通过通用大语言模型微调或使用其提供的应用接口等方式,满足业务需求,避免进行较高的前期资本投入,借助科技型企业专业优势降低研发和运维成本。
安全合法原则
目前全球都在研究如何监管大语言模型的潜在风险,美国、英国和欧盟已通过人工智能时代的数据保护法案,我国也已于2023年出台《生成式人工智能服务管理暂行办法》,进一步规范在大模型领域对用户敏感信息的使用。但就能否对用户隐私进行有效隔离,学界尚有争议,相关技术尚待进一步完善。防控风险是金融工作的永恒主题,无论是从落实监管要求的角度,还是出于对公司客户负责的角度,都应对大语言模型使用过程中的隐私安全性问题予以高度重视,相关模型的上线也需要慎之又慎。金融企业建设与应用大语言模型时应遵循安全合法原则,确保企业秘密、网络安全、数据安全和个人信息不受侵害。
透明可信原则
目前大语言模型的可解释性和准确性等问题尚待学界的进一步研究与解释。考虑到金融企业内部专业从业人员和信息技术支持人员在各自领域具有更充分的专业知识,使得其对模型生成的内容拥有更全面准确的判断能力,金融企业在应用大语言模型时,可以先将模型的使用范围限制在公司内部,让大语言模型优先从旁发挥辅助专业人员决策的副驾驶功能,由专业从业人员结合自身经验和知识对大语言模型给出的结果进行复核和判断,再将修正后的结果向客户提供,以人工干预手段减少幻觉问题的潜在影响。但需要注意大语言模型给出的辅助结果仅可作为各项工作的参考,确保重要决策始终由专业人员做出,工作责任最终由使用者承担。后续待模型进一步稳定完善后,再向企业客户等外部公众开放使用。
金融业发展大语言模型的建议
上述对金融企业如何守好底线原则、有效处理大语言模型运用相关问题的建议,可以进一步简单归纳为“小步快走,由内而外”的应对策略。其中,“小步”的核心要义是审慎。金融企业要避免跟随热点,对于大语言模型盲目大步跟进。建议要结合自身业务和日常运营需要,对大语言模型的适配性和成本收益进行审慎评估。对于大语言模型的落地方式也要统筹考虑,避免盲目进行大规模硬件投资。“快走”的核心是要紧跟技术发展前沿,及时了解最新的技术动态,尤其是在模型安全性、准确性方面,要紧跟人工智能领域最新的研究成果,及时将最新的技术应用于自身的模型和业务,提升服务水平,避免在行业竞争中处于劣势。“由内而外”则是要采取对客户负责的态度,在模型上线初期将使用范围限制在企业内部,待对模型的潜在风险和问题进行准确评估并完成调整优化后,再对外投入公众使用。
我们相信信息技术的发展是推动金融行业变革发展的重要动力来源,随着人工智能领域的不断发展,大语言模型技术在不久的将来或将取得新的突破,其配套技术和相关基础设施亦将更加完善,届时信息技术和金融业务的碰撞必将产生新的火花,进一步助力提升金融综合服务水平、贡献新质生产力,推动金融业实现高质量跨越式发展。
(初众为中信集团战略发展部项目经理,张伟强为清华大学五道口金融学院副研究员,罗成为北京麦伽智能科技有限公司总经理。本文仅代表作者个人观点,不代表供职单位意见。责任编辑/周茗一)