APP下载

基于大语言模型的竞品车型配置问答系统设计与应用研究

2024-06-10雷天凤张永龚春忠周伟明

汽车科技 2024年3期

雷天凤 张永 龚春忠 周伟明

摘  要:本研究致力于优化汽车研发工程师对大量车型配置信息的研究和分析过程。通过设计一款基于大语言模型的智能问答系统,工程师能够以自然语言形式获取车型配置信息的统计和可视化结果,避免了逐步筛选或使用数据分析工具的繁琐步骤,提高了竞品数据分析的效率。考虑到目前大语言模型在汽车预研工作中的限制,我们采用案例分析法,以已构建的车型配置表为基础,制定了六步骤的研究过程,包括系统设计、大语言模型选择、数据库构建、自然语言解析、SQL执行与可视化,以及最终结果的封装。成功实现了基于大语言模型的智能问答系统,为汽车工程师提供了一个便捷的竞品问题解答平台,填补了在汽车领域对车型配置信息利用方面的不足,使工程师能够更迅速地获取他们所需的关键问题答案。

关键词:问答系统;大语言模型;车型配置信息;竞品分析

中图分类号:U462.1;TP319    文献标志码:J    文章编号:1005-2550(2024)03-0073-07

Design and Application Research of Competitive Vehicle Configuration Question Answering System Based on Big Language Model

Abstract: This study aims to optimize the research and analysis process of automotive R&D engineers on a large amount of vehicle configuration information. By designing an intelligent question answering system based on a big language model, engineers can obtain statistical and visual results of vehicle configuration information in natural language form, avoiding the tedious steps of gradually screening or using data analysis tools, and improving the efficiency of competitor data analysis. Considering the limitations of the current big language model in automotive pre research work, we adopted a case study method and developed a six step research process based on the constructed vehicle configuration table, including system design, big language model selection, database construction, natural language parsing, SQL execution and visualization, and encapsulation of the final results. Successfully implemented an intelligent question answering system based on a large language model, providing a convenient platform for automotive engineers to answer competitive questions, filling the gap in the utilization of vehicle configuration information in the automotive field, and enabling engineers to quickly obtain the key question answers they need.

Key Words: Q&A system; Big language model; Vehicle configuration information; Competitive analysis

引    言

随着汽车科技不断进步和市场需求的扩大,车型数量的增多导致车型配置信息变得越来越繁杂。在获取车型配置信息的过程中,常常面临信息散乱、难以提取关键信息的困境[1]。在产品预研[2]阶段,为了统计某个功能在特定车型上的搭载率和价格定位等统计信息,从问题提出到情报提供通常需要花费数天的时间,效率低、成本高。目前,将车型配置信息存储为表格形式虽然提供了可查询的结构,但要想进行深层次的数据分析则需要具备一定的SQL查询[3]等专业技能。

为了解决上述问题,本文设计了一种基于大语言模型[4]的智能问答系统[5],以提高用户体验并简化汽车配置信息的获取过程。该系统不仅能够接受用户自然语言输入,还能通过中间处理过程,利用大语言模型生成SQL语句和可视化图形代码。最终,系统以自然语言和可视化图片的形式返回用户所需信息。通过这种方式,用户无需学习复杂的SQL语句,即可轻松获取关键信息。本研究旨在使汽车配置信息的获取更加直观、高效,为类似领域的研究和应用提供新的思路。

1    大语言模型和车型配置信息研究现状

在大語言模型领域,当前涌现出了多款先进的模型,其中包括OpenAI的GPT系列、Cohere的Command、Anthropic的Claude-2、Meta的Llama-2以及百度的文心一言等。这些模型在处理自然语言时表现出色,能够准确地分析并处理语言输入,产生相应的结果语句。更为重要的是,它们具备将自然语言转化为SQL语句或其他编程代码的能力。可以实现对车型配置信息的自动提取、分析和转化,从而显著减少繁琐的手动工作,为汽车领域的研究和工程实践带来新的可能性。

在汽车领域的车型配置研究方面,目前的研究方法主要是工程师通过收集各个网页上的不同车型配置信息,并将其整理汇总至表格中。为了进行进一步的配置信息分析,工程师通常会使用一些数据分析工具,如PowerBI、MySQL或Excel中自带的求平均等基本公式。然而,这种方法要求使用者具备一定的专业知识,并且整个工作流程非常繁琐,从问题提出到最终结论至少需要耗费一整天的工时。

此外,由于现行方法依赖于手动整理和数据分析工具,工程师们在处理大量车型配置信息时容易面临误差累积和效率低下的问题。因此,寻求更智能化、高效的解决方案成为当前研究的迫切需求。

2    车型配置问答系统的研究步骤

为了深入研究汽车领域实现问答系统这一课题,本文采用案例分析法,并以汽车配置表为信息来源进行研究。研究过程包括以下六个步骤:

(1)系统设计:在研究的初期,详细设计汽车配置数据库问答系统。这包括定义系统的输入与输出,确定用户与系统的交互方式,并构建系统的整体结构。系统设计的目标是确保用户能够以自然语言形式提出查询,系统能够有效解析和返回相关配置信息。

(2)选取模型:为了实现对输入信息的提取和解析,选择适用于自然语言处理任务的大语言模型。在选择过程中,我们将考虑模型的性能、预训练效果、计算资源要求等因素,并在实验中对不同模型进行评估,以选取最适合研究目标的模型。

(3)数据库构建:建立包含广泛汽车配置信息的数据库,涵盖车型、配置选项、性能参数等方面。数据库构建的关键是确保数据的结构化和规范化,以便系统能够准确查询和回答用户提出的问题。

(4)大语言模型解析:利用选定的大语言模型,对用户输入的自然语言进行解析,抽取关键信息,并识别用户的查询意图。此阶段旨在确保系统能够理解用户提问并准确定位到相关的汽车配置信息。

(5)SQL语言执行和可视化图形绘制:根据解析得到的用户查询意图,生成相应的SQL查询语句,并在车型配置数据库上执行。如果有绘图需求,则通过获得的查询结果,运用可视化技术绘制图形,以直观方式呈现用户所需的汽车配置信息。

(6)结果封装:最终,对查询结果进行封装,以自然语言文本的形式返回给用户。对于可视化的图形结果,将其适当地显示在系统界面上,以便用户能够直观地获取信息。

2.1   汽车配置数据库问答系统设计

在实际工作中,不仅要对车型配置数据库进行简单的查询,而且需要对数据库进行数据分析,得到关键问题的答案并及时更新至共享表格等。所以设计一个简洁的对话框可以直接与数据库进行交互,实现QA任务。问答系统是一种人机交互的技术,通过自然语言处理和数据库查询等技术,使用户能够以自然的语言提出问题,系统能够理解并给予相应的答案。此问答系统包括3个方面,具体如下。

自然语言处理(NLP):利用模型进行自然语言处理,包括词汇分析、语法分析、语义分析等步骤。这一阶段的目标是确保系统能够准确理解用户提出的问题,使得用户可以以自然的语言形式与系统进行交流。

调用执行:在经过自然语言处理后,系统生成相应的数据库查询语句,系统再调用语句与数据库进行交互得到查询结果。

结果输出:根据用户的需求,系统将查询结果进行格式化呈现,以便用户能够直观地理解和利用查询结果。此问答系统的结果输出包含2种输出方式,具体如下:

(1)文本输出模块:将自然语言描述的问题利用模型转换为SQL语句,在数据库底层进行SQL语句的执行,得到输出结果后再用自然语言进行封装,得到文本输出结果。

(2)图像输出模块:如果有可视化图像生成的需求,则将SQL语句和查询结果利用模型转换为前端代码,在系统中进行渲染,并在对话框进行图片的显示。图1描述了整个问答系统的整体结构流程。

2.2   方案选择

首先考虑使用LangChain框架的SQLDatabase Chain来实现以MySQL数据库为基础的自然语言SQL数据挖掘。LangChain是一个基于大语言模型(LLM)接口的框架,允许用户快速构建围绕大型语言模型的应用程序,并且直接集成了OpenAI的GPT模型。然而,LangChain框架也存在缺点,包括OpenAI的API接口可能不稳定且获取相对较难,可能导致对LangChain的依赖受到一定限制。此外,LangChain可能在连接处理大型数据库表时出现性能问题。

鉴于上述问题,选择用百度智能云千帆大模型平台[6](以下简称千帆平台),平台提供20多个大模型,用户可通过API调用方式[7],一键部署应用。

本文使用千帆平台下的SQLCoder-7B和ERNIE -Bot4.0模型。SQLCoder-7B用于将自然语言问题转换为SQL查询语句,具备超越GPT-3.5[8]的生成效果,并可支持group_by,join,where等复杂查询意图理解和指令生成能力,从而实现系统设计的自然语言处理部分。ERNIE-Bot4.0[9],是是百度自行研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力,用于实现系统设计的结果输出部分,对SQL语句查询结果进行封装为自然语言并转换为JavaScript语言。总体而言,选择使用百度大语言模型,取决于本文的具体需求、系统要求以及对性能和稳定性的权衡。

可视化技术选用ECharts[10],它是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。

2.3   车型配置数据库构建

2.3.1需求分析

表結构的设计需要考虑数据的全面性和一致性,以确保对车型配置进行深入研究时能够充分满足各项需求,需要覆盖多个关键领域,如基本参数、车身、发动机、变速箱、底盘转向、车轮制动、被动/主动安全、驾驶操控、驾驶硬件、驾驶功能、外观/防盗、车外灯光、天窗/玻璃、外后视镜、屏幕/系统、智能化配置、方向盘/内后视镜、车内充电、座椅配置、音响/车内灯光、空调/冰箱等关键信息。需要按照数值的类型分为字符串类型和数值类型,故设计两个数据库表,使用MySQL工具完成构建。

2.3.2数据库设计

用于展示数据库中实体、属性、关系之间的关系。对于大量的车型配置信息,可以通过以下方式来构建数据库。

(1)实体:数据库名称设计为“竞品数据库”,包含两个表,“竞品数据库_数值”表主要包含值为数值的字段,部分结构如表1所示。“竞品数据库_其它”表主要包含值为非数值的字段,部分结构如表2所示。

(2)关系:两个表中的字段根据车型名称进行关联,即每条配置信息有唯一的车型名称作为主键。两个表中的相同字段为车型名称、厂商指导价(元和上市时间,因为这些字段经常被查询,这样的设计可以在需要时轻松检索和比较车型的各种属性和数据。

(3)模型图:模型图的设计有助于清晰了解每个表的结构和关联关系。

2.4   大语言模型开发

图3描述了大语言模型开发流程,依次进行SQLCoder-7B模型、ERNIE-Bot4.0模型的设计。

SQLCoder-7B模型设计:

(1)模型的输入为数据库表的结构和用户输入的问题两部分。

(2)构建prompt,将输入示例表的两部分信息合并成一个完整的prompt参数。prompt参数的格式为:“prompt”:“###问题\n数据库结构描述\nSQL查询描述”。

(3)使用千帆平台的APIKey和SecretKey来获取access_token。

(4)使用获取到的access_token对SQLCoder-7B模型的API地址进行POST请求,传递构建好的prompt参数。

(5)接收SQLCoder-7B模型返回的JSON字符串,其中包含SQL語句。

输入的问题可以基于一个表,也可以基于多个表进行多表连接查询。在多表连接查询中,需要连接这些表来获取更复杂的信息。例如,在涉及到车型配置信息的同时,还需要关联厂商信息。这时就需要使用JOIN等关联操作进行多表连接查询。本文给出表3所示的5个问题和返回的SQL语句,如表4所示。

ERNIE-Bot4.0 模型设计:

(1)接收SQLCoder-7B模型生成的SQL语句,连接数据库表自动进行查询。

(2)将SQL语句和查询结果两部分信息合并成一个完整的content参数。"content"是一个字符串,表示用户发送的消息内容。这个字符串可以包含任何用户想要发送的文本消息,例如问候、问题、请求等。格式没有严格的限制,可以是任何合法的字符串。

(3)使用access_token对ERNIE-Bot4.0模型的API地址进行POST请求,传递构建好的content参数。

(4)接收ERNIE-Bot4.0模型返回的JSON字符串,其中包含对查询结果进行自然语言处理的结果。

(5)若问题有图表显示要求,将SQL语句、SQL查询结果和字符串“转换为JavaScript代码”合并为一个content参数,再次调用ERNIE-Bot4.0模型,得到JavaScript语言结果。

2.5   结果封装显示

对2.4节返回的SQL语句进行执行,执行的过程分为两个步骤。

(1)用脚本代码提取大语言模型返回的SQL语句。

(2)对底层数据库调用得到结果。底层数据库调用需要提供数据库服务器的主机地址、用于连接数据库的用户名、用户的密码和连接的数据库的名称等信息。连接成功后,执行SQL查询,查询的结果集以元组的列表形式返回。

此节以问题1为示例,介绍它的SQL结果、SQL结果封装为自然语言和可视化结果的过程。

问题1得到的查询结果为图4,对应的元组为:(‘锐骐2021款2.4T柴油两驱创业版基型车YCY24165-61,160.0,6.9)(‘锐骐2021款2.4T柴油两驱创富版基型车YCY24165-61,160.0,6.9)。

将得到的SQL查询结果用ERNIE-Bot4.0模型转换为自然语言,将问题1的查询结果转换为自然语言的结果如表5所示:

若问题有图形显示需求,例如将问题1修改为:查找最高车速在150km/h以上且工信部综合油耗低于7的车型且用柱状图显示,则将ERNIE-Bot4.0模型生成的JavaScript代码,使用ECharts显示为柱状可视化图形。

最后将自然语言文本和可视化图形嵌入到对话框中。对话框的设计包括清晰的文本和图片显示、可能的图标或颜色以强调关键信息,这样的设计有助于提高用户对查询结果的理解和感知。问题1的文本解析结果和图形解析结果封装显示在对话框中的效果如图5:

3    实用情景

在本研究中,成功设计并实现了一款基于大语言模型的智能问答系统。以下是系统针对汽车研发中的关键问题生成的结论和可视化图形,分别为市场占比分析和热泵空调应用分析。旨在帮助公司制定更精准的市场策略、优化售后服务和产品设计,以及深入了解消费者需求。

(1)为了理解不同竞品车型在不同上市时间下的市场占比,制定更精准的市场策略,在不同时间节点调整推广方向或生产计划,以满足市场需求,提出问题3,此问题的解析结果显示在对话框中的效果如图6:

(2)为了更好的了解每个竞品车型的热泵空调装置在市场上的应用和受欢迎程度,更好地了解不同时间点热泵空调的占比,进一步深入了解消费者对于环保和能效的关注,优化热泵空调的设计,提出问题5,此问题的解析结果显示在对话框中的效果如图7:

通过测试,该系统能够接受用户关于车型问题的输入,通过中间处理过程生成SQL查询语句和可视化图形代码,并最终以自然语言和可视化图片的形式返回用户所需信息。这一系统实现了用户无需学习复杂SQL语句即可轻松获取关键信息的目标,从而提高了汽车配置信息获取的直观性和高效性。该成果为汽车产品工程师、性能集成工程师、汽车试验工程师等提供了一种新的工具和方法。

4    问答系统技术应用展望

在未来的技术发展中,将进一步优化问答系统,提供个性化查询体验。系统根据管理员和普通成员的不同需求,进一步精细化权限管理,使管理员能够进行更复杂、深度的数据库查询,普通成员则能够通过更直观、简便的方式获取相关信息。系统引入智能学习机制,逐渐理解用戶的偏好,提供个性化的查询建议,以更好地满足用户的实际需求。

此外,问答系统将在辅助决策方面发挥更大作用。系统拓展不同领域的数据库表,结合数据分析和机器学习算法,准确预测市场趋势、产品需求和供应链变化,从大量文本信息中提取更多关键信息,包括用户评价、市场反馈等,为产品的设计和采购提供辅助决策,提高供应链的整体效率。

5    结语

本研究设计的基于大语言模型的智能问答系统旨在解决汽车配置信息获取的繁琐与低效问题,特别服务于竞品分析工程师这一用户群体。该系统简化了数据提取的流程,提高了竞品分析工程师的工作效率。

在实际应用中,竞品分析工程师根据研发阶段现实问题提出疑问,并通过本系统迅速获得结论,从而在汽车研发的各个阶段发挥作用。竞品分析工程师的主要工作由手工分析数据转变为提出关键问题、得出结论,对车型配置信息的设计调整。随着竞品数据库的日常更新,相同问题的结论也可随时更新,使得分析工作更加具有时效性和可靠性。

未来,我们期待该系统为类似领域的研究和应用提供更多便利,推动实践工作的进步与创新。

参考文献:

[1]张宝华.某汽车竞品分析数据平台规划研究[D].北京理工大学,2016.

[2]韩忠愿,陈棣沭.汽车新产品预研的策略[J].重型汽车,1999,(01):26-28.

[3]吕群巍,康艺.基于SQL的汽车销售系统搭建与分析[J].信息通信,2020,(02):193-194.

[4]胡志强,潘鑫瑜,文思捷等.结合多模态知识图谱与大语言模型的风机装配工艺问答系统[J].机械设计,2023,40(S2):20-26.DOI:10.13841/j.cnki.jxsj.2023.s2.006

[5]刘红帅.基于知识图谱的汽车领域问答系统研究与应用[D].南京邮电大学,2021.DOI:10.27251/d.cnki.gnjdc.2021.000632

[6]百度发布企业级大模型服务平台“文心千帆”[J]. 智能建筑与智慧城市,2023,(04):4.

[7]杨超逸,钟林辉,莫俊杰等.多源数据驱动的API调用模式挖掘方法研究[J].现代电子技术,2023,46(16):75-80.DOI:10.16652/j.issn.1004-373x.2023.16.013.

[8]崔东树.ChatGPT对汽车行业影响分析[J].智能网联汽车,2023,(02):70-71.

[9]褚连凯,张凤.人工智能知识增强大语言模型ERNIEBot(文心一言)在医院药学实践中的应用初探[J].现代养生,2023,23(18):1430-1436.

[10]汤晓燕,刘文军,朱东等.基于ECharts的电动汽车监控可视化研究[J].现代信息科技,2018,2(12):46-48.