通用人工智能的技术进展和典型应用

2023-11-09刘庆峰

国资报告 2023年9期

刘庆峰

全球正在掀起人工智能的全新热潮。去年11月30日ChatGPT正式发布，短短两个月其活跃用户就过亿，有报道称89%的美国在校大学生都在用它完成作业。今年6月14日，欧洲议会通过《人工智能法案》，这是全球首部通过议会程序、专门针对人工智能的综合性立法。比尔·盖茨则声称，人工智能的历史意义不亚于个人计算机或互联网诞生。中国也不例外。今年4月召开的中共中央政治局会议提出，要重视通用人工智能发展。

早在2018年的中共中央政治局第九次集体学习时，习近平总书记就强调：“人工智能是引领这一轮科技革命和产业变革的战略性技术，具有溢出带动性很强的‘头雁效应。在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的驱动下，人工智能加速发展，呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征，正在对经济发展、社会进步、国际政治经济格局等方面产生重大而深远的影响。加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手，是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。”

作为首批4个国家新一代人工智能开放创新平台之一和唯一的认知智能全国重点实验室，科大讯飞始终牢记使命——“让机器能听会说，能理解会思考，用人工智能建设美好世界”，积极推动人工智能与实体经济深度融合，更好赋能国资央企高质量发展。

人工智能的技术进展

“人工智能”概念诞生于1956年美国达特茅斯会议。此后60余年，该领域先后经历了四次发展浪潮。以2016年AlphaGo战胜围棋世界冠军李世石为标志，如今我们正身处第四次浪潮之中。有人认为，未来综合国力的竞争其实就是通用人工智能作为底座的竞争。

人工智能技术包括三个层次。一是运算智能，即能存会算；二是感知智能，即能听会说、能看会认；三是认知智能，即能理解会思考。

即便是第一层的运算智能，现在比早年也有了长足的进步。典型案例就是围棋程序AlphaGo的算力远超1997年IBM研制的国际象棋“深蓝”电脑。

那么，“能听会说”发展到什么程度了？

首先，机器转写超过人工速记员水平并持续拓展多语种。2023年的十四届全国人大一次会议上，人工智能听见转写全部34个地方代表团1550多万字发言，准确率96%，远超速记员水平；2021年11月举行的美国国家标准与技术研究院（NIST）多语种识别比赛中，科大讯飞参加所有15个语种22项比赛全部获得第一。

其次，语音合成超过普通人发音水平并广泛用于新闻播报。2019年科大讯飞获得国际语音合成大赛（Blizzard Challenge 2019）十四连冠，最新语音合成自然度达到4.5MOS；多种形象的科大讯飞人工智能虚拟主播已在学习强国、新华社、央视等主流媒体广泛使用；高表现力个性化合成持续突破，一句话即可实现音色、情绪和方言的迁移和调节。

再次，机器翻译通过全国翻译专业资格（水平）考试。机器翻译参加外文局和人社部组织的全国翻译专业资格（水平）测试，达到英语二级《口译实务（交替传译类）》和三级《口译实务》合格标准；2023年科大讯飞在国际机器口语翻译评测比赛IWSLT中再获第一；目前讯飞翻译机支持83个语种，覆盖200多个国家和地区；多语种技术助力北京2022年冬奥会和冬残奥会、2023年成都大运会、布达佩斯2023年世界田径锦标赛等国际赛事信息沟通无障碍。

“能看会认”发展到什么程度了？

一是复杂公式识别取得重大突破，这项技术在全国中高考阅卷中已大规模应用；二是普通单摄像头下实现“凌空手写”和“眼神打字”；三是多模感知，语音、图像、视频等信息结合显著增加复杂场景识别效果，后座人声强干扰下主驾语音识别从多通道模型识别率的71.8%提升到多模态模型识别率的 92.8%；四是多维表达，创造出融合识别、合成、认知、图像、翻译、形象驱动等技术的虚拟主播。

“能理解、会思考”发展到什么程度了？

最近4年，有两项具有里程碑意义的重大突破。一是自然语言理解技术方面。2019年在斯坦福大学牵头的国际权威比赛中人工智能首次超过人类平均水平，测评方式是对10万个维基百科文章片段进行阅读理解。二是知识推理技术方面。2022年在OpenBookQA知识推理挑战赛中，人工智能超过人类平均水平，测评方式是对科学知识进行开放式问答。

这两项技术突破具有很强的实践意义。医疗领域，2017年智医助理机器人首次通过国家执业医师资格考试综合笔试测试，超过96.3%的人类考生；教育领域，科大讯飞在业界首次在高考语文作文和雅思英语作文批改中超过阅卷专家，2023年已在13个省份高考阅卷中使用。

值得一提的是，今年6月在艾伦研究院组织的认知大模型阅读理解和推理评测DROP中，面向数学推理、面向思维链的生成两项关键指标，科大讯飞的D-Reasoner模型都获得冠军。

人工智能的典型应用

加快发展新一代人工智能是事關我国能否抓住新一轮科技革命和产业变革机遇的战略问题。认知大模型建设，必须确保应用成效、自主可控、科学评估。其中将人工智能建立在自主可控的平台之上至关重要。从训练侧看，人工智能训练国产化已取得关键进展，已完成识别、合成、翻译等模型适配，并在机器翻译等任务上实现了国产化训练软件的常态使用；从推理侧看，人工智能推理国产化已实现规模化应用，智能语音国家平台已基于全国产化硬件对外提供2.6万路并发服务，有效解决智能语音国家平台的“卡脖子”问题。

高质量的国产化，使得人工智能赋能国资央企高质量发展成为可能。

其中一项典型应用便基于声纹技术。科大讯飞获得DCASE 2023工业声纹挑战赛冠军。这是世界范围内权威声学场景和事件检测及分类竞赛。我们据此可以做出工业听诊器和声学成像仪。同时，我们与国网安徽电科院共同制定国家《20221811-T-469信息技术实时定位声源成像系统技术规范》、中电联《T/CEC20221084电力设备声波成像检测技术导则》、国网公司《电力变压器声纹监测智能识别算法检验规范》等标准。

工业听诊器赋能变电站、水利泵站等场景应用。国家电网、中国南水北调集团、国家能源集团、国家电投等央企均有落地案例，6类故障检出率超99%，获国家电网声纹技术比武第一。在安徽、浙江、宁夏等落地19个变电站（最高覆盖1000kV特高压）声纹监测应用，为每个变电站减轻约每天2人次的运维人员巡视工作量，累计检测发现局部放电故障隐患10多处；在宣城敬亭电站成功发现了一处变压器直流偏磁隐患，极早期发现隐患，做到了提前快速处理隐患点，一次减少设备直接损失50多万元。

声学成像仪在钢铁、矿井、变电站、燃气等多场景应用，通过非接触、大面积速扫，快速排查泄漏点。中国宝武首次对真空泄漏点进行全方位检测，并将真空泄漏纳入后续常态化检修内容，其巡检时间从过去的10小时以上缩短为90分钟，检测到22个气体泄漏点，其中12个点为平时不易检测的登高泄漏点，18个点为触摸不可感知泄漏点；北京燃气南湖渠CNG加气站气体泄漏检测，成像仪在30分钟内发现法兰、阀门等10处泄漏点，包括220ppm的细微泄漏点，经气体流量检测仪验证100%准确；国家能源集团神东集团下属矿井试点检测是声学成像仪在煤矿行业的首次应用，机器可在煤矿压风机房等高噪声环境下发现气体泄漏的隐患，实现快速精确定位。

听觉只是其中一个方面，科大讯飞致力于用“听视嗅触味思”多模感知构建工业场景智能化底层能力，解决设备管理、安全检测、节能降碳等问题。其中，工业视觉智能平台，15类算法模型覆盖50余种场景，包括整厂零部件质检、产品尺寸质检、人员聚集检测、车牌识别、字符识别、设备状态识别等。

此外，认知大模型还将从多方面助力国资央企高质量发展。

第一是助力构建企业知识库。一是行业知识库，包括行业通用知识、业务知识等；二是内部知识库，包括研发知识、工艺知识、设备知识、售后知识等。科大讯飞构建的企业知识体系沉淀更便捷，支持多模态知识源，问答自动生成；体验更自然，自然交互、多维表达、风格多样；多渠道融合，对外营销客服、对内经营提效融合统一。

第二是“重塑”智能客服。科大讯飞认知大模型技术能让智能客服答得准、答得全，更加拟人与个性化表达，并大幅提升运营效率。目前，这项技术在制造业和服务业均有有效應用，其中海尔洗衣机报装成功率提升30%，海底捞总订餐量上升20%。

第三是助力工业互联网平台供需高效匹配。科大讯飞的羚羊工业互联网平台入选工信部“双跨”平台，上线一年用户数35万，服务企业92万次，针对企业需求给出专业化建议策略，智能匹配方案、服务商、专家等资源。

第四是“认知大模型+文档助手”实现业务资料的辅助分析及审核。该项技术可以有效提升企业合同、财务、档案审核环节中的业务审核效率，员工平均单次报销由15分钟缩短为5分钟，财务审核成本降低超50%。

第五是助力智能辅助评标。科大讯飞将人工智能技术应用于评标过程中，通过对招标文件和投标人信息的自动化识别和分析，实现快速、准确、公正的评标结果。以国能物资公司为例，2022年11月上线，截至2023年4月累计评审项目2.7万个，解决3000多个物资品类的自动化评审，整体智能评标系统上线后预计经济效益6000万元/年，人工提效50%。

第六是赋能企业软件研发效能提升。一是全链路研发提效，科大讯飞研发工程师在软件开发测试全链路使用星火代码大模型的代码生成、代码续写、代码解释、代码纠错、代码续写等功能，编码环节提效50%，研发员工覆盖占比95%；二是低代码降低业务部门应用门槛，上海长宁区教育数字基座提供低代码开发能力，让106所学校教师在1-2个小时内搭建自己“轻”应用，开发周期缩短91%，投资成本降低95%。

第七是重新定义数字员工全新生产方式。新一代基于大模型的生成式RPA，构建更智能的数字员工，包括数字财务、数字客服、数字采购、数字法务等。目前，1127个定制形象资产、386个专业声音库、30万用户自定义音库已在媒体、金融、政务、文旅等上千家企业中率先应用落地。其中“虚拟导购”智能交互机正式上岗，24小时不打烊，可助力金融网点提质增效。

人工智能助力国资监管的另一个重点领域是“三重一大”智能记录。国资管控业务存在着“三重一大”数据留痕难、采集难、数据分散、难共享、难追溯，“三重一大”报告生成慢、记录不完整、管理规范不统一等痛点。针对这些痛点，科大讯飞通过智能会议监管系统可进行“三重一大”会议全过程信息监管。目前，该产品已在四川省国资委、重庆市国资委、安徽省国资委应用。

除了工业和国资监管领域外，通用人工智能广泛应用于智能终端、教育、医疗等民生领域。教育方面，诊断和个性化推荐助力因材施教；医疗方面，智医助理规模化应用提升基层诊疗能力。

综上所述，人工智能是保障社会幸福指数和提升全球价值链竞争力的必然选择。我们认为，未来不是属于人工智能，而是属于掌握人工智能的人类。人工智能将以解决人类刚需而更深刻地载入史册。

（本文根据作者在国务院国资委“智慧国资数字央企”大讲堂上的专题报告整理）