APP下载

蒙古语自动问答系统建设情况研究

2022-07-16娜仁高娃

内蒙古科技与经济 2022年10期
关键词:蒙古语自动领域

娜仁高娃

(内蒙古自治区地方语言文字研究应用中心,内蒙古 呼和浩特 010021)

1 自动问答系统研究综述

自动问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题,以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的、以自然语言形式描述的答案。近年来,随着人工智能的飞速发展,自动问答已经成为备受关注且发展前景广泛的研究方向。

自动问答的研究历史可以溯源到人工智能的原点。1950 年,人工智能之父阿兰图灵(Alan M.Turing)在《Mind》上发表文章“Computing Machinery andIntelligence”,文章开篇提出通过让机器参与一个模仿游戏(Imitation Game)来验证“机器”能否“思考”,进而提出了经典的图灵测试(Turing Test),用以检验机器是否具备智能。同样,在自然语言处理研究领域,问答系统被认为是验证机器是否具备自然语言理解能力的4个任务之一(其他3个是机器翻译、复述和文本摘要)。目前在自动问答系统研究领域,相对成熟的问答系统有麻省理工学院人工智能实验室的 STARTSO 系统、密歇根州立大学的 AnswerBus 系统等。其中,STARTSO 系统基于互联网访问设计,可通过精心构建的知识库来自动地回答资料库中一些比较简单的问题,但却不能借助互联网自行扩充内部的知识含量。而 AnswerBus 系统支持多文种访问的具有多领域知识的自动问答系统,自 2011 年上线以来,已经回答了许多用户的问题。从应用角度,现有基于关键词匹配和浅层语义分析的信息服务技术已经难以满足用户日益增长的精准化和智能化信息需求,已有的信息服务范式急需一场变革。2011 年,华盛顿大学图灵中心主任 Etzioni 在《Nature》上发表的“Search Needs a Shake-Up”中明确指出:在万维网诞生20周年之际,互联网搜索正处于从简单关键词搜索走向深度问答的深刻变革风口浪尖上。以直接而准确的方式回答用户以自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。2011年,以深度问答技术为核心的IBM Watson自动问答机器人在美国智力竞赛节目Jeopardy中战胜人类选手,引起了业内的巨大轰动。Watson自动问答系统让人们看到已有信息服务模式被颠覆的可能性,成了问答系统发展的一个里程碑。此外,随着移动互联网崛起与发展,涌现出了很多以苹果公司 Siri、Google Now、微软 Cortana 等为代表的移动生活助手。上述几个系统都把以自然语言为基本输入方式的问答系统看作是下一代信息服务的新形态和突破口,并加大人员、资金的投入,试图在这一次人工智能浪潮中取得领先。

国内也有不少科研院所正在开展问答系统的研究,比如复旦大学、中科院、哈工大等。其中,哈尔滨工业大学开发了基于常用问题集的汉语问答系统,该系统首先根据用户的提问建立一个候选问题集,然后通过计算句子语义相似度,在候选问题集中找到相似的问句,并将答案返回给用户。而中科院的 NKI 知识问答系统以 NKI 知识库为基础,可以向用户提供多个领域的知识服务,并且向自然语言方式进行提问的用户返回准确的答案。国内汉语自动问答系统的研究和使用领域发展均较快,如除了银行、车站等公共场所外的教育门户网站、旅游、医药、汽车、销售服务、购物平台,等等。不同行业根据自身业务和服务特点,设计不同的架构方法和技术手段,实现和开发可操作性强的自动问答系统。

但是蒙古语自动问答系统的研究相对落后,使用领域也相对较少。笔者以蒙古文信息化工作发展情况为切入点,重点了解蒙古语自动问答系统研发及使用情况,并对其行业发展进行了分析,同时提出应加强多语种自动问答系统研发和推广的建议。

2 调查设计

为摸清我国蒙古语自动问答系统的建设使用现状,本研究采用问卷调查的方法对蒙古语自动问答系统建设使用情况进行了调查。①确定研究区域。以内蒙古自治区为主,辐射至使用蒙古语的其他7个省、自治区,以蒙古文信息化研究为脉络,对重点企业、科研院所、政府网站群、各大媒体从业人员为重点调查对象。②进行数据的收集。采用问卷调查法、访谈法了解各领域使用情况,认真做好访谈记录。③进行统计分析。本次调查共发放问卷280份,回收268份,回收率为95.7%;有效问卷251份,有效率为93%。为确保研究结果真实有效,笔者对重点行业及相关企业进行了走访调查,并将了解到的情况逐一进行分析,以便提出有针对性的意见、建议。

3 调查结果与分析

本课题从被调查者基本情况(职业、所属地区)、蒙古语自动问答系统研发技术环境、重视程度、市场认知度、蒙古语自动问答系统使用情况、使用领域、自动问答系统发展趋势等6大类共12个问题进行了调查。

3.1 基本情况

被调查者来自内蒙古自治区、辽宁省、黑龙江省、吉林省、河北省、甘肃省省、青海省、新疆维吾尔自治区等使用蒙古语的地区,其中内蒙古为主要地区,调查总数200份,占总调查问卷的80%。其余51份来自其他省,占总调查问卷的20%。

内蒙古所辖12个盟市,其中呼和浩特为经济社会发展中心,首府城市,共收集到110份调查问卷,占内蒙古总量的55%。其余盟市共90份,占内蒙古总量的45%。所涵盖的调查样本能真实反映目前蒙古语自动问答系统建设使用情况。

调查对象从事的行业组成为:相关企业人员 80人,占总人数的32%;媒体从业人员60人,占总人数的24%;科研院所人员30人,占总数的12%;行政事业单位工作人员80人,占总数的32%(见图1)。设计初衷是从这些从事蒙古文信息化企业及科研院所人员中了解蒙古语自动问答系统开发、建设基本情况。因此,对开发者设置了不同于使用者的问卷。

图1 调查对象职业组成

3.2 自动问答系统建设使用情况

3.2.1 自动问答系统研发技术环境。从企业及科研院所技术人员使用的开发环境、开发语言、开发成果考虑,对研发自动问答系统所使用的技术环境设计了以下两个问题,进行了调研。

“您开发成果主要发布平台是?”(企业及相关开发人员作答)

调查数据显示,PC端中88.3%的人使用Windows系统;9%的人使用Linux系统;2.7%的人使用MacOS系统;移动端中53.3%人使用 Android系统;46.7%的人使用 iOS系统。

“您用的主要开发语言是?”(企业及相关开发人员作答)

调查数据显示使用C/C++的占25.8%;使用.NET的19.4%;使用JavaScript/TypeScript 的占16.1%;使用JAVA 的12.9%;也有使用PHP、Ruby、Swift、Python等开发语言的,使用人数基本都在10%以下(见表1)。

表1 研发技术环境统计

从以上问卷调查可以分析出,开发自动问答系统所用系统是以Windows系统为主,开发语言以C/C++和.NET为主,这也基本符合当前不同平台在技术研发环境中的使用情况。另外,考虑到当前自动问答系统在工作场景中的使用率并不高,本次问卷调查也基本映射了未来自动问答系统的主要使用环境。

3.2.2 自动问答系统的重视程度。从参与开发情况、研发产品面向领域和企业重视程度(企业及相关开发人员作答)等方面进行了调研。

“您有无从事过蒙古语自动问答系统开发工作?”(企业及相关开发人员作答)

调查数据显示,7.7%的人参与过自动问答系统的开发工作;92.3%的人没有参与过蒙古语自动问答系统开发工作。

“您所开发产品主要面向的领域是?”(企业及相关开发人员作答)

调查数据显示45.3%的人所研发产品面向媒体领域;21.3%的产品面向文化领域;12%的产品面向教育领域;医疗和旅游领域分别占6.7%;交通领域占5.3%,政务公开领域占2.7%。

“您认为当前迫切需要开发推广哪些领域的蒙古语言文字信息化软件、系统”(多选)。

调查数据显示,人们迫切需要的软件、系统主要集中在以下几个领域,其中23.8%的人选择了教育领域;22.1%的人选择了政务服务领域;19.4%的人选择了医疗卫生领域;17.7%的人选择了影视娱乐;15.2%的人选择了电子商务;1.8%的人选择了其他领域(见图2)。

图2 开发产品主要面向的领域

从以上调查问卷分析出,企业及科研院所在蒙古语自动问答系统研发上的投入较少,相关人才相对缺乏。而这些开发人员研发产品主要面向的领域集中在文化领域等接受性强的领域,而在政务服务及医疗、电商行业等服务性强且需要人员互动行业的研发相对落后。最后一个问题则说明当前迫切需要与自动问答密切相关的各类服务行业软件,如教育、政务服务、医疗卫生、电子商务等等。

3.2.3 自动问答系统市场认知度。人们对自动问答系统的认知度如何?通过设计以下两个问题,进行了调研。

“您对自动问答系统了解吗?”

调查数据显示了解的占33.3%;不了解的占63.7%。

“您所用过的蒙古语言文字信息化成果有哪些?”(多选)。

调查数据显示,被调查者用过的所有成果中位居榜首的是字体/输入法,占比为17.8%;机器翻译次之,占比为17.2%;15.1%的人使用办公软件;10.4%的人使用编码转换系统;9.1%的人使用各种小程序;8.7%的人使用文本校对系统;5.7%的人使用文字识别系统;5.3%的人使用各类资源库;4.3%的人使用语音识别系统;3.0%的人使用手写识别系统;2.1%的人使用语音合成系统;0.9%的人使用自动问答系统;1.5%地选了其他。

从数据分析很容易得出大部分人不太了解自动问答系统的结论。这也间接反映出蒙古语言文字信息化发展水平,涉及自然语言处理技术的语音识别、语音合成、自动问答等相关领域的研究和应用相对滞后,字体/输入法、机器翻译、办公软件、编码转换系统等领域应用较活跃(见图3)。

图3 蒙古语言文字信息化成果市场认知度

3.2.4 自动问答系统具体领域使用情况。在公共服务领域和政务服务领域制定两个问题,对蒙古语自动问答系统使用情况进行了调查。“您接触到哪些公共服务领域的蒙古语自动问答系统?”(多选)调查数据显示,在公共服务领域中使用蒙古语自动问答系统百分比分别为:银行自动问答系统占33.6%;通信领域占23.0%;车站、机场等交通领域占18.0%;医疗领域占10.1%;图书馆占8.8%;购物平台占2.3%;宾馆住宿1.8%;旅游领域占1.8%;其他领域占0.5%(见图4)。

图4 蒙古语自动问答系统公共服务领域使用情况

“您接触到哪些政务服务领域的蒙古语自动问答系统?”(多选)调查数据显示,在政务服务领域使用蒙古语自动问答系统百分比分别为:行政服务中心占31.9%;教育领域占15.0%;社会保障领域占13.3%;民政占9.7%;交通领域占9.7%;信访占6.2%;工商占4.4%;税务占3.5%;医保占3.5%;城管占0.9%;其他领域占1.8%(见图5)。

图5 蒙古语自动问答系统在政务服务领域使用情况

分析得出,在公共服务方面,蒙古语自动问答系统在银行和通信领域使用较为普遍;在政务服务领域中行政服务中心使用率最高,在教育、社保、民政等领域普及率不高。

3.3 自动问答系统发展趋势

在未来自动问答系统需求方面,设计了一个被调查者主观列举的问卷项目,被调查者根据自身需求罗列具体领域,从而了解自动问答系统将来的需求情况。

“您希望在日常生活中用到哪些领域的蒙古语自动问答系统?请具体列举:”调查数据显示,集中在以下6种情况:①出入口。学校、医院、银行、商场、超市、车站、机场、行政部门等各单位出入口使用自动问答系统方便出行者。②政务服务领域。民政、司法、社会保障、交通、城管、税务、工商、信访、行政服务中心、旅游等政务服务上使用自动问答系统。③公共服务领域。教育领域、医疗领域、交通运输领域、金融领域、税务、社会保障、通信领域、图书馆、银行等公共服务领域使用自动问答系统。④应用软件平台。电子商务、日常缴费、通信设备、翻译、购物平台、地图导航、手机应用等软件平台使用自动问答系统。⑤12345、12333、12123、12315等智慧服务平台使用自动问答系统。⑥面向老人的特定场所,或者关爱老人的特殊服务,老人多咨询的地方设置自动问答系统。

分析得出,随着信息技术的发展人们对自动问答系统的使用领域也越来越广,需求也更加多样化。从孩子上学到老人的日常服务,从衣食住行到生老病死无一例外,都用自动问答系统来实现便利。在今后的发展中,蒙古语自动问答系统应更多参考较为成熟的汉语自动问答系统各领域的成功案例,更好地服务与当地少数民族群众。同时加强研发推广多语种自动问答系统,对使用推广普及国家通用语言文字、提升国际影响力等方面具有独特的作用。

4 存在的问题

4.1 自然语言处理技术还处于起步阶段

自然语言处理技术是自动问答系统的核心技术。蒙古语自动问答技术的研究还处于起步阶段。其智能化、语音接口的性能优化设计研究等方面发展缓慢。现自治区各公共服务领域只有银行等少数服务行业设置了蒙古语自动问答系统,但仍未能在机场、车站、医院等更多公共服务领域全面普及。蒙古语自动问答系统研发力度不够,技术落后,应用面较窄等制约着蒙古语自动问答系统的开发、普及和使用率。

4.2 没有大规模规范的语料

在互联网大数据时代下数据信息量不断增加,数据之间的关联度越来越复杂。蒙古语口语化的语料较少、不平衡,语料库的质量、数据表达不规范等都会影响问答系统的质量。

4.3 企业研发重视程度不够,应用受限

由于蒙古语使用群体为少数群体,研发产品经济利益不可观,因此中小企业将大部分人力、物力投放于经济效益好的产业上,只投入小部分精力投入蒙古语自动问答系统开发。或者某些企业紧靠研发人员兴趣爱好,自己挤出时间和精力进行研究。

5 发展自动问答系统的对策和建议

5.1 统一规范、不断增加语料规模,为研究开发奠定基础

近年来在党和国家的指导下,在建设统一、规范的语料方面已经取得了一定的成绩,自治区民委承担建设国家发展和改革委员会批复项目“蒙古语言文字数字资源建设与共享工程”,通过该项目的建设研制了资源建设及信息处理相关26项标准,同时建立了涵盖文化、科技、教育、基础等方面内容的大规模的资源。在已经取得成绩上后续增加投入,把资源建设好,为蒙古语自然语言处理技术研发奠定基础。

5.2 加大人才培养,面向高校、科研院所及相关单位技术人员,多给予自然语言处理技术方面的课题支持

通过不断研究将这项技术瓶颈攻破,汉语和蒙古语,属于不同语系研究范畴,汉语自然语言处理技术已经取得了较好的成绩,但是蒙古语自然语言处理还不能直接引用相关技术,需要该语言的攻克研究。

5.3 加大资金投入,鼓励和支持中小企业参与自动问答系统开发应用

通过电子信息产品制造和市场开拓、信息服务企业培育等企业税金或产品、创新技术研发费用加计扣除等财税优惠保障,不断提高相关企业的技术研究积极性,激励蒙古语言文字信息化技术研发和推广应用。

5.4 提高用户体验,提升认知度,让用户真正感受到科技带来的方便

在公共服务领域方面应加强银行、医疗、通信、车站、机场、购物平台及旅游等方面具体服务的创新性、方便性、科技引领性,让用户切身感受到科技带来的巨大优惠。在政务服务方面,不断扩展具体服务领域的同时,将已有的服务不断优化升级,让百姓在行政服务中心办事少跑腿、少走弯路,出行方便,人身财产得到安全保障,随时提供完备的医保、社保、税务、司法、金融,等等咨询服务。

5.5 发挥好在智能平台及智慧城市建设中的作用

知识社会环境下的智慧城市是继数字城市之后信息化城市发展的高级形态。智慧城市的驱动力来自以物联网、云计算、移动互联网为代表的新一代信息技术。自然语言处理、自动问答系统咨询服务显然成为智慧城市中的一个标志。运用自动问答系统研发成果在12345、12333、12123、12315等各类智慧服务平台上,不仅精准高效,而且能快速解答咨询者,还能节省很多人力。

6 结束语

蒙古语是跨境语言,对蒙古语自动问答系统建设使用情况的研究不仅对中、蒙、俄三国有着深远的意义,同时对自动问答、蒙古文自然语言处理等领域有着深远的意义。跨境语言研发成果不仅提升国家科技领先地位,还能最大限度保障国家网络信息安全,为筑牢祖国北疆安全屏障提供信息技术支撑。

猜你喜欢

蒙古语自动领域
基于端到端的蒙古语异形同音词声学建模方法
自动捕盗机
2020 IT领域大事记
提高翻译水平对年轻一代蒙古语广播工作者的重要性
领域·对峙
“守望相助在美好家园”全区蒙古语原创歌曲演唱会精彩上演
首届蒙古语RAP专场演唱会——“无线内蒙古MONGOL RAP之夜”
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶