吾守尔·斯拉木:以多语种信息处理及智能化技术增加社会福祉
2023-05-30张婷
张婷
在经济学上语言信息服务能力已成为国家参与全球化事务的战略资源。作为语言信息处理的一个典型应用,“智能输入法”此前曾被评选最成功的人工智能产品,从侧面印证了语言信息处理技术是人工智能走进人类生活的先锋军。中国工程院院士、新疆大学教授吾守尔·斯拉木指出,人工智能要想真正落地,融入人类日常生活,语言是最重要的接口,也是最重要的发力点。
吾守尔自1984年开始从事维吾尔、哈萨克、柯尔克孜(以下简称“维哈柯”)等多语种智能信息处理、标准规范制定、操作系统、办公套件、排版印刷、电子政务等方面的技术研发和应用工作,创建了维哈柯文信息处理的理论、方法、技术体系,开辟了中国少数民族文字信息处理的新领域,使它不断发展,进入智能化、网络化、数字化的新阶段,相关技术成果在疆内外广泛应用。他是第一位也是目前唯一的维吾尔族院士,让新疆少数民族语言与汉语同时进入信息化时代。
近年来,吾守尔团队努力攻关多语种多模态智能信息处理技术,他们开发的应用工具能让计算机、手机终端识别维哈柯语言文字、听“懂”维哈柯语等民族语言,助力国际和国内文化交流、交往、交融,并不断以更高层次、更具人工智能色彩的技术建设“数字丝绸之路”,为国家“一带一路”倡议提供技术支撑。
维哈柯信息化与汉语同步
顾名思义,多语种智能信息处理技术就是提供跨语言的信息服务,是一种普惠的人工智能服务。
吾守尔表示:“人工智能的核心目标是服务人的需求,人类90%的信息沟通由语言承载,因而语言信息的处理,在人工智能各领域扮演至关重要的角色。”
20世纪80年代,计算机、互联网开始出现在人们的视野。新疆大学紧跟时代步伐,开设计算机相关课程,当时教授无线电电子专业课程的吾守尔被选中,先后到北京工业大学、上海交通大学进修计算机相关知识,从此进入计算机领域。
新疆是一个多民族、多语言的地区。当时中文信息处理技术刚刚起步,维哈柯等少数民族同步信息化像一个不可企及的梦,但吾守尔做到了。
他先学习汉语,再学习英语;从无线电技术入门,到计算机应用基础知识,再到更深层次的理论学习、实践锻炼……吾守尔边学边干,艰苦摸索,每一步都走得很辛苦。
1986年4月,吾守尔团队开发的多语种综合信息系统软件在新疆人大会议上应用,实现了会议管理、会议资料和参会代表资料的维哈柯文录入、排版、打印。这一成果轰动了新疆乃至中西亚各界。
20世纪90年代,针对维哈柯文语言特性导致的“前后端不一致”的输入问题,吾守尔团队自主研发出民文信息处理系统使用的点阵字体和矢量字体,在Trutype字体基础上编制出16×16、16×8全角、半角点阵维吾尔字库和矢量字库,制定了符合国家G18030標准的信息交换维、哈、柯文信息技术三项国家标准,后来又研制了4种与此对应的OpenType字体……
吾守尔团队开拓了新疆民文信息处理新领域,并始终致力于攻克和突破多语种信息处理智能化、网络化、数字化领域的关键理论及核心技术。在科学技术研发应用方面,吾守尔先后主持承担国家863计划项目7项,973项目1项,国家自然科学基金项目5项、重点项目2项,工程院咨询研究项目2项、省部级项目30多项,14项成果达到国际先进水平;主持制定国际标准5项、国家标准22项;荣获国家科技进步奖3项、省部级以上奖励13项;发表论文170余篇,出版教材9部;培养了20多名科研骨干、150多名博士硕士研究生。
作为新疆大学211工程、自治区高峰学科“计算机科学与技术”重点学科带头人之一,吾守尔开拓了多语种信息技术产品市场,与北大方正、中电通信、科大讯飞等多个企业合作,打造出集多语种信息技术研发、生产、经营、服务为一体的产学研基地。
截至当前,吾守尔团队研发具有自主知识产权的DOS系列、Windows系列、Linux系列操作系统的维哈柯文版本,维哈柯文多语种的寻呼机及发布台站、编辑排版系统、互联网信息发布平台及应用软件、电子政务系统、广播电视文稿系统、卫星图文传输系统,智能输入法、语音识别、语音合成、机器翻译软件平台等共计30余种多语种新系统、新平台、新软件,在多语言、多模态智能信息处理、国产多语种操作系统研发、音视频图像处理、图文识别、大数据智能分析、网络内容安全及智能检测监控等方面创建了诸多关键技术和处理机制,从科技文化教育、信息通讯,到新闻出版、广播电视,再到电子政务和商务、信息数字化,疆内外的各族同胞都能享受到信息化的成果。
这些技术和产品得到广泛应用并成功实现标准化示范和产业化,开辟了中国民文信息处理新领域,并不断与时俱进,为推动中国少数民族进入数字化办公新时代作出杰出贡献,促进了中亚西亚多语种软件服务外包国家战略的实施。
多语种信息“丝绸之路”
自2013年我国提出“一带一路”倡议以来,中国走出去的步伐进一步加快,非通用语言、小语种的服务需求急剧上升。在“一带一路”沿线60多个国家中,有200多种语言都是非通用语言。
新疆是“一带一路”的桥头堡,新疆大学则是新疆信息化建设的排头兵。吾守尔指出,实现语言互通是实现“一带一路”倡议中“五通”(政策沟通、设施联通、贸易畅通、资金融通和民心相通)的基础。
“我们要坚持的是特色中追求一流。”吾守尔认为,各高校、各学科要打破专业、学科壁垒,注意培养学生思考和认识世界的能力,促进学生对中西文化的深刻理解,培养具有人文情怀、全球视野、创新精神和实践能力的跨文化、跨国别的“多语种+”国际化人才。
吾守尔团队从理论、方法、工具、系统等四个方面,结合新疆的特色与优势,展开阿尔泰语系、阿拉伯语系、印度-伊朗语族的智能语音交互、多语言机器翻译、语音合成等研究工作,有针对性地发展交叉学科。在人才培养方面,科学制订具有不同特点的交叉培养方案,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破。
吾守尔认为,通过对我国民族语言的信息化建设,研究复杂形态语言和长距离语言模型、跨语言文法推导方法等,突破同语系和跨语系语言机器翻译方法和模型、多模态多语种信息化智能化技术,可以消除语言隔阂,为“一带一路”建设提供技术支撑。
人工智能应当增加社会福祉
实现语言互通最便捷的方式就是利用语音识别、语音合成、机器翻译手段实现多模态智能声图文交互,并在教育、文化、旅游、通信、经贸、安全等领域推广应用。为此,吾守尔团队研究了多语言的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言文字识别数据分析方法,研究复杂形态语言和长距离语言模型、声学模型、跨语言文法推导方法等,重点突破同语系和跨语系语言机器翻译方法和训练模型,开展维汉等语音识别、语音合成、文字识别、机器翻译研究开发,研发出维汉双向语音翻译系统。目前,维汉互译已经达到实用化水平,部分语音识别准确率已达到95%以上。
“利用现代化技术手段,建立大规模、跨语言、多模态大型语料知识库,对于开展语言研究进而突破同语系、跨语言互通意义深远,结合教育场景来看,其深远意义在于夯实跨文化、跨民族教育的基础。”吾守尔说道。通过互联网把语音云、智能识别等技术应用到少数民族的远程教育、双语教育中,扩大优质资源覆盖面,对于促进教育发展均衡、改变偏远地区落后教育现状有重要意义。
那么,人工智能会取代翻译团队吗?对于这个问题,吾守尔有直接的体会。
“我的回答是‘不会全面替代翻译。我们必须中正理性地看待机器翻译和机器翻译的使用问题。不要被许多杂音,甚至被一些AI厂商的夸大宣传所左右。”吾守尔认为,在可预见的未来,人所擅長的某些方面机器很难代替,如对情感、场景和言外之意的捕捉与体验,对不同语言文化背景下的沟通技巧的运用等。机器擅长常规的文内之义翻译,能够大规模瞬时准确地完成一半质量的翻译任务,帮助翻译团队进行翻译任务的协调与同步,提供一般性的信息服务。
事实上,也不必追求“替代”。吾守尔说,科学的人工智能观是以人为本的人工智能观,它指向了一个“人机共生”(或人机协作、人机耦合)的未来。
他回忆起20世纪90年代工程单位去海外投标的经历,几百页的标书,要在一周内快速翻译提交,这几乎不可能,因为翻译团队人少了翻不完,人多了互相之间风格不一、术语不统一。但在机器翻译和机辅翻译平台的帮助下,以前“不可译”的任务现在“可译”了。
“这是巨大的进步。翻译行业因为人工智能的介入而受到影响,反而因为市场的扩大,更加繁荣。会使用技术装备的译者和单位获得了更多的收益,整个市场变大,社会福祉也随之增加。”吾守尔说。