感知意图 算懂人心 访天津大学智能与计算机学部教授、“海河·谛听”言语意图深度理解大模型项目专家党建武
2022-11-29撰文王懿霖美术编辑丁国明赵霞
撰文/王懿霖 美术编辑/丁国明 赵霞
REPORTER'S
NOTES
人物素描
说起当下最热门的科学技术,很多人会提到人工智能。这个以计算机学科为基础的技术,类似于人类智慧的“大脑”,其应用可以对人的语言、动作等行为进行模拟。近年来,围绕人工智能的应用层出不穷,在相关技术获得长足进步的同时,人们也享受到了其带来的方便与快捷。
早晨,智能音响会将你唤醒,为你播报当天的天气以及你所关心的国内外大事;出门时,智能汽车会提前将车内空调打开,以最舒适的温度开启一天的行程;下班前,机器人已经将家中打扫干净,迎接你的灯光和音乐都是根据喜好而量身定制……
记者总有一种感觉,在人工智能飞速发展的今天,所有科幻影视作品中的天马行空都离我们并不遥远,而在见到本期“高端访谈”的受访者后,这种感觉就更为强烈了。
党建武,天津大学智能与计算机学部教授、河北区“海河·谛听”言语意图深度理解大模型项目专家。别看他是计算机学院的教授,实际上他研究的内容横跨了语言、心理、信息技术等多个领域。
“你吃了吗?”
“啊!”
这种对话如果放在真实的情境中是可以准确无误地传递出对话人的意图。但如果只看文字,肯定会产生歧义。
“这就是语言和言语的区别。”党建武对记者说。当前的人工智能虽然可以将语言做到采集、分享、输入甚至是互动、翻译,但都主要局限于文字序列层面上,结合语境、语气、表情等因素的言语交互非常难以实现。
“我目前正在做的项目就是言语意图深度理解大模型。”党建武所说的正是前段时间华为与天津大学、河北区政府签署的合作项目——“海河·谛听”。“谛听”,传说中地藏菩萨经案下伏卧的通灵神兽,可以通过听音来辨认世间万物,尤其善于听人的心声,在名著《西游记》中有谛听辨别真假美猴王的故事。这个名字形象地表明出了该项目的研究目标——打造中国开源的言语意图理解模型和数据集。
“在两个人交流的时候,即便是有口误,我们也会大概理解其意思,做出的反应与互动可能有偏差但不会南辕北辙,可人工智能的错误可能带来灾难性的结果,因为他不懂人的意图。”党建武说,在各项技术都飞速发展的当下,与中文言语意图理解相关的研究迫在眉睫。
了解党建武的人都知道,他做这个项目绝对不是“赶时髦”,因为早在上个世纪80年代,他就已经开始在做语音信息处理了。
1977年,已经做了好几年村干部的党建武在听说国家恢复高考后,决心也要试一试。“当时我的母亲不太支持,因为弟弟已经当兵走了,家里需要劳动力。”父亲了解自己孩子凡事较真的脾气,也就随他去了。“大家都没想到,我只看了两个月的书就考上了,而且还是清华。”去清华读书是党建武的梦想,“我当时觉得,要上就上最好的,在报志愿的时候我填的都是顶尖的大学,要是没录取,明年我就接着考。”
穿着母亲手织布做的衣服,党建武从西北农村来到了清华大学。“可能是因为我有当村干部的工作经历,到了学校就被指定当了班长,我当时连普通话都说不好,心里很忐忑。”党建武回忆说,因为是第一年恢复高考,班里的同学年龄差距大,经历也大不相同,“有工人、有当兵的,也有像我一样农村来的,还有上山下乡的,丰富的经历让大家特别懂得包容,彼此间互相尊重、互相帮助。”在这个温暖的班集体中,党建武在学识和能力上进行得很快。
充实的时光总是过得飞快,在党建武面临选择毕业后的去向时,他陷入了纠结,“我之前定下的目标是毕业后回去当个厂长,但即将毕业时又有了考研的想法。”后来,是一位同学的话让他坚定了这个想法,“同学说,‘以你的能力水平当厂长很容易,机会也多,但是读研究生就不一样了,错过了你会后悔一生的。’”就这样,党建武选择继续留在本校,攻读计算机应用专业的硕士研究生。
讲起在清华的那些人、那些事,党建武如数家珍、历历在目,听得出他对那段经历的怀念。“清华不仅给了我们知识,也赋予了我们严谨治学、自强不息的精神,更是塑造了我们坚韧自信的人格。”
党建武研究生毕业的课题就是语音信息处理,“那时候我们用的电脑内存是32k的,做语言信息肯定不够。”没有条件就创造条件,党建武找来材料,自己设计制作电路板,“先用隔绝材料特制的笔在板子上描画出电路,然后在把板子放进硫酸铜的化学制剂中,抹掉没有隔绝材料的部分形成印刷电路,从此做成语音合成电路板。”就是在这样的条件下,党建武完成了毕业课题,也开启了他在语音信息方面的研究之路。
1988年,在天津大学做了3年老师后,党建武决定赴日本留学深造,并顺利于1992年获得工学博士学位。之后,他于1992年到2001年在日本ATR人类信息通信研究所从事语音生成和感知机理方面的研究。其间,他还在加拿大滑铁卢大学电子与计算机工程系做访问学者。2002年到2003年,他在法国科学院格勒诺布尔语音通信研究所担任一级研究科学家。
国外的经历虽然给予了党建武耀眼的成绩,但这些其实还是源于他倔强不服输的性格。“我曾经用了6年的时间完成一篇论文。”如果单看文字,恐怕很多人会理解为他对这件事带有遗憾,因为6年太久了。但在面对面的谈话中,记者实际感受到的是他的骄傲和自豪,因为他的收获远不止这一篇论文。
“论文是做发音运动生理建模,我自认为是精心打磨,却被期刊退了回来。”党建武至今都记得期刊编辑的回复中一个审稿人的意见,“他认为我在建模方面有创新性,只是在变量的选择上考虑得不够细致,但不反对发表。”在接到邮件的一瞬间,党建武有些气愤,甚至认为是期刊故意刁难,“我骨子里是不会认输的,论文不仅要发,而且必须还要做到让他们彻底认可!”
冲动并不能解决问题。等到情绪稳定下来后,党建武又认真地想了想期刊编辑的话,“他说的有道理,我在变量的设计上确实欠考虑了。”虽说属于计算机领域,但这篇论文研究的内容已经交叉了语言学、医学、物理学等其他学科,而这些知识都是党建武从事语音信息研究后自学的。在决定继续完善这篇论文后,他又一头扎进了无尽的调查、设计与计算中,不知不觉地走过了好几个春秋。“论文最终发表了,这次不仅期刊编辑非常肯定,业内的许多专家都表示了认可,后来,该模型还被多次应用到医疗领域。”
从上世纪80年代的语音信息到现在的言语交互,党建武一路走得坚实,丝毫没有半点虚浮。也是因此,在面对技术日新月异的变化中,党建武也能摒弃浮华,直面痛点。“国家‘973’项目中唯一一个语言界的项目就是由我承担完成的。”党建武说,那时候我国已经开始重视基础研究,但在“遍地开花”的情况下,却没有一个项目对自己本国言语的信息处理进行深入研究。“我很倔,认定的事就一定要做好。”可是,做“第一个吃螃蟹的人”谈何容易?但为了推动我国言语信息技术发展,党建武毅然承担起了这份重任。
之后,党建武便与团队成员一起,夜以继日,竭尽全力,以互联网规模的中文言语信息为研究对象,开始对互联网环境中大规模、口语化、多言语的中文信息深度计算发起挑战。基于人脑多通道感知机理,丰富和完善言语感知运动理论,党建武和团队建立了互联网环境多言语识别和翻译的理论与算法框架,为互联网环境中文言语信息表示与提取奠定基础;基于言语行为分析和统计建模的方法,他们发展和完善了网络言语行为理论,并将其集成于多言语翻译和深度计算引擎中,突破互联网语篇、对话及口语化文本深层语义理解的技术瓶颈;基于自动语义理解和知识提取是互联网环境海量信息有效利用的基础,他们从言语感知运动理论、言语行为理论出发,探索语篇语义理解的本质问题,开发多层次多线索的言语信息表示、提取和推理计算模型,为互联网环境大规模知识获取建立基础理论。
语音、语言、言语、意图……在回顾了党建武的科研经历后,记者为他超前的理念所折服,同时更对他现在的人工智能项目充满了期待。“我们目前在做的大模型目标是要理解说话人的意图,能听话听音,未来可以将其应用在精神养老、治疗心理疾病、提高呼叫中心效率等领域。”
本可追逐名利却选择坐“冷板凳”,本可安享成果却选择再出发,这是党建武骨子里的纯粹与倔强,更是他的责任与梦想。面对纷繁的世界,坚守科研初心,永葆家国情怀,党建武带着属于那代人的执著与坚韧始终专注前行……
EXCLUSIVE
DIALOGUE
独家对话
记者:能否简单介绍一下“海河·谛听”项目的规划和进展?
党建武:这个项目是由河北区政府、天津大学和华为三方联合,在国产昇腾芯片和MindSpore框架下共同研发千亿级言语交互意图深度理解大模型。该模型的目标是理解说话人的意图,能听话听音。
大模型的开发工作大致分为3个阶段。多信息融合言语处理大模型(版本1.0)主要研究语音信号中语言信息、说话人信息和韵律信息的无损解耦,并利用说话人信息和韵律信息提高语音识别精度,避免现有系统出现常识性错误。版本1.0的下游应用主要是语音识别任务。 融合句法知识和韵律结构的言语处理大模型(版本2.0)主要是基于GNN将句法知识、韵律结构以及情感分类融入言语处理大模型,基于此给言语处理过程中增加语义和意图理解功能。下游任务主要是呼叫中心等。融合神经符号系统的多模态意图理解大模型(版本3.0)主要是利用对话的上下文语境,会话中表情、手势等多模态信息,基于神经符号系统将这些模态融合在一起,构建言语交互意图理解大模型。
记者:对该项目的未来应用我们非常感兴趣,您能否向大家透露一下?
党建武:目前,我们对未来的落地应用有这几个方面的畅想。
首先是谛听心声、慰藉精神。养老,是我国未来社会的一个重点问题,在实际生活中我们发现,养老不再只满足于没灾没病的基本要求,老人的心理和精神需求同样需要关注,甚至对于老人来说,精神上的慰藉胜过物质上的给予。基于“海河·谛听”的贴心聊天机器人,它可以听话听音、察言观色、准确地理解老人的说话意图,给予恰如其分的应对,这将会给予老人精神上的慰藉。
其次是对心理疾病患者给予帮助。近几年,我国心理疾病患者人数呈逐年升高趋势,尤其是抑郁症患者人数将近1亿人。这类风险人群一般不愿意对人敞开心扉,基于“海河·谛听”的贴心聊天机器人,可以帮助他们打开心扉,逐步摆脱抑郁症的困扰。
最后是在了解舆情、疏导舆情、监督舆情方面的应用。利用“海河·谛听”的数据模型,我们可对微信、微博、短视频等平台的重点信息进行筛选,从意图层面了解用户心声,找出痛点,进而在相互理解的基础上进行疏导。同时,我们还可以应用在服务热线等呼叫中心,通过大模型准确理解用户意图、减少误会,从而提高效率。
记者:为什么选择与河北区政府和华为公司合作?
党建武:超大规模预训练模型的研发需要大算力资源的支持,这对于科研团队来说是一笔非常大的资源投入。河北区政府正在建设的天津人工智能计算中心作为公共算力服务平台,不仅提供普惠的公共算力服务,还提供了专业化团队和技术全周期的支持,并投入多项扶植政策支持科技成果转化和产业生态发展,而这些对于大模型从实验室走向产业化至关重要。华为公司在人工智能领域坚定长期投入,掌握人工智能“根技术”,秉承“硬件开放、软件开源、使能伙伴、发展人才”的产业发展战略,近年来发展迅猛。华为公司的全栈人工智能技术方案、蓬勃发展的生态体系和雄厚的技术支持及市场推广力度,对于我们来说有巨大帮助,特别是针对大模型研发,华为公司构建了从大模型规划、开发到产业化的人工智能大模型全流程使能体系,并组建专家团队支撑“海河·谛听”大模型研发及应用。因此我相信,三方强强联合,将非常有助于大模型的成功。