谢海华:人工智能推动数字出版的发展和创新
2019-05-31胡玉枝
胡玉枝
谢海华及他的研发团队协同方正IT旗下方正电子、北大医信、方正阿帕比等企业,在出版、媒体、教育、医疗等领域规划了一系列技术上可行且有行业应用前景的应用方向。
对面这位温文尔雅,沉稳腼腆的像在校大学生的男孩,就是谢海华博士。若不是事先有些了解,很难将他与高级技术专家联系起来,但正是这样一个大男孩,承担起北大方正集团数字出版技术国家重点实验室知识服务方向的科研重任。
正在严重感冒的海华博士,很耐心地解答了所有问题。他厚厚的镜片下,一双深沉的眼睛,透着学者的严谨和诚恳。虽然他的思绪和叙述,不时地被他压抑的从胸口而出的咳嗽打断。
说起今天的成就,谢海华谦虚地说是团队共同努力的结果。
海外求学
谢海华,典型的80后,出生于江西上饶。在清华大学获得硕士学位后,他进入美国爱荷华州立大学就读计算机科学博士,并在美国留学深造五年多。
说起五年多的留学感受,谢海华停顿了一下,好像在运用他的理科思维整理那几年的求学轨迹。他最深切的感受是,开阔了视野,接触到世界领先的计算机科学与技术,对大数据、人工智能以及自然语言处理等专业技术的认知有了不同维度的提升。国外的学术氛围、教学模式、管理体系不同于国内,非常自由和开放,并且学术交流十分方便。谢海华非常珍惜这个学习机会,十分刻苦地学习和研究,并且取得了出色的成果。
有关海外求学的经历,谢海华讲了一个有趣的故事。美国的宗教氛围特别强烈,经常有人直接去住的地方传教。有一次传教士来敲门的时候,谢海华让他的室友跟他们说自己不在,但他在说这句话的时候,被传教士们听到了,一时有点尴尬。虽然之后传教士没有再来,但是谢海华的心里却很过意不去。虽然他是由于学习紧张,对别的活动都没有兴趣,但是当谢海华一本正经地说出这些话时,让你觉得他特别善良。
留学期间,让谢海华最难忘的是第一次写论文的经历。大部分研究生的导师会亲自指导学生的论文,不过他的博士导师并没有。在整个过程中,导师基本没有过问,只是一个师兄在与谢海华沟通。谢海华很认真地、下了很大功夫地撰写论文,夜以继日地写了十多页,就在准备投稿的时候,请導师过目把关。没想到,导师拿过论文来,基本上全部否定了,并且把十多页的论文删减到最后只剩下四页。虽然论文最终发表出来了,但它本来是一篇很有分量的论文,却最终变成分量很轻的了。浪费很多时间和精力,谢海华感到很郁闷。但是这次的经历,也给谢海华之后的论文撰写提供了经验。他认识到要多跟导师沟通,争取导师的指导,后来写出了好几篇很有分量的专业论文,发表在权威杂志上。
学成归来
2015年5月,谢海华在爱荷华州立大学完成毕业论文,获得计算机博士学位。当时有几家著名的科研单位向他伸出了橄榄枝,但是在留与归之间,他没悬念地回到了祖国。因为他的根在中国,家在中国,最重要的是父母早就希望他回来了。其实,当初他刚去美国留学时,父母就很不舍得让他去。美国太遥远,来去很不方便,而且与国内有十几个小时的时差,这样的时空距离无法逾越,父母和姐姐非常希望他留在身边。但是作为计算机专业的研究生,谢海华认为很有必要走出去,看看世界先进的计算机技术。
回国后,2015年10月,谢海华进入海淀园博士后工作坊北大方正集团分站,成为与北京大学计算机科学技术研究所合作培养的企业博士后,从事知识服务和自然语言处理技术相关研究。博士后期间,谢海华的研究方向涉及领域知识体系构建、知识库构建及准确性校验,媒体&出版行业文本资源分析和处理等。其相关的研发成果应用于方正公司的“中华数字书苑”和“学知搜索系统”等产品和服务,以及纺织出版社的“中华服饰文化云平台”等项目。基于研究成果,他发表了3篇论文,申请5项专利。博士后期间的工作经历、经验和成绩,对于谢海华现在及以后的学术研究方向的深入和广阔,以及学术眼界的开阔和提升,都起到了极为重要的影响。
“中华数字书苑”是方正阿帕比推出的专业优质华文数字内容整合服务平台,收录了建国以来大部分的图书全文资源、全国各级各类报纸及年鉴、工具书、图片等特色资源产品,旨在为图书馆、学校、企业、政府等客户及其所属读者提供在线阅读、全文检索、离线借阅、移动阅读、下载、打印等数字内容和知识服务。“中华数字书苑”,还多次作为国礼赠送国际友人。
在谈及这些项目时,谢海华做了详细讲解,以及他在项目当中担负的责任。
谢海华在中华数字书苑和中华纺织文化云平台(华服志)等项目中,负责了知识库置信度评估这个任务,设计算法评估知识库中的三元组的置信度,实体的置信度,以及知识库本身的置信度。并根据置信度的评估结果,选出置信度较低的三元组和实体进行人工校验,以去除错误的三元组和实体,提高知识库的数据质量。另外,他还负责设计算法计算实体与资源、实体之间、资源之间的关系强度。根据关系强度,可以在检索阶段,返回关系强度较大的相关资源,以提高检索质量。在由国家新闻出版署指导、中国新闻出版研究院主办的第八届中国数字出版博览会上,“华服志”平台作为知识服务的旗舰项目,举办了专门的平台发布活动。
2017年,由于方正集团在数字出版和知识服务领域的技术积累和行业优势,特别是方正旗下的数字出版技术国家重点实验室的浓厚学术氛围以及崇尚自由探索的技术精神,谢海华在博士后出站之后选择留在数字出版技术实验室,并以技术负责人的身份,带领研发团队进行知识服务关键技术的研究,深耕数字出版行业的应用技术的研发。实验室重点研究数字出版领域中普适性文档技术、自动排版技术、数字出版内容的自适应重组技术等关键技术,促进数字出版产业的技术进步,通过产学研合作在数字内容的生产、发行和服务等领域,进行技术创新和产业化应用、推广,并推动数字出版产业相关标准的制定。他们还将结合人工智能、VR/AR等新兴技术,研究对未来数字出版发展具有重要影响的前沿技术、数字出版领域的关键应用基础技术,形成公共技术平台,并促进成果转化。
2018年5月30日,根据《依托企业建设国家重点实验室管理暂行办法》,科技部组织对99个企业国家重点实验室进行了评估,依托方正集团建设的数字出版技术国家重点实验室顺利通过科技部组织的评估。
从2017年担任国家数字出版技术重点实验室技术负责人以来,谢海华及他的研发团队已与方正IT旗下方正电子、北大医信、方正阿帕比等企业开展深入合作,在出版、媒体、教育、医疗等领域规划了一系列技术上可行且有行业应用前景的应用方向。这个团队在媒体大数据分析、用户行为大数据分析、学术知识库构建等领域已开展专项研究,探索自然语言处理领域各种技术、算法和工具在工业界的应用和改进,以及在“人工智能+”新的技术发展阶段,对各个业务领域拓展起到积极的推动作用。
在这些产品和项目中,谢海华团队研发的成果涉及核心及基础性技术研究,包括机器写作、信息抽取、语义分析、智能审校等。这些基础技术的研究支持了各个企业与出版社、高校和图书馆的合作,以及企业自身的知识服务和大数据分析等方向的技术探索。
学以致用
践行王选院士“科技顶天,市场立地”的精神,并依照企业国家重点实验室的产学研结合的模式,谢海华及其团队在许多研究方向上取得了大量产学研成果,或者规划了可行而且详实的研究方案。主要的方向和成果有以下这些方面:
第一,在学术大数据平台建设方面,他们已经构建了一个学术大数据平台,包含学术会议库,学术论文库,学者信息库,并含有知识提取和信息挖掘功能。學术大数据平台可以作为知识挖掘和信息提取研究的基础数据库。基于学术大数据平台的学者影响力预测、学者科研兴趣分析、学者参会信息分析等,可以为公司或者科研机构提供信息咨询服务,例如:为高校引进人才时提供候选人的科研能力和学术潜力评估。
在2017年8月至10月间,谢海华和他的同事们,代表数字出版技术国家重点实验室知识服务团队,参加了“2017开放学术精准画像大赛”, 并在400支参赛队伍中取得第一阶段第二,第二阶段第五的佳绩。这次大赛,是基于学术数据挖掘系统提供的原始数据集,设计准确高效的方法提取学者的个人描述信息,分析学者的研究兴趣,以及预测学者的论文引用情况,从而更好地面向学术界提供专家信息、评估学者研究成果、介绍科学研究进展、展示学术发展动态。在比赛中,他们运用机器学习和自然语言处理的专业知识,探索并试验学者信息挖掘和影响力预测的算法和技术,提升了信息检索、文本信息处理和数据挖掘方面的能力,积累了大规模数据分析和计算方面的经验,展示了实验室的技术水平。
第二,在机器写作方面,他们运用生成式和抽取式相结合的方法,实现新闻文本摘要的生成。包括:单篇文档自动摘要(100字左右)生成,而且摘要的语句通顺;多篇文章的自动标题(20字左右)生成;多篇文章的自动摘要(150字左右)生成。现在,这项成果已在公司内部的新闻部门应用,并得到广泛好评。
第三,在智能问答方面,他们与集团子公司的具体业务部门沟通讨论应用场景,并实施了客服领域的自动问答。另外,他们还积极探索基于知识库的智能问答、多轮对话等领域的最新技术,努力将问答系统领域的学术成果,转化为数字出版技术实验室的工程成果。
第四,在智能审校方面,在出版行业里,待出版的文档中往往存在很多语法和语义错误,需要耗费审校人员大量的时间来进行校对。现有的自动审校工具,例如黑马校对,只能找出文档中的简单语法错误,比如错别字,拼音错误等。然而,目前没有成熟的技术能够自动检查出文档中的复杂语法和语义错误,例如:语句中的主语和谓语等成分残缺、主谓搭配不当、褒贬颠倒等。而这些错误的校对,也恰恰是审校人员工作的重点和难点。因此,审校工作业界对审校的效率和准确率的提升有强烈的需求。而智能审校这项研究,主要针对的就是,待出版文档中的复杂语法错误和语义错误,进行自动识别和纠错,以节省审校人员的工作量,并提高出版物的质量。
智能审校作为知识服务方向今明两年的重点工作,谢海华倾注了大量的时间和精力推动该项目相关技术的研究。2018年12月27日,谢海华参加了方正电子与中国出版协会编校工作委员会、数字出版技术国家重点实验室举办的智能辅助审校专家研讨会,探讨在人工智能时代,如何运用自然语言理解等前沿技术为编辑人员减负增效。
当前,我国正在从出版大国向出版强国发展,出版物内容编校质量一直是出版行业关注的重点。人工智能技术、自然语言理解技术、机器深度学习技术的发展,为出版行业提升出版物编校智能化程度、降低人工劳动强度、提高工作效率提供了新的解决方案。在此背景下,方正电子联合中国出版协会编校工作委员会、数字出版技术国家重点实验室,邀请出版行业专家和技术专家就人工智能技术如何运用在内容编校领域进行研讨。会议当中,谢海华博士介绍了人工智能技术在文档审校修改中的应用,以及自然语言理解基础技术、语言模型、机器学习模型、深度学习模型在文档审校修改方面的应用情况,分享了人工智能技术在单位格式自动校核和标点符号审校修改方面取得的进展。他还介绍了方正电子在图表公式序号检查、上下文内容查重、全半角、规范用语等十一项检查项的产品情况,向与会专家概括了智能辅助审校产品下一步研发的重点工作。
出版社的专家们充分肯定了方正集团致力于新闻出版行业的技术创新的初哀和出发点,需要从行业的角度解决行业的共同需要,认为智能辅助审校的产品方向、目标和定位是正确的,技术路线是清晰的。与会专家建议,方正电子和数字出版实验室应该充分考虑内容编校的复杂性、艰巨性和难度,进一步明确产品的边界。明确在内容“审”的方面哪些是机器能解决的问题,哪些是编辑人员人工解决的问题,立足为编辑“减负”,同时与国内专业权威机构建立长期的合作关系。
谢海华认为智能辅助审校专家研讨会的召开,为方正电子智能辅助审校产品的研发明确了定位与发展方向,大力推动了方正电子基于新闻出版行业的技术创新。他说,面对出版业的发展和需求,方正电子和数字出版技术国家重点实验室将继续致力于出版行业的技术创新,通过运用人工智能等前沿技术,提升出版行业编校水平,为编辑人员减负增效。
第五,在媒体大数据分析方面,他们计划构建一个媒体大数据分析系统,包含新闻文本的转载、侵权和同题检测,新闻线索发掘和新闻影响力分析。该项研究的创新点是基于新闻文本特点和媒体业务场景的知识服务应用研究。中国人民大学新闻学院作为国内新闻传播学的顶尖研究机构,也和谢海华团队合作,为这项研究提供专业的媒体传播理论分析。因此,这项研究的应用前景非常广阔。
不久的将来,谢海华和他的团队在已有的技术成果以及行业前沿的探索的基础上,将致力于不断发展方正集团在人工智能领域的技术,推动现有产业革新,并努力开拓新的产业发展方向,助力公司在当今人工智能的大潮当中不断前进,成为国内领先的创新科技企业。对此,谢海华博士充满了信心。
链接
谢海华,1983年生,博士毕业于美国爱荷华州立大学计算机系。2015年进入海淀园北大方正集团企业博士后工作分站(与北京大学联合培养),出站后留站,现任数字出版技术国家重点实验室高级算法研究员,知识服务方向技术负责人。博士后期间主持多项数字出版行业关键应用技术创新项目,运用人工智能技术探索并实现了专业出版领域的数字资源大数据云平台,已取得数千万经济效益;发表EI论文14篇,申请发明专利14项;2018年入选北京市海聚工程青年项目,获得“北京市特聘专家”荣誉称号,并获评方正集团高级技术专家。