APP下载

基于新闻语料库的中文自动校对改进方案探讨

2016-09-20靖纯

中国传媒科技 2016年6期
关键词:词库黑马语料

■文/靖纯

基于新闻语料库的中文自动校对改进方案探讨

■文/靖纯

新闻采编中文字校对工作是很重要的一个环节,随着新华社对自己新闻产品质量要求的提高,对中文文字校对工作的要求也日趋严格。中文校对软件已成为新闻信息化中协助校对人员的常规工具,但校对效果却差强人意。利用中文稿件数据库资源,实现校对软件与新闻语料库协同工作,探索智能校对方向可有效弥补校对软件的不足。

中文校对;语料库;语义分析;方案设计

引言

随着计算机和信息技术的发展,自然语言处理技术也随之进步。中文自动校对技术含自动查错和自动纠错两个步骤,是自然语言处理技术中的重要组成部分。

新闻采编中除了字词错误外,还存在语义类错误。语义类错误与编辑者知识水平、语言使用习惯和对内容的敏感程度有关。比如与知识有关的“张飞手里拿着苹果手机”一句,如果出现在三国历史环境中,这句话就是错误的,如果出现在近几年的文章里,张飞只是与历史人物同名,这句话又是正确的。无论出现在哪里,使用中文自动校对技术都无法自动判断这句的对错。由此,在校对软件协助下,语义校对成为校对工作的重点,而充分利用新闻语料库中的资源进行中文智能校对逐渐提上日程。

一般而言,语料库通常指作为语言资料收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成。经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况。我们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为自然语言工程不可缺少的基础资源。新闻语料库提供大量的新闻自然语言材料,采用的是经验积累方法,充分利用语料的检索和频率统计结果,有助于校对软件根据语言实际得出正确的结论,这种结论同时也是可观测和可验证的。中文智能校对就是在计算机技术的支持下,学习和总结新闻语料库的海量数据,以判断当前文本中的字、词、句及相互组合是否符合中文事实规律。

1.传统校对方法分析及新闻语料库发展

新闻出版校对任务一般分三部分:一是比照原稿校核校样,依据原稿改正排版错误;二是采用通读方法,发现并改正原稿本身可能存在的错误;三是通过技术整理,保证版面格式的规范与统一。原始校对任务通过人工实现,人工校对有很多不确定因素,校对准确率与校对人员的身体状况、精神状况、知识水平、责任心水平都有很大关系,在连续工作情况下就会出现遗漏,影响新闻出版产品整体质量。随着新闻出版生产流程的信息化,自动校对成为质量保障体系中重要一环。电子文稿的中文自动校对是使用校对软件对文章中的字、词、词组进行检查,发现问题自动提示及提供修改建议,不过难以发现语义中的问题。

1.1中文校对软件现状

在目前的中文自动校对领域,经过调研新闻出版行业的使用情况,黑马校对软件是中文自动校对的首选。黑马校对拥有高倍信息压缩、快速检索、汉字高精度快速切分、最优汉语依存分析等多项中文信息处理技术;并积累了3000亿汉字的各类原始语言材料,以及达6000万条之巨的汉语知识库,堪称超大海量语料库;采用国际计算语言先进的语法分析和语料库统计相结合的方法,具有汉语切分技术、汉语语法分析技术、汉语依存关系分析技术等优秀的中文智能技术。

新华社的主要编辑部门使用的中文自动校对工具均为黑马校对软件。黑马校对在新闻稿件编辑过程中起到一定质量保证作用,但是,实际使用的问题也越来越多,黑马校对在涉及内容语义检查时依然无能为力,并且相对新闻更新速度,黑马校对词库不能即时在线更新。鉴于上述原因,人工校对在稿件编辑过程中仍为重中之重,不可或缺。

1.2多媒体数据库发展

新华社多媒体数据库,以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源及各类新闻、各类历史资料和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿、葡及中文繁体在内的多个文种,涵盖政治、经济、文化、生活等各个领域、各行各业,并具有高效灵活、实用检索、浏览、个性化定制与推送服务等多种功能,真正实现多媒体互动,数据准确、传输高效、检索便捷。数据库收录汉字多达数百亿,全天候为海内外用户提供多层次的新闻信息服务,每天及时将国内以及世界各地的新闻信息进行收集,成为新闻类资料的总汇。

多媒体数据库提供多级分类查询功能,有全文检索、二次检索、中英文及图片、文字、音像多媒体混合检索,以及分库和跨库联合检索等。多媒体数据库通过历史积淀和快速发展,可以提供有效捕获正确信息的手段进行综合比对和分析,可以实现在海量数据中通过统计概率总结出正确的语言规律。

1.3多媒体数据库可实现新闻语料库功能

广义的语料库指大量文本的集合,库中的文本(语料)通常经过整理,具有既定的格式与标记,在本文所述范畴,特指计算机存储的数字化语料库。

新华社多媒体数据库的中文文字系统不仅汇集了从1948年以来新华社播发的所有中文电讯稿,而且全天24小时实时播发新华社各路电讯稿、各条经济信息专线产品,以及新华社社办报刊和精选稿件。多媒体数据库中有各种新闻词汇库,比如人物库、组织机构库、法规库、背景资料库、中外词汇翻译、中国译名、国际译名库等,比如组织机构库中现有中国组织机构词条约3000篇,国际机构组织词条约9000篇,主要是对国内外相关组织机构情况及其领导人情况进行描述。除了使用规范结构的专用库,数据库中的大量资料都是按照文章的方式存储,不是格式化的规范词条,可以为人工查询提供资料帮助,但是难以满足直接作为中文校对软件的词库进行自动处理的要求。

黑马校对的语料库涵盖的是通用语料,而不是专为新闻出版行业设计,新华社多媒体数据库中存在的海量语料信息,是新闻领域重要的信息资产,完全可以弥补黑马校对中新闻语料的不足,实现与新闻业务关系最密切的新闻语料库功能。

B企业的创始团队多为重点大学毕业的硕士研究生,在大疆、迈瑞、联想等知名企业工作多年,有无人机、机器人、智能家电设备等领域的研发经验,拥有十余项专利技术,并将其成功应用到新产品的研发中。可以说,产品上市前,企业主要是拼凑手头的研发经验和技术资源,属于手段导向型拼凑模式(11>2)。产品上市后被评为粤港澳大湾区的明星产品,受到消费者的好评,获得了政府创业补贴和天使投资,与国内外数十家供应商、渠道商建立了合作关系,以拼凑外部优势资源。据表6编码显示,产品上市后,社会网络型条目数远远超过手段导向型条目数(12>4),可将其判定为社会网络型拼凑模式。

2.中文自动校对改进方案分析

中文自动校对与语料库的发展相辅相成。我们利用语料库对大规模的自然语言进行调查和统计,建立统计语言模型,依托信息检索、文本分类、文本过滤、信息抽取等应用,研究和发展基于统计的中文智能校对技术。同时,中文自动校对技术的发展也为语料库的建设提供了支持,从字符编码、文本输入和整理、语料的自动分词和标注,到语料的统计和检索,为语料的加工提供了关键性的技术参考。

基于新闻语料库的中文自动校对改进方案是依托校对软件,充分利用语料库资源以弥补校对软件的不足,实现语义类校对的改进,提供优质服务,形成校对服务体系,在逐渐积累的过程中向智能化发展,尝试可深度学习的智能校对之路。首先要对校对软件更新,使之能掌握最新信息发挥最大作用。其次对多媒体数据库提供建模和优化算法,使之更符合语料库结构功能,并以服务形式输出。最后实现智能化学习的基础建设要求。

2.1实现黑马校对维护升级

黑马校对软件在新华社业务系统中应用广泛,是编辑常用的纠错工具。除了定期更新公共词库外,黑马校对还提供客户自定义重点词库的功能,可以按照指定格式人工导入新增词条。

黑马校对软件提供了词库管理功能,词库维护人员直接对黑马校对的客户自定义词库进行扩充和维护,形成格式化纠错词库。黑马校对提供了用户词库、敏感词库、错词库等一系列可以由用户自行定义的词库,用户可以根据自身需求及对某一类词的专业处理来有效运用这些自定义词库。

通过用户专业词库定制方式,利用黑马校对软件的重点词校对机制,可以将新闻语料库中的部分符合规则内容加入到用户自定义词库中,形成新闻行业专有词库,业务系统通过调用黑马校对来实现用户自定义词库提示和纠错的功能。这样,可以实现黑马校对在新闻领域的专业词库维护升级方案。

新华社新闻编辑系统中为此特别开发了用户界面,提供稿件检查过程中即时添加和随时管理添加修改两种方式,用于定制用户自定义词库,满足用户的个性化需求,同时也可以积累最新语料关注情况信息。

2.2黑马校对与新闻语料库结合提供校对服务

作为新闻语料库的多媒体数据库中存在大量不符合黑马校对词库格式的存储内容,无法直接导入到用户自定义词库中,同时用户自定义词库中的积累资料也无法直接存放在多媒体数据库中。比如组织机构库中的资料都是按照文章的方式对机构及其领导人进行编写,类似一篇篇新闻稿件,不是格式化的规范词条,可以为人工查询提供资料帮助,但是难以满足系统的自动处理的要求。如图1所示,“蒙古国政府”是一篇文章的标题,政府中的职务和人名都在“蒙古国政府”的正文中。调用语料库查错,对于政治敏感性要求严格的内容,由于无法容忍自动校对的“错误率”,也不适合直接使用文本智能识别的技术进行纠错。所以,要完成进一步的校对目标,应建立专业的内容维护团队,利用专业纠错工具,同时调用相关接口来辅助实现。

图1 多媒体数据库中组织机构库条目实例

如图1所示,如果目标是检查“蒙古国总理”,库中只有“蒙古国政府”词条,没有“蒙古国总理”词条,需要检索出蒙古国政府后,查看正文中的一段内容才能知道总理的名字。由于没有格式化,不利于计算机准确识别和纠错。同时,用户自定义词库由于存放在用户本地计算机内,既不是稿件也不是数据库资料,无法存放到多媒体数据库整理共享,这样即使有用户了解到正确的信息也无法共享给其他用户,作用到其他用户校对词库中。校对软件词库、语料库资料和用户自定义信息都是相互独立的,有时候甚至是相互冲突的。

除了数据结构问题,应用系统的调用与统一也是校对软件和语料库结合需重点解决的问题。应用系统使用的校对软件版本和对系统支持度都不尽相同,多媒体数据库对各应用系统开放的程度也不同。所以必须建立统一的校对软件和数据库接口规范。

目前新华社新闻编辑系统中,黑马校对被集成到编辑器里使用,类似于微软WORD软件。黑马校对提供了一些可被外部程序调用的接口及动态链接库,编辑系统开发时将校对功能调用直接使用了黑马校对,完成整篇稿件的中文校对过程。新闻编辑系统同时也可以访问多媒体数据库系统接口,完成所有语料库资料的查询检索等功能。由于接口不同和语料结构不统一,目前无法把校对词库和语料库中的资料结合在一起进行校对判断。

鉴于上述原因,基于新闻语料库的中文自动校对改进方案是一个业务和技术结合的系统工程。

2.2.1在多媒体数据库中,由业务部门组建专业的资料维护团队,按照新闻语料库要求,完成相关词条的格式化、规范化,并根据新闻动态进行及时更新,保证内容的正确性,形成一套符合系统要求的专业“新闻语料词库”管理体系。体系中包含所有可被用于中文校对的数据库专用库,利用新华社编辑记者的专业性控制内容质量。

2.2.2在多媒体数据库中开发一套“新闻语料词库”维护工具,使得资料维护人员可以使用该工具对词库进行维护,增、删、改相关内容,最终能够形成一套适合计算机处理的格式化的词库,确保处理效率和内容正确性。维护工具仅面向少量专业人员,按照管理体系要求进行维护,以避免多人信息不对称造成的人为维护混乱,甚至有可能造成人为错误。

2.2.3由多媒体数据库系统建立校对词库服务体系,结合黑马校对词库,统一数据库与黑马校对接口,实现语料资料与黑马词库格式互认,数据库语料不必严格遵守黑马校对词库格式要求。语料数据库提供的统一校对服务接口,以服务形式实现黑马校对和新闻语料词库协同共作,来满足提示和纠错的功能。

2.2.4开发相关业务系统调用“新闻语料词库”的统一接口,将“新闻语料词库”纳入到实际业务系统中文校对范围,与校对软件结合,达到辅助人工校对的目标。同时,用户自定义词库和最新的语料资料信息可以通过此接口方便地导入语料库资料中,按照管理体系要求维护后,实现语料库的实时更新与共享。

上述方案需要先确定词库加工人员的规模和工作方式,还要依赖黑马校对提供接口和开发支持的情况。考虑到性能和日后的专用词库管理,应为语料库系统搭建内置的黑马校对软件,将中文校对所需语料库统一在后台,建设中文校对公共服务。各相关业务系统不再建立独立的中文校对系统,而是通过接口使用公共校对服务。

基于新闻语料库的中文自动校对改进方案可以实现部分语义级校对,还是以上述组织机构库中蒙古国总理举例,如新闻中出现“蒙古国总理张飞”字样,如果黑马校对中没有最新的蒙古国总理资料,会认为该表述是正确的,但多媒体数据库中存在最新的组织机构资料,会提示编辑者相关错误并提出修改建议。

2.3基于新闻语料库的中文智能校对初探

在完善语料库过程中,除了尽量规范设计组织机构库等专用词库外,语义校对功能可以通过模糊匹配语料库和校对软件的针对性开发得以实现,语义校对的基础是语料库,为用户服务的是校对软件,无论是对黑马校对定制开发或是自行开发校对软件来实现,对于语义层面的校对,国内多家研究机构和组织已经具备可以达到应用的资料积累和技术能力。

语料库使用统计语言模型方法处理基础资源。统计语言模型关注的是一串符号的同现概率。比如N元语法模型,只关注句子中各种单元(比如字、词、短语等)近距离连接关系的概率分布,而对于更复杂的语言现象就无能为力了。要想改进N元语法的建模技术,必须利用语料库引入更多的语言特征信息和统计语言数据。同样,在智能校对方向,语料库提供的语言知识大量用在统计语言模型方法中。除了词语自动切分、词性自动标注、信息抽取、信息检索、文本分类和过滤以外,还有语法、语义的语言知识建立,并最终把基于统计或实例的分析技术集成到智能校对中。

智能校对可以根据语料库数据里大量中文语料模糊匹配出“正确词错词”的组合概率来校对语义类错误。首先根据语料自动获取搭配,这是智能校对的基础资源,校对时提取待校对文本的搭配信息,根据训练的搭配资源组合计算搭配支持度,比较资源集中所有词的支持度大小判断原文是否出错,并给出支持度最大的多个结果作为纠错意见,校对时若文本匹配到错词,系统就直接给出正确的词。智能校对的实现基础是在逐渐积累中深度学习,是可以不断学习和进步的“校对机器人”,随着近年人工智能浪潮兴起,“校对机器人”诞生可期。

3.总结

基于新闻语料库的中文自动校对改进方案可以有效利用新华社稿件多年的历史积淀,发挥新华社采编团队在新闻界的权威优势,把新闻语言中文使用规范逐步建立起来。除此之外,新华社还不断发布新闻报道中的禁用词、慎用词和规范用词等针对性公告,对若干领域的新闻报道用词加以规范。这些规范专业的语料成为新闻语料库重要组成部分,为中文自动校对提供了基础的新闻语料支持。

基于新闻语料库的中文自动校对改进是对目前新华社中文自动校对的优化完善,主要针对由新华社产出的各类新闻用语,解决部分语义产生的错误,可以提高中文校对工作效率,进一步保证新闻产品质量。但是,从另一方面来说,中文自动校对远未实现真正智能化,无法保证可以检查所有错误,仍需人工校对服务的支持。

(作者单位:新华社技术局全媒体采编技术系统部)

TP393

A

猜你喜欢

词库黑马语料
基于归一化点向互信息的低资源平行语料过滤方法*
“黑马”诞生记
一“吃”多用
输入法词库取证比较研究
输入法词库乾坤大挪移
刚加入“黑马+云孵化”的Udesk融到300万美元
黑马会
黑马会
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法