智能校对软件在编校工作中的作用
2021-12-06于亚明苏海波
■于亚明 苏海波
无论是媒体行业还是出版行业,校对方式都经历了人工校对和人机校对两个阶段。
在进入计算机时代之前的校对工作,主要是由人工“校异同”,这种校对方式属于传统校对方式。“校异同”也就是在稿件上版之前,校对工作者拿原稿与排版打印出来的样张逐字逐句对照,以原稿为准纠正样张上的多字、漏字、错字等错误,反复进行三次,即所谓的“三校”,直到样张和原稿内容完全一致方可发布。
在进入计算机时代后,纸质稿件逐渐变为电子稿件,从而使原稿和样张合二为一,这种改变对校对人员提出了更高的要求,要求校对工作对编辑工作起补充和完善作用,因此该阶段由“校异同”开始向“校是非”转变。“校是非”顾名思义就是校对文本内容的正确与否,不再是和原稿一致性的检查,虽然这个阶段的“校是非”比重较小,但这标志着传统校对的创新和变革。
稿件电子化和对校对人员更高的要求催生了校对软件,也就出现了新的校对方式,即“人机校对”。此时的校对软件是采用N-Gram统计语言模型的校对计算技术,主要实现查找错别字、专有名词、标点符号等错误,相比人工校对提升了效率。举个简单的例子,“饯行社会主义核心价值观”,该句中“饯行”一词本身没有错误,但在该句中却是错误的,利用校对软件能够自动识别出这类错误。虽然校对软件具有一定优势,在识别文本的错字错词方面提高了效率,但是其局限性也十分明显,因而要求采用“人校+机校相结合”的方式。
基于N-Gram统计语言模型的校对,其实现方式可以简单地按照如下思路理解:首先基于大量的语料进行分词,进行统计得到N-Gram语言模型,对需要校对的文本,判断相邻词语在语言模型中出现的次数是否高于一定的阈值,如果达不到该要求,则报错。这种方法实现比较简单,效果也比较一般,容易误报和漏报。
新兴的利用人工智能技术的校对软件,是利用自然语言处理技术和深度学习技术,对大量语料进行模型训练从而完成校对。算法人员依据行业规范、标准和业务知识设计对应的模型,让机器通过模型去学习语料中的错误的案例和对应的正确的内容,同时以知识库作为补充和完善,最终识别和提示稿件中的不规范内容,并给出修改建议。基于深度学习模型的方法需要更多的语料,实现更加复杂,但是效果相比传统的N-Gram统计语言模型有明显的提升。
目前市面上的校对软件主要分为两类,分别是基于N-Gram统计语言模型的校对软件和利用深度学习技术的校对软件,这两种类型的软件有各自的优缺点。
基于N-Gram统计语言模型方式实现校对的软件,有以下优势:一是进入行业早,客户多,知名度高;二是软件的功能多,通用性强。其缺点也是显而易见的,由于采用的是传统统计语言模型,效果一般。
利用深度学习技术的校对软件,结合前沿的深度学习技术,具有以下优势:一是利用深度学习技术满足了不同业务场景下的语法错误校对,校对效果好;二是可快速优化效果,根据收集的错误案例及时优化模型,快速解决客户的问题,其优势非常明显,在信息爆炸、新闻时效性高、稿件量大、工作任务紧、质量要求高的情况下,这种优势变得越来越重要。
尽管校对软件可以辅助人工审稿,提高审稿效率,降低错误率,但所有校对软件的准确率目前都还无法达到100%。中国汉字语言博大精深,一字一词错误就可能会差之毫厘,谬以千里。完全由机器替代人工完成校对工作是不现实的,因此依旧需要人机结合校对。
目前市面上的大多数校对软件都支持网页端、插件端等多种使用方式,编校人员可根据实际使用场景选择合适的版本。如果媒体编校人员对文本格式要求不高,可以选择网页端的软件,这种版本无需下载安装任何软件,直接登录浏览器输入账号密码即可使用,灵活易用。对于稿件格式有较高要求的编校人员,可以选用WORD插件或WPS插件,避免修改文本错误后再次调整格式的重复工作。
无论是基于N-Gram统计语言模型的校对软件还是利用深度学习技术的校对软件,在编校工作中都发挥了重要的作用,帮助编校人员提高了审稿效率,降低了内容错误率,助力机构把好内容安全生产关,避免不良信息传播,增强其公信力与权威性。但目前校对软件只能辅助人工审稿,不能完全替代人工审稿,编校人员依然要不断学习,增强自身专业能力和知识功底。