APP下载

云检校开启智能校对服务新时代

2023-01-04段洋

新阅读 2022年11期
关键词:词库检查智能

文/段洋

随着国家科技发展战略不断深入,以形成综合印刷出版物、数字出版物和各类数字信息资源生产与服务的智能出版系统逐渐走进出版人的视野。以智能检校工具为核心出发点,打造针对报社、出版社等各出版单位具体流程的出版检校系统,能为新闻出版行业的产业升级、技术改造和数字化转型提供有力支撑。智能检校以先进技术为依托、内容建设为根本,面向出版全流程,研发应用于选题策划、协同采编、加工制作、资源管理、多渠道发布、运营服务等核心业务,既覆盖以报业出版为代表的常规和政治敏感类检校需求,也覆盖以专业图书、期刊为代表的专业性和知识性检校,同时还满足各类出版单位针对业务类型进行个性化维护的需求,开创检校领域全媒体资源管理和互动服务等多方面变革,大幅提高出版产业对内容资源的加工能力和运营能力,有利于进一步提升出版物质量,缩短出版周期,降低运营成本。

媒体融合环境下智能出版系统的重要性

新闻出版面向公众传播新闻、信息资讯,其基本属性是内容的真实、准确。当前,互联网、大数据等技术在媒体行业的应用,使得新闻出版的时效性得以快速提升,但不论是传统媒体还是新媒体,出版质量的控制还是以人工居多。传统出版共有写稿、编辑组版、人工校对、照排印刷四个环节,其中三个环节基本实现信息化高效运行,唯独校对环节还是人工为主,工作效率低,无法满足新媒体时代下用户对信息速度的要求,尤其在当下网络出版质量差错率远远超过国家要求的情况下,对于文字内容的质量控制手段亟须提升。

为保证报纸、书籍、期刊、音像电子等出版物的质量要求,同时促进互联网信息传播的正确性,加强出版单位、出版物及用户之间的联系互动,形成出版生产质量的全面优化,实现出版全过程信息化,开发适应当前行业全媒体需求的智能检校系统的需求日益增长。

出版物编纂、审核过程中,对内容的检查涉及多个方面,包括字词符号检查、逻辑性检查、内容重复性检查、知识性检查、格式检查、语法审校等。目前,对于出版物内容的检校,除部分报社、出版社引入新闻出版检校系统或自动校对工具外,大部分出版单位的检校还是依赖纯人工的方式。在数字出版中,特别是微博、微信、移动客户端的内容中存在错词、文字段落重复出现等诸多质量问题,需要研发配套的技术,提供方便的校检辅助服务,对数字出版物的质量进行控制,支撑出版单位及管理机构的质量控制需求。当前出版业普遍使用的审校工具主要基于错词库进行审校,在媒体融合发展环境下,对知识性、逻辑性、语法的审校能力相对薄弱。智能检校利用自然语言理解技术、机器深度学习技术、人工智能技术对出版内容进行审校,让编辑人员从低价值的、重复性较多的编校工作中释放出来,将主要精力放到更有价值的知识性、学术性的内容检查上去,提升图书内容编校质量和效率,具有重要价值。

智能检校满足融合出版不同需求

报纸出版时效性强,流程环节复杂,其中的校对环节更是重中之重;期刊与图书出版生产周期相对较长,稿件以WORD和PDF格式为主,内容多,生产流程中的采编审校环节的衔接比较松散。智能检校系统提供智能检校云平台、协同检校系统、嵌入式检校工具、智能检校SDK四种应用模式,以适应出版社、报社、期刊社融合出版的不同检校需求,满足出版行业各类用户的质量控制需求。

智能检校云平台。通过浏览器为用户提供云端智能检校服务,适合各类出版用户的轻应用业务场景。平台为新媒体出版及各种轻检校场景(不调用专业阅读器及采编系统等)提供网络化的智能检校服务,同时将词库维护及算法管理等功能集成在云平台中,随时随地满足新媒体移动出版时代用户轻快的检校要求。

协同检校系统。服务于报业,提供各种智能检校工具,在保证校对质量的前提下,以独立的检校处理系统与用户的采编系统并行,除了提供文字内容校对外,还满足报纸出版特有报头自动校对、字体字号校对、原文比对、重稿检查、核红比对、标记查询的业务需求,并辅以进度监控、工量统计、即时通讯等系统功能,为各环节人员提供质量控制和时效管控辅助工具,提高生产时效。

嵌入式检校工具。着重满足图书及期刊用户在专业编辑器中的检校需求,安装简单、实用便捷。专业性图书、学术型期刊出版时专业名词较多,公式、章节、图表等特殊内容较多,编写和排版时容易出现序(编)号缺失、颠倒等错误,需求也相对较多。嵌入式检校工具能够在稿件采、编时提供智能检校服务,操作简便,更适合流程周期长的图书、期刊出版。

智能检校SDK。供出版用户的采编系统直接调用,提供采写、编辑时的内容检校服务。

多形态智能检校为出版质量保驾护航

智能检校系统的研发目标是面向文字内容等差错的在线自动查找,在智能检校系统中实现人与机器高效协同地采编、出版、检校,运用智能检校和人机结合工具提高出版的质检自动化程度,能有效缩短出版周期,降低出错率。项目的创新包括以下几个方面。

逻辑体例检查。通过“逻辑体例检查”功能,可实现对稿件大纲的标题序号是否连续、标题序号体例及格式是否一致等问题,以及稿件中所有图片、表格、公式、列表、数学元素、参考文献的序号或顺序书写是否正确、是否存在引用关系错误进行检查。

内容相似性检查。通过该功能,可以快速检查出整篇稿件或多篇稿件中是否存在疑似重复的文本内容及相似程度较高的文本内容。

敏感内容检查。除基础词库外,分类专项设立领导人词库、敏感词词库等专业库,包括重点词监控、涉及港澳台相关用语的检查、涉及敏感政治事件及重大提法、涉及民族宗教敏感词、其他敏感词汇、危害社会安全的敏感词检查,提升智能校对正确率及覆盖广度,并成为出版单位、用户与监管单位三方共享使用的检校平台。

政要信息检查。检查政要姓名中是否出现错别字、多字少字等错误情况,包括领导人职务正确性检查、领导人职务表述的规范性检查、领导人排序检查等。

重要讲话内容核查。通过重要讲话内容核查功能,实现可以不受书写体例限制自动识别出稿件中的领导人讲话、政府发布的重要文件等内容,通过文本相似性比对技术推荐与原句相似度较高的句子,并标注出句子间的差异,供用户核查。

法律法规内容核查。不受书写体例限制自动识别出稿件中的法律法规内容,通过文本相似性比对技术推荐与原句相似度较高的句子,并标注出句子间的差异,供用户核查。

字词符号检查。字词符号检查主要包括针对错别字、叠字叠词检查、“的地得”检查等字词错误,不规范字、标点符号等内容错误进行检查。基于前沿深度神经网络的纠错模型,利用海量数据预训练得到的神经语言模型。结合审校场景,针对不同类型错误特点的数据特征进行调整,并通过不同的算法模型进行纠错。结合用户真实使用的反馈数据,利用数据增强技术持续增强模型的纠错能力,包括易错词、不规范字、标点符号检查、时间日期检查、术语译文检查、单位符号检查、英文拼写检查、全半角检查、千分位检查、单位间隙检查等。

正文内参考文献引用顺序检查。检查稿件正文中参考文献的引用顺序是否存在错误,一直是令广大书刊编校人员较为头痛的编校问题之一。通过拓展对采用顺序编码制编写的参考文献的检查维度,对参考文献在正文内的引用顺序进行检查,可实现对整体的引用顺序、方括号内的引用顺序进行检查。

易错词检查。一方面,联合大数据及实验室团队对拼写模型、同音音近模型、语法检查模型进行多轮优化,有效提升拼写错误检查的查全率;通过增加词对数量,提升同音近词检查模型的查全能力;通过扩展检查错误范围及增加错字和选词错误的范围,提升语法检查的查全率和查准率。另一方面,优化检查规则。一是叠字叠词检查规则优化:完善了叠字叠词检查的后处理规则,增加了对存在叠字的正词中叠字部分错误的检查规则(如“消消话”),提升了叠字叠词检查的查准率和查全率;二是短文本纠错:增加基于词库和规则的短文本纠错能力,解决用户测评时刻意构造的短文本样例,以及检查歧义性低的常用词或词组,提升了易错词检查的查全率和查准率;三是将“非推荐词”和“语义重复”这两项检查能力拆分出来形成独立的检查能力,以满足不同用户对易错词范围的检查需求。

知识类检查。知识类检查包括纪年检查、地名检查、古诗词引文检查。

智能检校的未来发展之路

近年来,各级出版单位认真贯彻中央精神,积极推进复合数字出版发展,不断探索融合发展路径,利用互联网思维方法、理念技术提高出版效率和内容质量,应势而动,顺势而为,将机器学习、自然语言处理、认知推理、模型构建、图像识别等技术集成应用融入到出版过程中。虽然智能检校技术针对机器学习、机器视觉、感知识别、自然语言处理、认知推理、模型构建等技术都有广泛应用,并具有较强的集成应用和工程化能力,但我们也应认识到,如何把新技术应用到出版流程中才更重要。笔者认为,智能检校系统在未来的不断升级完善中,有以下几方面值得重点关注。

多渠道拓宽词库。词库是决定检校成效的关键之一,为解决传统自动校对词库封闭、知识面窄的弊端,智能检校系统可以积极推动词库“众筹”理念,向用户开放可维护词库,并提供用户检校结果审定接口,使得词库随着用户持续使用而优化丰满,实现云端汇聚和在线分享。

升级云平台部署及分布式计算技术。以云端检校、客户端展现结果的方式提供智能检校服务,用户可随时随地通过网络校对,处理速度快,应用成本低。进一步升级云平台部署将不断优化处理能力,降低应用成本,提升用户体验。

优化立体检校模式。多算法相互验证、多规则彼此协同的立体化检校方式,辅以基于词库的非规则算法提供支撑,对字、词、句、段各级文本实现智能化识别和立体化检校。及时采用最新的大数据技术,可持续高速扩充规则库的采集,进一步优化立体检校模式。

提升数字化出版环境下的质量管控能力。通过多种检校服务,满足媒体融合出版全流程、多格式、轻应用的智能检校需求,支撑中文出版领域质效控制,提升出版时效,降低直接生产成本。

应用最新技术带动检校服务模式的转变。通过云检校平台帮助用户扩充专业词库并分享用户的检校知识和经验,实现从传统的单向服务变为用户与平台双向互动、互为分享,共同提升检校准确性的业务模式。智能化技术置于智能审校发展的中枢环节,对图书、期刊、工具书和新闻类内容质量进行把关,提升出版效率和出版质量。

结语

近年来,媒体融合发展已经深入人心,从中央的政策支持,到行业内外的积极探索,新闻出版行业已经走到了转型发展的重要拐点。互联网、移动互联网的广泛普及,大数据技术、人工智能技术等新兴技术在内容生产及消费领域的应用,VR/AR在内容呈现方面的应用,都促使新闻出版行业由传统的纸笔生产及消费模式迅速与新兴技术结合。出版单位要积极探索适合自身的业务模式,坚定地推进数字出版转型升级。相信通过政府的引导,新闻出版产业链上的各方共同参与、互相协调,终会探索出一条适合中国数字出版的道路!

猜你喜欢

词库检查智能
孕期X线检查,真的不能碰吗
备孕多年不成功,要做些什么检查
一“吃”多用
输入法词库取证比较研究
智能前沿
智能前沿
智能前沿
智能前沿
输入法词库乾坤大挪移
Playjng with ch & sh