技术标准AI智能审校技术的研究与应用初探
2024-10-21徐志军侯纪勇
摘 要:《国家标准化发展纲要》指出“将标准研制融入共性技术平台建设,缩短新技术、新工艺、新材料、新方法标准研制周期,加快成果转化应用步伐”。随着科技与经济的快速发展,技术标准的更新日益加快,涉及的技术愈发复杂多样,加之技术标准文档中公式、图表、文字等细节繁复,传统的单纯依靠人工审校的方式不仅效率低下,而且容易因人为因素导致审校结果不准确、不一致,已无法满足技术标准制修订的需要。引入技术标准AI智能审校技术辅助人工审校已成工作之急需。该技术以其高效精准的优势,能够快速完成大量文档的自动化审校,捕捉并提示文档中的语法错误与不合规项,大幅提高审校效率,显著降低人力成本,提升审校结果的一致性和规范性。
关键词:技术标准,智能审校
1 开展技术标准AI智能审校技术研究与应用的必要性
2021年10月,中共中央、国务院印发《国家标准化发展纲要》,指出“持续优化标准制定流程和平台、工具,健全企业、消费者等相关方参与标准制定修订的机制,加快标准升级迭代,提高标准质量水平”。2024年3月,国家市场监督管理总局等十八部门联合印发《贯彻实施〈国家标准化发展纲要〉行动计划(2024—2025年)》(国市监标技发〔2024〕30号),指出“持续优化政府颁布标准制定流程、平台和工具,强化标准制修订全生命周期管理,加强标准维护更新、升级迭代”。各地方政府标准化主管部门也陆续出台政策,支持推动加快标准升级迭代,提高标准质量水平。
在国家电网有限公司,数以百计的技术标准文档审核是一项十分繁重且重要的工作。这些技术标准文档涉及专业多,细节繁复,既有复杂详细的技术要求,又有公式、图表、文字等多种形式的格式要求,其中还有一些文档篇幅很长至几百页。传统的人工审核方式不仅效率低下,需要花费大量的时间和精力,而且容易因人为因素导致审校结果不准确、不一致。随着技术更新速度加快,标准制修订日益增多,专业更加细化,传统的人工审核方式难以高效应对庞大的工作量。因此,引入技术标准AI智能审校技术辅助人工审校需求迫切。
技术标准AI智能审校技术凭借其高效、准确的特点,能够快速完成大量文档的自动化审核,显著提高审核效率,降低人力成本。同时,该技术能够精准识别文档中的语法错误和不合规内容,确保技术标准的准确性和规范性,减少人为主观性错误,提高技术标准的质量。该技术应用有助于提升技术标准制修订的工作效率和管理水平,保障质量。
2 国内外智能审校技术研究与应用概况
国际上,智能审校技术的研究起步较早,并在近年来取得了显著的进展。在算法模型、自然语言处理等方面,国外的研究机构和企业进行了深入探索,使得智能审校技术在识别文本错误、提高文本质量方面表现出色。这些技术已被广泛应用于新闻出版、教育等多个领域,极大地提高了文本处理的效率和准确性。
在国内,智能审校技术的研究也呈现出蓬勃发展的态势。研究人员在算法优化、技术融合等方面取得了重要突破,使得智能审校系统能够更好地适应中文语境,识别中文文本中的错误[1]。同时,国内的研究还注重将智能审校技术与云计算、大数据等先进技术相结合,进一步提升审校系统的性能和效率[2]。
总的来说,国内外都在努力推动智能审校技术的发展和应用,在该技术的研究上各有优势。技术标准的内容审核涉及多个方面,目前暂无十分成熟的通用的技术研究与应用。
3 AI智能审校技术的理论和实践依据
3.1 理论依据
3.1.1 自然语言处理(NLP)技术
NLP技术是实现文本自动化处理的关键,它涵盖了从词汇分析、句法分析到语义理解的全方位处理流程[3]。NLP技术为智能审校系统提供了强大的文本处理能力,使系统能够准确识别并纠正文档中的语法、拼写和标点错误。在技术标准文档的内容审校中,NLP技术主要用于构建语法检查模型、拼写校正模型和标点规范模型,以提高文档内容的准确性和规范性。
3.1.2 机器学习算法理论
机器学习算法通过大量数据的训练,使系统能够自动学习并改进模型性能[4]。在智能审校中,监督学习、非监督学习和深度学习等算法都能发挥重要作用。对于技术标准文档中引用其他技术标准的纠错,机器学习算法可以通过训练技术标准数据,使系统自动识别并比对技术标准文档中引用的其他技术标准是否准确。同时,这些算法也可以用于构建文档格式和排版检查模型,确保文档的排版和结构符合特定要求。
3.1.3 基于规则/模板的生成方法
如果规则文件具有一定的结构或模式,可以使用基于规则或模板的生成方法来构建模型。这种方法需要语言学专家手工构造规则模板,并选用特征如:统计信息、标点符号、关键字等来进行匹配和生成。虽然这种方法相对简单且易于理解,但可能需要大量的人工参与,并且对于复杂的规则文件可能不够灵活。
3.1.4 基于统计的算法
统计方法可以根据规则文件中的数据建立统计模型,如:关联规则算法(Apriori算法)等[5]。这些算法通过分析数据中的频率、概率等统计信息来发现规则或模式,并生成相应的模型。统计方法在处理大规模数据集时可能更加有效,但可能需要更多的计算资源和时间。
3.1.5 上下文无关文法(CFG)
在一些情况下可以使用CFG来定义规则文件的语法结构,并将其解析为树结构或其他易于处理的数据结构。CFG有助于将规则文件中的语法规则转化为计算机可处理的格式,并支持进一步的逻辑推理和计算。
3.1.6 文档格式和排版理论
文档格式和排版理论为文档的视觉呈现和可读性提供了指导。在智能审校中,这些理论将用于确保文档的排版和结构符合技术标准文档的格式要求。通过应用文档格式和排版理论,智能审校系统可以构建符合特定要求的格式检查模块,如:体例检查、字体字号检查、段落格式检查等。此外,这些理论还可以用于指导上下文中对应关系查验、表格图例等相关内容格式纠错的工作。
3.2 实践依据
3.2.1 技术可行性
NLP和机器学习技术的发展已经为智能审校系统提供了强大的技术支撑。这些技术已经成功应用于多个领域,包括文档自动化处理、信息抽取等。因此,从技术上讲,技术标准AI智能审校系统的开发和应用是可行的。
3.2.2 现实需求
随着技术标准制修订速度的不断加快和数量的不断增加,仅仅依靠人工审校已经难以满足需求。《国家电网有限公司技术标准体系表(2024年版)》,收录国家电网有限公司企业标准2483项,团体标准361项、行业标准4413项、国家标准4651项和国际标准655项,每年修订的标准数量多、编审工作量大。在调研中发现,国家电网有限公司存在这种现象和需求,电力行业甚至整个工程建设领域都面临同样的情况和需求。因此,通过运用技术手段,辅助相关部门或组织快速高效、高质量地完成技术标准审校的需求变得格外迫切,技术标准AI智能审校技术的研究与应用能够很好地解决这一问题。
3.2.3 数据支撑
在技术标准AI智能审校技术的研究与应用中,数据支撑至关重要。我们将通过3个途径获取数据:(1)国家电网有限公司现有的大量技术标准(企标2483项)数据和文档数据;(2)爬取互联网上已公开的海量技术标准数据;(3)联合相关技术标准出版单位共同开展数据训练和模型优化,或者购买相关技术标准数据。这些数据将涵盖多个行业和领域,确保系统能够广泛适用于各种技术标准的内容审校。
3.2.4 相似案例
在技术标准AI智能审校技术的研究与应用中,已经有个别的类似项目取得了阶段性成果,例如:中国计划出版社自行开发的工程建设标准智能审校系统,该系统可以提高工程建设行业团体标准的编写效率和准确性。这些项目通过应用NLP和机器学习技术,实现了文档内容的自动审核和纠错。这些已经取得阶段性成果的实践案例为本项目提供了宝贵的经验。
4 技术标准AI智能审校研究的基本内容
4.1 通用文本纠错
研究并优化适用于技术标准文档的语言模型,以提高语法、拼写和标点错误的识别与纠正能力。
研究如何增强系统的上下文理解能力,以便更准确地纠正因上下文缺失或误解而导致的错误。
4.2 标准引用纠错
首先,对行业标准数据进行收集与整理,构建并维护一个全面的标准数据库。
其次,研究如何高效存储、检索和实时更新标准数据库,以确保数据的准确性和时效性。
最后,开发高效的算法,确保系统能够处理各种复杂的引用格式,以识别文档中对其他技术标准的引用,并将引用的技术标准与标准数据库中的数据进行比对,确保引用的准确性和一致性。
4.3 格式纠错
分析并解析技术标准文档的格式规则,将其转化为程序可理解的指令或模板。开发一系列算法来检查文档的排版和结构是否符合规定的格式要求,包括标题、段落、专业术语、目录、中英文固定表达方式、引用说明等。
4.4 上下文中对应关系查验
研究并提取文档中的上下文信息,并分析其中的逻辑关系和对应关系,开发算法来识别文档中的对应关系,如:定义与引用、前提与结论等,并检查其准确性,对于识别出的对应关系错误,提供准确的错误提示。
4.5 表格、图例等相关内容格式纠错
准确识别文档中的表格和图例,并提取其相关信息,分析并定义表格和图例的格式规则,包括尺寸、字体、边框、颜色、说明等,与规定的格式做比对,对不符合要求的内容给出错误提示。识别表格和图例中的文字,对其正确性和准确性给出参考建议。
4.6 公式符号纠错
准确识别文档中的数学公式,并解析其结构和符号,开发算法来检查公式中的符号是否正确,包括符号类型、大小、位置、说明等,对于识别出的错误符号,提供准确的替换建议。
4.7 引用标准纠错
准确识别文档中的引用标准,与构建的标准库进行匹配和对比,开发算法来检查引用技术标准的标准号和名称是否准确,是否为现行的最新标准,对于识别出0c8a9dbaea7cda1f95780341d320fc01af00ea24caa144ba51c9cfe77b8e36b0的有疑问的技术标准,提供准确的替换建议。
4.8 检测项
依据《国家电网有限公司 技术标准制修订手册(第二版)》[6],具体检测项示例列表见表1。
5 预期目标和成果形式
5.1 预期目标
技术标准AI智能审校技术与应用基于强大的自然语言处理能力以及各种审校算法,纠正文档中的语法、拼写和标点错误;精确识别并比对大量标准数据,确保文档引用的准确性;按照特定格式要求自动检查文档的排版和结构;处理包括上下文对应关系查验、表格与图例格式纠错和公式符号纠错等在内的复杂审校任务。
技术标准A I智能审校技术的应用,将显著提高技术标准规范文档的内容审核效率和准确性,极大推动技术标准制修订工作的规范化与标准化进程。
5.2 成果形式
对于技术标准中使用AI智能审校技术识别出来的不符合规范的内容以及文本错误,系统可以不改变文档的原内容,而以批注的形式插入到文档中,这样能够保持文档的完整性和原始性,便于审查者迅速定位问题,并清晰记录修改建议和讨论内容,有助于团队协作和后续修改,同时提升文档的可读性和管理效率。
以批注形式进行错误提示的展示示例见图1和图2。
以上两个图例为批注形式示例,系统对有异议和错误问题进行批注展示,并不对原文内容进行更改,由审核人进行人工确认。
6 展 望
智能审校技术,包括基于人工智能的图像识别、文本审校等功能,近年来得到了快速发展,能够显著提升审校效率,大幅降低人工成本。通过自动化处理和高效审核,提高标准内容发布的速度与质量,减少了错误风险,有着显著的社会效益和经济效益[7]。
随着版本的不断迭代升级,未来的技术标准AI智能审校系统将在保持体例逻辑检查、格式检查等优势的基础上持续改良,不断精进,具备更强的自主学习和决策能力。通过不断的学习和优化算法模型,系统将能够自动识别和分析文本中的错误和不合规项,提高审校的智能化程度,加快技术标准编制迭代,提高技术标准质量水平,推动我国标准化工作和相关行业规范快速发展。
参考文献
[1]刘长明,高国连,杨勇,等.智能审校的应用和探索——以“ 方正智能辅助审校系统”为例[ J ] . 出版与印刷,2020(03):12-16.
[2]罗学科,黄莹.出版人工智能赋能:内容生态重塑与产消图景互构[J].中国编辑,2022(02):27-31.
[3]乔宝榆.基于NLP的辅助审稿系统设计与开发实践[J].中国科技期刊研究,2024,35(06):798-804.
[4]李金亮.基于深度学习的中文标点符号审校算法研究[D].成都:西南交通大学, 2018.
[5]马晓平,曹少中,李旸.基于优化Apriori算法的印刷检测数据关联分析[J].北京印刷学院学报,2024,32(06):22-26.
[6]国家电网有限公司科技创新部.国家电网有限公司技术标准制修订手册:第二版[ M ] .北京:中国电力出版社,2021.
[7]龙启铭.人工智能时代下智能审校的应用探析[J].传播与版权,2022(06):39-41+45.