机器可识别标准实现路径及保障措施

2024-04-11陈心怡张华方伟谢军太

中国标准化 2024年7期

关键词：标准

陈心怡张华方伟谢军太

摘要：标准作为经济活动和社会发展的技术支撑，是行业共同遵守的准则和依据。随着产业体系的数字化转型，标准也急需向网络化、数字化、智能化发展。标准数字化发展主要阶段中，机器可识别作为其数据源基础受到广泛关注。本文系统梳理机器可识别标准转化的关键技术路线，结合当前现状，提出传统标准向机器可识别标准转化的保障措施。最后，对机器可识别标准的挑战及发展进行总结，以期对标准数字化转型的发展提供借鉴。

关键词：标准，标准数字化转型，机器可识别标准

DOI编码：10.3969/j.issn.1002-5944.2024.07.002

0 引言

依托互联网及数字技术的发展，产业链供应链的上下游已开始全链路、全要素、全场景地优化升级，进行产业体系的数字化转变已成为当下热点[1]。标准作为行业共同遵守的准则和依据[2]，也急需向网络化、数字化、智能化发展，标准数字化是标准未来发展的主要趋势。

目前大部分标准只能以PDF文件或在线查看器（HTML）的形式存在，由人员制定和核查，出版后以人员为主要使用对象，很难满足人机交互以及机器与机器交互的数字化需求。很多领域的自动化程度越来越高，标准的应用与更新适应能力不足、标准的数字化开发落后于市场发展需求等问题已不容忽视。标准的数字化转型可以实现以数字形式提供规范，用于机器与其他系统（如CAD）之间的数据共享和数据交互，实现标准与机器或其他系统的自动读取和应用，这将进一步节省时间和成本，提高产业应用的质量。

标准数字化作为未来面向所有领域的基础规范与制度，是受数字时代所驱动的自我变革，它是系统性的，覆盖全链条、全生命周期的[3]。标准数字化具有交互智能化等特征，能够有效支撑机器执行或解析标准内容，甚至自主应答询问，实现“标准即数据”“标准即软件”“标准即服务”等新型标准应用模式。

标准数字化包含三个阶段，即机器可识别、机器可执行以及机器可决策，以获得人员使用的标准、机器使用的标准、人机协作的标准为目标[3]。然而，人员和机器对标准内容的解析方式存在明显不同。人类在理解非结构化数据和逻辑推断方面通常比机器更好，能够从更丰富的经验中获得知识，因此可以关联外部参考。机器通常无法理解非结构化的数据，也不能对未显式定义的外部上下文进行推断，通常不容忍语法和语义错误，因此内容的数据准确性对于机器而言尤为重要。将传统标准准确地转化为计算机语言文件是当前进行科技文档数字化的基础。作为标准数字化发展的第一个环节，机器可识别标准转化的实现可以让机器准确的“看见”标准，为后续的标准数字化发展奠定数据源基础。

1 关键技术路线

机器可识别标准转化是标准所定义的规则与特性，能直接被机器所执行的前提以及标准信息查询、统计、交换、处理、统一管理的基础。该阶段需要利用相关数字化技术和工具，对标准进行加工、处理、解析、标注和关联等。该阶段的主要技术路线为先将传统标准文本进行数字化处理，形成标准原始数据，基于原始数据进行分析标注。采用自下而上的知识体系构建模型进行数据处理，最后再进行该阶段的综合应用，其实现原理结构如图1所示。

现有的标准以开放的标准数字文檔存在，PDF是主要的存在形式，一般来说，常见的标准PDF文档有两种：原生的PDF文档，是文本文件生成的PDF文档，这种文档一般来说都可以直接复制文本；图片转PDF文档，扫描件就是其中一种，复制文本需先进行OCR图文识别才可复制。对于获取的标准原始文件，首先需将标准扫描为图像资料，且扫描分辨率要求为300dpi以上，并且将扫描好的标准图片进行存档，并依次按顺序通过OCR识别，利用本身功能自动分析表格和文字，完成传统标准的预处理，将图像PDF标准统一转化为可选中可编辑的双层PDF格式[4]。

对双层PDF标准进行初步结构化处理可借助内容特征进行信息抽取，进而实现将完整的标准文本离散为标准数据模块。标准文档的内容具有科技文档的属性，主要包含文字、公式、表格和图片等信息，这些信息构成标准文档的主体部分，也是标准中最小的独立信息单元。对于双层PDF中标准内容的分析识别可通过信息单元特征确认其在标准中的位置分布，其中表格分析需检测所有的表格线，并组织成单元格结构，为之后的还原提供数据支撑，而文字和图片可直接进行分析并识别，最终图片、表格和文字形成相互对应排列的关系[5]。进一步根据标准文档结构中字体、字号等信息确定标准名称、正文等元数据，根据位置信息，并结合少量的人工干预进行正文拼接、正文与标题关联等成文操作，从而使得整个版面上的标准行文能较快重新构建，同时可以自动获取到该标准所在的版面区域、标准文档框架和标题的字体、字号等标引信息，解决了标准重新构建过程费时费力或者效果不理想的问题。

基于上述路线，需要特别关注由于标准文本PDF文件里的文本往往缺少对于行、段落等结构的描述，所以要根据一些文本语义特征和规则，通过文档结构识别来完成这项“组合”的工作。通过相应的函数处理，每页内的文本结构会以一个树形结构保存下来。采用的标准文档结构识别框架如图2所示。结合内容和标准格式的特征，对标准文本各部分的属性和位置进行标注，可实现对表格、文字和图片分析识别的结果进行组织和导出，按照原始表格模式进行原版书格式还原。

2 保障措施

基于当前现状，将传统纸质标准转化为机器可识别标准是一项系统工程，需要从组织和人员两个方面进行过程保障，进而加强技术协调和实施，为下一步机器可执行标准的形成奠定科学稳定的基础。

（1）加强组织领导。建立贴合数字化标准的新型管理协调机制，形成职责明确、协同推进的工作格局。标准数字化的推进需国标委等各级平台的共同配合，共同组织实施标准编制过程的转型升级。

（2）拓宽新型标准使用渠道。机器可识别标准相较传统的非结构化标准进行了知识的碎片化处理，标准技术内容的指向性提高，为各种应用场景的智能对接提供可能，拓宽了机器可识别标准的使用渠道，为下一步机器可执行标准的实现奠定基础，为未来生产应用的对接提供条件。

（3）强化监督管理。积极推进机器可识别标准相关规定的确定，构建完善的新型标准全周期管理体系，充分结合新型标准的使用情况，提高标准的质量。

（4）完善技术人员配置。机器可识别标准管理工作要求建立机构配备具有相应标准化经验和相关技术的工作人员，对机器可识别标准工作进行技术保障、安全保障、监督检查和长期保存等，对已有纸质标准进行机器可识别转化环节全过程有效控制。

3 结语

本文以实现机器可识别标准转化为基础，结合标准内容，确定各要素涉及的知识数据，构建层次分明、结构合理、可扩展性高的机器可识别标准转化技术模型体系。然后，通过数字化技术实现从标准文本中提取多模态标准知识实体。针对不同的信息单元，建立具有特异性的分析识别方法。

机器可识别标准在未来有助于改变标准的检索方式。随着标准信息化的发展，标准应用的领域和深度日益增加，单一的标准题录检索和卡片式管理模式已不适应新型标准检索需求，需要能够提供更加快捷、更加精确的检索模式来实现对标准内容的精准检索。基于机器可识别标准的应用，计算机对标准可进行信息化管理与查询，逐步实现了标准纸质文档向标准电子文档的转变，提高了标准检索的效率，加快了标准信息传递及信息共享的速度，使标准的应用、管理更加高效，同时实现对标准的动态跟踪，进一步增强了标准信息的及时性、准确性[6]。

参考文献

[1]李倩，田雪.数字化转型背景下企业产业链现代化水平提升路径研究[J].商场现代化，2024（1）：103-105.

[2]米爱娟，杨晓玲，窦玲.浅析标准的重要性[ J ] .中国纤检，2009（2）：41.

[3]汪烁，卢铁林，尚羽佳.机器可读标准——标准数字化转型的核心[J].标准科学，2021（S1）：6-16.

[4]王珂，杨芳，姜彬.光学字符识别综述[J].计算机应用研究，2020，37（S2）：22-24.

[5]冯亚南.基于深度学习的光学字符识别技术研究[D].南京：南京邮电大学，2020.

[6]曹永生.標准数字化系统的构建与实现[J ].中国标准化，2016（8）：62-66.

作者简介

陈心怡，通信作者，工程师，主要研究方向为标准数字化。

（责任编辑：袁文静）