标准数字化转型中标准标签集发展与应用分析
2024-04-29赵青青蔡焱
赵青青 蔡焱
关键词:标准数字化转型,标准标签集,机器可读标准
0引言
当前标准数字化转型正在如火如荼地进行中。标准标签集(StandardsTagSuite,STS)作为标准数字化转型的关键技术之一,是推动标准数字化转型的基础。标准标签集通过定义一套XML元素和属性,对标准的规范性和非规范性内容、标准采用和类标准文档进行XML编码,使标准的知识内容独立于最初交付内容的形式。因此,标准标签集又被称为“标准的标准”。
1标准标签集发展历程
1.1ISOSTS
2011年底,国际标准化组织ISO对其出版系统进行改进,并与Mulberry公司合作,共同开发了用于ISO标准出版的ISO标准标签集(ISOSTS)。自2011年第一版发布以来,ISOSTS已经经过5个版本的修订,最新版本ISOSTS1.1于2013年发布,以美国国家信息标准组织NISO发布的ANSI/NISOZ39.96《期刊文章标签集》(JournalArticleTagSuite,JATS)的0.4版草案为基础。
自ISOSTS发布以来,一些ISO成员如英国标准协会BSI、澳大利亚标准协会SA和部分分销商已经采用该STS[1]。但由于ISOSTS并非官方标准,无法与JATS保持耦合,因此美国的一些标准开发组织和发行商并未采用。此后,不同标准开发组织使用了不同的XML模型来标记标准和类标准文档,众多的非标准化XML模型使得标准组织之间的互操作变得困难,增加了开发成本。推动ISOSTS走向标准化并与JATS建立正式关系势在必行。随后,ISO与NISO讨论创建基于ISOSTS1.1的“标准的标准”,2017年NISO发布NISOSTS标准,并正式命名为ANSI/NISOZ39.102-2017(NISOSTS1.0)[2]。2020年春季,ISO在其在线标准开发平台(OnlineStandardsDevelopmentplatform,OSD)中正式采用NISOSTS。
1.2NISOSTS
1.2.1NISOSTS1.0
ISOSTS1.1和NISOSTS1.0均基于JATS进行开发,前者基于JATS的0.4版,后者基于2015年发布的JATS1.1版。同时NISOSTS1.0还以ISOSTS1.1为基础,完全向后兼容ISOSTS1.1。
NISOSTS1.0包括两个标签集:交换标签集和扩展标签集,这两个标签集由定义的元素和属性构成,旨在为标准发布和互操作提供模型,不同之处在于交换标签集中唯一的表模型是基于XHTML,而扩展标签集还提供OASIS/CALS表模型,为每个包含MathML2或MathML3的标签集提供了语法(DTD、XSD和RNG形式)。
截至2018年3月底,ISO、IEC、CEN、BSI、DIN、AS等国际和国家标准机构已采用NISOSTS1.0,ASTM、ASME、IEEE、API和SAE等机构或采用NISOSTS1.0,或采用与其结构基本相同的模型[3]。因为JATS是期刊出版中的XML标准,而NISOSTS又基于JATS,因此JATS和NISOSTS共享一组通用模块,这对IEEE、ASME等同时出版期刊和标准的组织非常有利。
1.2.2NISOSTS1.2
2022年11月14日,NISO宣布发布更新版本STS,即NISOSTS1.2①,该版本已被美国国家标准协会ANSI批准为正式标准ANSI/NISOZ39.102-2022[4]。
NISOSTS1.2扩展了元素和属性描述,以及交换标签集和扩展标签集,它还包含了对JATS1.3(ANSI/NISOZ39.96-2021)所做的适用修改。新版本变化包括:描述XML文件本身的规定、增加/修改了元素和属性、扩展NISOSTSTBX简介和术语显示结构等[5]。此外,NISOSTS1.2是完全向后兼容的,任何对版本1.0有效的文档也对版本1.2有效。
1.3NISOSTS与ISOSTS的关系
此处主要以ISOSTS1.1和NISOSTS1.0为例,进行具体分析。NISOSTS1.0中的一些关键改进使其比ISOSTS1.1更加灵活[6]。
(1)NISOSTS1.0扩展了元数据功能,通过新增,旨在满足任何标准组织的需求,而不是局限于ISO及国家标准机构;
(2)NISOSTS1.0简化了术语显示模型
(3)NISOSTS1.0为标准采用提供了一种新的递归模型;
(4)NISOSTS1.0同时容纳XHTML和CALS表,以及MathML2和MathML3。相比之下,ISOSTS
1.1仅支持XHTML和MathML2。
2NISOSTS的组成
2.1元素
元素是名词,例如standard、paragraph和ICS,它们是标准本身、标准的组成部分以及元数据。在NISOSTS中,每个元素都有两个名称,一个是标签名称,一个是元素名称。标签名称是在标记文档、DTD片段和模式以及软件中使用的较短的机器可读名称,元素名称是较长的描述性名称,例如是元素paragraph的标签名称。NISOSTS1.2定义了353种元素。
在NISOSTS中,描述元素以元素的标签名称开始,后面紧跟元素名称,许多元素还带有用法或备注,以便将该元素与其他类似元素区分开。NISOSTS还提供元素允许使用的属性类型、元素的父元素类型以及以何种组合使用的描述等,同时大多数元素都包含如何使用的标记示例。
2.2属性
属性是与元素相关联的名称-值对,用于修改元素的某些特性。属性保存有关元素的事实,例如:在使用元素时,可使用属性@sec-type确定相应的章节类型(例如scope、foreword、normrefs)。属性也有两个名称,一个是较短的机器可读名称(标签名称),另一个是较长的人类可读的描述性名称,例如@id是属性DocumentInternalIdentifier的标签名称。NISOSTS1.2定义了190种属性。
属性的描述方式与元素非常相似,但因属性不能有子属性,所以只描述该属性可以应用于哪些元素、该属性的性质,以及属性允许的值和默认值。
3NISOSTS的主要内容
3.1根元素
NISOSTS主要通过文档层次图展示层次结构。每个层次都有一个根元素,可以说明其他几个附属元素的结构。针对标准本身、采用标准这两种文本的特点,NISOSTS1.2定义了两个根元素、,任何一个都可用作包含标准文本的文档元素。用于标准和诸如指南或手册等其他类标准文档;包含关于采用和原始标准的信息,采用可能包括采用标准的组织信息,并包括采用组织提供的前页(如前言)和附属信息。可以嵌套采用,或采用一个或多个。
3.2根元素
(1)前页内容
(2)主体,描述标准的正文(如图3所示)。
(3)附属信息,描述标准的附录和参考文献(如图4所示)。
(4)处理元数据,描述有关XML文件本身的处理信息(不是由XML文件编码的标准)。
3.3根元素
(1)
(2)
(3)
(4)
4国内外应用情况分析
4.1国外应用情况
4.1.1ISO/IEC在线标准开发平台OSD
在线标准开发平台OSD由ISO和IEC联合开发,为标准开发人员提供了一个全新的数字化工具,以简化起草和编辑国际标准的过程[7],提高了从标准准备到最终发布的整个过程的效率和协作。
OSD平台旨在用用户友好的XML编辑器(FontoXML编辑器)取代传统的基于Word的内容创建过程,帮助标准开发人员从源头创建复杂的结构化内容。虽然标准内容基于NISOSTS编码,但是标准开发人员却无需了解XML或结构化内容编写。XML优先流程不仅便于编辑处理,而且由于编辑指令规则嵌入到OSD中,因此在标准开发的早期阶段还可以提高内容质量。高效的工具允许标准开发人员专注于内容而不是格式,从而生成语义丰富和结构化的标准。CEN和CENELEC也引进了该平台。
4.1.2可互操作规范和标准的语义网SWISS
SWISS(TheSemanticWebforInteroperableSpecificationsandStandards)由美国XSB公司开发,是用于互操作规范和标准的语义网平台[8]。
4.2国内应用情况
4.2.1中国标准出版社“标准在线起草系统”
SWISS通过建立在NISOSTSXML之上的关联数据模型[9],将PDF文档转换为上下文相关、可操作的数字数据对象,通过工程知识图谱技术,建立和管理文档和概念之间的联系,同时可通过API自动将结果数据传送到企业的内部系统[10]。SWISS通过在内部内容和外部标准之间建立自动和实时连接,提高合规性并降低风险。
中国标准出版社将传统的标准制修订业务与NISOSTS相结合,从源头对标准文件进行XML数据化处理,实现对标准的全生命周期管理。标准在线起草系统可提供起草阶段的在线协同编制、可视化修改、在线沟通,出版阶段的智能审校、排版精调,发布阶段的微信推送和动态提醒等功能,对于缩短标准制修订周期、提高工作效率、提升标准编写质量等方面发挥重要作用。
4.2.2同方知网“数字标准智能应用平台”
数字标准智能应用平台基于机器可读和可理解的数字标准模型,面向标准化工作上下游场景及企业内部标准化业务,实现标准全过程数字化管理。该平台包含3个子系统,其中底层标准数字化加工系统按照ISOSTS的要求,实现了标准智能标引、指标抽取、知识图谱、碎片化阅读等功能,具备ISO/IEC机器可读标准模型中二级水平。
5结语
实施标准标签集是标准数字化转型的重要一环。我国对标准标签集的研究最早可见于2019年发布的国家标准GB/T37967-2019《基于XML的国家标准结构化置标框架》[11],但GB/T37967-2019并未基于JATS,因此与ISOSTS、NISOSTS在结构上存在较大差异,故未能和国际接轨。随着ISO/IEC机器可读标准分级模型的提出,标准标签集成为描述基于XML编码的机器可读文件的关键技术,但是ISOSTS、NISOSTS主要面向标准出版,因此包含许多格式元素。当对标准中表格、段落中关键技术指标进行标记时,一般用HTML呈现,因此缺乏相应的语义和特定含义,故不能进行逻辑推理判断。要想实现更高水平的机器可读能力,还需进一步引入语义更丰富的元素,从而真正实现标准的机器可用、可读、可解析。