企业物品编码元数据标准化研究
2025-02-20邓辉王毅张辉
关键词:物品,编码,元数据,标识符,标准化
DOI编码:10.3969/j.issn.1002-5944.2025.03.003
0 引言
数字化转型的深入对数据质量提出了更高的要求。很多企业开展了数据治理工作,其中物品编码数据治理难度较大。影响物品编码数据质量的源头是物品代码的生成规则和标准。元数据是描述数据的数据。物品编码元数据是用来描述物品编码数据的,是物品编码数据结构化的描述,是物品编码遵循的规则和标准。企业数字化转型需要从源头重新审视物品编码元数据的标准化。
1 物品编码元数据的内涵
1.1 元数据的定义和内涵
元数据是随着信息技术发展而产生的外来词汇。我国信息技术、编码领域的相关国家标准中的元数据大多等同采用相关国际标准中的术语和定义,如GB/T 5271.17—2010/ISO/IEC 2382-17:1999《信息技术 词汇 第17部分:数据库》对元数据的定义是“关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据”;GB/T 18391.1—2009/ISO/IEC 11179-1:2004《信息技术 元数据注册系统(MDR) 第1部分:框架》对元数据的定义是“定义和描述其他数据的数据”[1]。近几年发布的物品元数据方面的国家标准、行业标准大多采用GB/ T18391.1—2009的元数据定义。一般认为元数据是用来描述数据的数据,特别是描述数据结构和数据属性,其目的是帮助使用者快速理解和管理数据,提供数据准确性和一致性的要求。两个物品管理信息系统之间,如果采用的元数据系统不同,会造成信息系统之间的数据库的关键数据字段、数据字典等底层设置不同,在进行信息交换、数据迁移和互操作时,会遇到非常复杂的数据转换问题。当多个系统进行物品信息交换时,这个问题会更加难以解决。物品元数据标准化的重要性正在不断凸显。
1.2 物品元数据标准及主要内容
近几年我国制定的物品元数据方面的国家标准有GB/T 24662—2009《电子商务 产品核心元数据》、GB/T 28748—2012《珠宝玉石饰品产品元数据》、GB/T 36600.11—2018《全国主要产品分类 产品类别核心元数据 第11部分:磁卡与集成电路卡》、GB/T 38154—2019《重要产品追溯 核心元数据》、GB/T 38555—2020《信息技术 大数据 工业产品核心元数据》、GB/T 40016—2021《基础零部件通用元数据》、GB/T 39316—2024《军民通用资源 元数据》等。物品类元数据标准的主要内容包括元数据模型和元数据描述。
不同物品类别、不同的应用环境和目的,物品元数据的构成各有侧重。例如,GB/T 24662规定电子商务涉及的产品核心元数据包括产品信息、发布信息和价格信息;GB/T 28748规定珠宝玉石饰品元数据包括标准、影像、品质、工艺特征、物理化学特征、矿物特征、供应商信息、制造商信息、交易信息、价格信息;GB/T 38555规定用于大数据环境的工业产品核心元数据分为计划数据、设计数据、采购数据、销售数据、物流数据和服务数据;GB/T40016规定基础零部件通用元数据包括基本信息、采购信息、制造信息。不同企业应根据本单位业务和重点关注的信息确定构成物品元数据的属性项。
1.3 物品编码元数据、物品代码元数据与物品元数据的关系
物品编码是给物品赋予代码的过程,是按一定规则赋予物品易于机器和人识别、处理的代码的过程。物品编码的结果是形成物品代码,构成物品代码必要的属性信息描述便是物品代码元数据。物品编码还应包含代码结构形式和代码注册、状态管理信息,规定、描述物品编码的数据便是物品编码元数据。
物品编码元数据的范围应覆盖物品代码元数据内容,并规定代码结构、代码注册、代码状态等管理信息。物品元数据可以覆盖物品代码元数据内容,根据企业需求可以增加物品生产、质量等追溯、标识信息,也有的物品元数据不包含“物品代码”这一数据元素。通过物品代码进行物品数字化管理的企业,物品编码元数据是物品编码规则的源头。
2物品编码元数据的描述
2.1物品编码元数据的描述方式
物品元数据的描述方式大体上分为两种。一种是分段分行描述物品的属性信息,如GB/T 40016—2021“6.2.3 品牌”的描述如图1所示[2]。另一种是用数据字典方式列表描述,如GB/T 37600—2018《全国主要产品分类 产品类别核心元数据》系列标准的核心元数据字典描述方式如表1所示[3]。企业可结合自身数据管理习惯选择其中一种元数据描述方法,也有以上两种方式并用的。例如:在元数据标准正文中用分段分行形式描述元数据属性,在标准附录中以元数据字典列表的形式汇总物品属性信息。
2.2 标识符与缩写词在元数据描述中的应用
为事务、数据属性等设置标识符,可以避免自然语言和书写方式的二义性、多义性,如生产厂、生产厂家、生产单位、制造单位、生产制造单位、生产厂名称、生产厂家名称、生产制造单位名称,以及Manufacturer,Factory,OEM……这些略有不同的表达方式,实质上是同一个事务,给这一事务设置一个标识符就可以发现并解决编码数据库中同一概念的多义性问题。国际上在商品码中较早使用标识符,如ISO/IEC 15418:1999《EAN.UCC系统应用标识符》规定了应用标准符(AI)字符串的结构,后来发展成GB/T 16986—2018/ISO/IEC 15418:2016《商品条码 应用标识符》。物联网标识体系也广泛使用标识符,形成了一系列国家标准。GB/T 38606—2020《物联网标识体系 数据内容标识符》规定了数据标识符类别、标识代码范围和格式。标识符也广泛应用于国防基础数据领域,如北约军用物资编码系统(National Codification System,NCS)、美国国防部体系结构(DoDAF)、交互式电子技术手册(IETM)等都采用标识符的方法来规范数据管理。我国军用物资类标准也使用了数据标识符,如GJB 6495.10—2014《后勤保障数据元字典》、GJB7371—2011《军用物资和装备自动识别标识符》已经广泛使用标识符。
为便于信息系统程序的开发,许多大型的基础数据建设标准采用英文缩写词标识数据属性的方法。例如,GB/ T 28748—2012、GB/ T 3760 0—2018、GB/T 38154—2019、GB/T 40016—2021采用了缩写词的方法,一般根据物品属性的英文名称,把每个英文单词的首字母均大写,其他字母均少写,删除空格、破折号、下划线、分隔符等,并把这些单词组合起来形成英文字符串。另外,也有使用英文单词或汉语拼音首个字母组合的方法。还有把标识符和英文缩写词共用的标识方法,如GB/T 38555—2020“9.5产品品牌”的描述如图2所示[4]。
在实际使用中,标识符表述准确,可扩展性强,但需要使用对照表。缩写词或缩写字母便于记忆,但扩展性受限,由于同义词或首个字母相同而含义不同词语二义性问题的存在,也需要使用对照表。企业应结合数字化转型的中长期规划,选择适合自身条件的物品元数据属性标识方法。
3企业物品编码元数据模型
3.1物品编码元数据模型构建
为清晰表示元数据构成及相互之间的关系,可采用统一建模语言(UML)描述元数据子集、元数据实体和元数据元素的关系,建立元数据模型。物品包罗万象,设计一个适用于所有物品的编码元数据模型开发成本低、管理方便,但有可能照应不到具体类别物品的属性信息。有些企业根据物品类别和自身管理需求,设计多个不同类物品的编码元数据模型。把企业管理关注的物品属性罗列出来,规定每一项物品属性的中文名称、英文名称、标识符、定义(填写要求)、数据长度(字节)、值域、数据类型、约束/条件等,不同类物品编码元数据模型从中选择对应的属性,可保持不同类物品编码元数据模型中相同属性描述一致。
物品属性的“中文名称”宜采用规范术语或《现代汉语典》中的词语,“英文名称”宜采用《牛津英语词典》的英文拼写,保持中英文词义相同。不使用英文交流的企业,可以不设置英文名称属性项。“标识符”可采用现行国家标准、行业标准中的标识符,也可企业自编标识符代码。企业自编标识符代码应预留适当空位,保持扩展性。“定义(或填写要求)”是对属性的解释和怎样填写属性的要求或说明,避免同一属性使用不同的填写方式,如“日期”有“20231202”“2023-12-02”“2023. 12. 2”“2023年12月2日”“二0二三年十二月二日”等多种不同的填写方式,编码时不同的填写方式将产生不同的代码。“值域”是规定属性的取值范围(所允许值的集合),一般用“自由文本”表示对该字段内容没有限制。“数据类型”是对元数据元素的有效值域的规定和对允许对该值域内的值进行有效操作的规定,如数值型、数字型、字符型(由GB/T 1988中的“信息交换用七位编码字符”组成的信息)、字符串(由字母、数字、符号、汉字等字符组成的信息)、日期型、时间型、布尔型等,数值型、日期型、时间型、布尔型等数据类型可以预定义,减少人工输入差错。“约束/ 条件”是规定元数据属性是否必选、可选以及其他要求的信息,一般用M表示“必选”,O表示“可选”,C表示“某种条件下必选”。“数据长度”规定编码数据元素的最大容量,一般用字节表示。
3.2 参与物品编码的属性选择
物品的属性信息众多,一般情况下根据企业物品编码的应用目的,把确定构成物品代码唯一性的、稳定的、物品固有的,且能够区分其他物品的属性作为参与物品编码的属性信息。物品的品牌、型号、规格、产品标准、质量等级等可在订货前确定的属性信息应列入参与物品编码的属性项。物品的生产日期、批次号等生产完成之后生产的追溯性信息虽然重要,但可通过代码关联数据库追溯,不符合“源头赋码”的原则,不宜列入参与物品编码的属性项。企业根据自己的管理实际,可以把物品的生产厂家、计量单位等可替代、可选择性信息列入参与物资编码的属性项,也可不作为参与编码的属性项。物品编码的申请人、申请单位、审批人、审批日期、代码状态等物品编码注册、管理属性信息不是物品本身固有的,是物品编码管理过程信息,不应作为参与物品编码的属性项。物品代码是物品编码的结果,也不应作为参与物品编码的属性项。GS1代码、北约物品编号与企业物品代码关联时,可以作为编码的属性项,但不参与编码。
还有一些重要的信息,常作为物品检索、追溯信息,可以列入物品编码属性项,但不参与编码。例如,物品名称是人们对物品认知的习惯性思维的首要信息。我国各行各业下大力气规范物品的命名,制定了一些物品名称或命名标准,如GB 4839—2009《农药中文通用名称》。然而,大多有关物品名称的标准是推荐性标准,对物品的全称有较详细的规定,但对物品的简称、通称、俗称等就很难规范了,导致一个物品有多个名称现象比较普遍。物品编码元数据可把“物品名称全称”作为“必填”项,但不参与编码,物品的基准名称、简称、通称、俗称作为“选填”项,也不参与编码,这样建立的物品代码数据库就可以用名称进行检索了。关于物品名称属性项是否参与编码问题可借鉴典型的国家级大型编码基础数据建设经验。例如:“姓名”无疑是人的身份信息最重要的内容之一,但是“姓名”这一属性项不参与公民身份号码编码,因为姓名可以更改而身份号码不变。
3.3物品编码核心元数据
大型企业集团若拥有众多不同类型企业,难以在整个集团范围内统一物品编码元数据时,宜选择将集团关注的、有可能在整个集团统一的重要的物品属性确定为企业的物品编码核心元数据。下属企业在物品核心元数据基础上增加本企业感兴趣的特色属性。国家、行业较多地发布了一些物品的核心元数据标准,也是为了便于更大范围统一规范重要的属性数据,同时也给使用单位预留了扩展空间。
4结语
物品编码元数据是物品代码生成规则和物品数据质量保证的源头。企业数字化转型、数据治理应重新审视物品编码元数据标准化。企业结合自身情况,借鉴物品编码相关标准和成功的经验,选择适宜的物品属性项和标识符,规范属性项数据描述,建立物品编码元数据模型,制定企业物品编码元数据标准。大型企业可制定物品编码核心元数据标准,便于更大范围内统一物品数据,从源头保证物品编码数据质量,助力企业数字化转型。
作者简介
邓辉,高级工程师,主要从事供应链管理、信息化、标准化工作。
王毅,研究员,主要从事物品编码、自动识别技术。
张辉,通信作者,研究员,主要从事供应链管理、标准化工作。
(责任编辑:张佩玉)