APP下载

话题3:标准数字化的重点突破口(核心难点或问题)

2024-05-11

中国标准化 2024年3期
关键词:用例术语结构化

标准数字化概念最早是从德国的工业4.0引出并 不断演化延伸而来,在2018年形成了ISO SMART 的概念,这一概念是集成性的概念。从ISO SMART 的5层概念图可知,从0到3层主要描述标准形态和处 理,第4层开始转向描述标准内容怎么用,面向应用 来展开。标准数字化的目的是让标准更好地给人和机 器使用,因此要兼顾人和机器两个角度。目前,标 准数字化还有很多技术问题需要解决,一方面是自然 语言的复杂性、内容多样性导致标准处理难;另一方 面是标准应用难,应用场景复杂,标准中定性的内容 (如原则要求等)也很难自动化应用。

目前我国国家标准数量很多,对企业、行业来 讲,执行的不仅包括国家标准,还有大量的行标、地 标、企标,也有各级管理机构发布的规范、指南等文 件,这些都是标准数字化所要处理的对象。

标准数字化技术总体而言可分为两个层次:第一 个是共性技术层面,解决通用、共性问题,并给出一 般性解决方案,如自动解析处理、智能编写、全过程 管理、结构化表示、智能应用等;第二个是个性技术 层面,要结合具体领域特点,进行改造和优化,比如 电力领域标准数字化就要考虑电力专业特点、场景和 管理要求,需要具体问题具体分析。

标准解析、编写、管理方面,主要涉及自然语 言处理、知识图谱、本体论、机器学习、大语言模 型、数理逻辑等理论和技术。目前,这些技术都有比 较广泛的研究和应用。特别是近两年,大语言模型 (LLM)发展迅猛。大语言模型从通用性、处理效率 及智能化程度上,确实有很大的优势,但在应用大语 言模型的时候,要特别注意数据和算法倾向性、安全 性、可靠性问题。无论是大语言模型还是其他技术, 在标准化领域应用时,未必能直接使用,直接使用的效果未必很好,需要再训练、改造、优化或者适配。

其次,也要解决结构化表示问题,涉及存储、 共享、处理、标注等一系列技术问题。对于内容的 结构化形式和要求,有一些成果是可以参考。比如 国际标准化组织语言与术语技术委员会(ISO/TC 37)下面有两个分委会,其中术语资源管理分委会 (ISO/TC 37/SC 3)提出了术语结构化的标准,目 前已经纳入ISO标准数字化基本的标注框架。标准术 语部分的结构化标注,就采用了ISO/TC 37发布的 ISO 30042:2019《术语资源管理 术语数据库交换 (TBX)》。另外,ISO/TC 37下还设有语言资源 管理分委会(ISO/TC 37/SC 4),专门制定发布了 一系列关于语言标注、内容标注、语义标注的国际标 准,如针对时间、事件、角色、空间位置关系、数量 信息等相关语义要素的标注,给出了标注基本要求、 流程、方法、框架等。这些标准可以用来作为标准结 构化的参考。结合具体的结构化要求,还需要设计专 用的结构化表示方法。

另外还有标准应用相关的技术问题。标准数字 化最终的目的都是为了让标准更好用。这更好用一方 面是服务人,一方面是服务设备。要分析标准应用场 景,将数字化手段与应用场景深度融合。举一个例 子,医院的自动血压计是一个数字化的场景,血压计 对血压有预设的指标,这些预设指标在医学里是标 准指标。如果超过或者低于这个值都是不健康的。 2022年,《中国高血压临床实践指南》对高血压判 断标准进行了更新,我们可以把它视为标准的修订。 修订之后,怎么让原有的血压设备或者机器能随之以 最简单、人工干预最少的方式更新指标数据?例如: 如何自动“通知”所有血压设备更新判断指标、设备 如何自动获取并使用新的指标等。所以对于标准数字 化应用场景已经不是简单的查询、浏览、检索,而是 要与实际的行业、产业,甚至具体的设备进行密切的 融合、整合。这也就是为什么第4层(level 4)特别 提出通过自学习、分析、验证改进内容处理和访问能 力,实现价值链中无干扰数据流,实现自动问答或预测性内容服务。

此外,商业模式、产业链、价值链的创新也是标 准数字化的一个难点。由技术的变化、融合的需求, 引发出商业模式的变化,同时市场格局、产业链、价 值链也发生了变化。一方面是产业链各方在应用标准 时,对自身价值链会产生影响,同时相互间在标准理 解、应用方面将比较容易达成一致,提高市场共识和 开放性,减少信息差所导致的纠纷。另一方面,信息 技术公司将以标准数字化为切入点更加深度参与各行 业数字化转型,这对信息技术公司的技术能力有了更 高的要求,如必须要有机器学习、人工智能等相关积 累,不再是简单实现查询检索和网页开发,从而提高 了行业准入门槛。

针对技术方案、应用和商业模式的难点,国际 上也是达成了共识。ISO/IEC SMART项目组也划分 为三个子项目:技术方案、商业模式以及用户用例。 用户用例是为技术方案研究、商业模式创新提需求。 ISO/IEC最早开展工作的时候,不是做技术研究,是 先做用户用例的调研,在所有的成员国和TC里调研相 关的用户用例,去了解大家在行业里想怎么用,或者 已经用了什么,然后再基于这些去设计技术方案,设 计新的商业模式。可见,标准数字化不是一个简单的 技术问题,是和产业行业深度融合、实现数字化转型 的解决方案。

最后需要补充的是,以上这些都离不开基础性工 作的支撑,如基础术语、基础资源等。例如,德国最 早提出类似的概念叫做机器可执行标准,后来演变成 了机器可用可读可迁移标准,就是SMART標准。在 这个过程中,大家对术语的内涵的理解,其实是不断 细化深入的。同时基础的数据资源也是不可或缺的。 基础数据资源(如知识库、数据库等)是标准数字化 所有处理、应用以及深度融合的重要支撑基础,尤其 是涉及具体行业和产业层面的,更离不开专业领域的 数据资源。

点评:于欣丽

王海涛对SMART定义做了一些他的分享。实际上我理解就是标准数字化既要兼顾人,还要兼顾 机器,是给人和机器两个方面使用的。另外在标准数字化过程中要兼顾到共性技术层面和个性技术层 面的内容。他还介绍了ISO/TC 37的工作,关于语言和术语,我理解所有的标准都是语言,自然语言 处理做了大概有30多项的国际标准,这些标准我们可以借鉴、可以用、可以转化,语言进入到了专业

领域就是术语。在这方面,也充分发挥一些作用。 在国内,多个机构开展标准数字化研究,不能说哪个机构的路线就是正确的、科学的,同样也不 能过于武断地说哪个机构做的是偏颇的、错误的,需要在不断碰撞中找出共识性的路径来。

猜你喜欢

用例术语结构化
UML用例间包含关系与泛化关系的比较与分析
UML用例模型中依赖关系的比较与分析
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
联锁软件详细设计的测试需求分析和用例编写
從出土文獻用例看王氏父子校讀古書的得失
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势