APP下载

自然语言处理(NLP)技术在大型企业采购物料主数据治理实践中的应用研究

2024-04-23赵玮侯方东吴昊冯青侯亚铭刘衍喜王旭

供应链管理 2024年3期
关键词:标准化

赵玮 侯方东 吴昊 冯青 侯亚铭 刘衍喜 王旭

关键词:NLP;主数据管理;标准化

中图分类号:F252 文献标识码:A 文章编号:2096-7934(2024)03-0027-13

一、研究背景

随着经济全球化和信息技术的发展,企业为了提高运营效率和市场竞争力,纷纷建设信息化管理系统。在运营过程中,信息化系统中的数据快速增长,企业“大数据”渐渐成为企业资产的一部分。利用和挖掘数据资产价值,能让企业在激烈的市场竞争中及时调整业务发展方向、优化资源配置,进一步提高市场竞争力。《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》指出,数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。

对于大型企业来说,物料采购是生产经营的关键环节之一,涉及物料分类、编码、描述及属性等方面,实现采购物料主数据的标准化是采购供应链数字化转型的基础。大型企业存在多个应用系统,相同的信息以不同的采购物料主数据形式存在于不同的系统中,各应用系统间容易形成“信息孤岛”。一方面,随着企业并购及企业间合作导致企业业务范围扩大,跨组织信息资源共享需求及对采购物料主数据进行协调和集中存储的需求增加。另一方面,受企业内部各单元信息化水平参差不齐等因素影响,采购物料管理长期面临主数据颗粒度不统一、物料数据标准化建设投入大周期长等问题,亟待治理以提升数据资产质量。

作为党和国家在农粮领域可信赖的中央企业之一,某集团业务范围聚焦粮、油、糖、棉、肉、乳等品类,同时涉及金融、地产等领域,形成了以核心产品为主线的若干家专业化公司。近年来,某集团高度重视数智化建设,致力于提升信息技术创新能力和数字化管控水平,当前正在稳步实施《“十四五”信息化发展规划》。作为数据治理领域一项基础性、长期性任务,统一旗下专业化公司采购物料主数据,形成一套适合某集团特色物料标准化数据,成为亟需解决的问题。在物料标准化过程中,某集团将自然语言处理技术内嵌至物料分类、物料规范描述、物料管理等环节,能够减少人员投入50%、建设周期缩短65%,整体人天投入降低77%。

通过探讨大型企业采购物料标准化的实践路径及其创新应用,主要实现两个目标:一是探索尝试人工智能自然语言处理技术在数据治理过程中可能的应用场景,二是重点关注数据采集、清洗、整合和共识建立等环节,从定性和定量两个维度分析其效益提升的路径。

二、文献综述

(一)物料主数据治理

作为数据资产的一部分,主数据是指企业经营中的“基础数据”或者“公用数据”,是用来定义业务对象、具有持续性、相对静态、非交易类的数据,并且在企业整个价值链上被重复使用、共享于多个业务流程的具有高价值的数据。常见的主数据有物料、供应商、客户、银行、会计科目等。物料主数据是主数据的重要组成之一,包括物料的基本信息及业务相关的基本信息。其中,物料主数据相关的企业业务有:采购、销售、供应链管理、物流管理等。一致的、完整的、唯一的物料主数据能给企业带来价值,例如,对于采购部门,通过对物料主数据的整合,使全集团采购业务统一化、资源调度规范化,从而降低采购成本、避免违规采购;再如,完善的、精确的物料主数据保证了商务智能阶段决策分析结果的正确性,从而使高层决策的结果真正为企业带来预期价值。因此,主数据是数据治理的基础和重点,而物料主数据又是重中之重,治理不当会导致数据的不一致性和错误,进而影响企业的高效运营和正确决策。当前,已有的研究已经提出了各种方法和工具来解决物料主数据治理的问题,但对于大型企业而言,针对性和实用性还不够强,面临的挑战仍然严峻。

目前,国内外学术界对主数据管理的研究点包括主数据管理方案架构、基于主数据的信息集成技术、主数据存储结构、主数据的分析建模方法等。国外学术界的研究主要有:康奈尔(CornelLoser)将主数据管理系统分为三类:操作型(MasterDataManagement,以下简称“MDM”)、分析型MDM和企业级MDM;亚历克斯(AlexBerson)对主数据管理方案的架构决策、与客户数据集成关系及实施技术进行了论述;加马(Gamma)和蒂奇(Teachey)分别指出MDM解决方案涉及的技术流程为:源数据剖析、数据标准化、匹配、数据合并以及同步。

国内对主数据的研究主要集中在以下几个方面:主数据识别及建模、基于主数据的信息集成及其相关问题。张进德研究了企业主数据的分析建模和表达建模,主数据分析建模包括以业务梳理为核心的主数据识别和主数据整合,主数据表达建模从数据分类、数据描述和数据交换三方面进行了阐述。李媛阐述了基于主数据管理的企业信息集成方法;钱鹏程讨论了主数据管理系统与业务系统的集成方法以及异构数据模式映射算法。张炜研究了基于本体的主数据管理方法:利用本体技术进行主数据的语义识别、整合以及与异构系统之间的访问。张义强阐述了物料主数据标准化在企业资源规划系统中的作用,列举了中国中车通过实施物料主数据标准化方案减少物料“一物多码”现象、提高企业物料管理水平的典型案例。毕子健和郑文分别研究了物料主数据标准化的内容,包括物料主数据分类方法、编码原则及方法,同时对管理组织作了说明。

大数据時代,企业信息资源整合的关键是依托企业主数据管理,强化数据标准化建设,实现信息资源模式的统一。主数据管理平台使得企业能够集中管理数据,将分散在不同系统中的主数据进行集中的标准化和清洗,再将统一的、完整的、准确的、权威的主数据分发至应用系统。在物料标准化领域,某集团目前主要采用物料主数据或物料编码的方式来管理物料基础数据。具体来说,就是通过定义物料数据的分类以及不同分类数据的属性模板,在新增物料主数据时选择分类,再逐项填写模板。物料主数据的建设周期根据企业体量大小有所不同,大部分建设周期超过6个月,有些特大型企业甚至需要1-2年才能建成。

(二)自然语言处理技术

自然语言处理技术(NaturalLarguageProcessing,以下简称“NLP”)是人工智能领域的代表技术之一,是指计算机可以理解人类语言并能阅读和书写的信息技术。得益于深度学习算法和机器学习算法,该技术能使计算机对文本数据进行系统分析,从中提取关键信息帮助使用者处理海量数据。NLP能快速处理单篇大量文本数据或者相似篇章,从逻辑上分为字词、句法和篇章级别。

1.字词级别

字词级别的分析是NLP的基石,它关注于文本中单词和短语的识别、处理和组织。自20世纪50年代以来,随着计算机用于处理自然语言文本的需求增加,词汇处理的重要性显著提升。初期,词典的编制是手工进行的,后来发展出自动工具,能够更高效地生成或修改词典。词法分析不仅关注于单词的识别和标记,而且分析词与词之间的联系,从而获得对文段局部表达信息的抓取。例如,词性标注(POS)是词法分析的一个重要方面,它涉及为文本中的每个单词赋予一个词性标签。这个过程比在词典中查找单词及其词性更加复杂,因为许多单词可以在不同语境下具备多种词性。例如,英文中的复数名词“dogs”既可以表示名词,也可以表示动词。此外,词形还原和停用词删除也是词法级别分析的重要组成部分。词形还原旨在通过识别一个单词在特定语境下的语义并依此将其还原为元形态,而停用词删除则是筛除在后续分析过程中不需要的词汇。字词级常用技术主要包含五个方面。一是词性标注技术,它涉及给定句子中的每个单词从给定标签组中赋予词性标签。1993年由马库斯(Marcus)等提出的宾州树库(PennTreebank)项目提供了对英文文本的词性标签集合。中文词性标注任务由思(Ng)和洛(Low)在2004年提出,其任务目标是在联合分割标注的任务中,计算基于词级别的精确率和召回率以及F1分数。早期词性标注工作多使用基于隐马尔可夫模型的序列标注方法。在神经序列模型兴起后,最新研究成果集中在使用条件随机场CRF以及循环神经网络、BERT模型进行序列词性标注工作。例如,2020年Tian等人提出的基于知识以及注意力机制的汉语词性联合标注方法取得了较好的标注效果。二是命名实体识别技术(NER),它涉及识别文本中的特定实体,如人名、物料名、价格等。Collobert等的多任务方法中包括该任务,但没有报告结果。NER在信息抽取、问答系统和文本摘要等应用中起着关键作用。它通常依赖于深度学习技术和大量的标注数据来训练模型,以达到高精度的实体识别。在多任务学习的概念下,NER的实现通常涉及复杂的模型和算法。例如,使用卷积神经网络和最大池化执行词性以及命名实体识别标记。这些方法需要依赖专家知识和人工构建的规则提取特征。三是同义词分析技术,在于理解和识别不同词汇在特定上下文中可能具有相同的意义。这要求对词汇的语义属性有深入的理解,通常借助于大规模的语义网络和语料库来实现。Zheng等使用简单的CNN分类句子中元素之间的多种关系。例如,在词义消歧任务中,同一词汇在不同上下文中可能具有不同的含义,识别这些含义对于理解文本至关重要。四是中文分词技术,中文的书写特性,词汇之间缺乏明显的界限,中文分词成为理解和处理中文文本的首要步骤。这个过程涉及使用算法將连续的文本字符串分割成有意义的单元或词汇。中文分词的任务目标是在联合分割标注的任务中,计算基于词级别的精确率和召回率以及F1分数。随着技术的发展,中文分词方法从基于规则的方法转向了基于统计和机器学习的方法,大大提高了分词的准确性和效率。五是字词向量分析技术,涉及将词汇转化为数值形式的向量,从而能够被计算机程序处理。Word2vec、GloVe和FastText等模型在字词向量分析领域取得显著成果。Mikolov等提出Word2vec方法通过使用神经网络模型以无监督的方式从大规模文本语料中学习单词的分布式表示,这种分布式表示方式可捕捉到单词之间的语义和语法关系,将单词转化为具有语义信息的向量表示。例如,Word2vec可以使用Skip-gram和CBOW两种语言模型建模方式以更好地建模上下文和目标单词之间的关系。相比于以往的方式,Word2vec能从大规模文本数据中自动学习单词的分布式表示,避免传统方法中手工设计特征的繁琐过程。Word2vec的提出和成功应用极大地推动了单词嵌入研究的发展,激发了更多研究者探索和提出改进的单词嵌入模型。这些模型不仅在词义表示上取得了重大进步,而且在各种自然语言处理任务中展现出显著的效果,丰富了对词语表示和语义关系的理解。

2.句法级别

句法级别的分析通过分析句子的语法结构来获知句子的正确构成,它涉及短语和句子的结构以及短语或句子中单词之间的关系。例如,改变语序会改变单词之间的依赖关系,也可能影响句子的理解。句法分析要求输入保留原始文本形态,即与词形还原以及停用词筛除等操作不兼容,这些操作会改变原有句子的意思以及让词汇丧失其语法特征。在许多研究中,词法分析被视为句法分析的子任务。句子级别的句法处理任务包括文本组块分析、依存解析等,这些任务为下游自然语言处理任务提供有效的信息基础。例如,文本组块分析将句子分割成不重叠的部分,并且依据句法作用给单词打上句法作用标签,例如名词短语和动词短语。这有助于机器学习句子结构和单词之间的关系,为下游自然语言处理任务(如命名实体识别、文本摘要和情绪分析等)提供基础。

3.篇章级别

篇章级别分析关注于文本整体的逻辑和结构,这包括解释句子之间的关系以及从多个层面揭示文本的语言结构。篇章级分析的常见任务是共指消解,其目的是在一段文段或篇章中找到所有对同一实体的描述表达式。2017年,李(Lee)等首次提出端到端的共指消解模型。例如,共指消解是自然语言处理任务之一,这项任务旨在对同一实体的不同描述进行查找,这一技术在较多的下游NLP任务中使用。通过理解句子之间的关系,篇章级分析揭示了整个篇章的语义信息,确保其连贯性和一致性。例如,文本中“他”“她”“它”等代词的正确指代是篇章分析的关键部分,这对于理解文本的意图和情感至关重要。

随着人工智能技术的逐步普及,自然语言的识别与理解的准确率与效率有了较大提升,NLP在多个领域都有了专业应用。在快递寄递过程中,借助NLP可以准确识别目的地点、收件人姓名、手机号等信息,识别效率高。在新闻分析过程中,借助NLP能将有效提取新闻关键信息,包括时间、地点、人物、事项等,形成初步结构化的内容,可进行更加快捷、精准的信息搜索。当前,在采购物料领域采用NLP实现主数据有效治理的文献还不多,相关解决方案较少,亟需填补该领域的空白。本研究使用NLP来加速数据清洗,以提高数据治理的速度和准确度。

三、研究方法及应用

本研究基于某集团各专业化公司现有物料分类及物料编码数据,通过NLP技术的识别及算法优化,形成一套某特色的主数据标准体系。在此基础上,将NLP技术融合到主数据管理系统及相关业务系统中,实现数据的规范及深度应用,如图1所示。

图1 物料主数据治理创建流程

(一)数据采集

物料标准化建设必须基于企业的实际业务活动,与业务人员息息相关。在进行物料标准化体系建设前,必须对相关单位、部门的实际物料管理需求进行全面调研,内容包括:现有物料的分类体系、编码规则、数据模型等,同时还要对物料的管理流程、管理部门、管理系统进行全面盘点,在此基础上进行数据采集。

研究团队共收集到集团各专业化公司物料分类13套,物料编码数据约140余万条,涉及粮、油、糖、棉、肉等主要物料,以及企业生产经营过程中的包装材料、仪器仪表、机械设备及备品备件等多种物料。对于收集的数据进行初步的汇总分析,借鉴国家标准、行业标准、国家统计相关制度等,重点关注农产品、农产制品等品类,结合实施方法论,形成了物料标准化整体工作蓝图,初步规划了物料28个一级大类,如表1所示。

表1 物料一级大类清单

(二)数据标准建设

物料主数据建设重点是主数据标准的建立。主数据标准包括:物料分类、物料描述、物料编码等要素。本研究中,主数据标准建设采用“算法为核心、人工专家辅助”的方法,标准由数据而来,再通过物料专家进行人工辅助优化。

主数据标准中的分类对应NLP技术的目录提取功能,对物料描述中的实体进行识别,去除修饰性内容,得到物料的末级分类,同时也是物料的基准名称。主数据标准中的物料描述对应NLP技术的标签管理功能,需要对物料描述中的内容进行分词、标注,以此来训练物料描述中关键特征参数的提取。

(1)目录提取。在目录提取阶段,采用深度学习方法前向和后向长短期记忆神经网络(BiLSTM)+条件随机场(ConditionalRandomFields,以下简称“CRF”)实现命名实体识别。BiLSTM循环神经网络通过双向设置,能学习到观测序列之间的依赖关系,自动提取观测序列的特征。CRF层的加入,可对特征的转移关系进行建模处理。使用BiLSTM+CRF技术处理输入的原始物料目录数据,从中标注出对应的实体名词,标注准确率达到了99%以上,如图2所示。

图2 目录提取流程

此外,采用基于词库和规则算法来处理实体之间可能存在的多重关系,如包含与被包含、交叉、互斥等。通过实体提取和实体选择的算法过程,能够从物料目录数据中提取出标准化的物料目录。算法本身已经内置了大量的通用数据,可以对常見的物料进行目录提取,随着训练数据的不断增加、词库及规则的不断优化,目录提取准确性也不断提高。

经过算法的提取及优化,研究团队从某集团现有数据中提取的目录数量为8448个,与类似的大型集团化企业对比,数量合理。

(2)特征标签构建。物料描述的核心在于属性的规范填写。传统的物料主数据管理方法,一般会按不同的类别设置核心属性,进行物料的查重等工作。借助NLP的标签管理功能,能够提取和标注物料描述的特征标签,后期则可以依托算法对物料描述进行自动识别处理,无需再人工结构化后使用,如图3所示。

为实现物料特征标签的准确识别,本方案采用了基于树型结构的关键字快速匹配算法。该算法能够解决物料特征标签提取中的同义、近义、别名等模糊匹配问题和正则化问题。

图3 物料特征构建方案

物料特征标签构建的另一个核心是梳理物料特征的键值对应关系,提供快速匹配算法进行规则匹配。例如,小麦(100206)的渠道可以是国产、进口等值域,如图4所示。该对应关系的梳理在传统解决方案中通常采用专家人工经验。本方案采用物料特征信息挖掘算法,从历史数据中获取大量的专家级信息内容。具体挖掘过程包括以下步骤。

图4 物料特征标签识别过程

首先,依据目录标签提取技术对历史数据进行分类处理,通过对原始数据中的目录信息的标签化处理,得到目录的标签值,以标签值作为历史数据的分类依据。其次,对同类别数据进行分词处理,得到各个类别物料的特征词语集,进行词频统计并设定阈值,选取TOP词作为高频词,将得到的高频词作为特征项备选库。最后,采用关联规则算法对特征词语集内的其它词语与高频词的关联关系进行挖掘分析,得到各个高频词的关联关系词,将关联关系词作为特征值的备选库。借助人工专家经验对特征项和特征值的备选库进行修正,得到可使用的物料特征信息。

第一步,对历史数据中的目录标签进行分类和提取。通过目录标签提取技术,研究团队能够自动识别和提取原始数据中的目录信息,并将其转化为标准化的标签值。标签值作为分类依据,使得数据能够按照预设的类别进行组织,从而便于后续的处理和分析。

第二步,对同一类别的数据进行分词处理。这一步骤涉及将文本数据分解为单个的词汇单元,以便更好地理解和分析数据内容。通过分词,研究团队能够识别出各个类别物料的特征词语集,这些词语集包含了与特定物料类别密切相关的词汇。

第三步,对词频统计,以确定每个类别中出现频率最高的词汇。这些高频词汇被视为特征词,它们在物料描述中出现的概率较高,因此能够作为物料分类的重要依据。通过设定一个合理的阈值,筛选出TOP词,即在特定类别中出现频率最高的词汇,这些词汇构成了特征项备选库。

第四步,通过关联规则算法进一步丰富物料的特征信息,以便揭示数据集中不同项之间的关联性。通过分析特征词语集内的其他词语与高频词之间的关联关系,研究团队能够挖掘出与高频词强关联的其他词汇。这些关联关系词被纳入特征值备选库,可以为物料的详细特征描述提供额外信息。之后,人工专家能够根据实际业务需求和行业知识,对算法提取的特征项和特征值备选库进行校正和优化。至此,研究团队得到了可以信赖、经过验证的物料特征数据,同时也为后续的数据高效清洗奠定了基础。

(三)主数据标准人工完善优化

为保证数据质量,需要进行人工完善优化。研究团队根据某集团实际业务情况,组建由不同品类专家构成的多个工作小组和总体组,其中总体组负责各小组的工作协调,工作小组基于NLP技术采集来的物料目录、数据提取产品属性特征、常用描述等数据要素,微调优化形成各自品类的主数据标准。总体组将各小组输出的标准数据进行总体梳理,形成分类标准、分类描述、分类编码规则、物料标准、物料描述规则、物料编码规则。经过整合后,最终形成某集团主数据标准。其中分类标准包含物料大类29个、中类415个、小类2733个、细类8448个,标签特征参数9874个,特征参数值域近10万个。

四、数据清洗整合

在数据采集阶段,研究团队已经收集了大量物料编码数据,但存在数据标准不一、描述不规范不一、整体质量不高等问题,亟需进行数据清洗。数据清洗过程的难点有:物料分类错误或交叉;物料描述不规范,属性填写错误或关键属性缺失;物料描述包含“-”“—”“/”“*”“×”等特殊字符。

研究团队运用NLP技术开发了一套智能物料管理工具,对大量数据进行智能清洗,针对性解决了物料清洗中的难题。该工具能实现以下两大功能:

①智能识别分类:通过算法目录提取功能,自动识别集团分类归属,对于未能推荐的分类可以人工补充;

②智能识别关键参数:通过算法识别物料描述关键参数,形成结构化数据。

借助智能物料管理工具,研究团队对历史数据进行了清洗,按照新类别对数据重新归类,按照算法对物料描述进行识别处理,解决了因前后顺序、特殊字符、描述不规范等造成的一物多码的问题。对于历史物料编码数据,按照新的规则进行集中统一赋码,实现了各专业化公司原编码与集团物料主数据编码的自动映射,形成N:1的对应关系。通过清洗整合,共产生集团编码80余万条。

五、数据应用

研究过程中,团队以系统应用为目标,集团物料编码采用双编码方式

双编码模式:在系统中展示的编码为分类+流水码的形式,但是系统后台中会通过算法对物料描述进行识别处理,形成一个有含义的特征码。编码在系统各表单中进行展示,特征码用于物料描述的查重、查询。,即:表现层为分类码+流水码,使用场景是數据的呈现和流转;隐含层为分类码+特征码,使用场景是数据的映射和应用。隐含层编码由计算机根据上述构建好的物料特征标签自动生成,集团和相关专业化公司物料主数据都生成隐含层编码后,以隐含层编码作为桥梁,进行新旧表现层编码的映射。

以某型号空调为例,表现层编码及隐含层编码如图5所示。

图5 双编码方式示意

目前在某集团,物料主数据已经打通了集采商城、集团ERP以及专业化公司相关系统(如图6所示)。在集团E采平台中的需求计划、寻源管理、招标投标、协议订单等环节都可以看到物料主数据的应用。

图6 物料主数据在集团各系统中的布局示意

1.采购需求计划环节的应用

业务部门在采购物资时需生成请购单,但传统系统中信息孤岛导致技术规格参数不全面,影响采购质量。在需求计划中引入物料主数据编码可以解决这一问题,进而实现采购数据标准化,统一管理物资品目和规格型号。这有助于采购预算管理、供应商评审和比价,提升采购效率和质量。物料编码的统一化使得集团能实施规模化集中采购,吸引优质供应商,形成有竞争力的环境。这不仅提高了采购质量,还对供应商提出了更高要求,促使供应链结构优化,只有具备一定规模和实力的供应商才能参与大型项目,从而推动集团供应链的整体升级。

2.采购分包环节的应用

采购部门在处理集采项目时,传统方法在分标或分包件上主观性强,缺乏科学标准,可能导致供应商竞争不足或流标。此环节接入物料主数据编码和大量的已成交编码数据,并对历史的采购数据和采购行为进行预分析处理,结合采购物料的分类归属情况,可以形成不同物料之间的关系知识图谱模型。借助该模型可以对当前集采项目的清单明细进行有效的社团划分,实现快速的分标或包件划分。

3.采购方案环节的应用

在制定采购计划后,设计采购方案时涉及多种采购方式,成本评估挑战重重,通常依赖人工进行供应商报价的横向和纵向比较,效率低且主观。借助物料主数据编码,可以实现对大量历史物料数据的分析,将不同供应商的响应明细进行快速匹配,构建横向比较的基础,同时还可以借助品目分类形成数据标签,实现当前物料明细与历史同类物料明细的纵向比较。这样通过标准化转换的物料,其规格参数和报价金额的差异可直观的进行比对,采购人或评审专家可借助对比结果合理的制定采购预算。

4.采购协议和合同管理环节的应用

在供应商寻源并确立采购协议、合同或订单后,物资价格对企业成本管理至关重要。传统的成本更依赖于人工,效率低且有误差。通过物料主数据编码的应用,无论是集中采购还是分散采购的物资,都能实现编码一致性,便于直接比较价格。计算机程序能自动筛选出价格差异显著的物资,简化成本控制过程。

六、研究讨论

(一)成果评估

本研究实现了NLP技术在大型企业主数据治理建设中的良好应用。初步测算,主数据标准建设需投入的专家人数与传统方式相比,减少50%,工作方式由脱产集中办公变为人工监督确认,项目投入人力及时间成本整体降低77%,如图7所示。

本研究清洗完成后的数据约为80万条,使用传统方式处理则至少需要6个月,且需投入大量人力,而本研究中两名数据处理人员仅耗时1个月就完成了全部数据處理,整体效率提高90%以上。同时,随着主数据在企业信息系统中的深度应用,实现了标准数据在各业务流的广泛存在,为后期数据精准分析、价格监控预警、供应商品类管理奠定了基础。

但也面临一些挑战。首先,随着物料品类的丰富,算法要随之持续迭代优化。其次,人工复核的过程需要更好地协调,以提高效率。最后,研究过程中也遇到了一些潜在问题,如数据安全性和隐私问题。

图7 采用NLP技术实现降本增效对比

(二)改进方向

ChatGPT等大语言模型的出现和应用,使得机器能够理解和生成更加丰富和复杂的文本,这一技术为物料识别、标注以及算法训练提供了新的可能性。未来,可以预见到大模型技术将在物料管理中的应用将更加广泛和深入。通过将这些强大的语言处理能力与现有的智能物料算法模型相结合,能够构建出更加高效和智能的物料管理系统。具体来说,大型语言模型可以作为系统的输入层,负责理解和解析物料的描述信息,而现有的智能物料算法模型则可以作为输出层,负责执行具体的物料分类、编码和库存管理任务。通过深度学习技术,这两种模型可以被有效地融合在一起,形成一个统一的、高度智能化的物料管理框架。这一技术框架,不仅有助于减少人工干预,还能提高物料识别的准确性,从而减少因描述不规范导致的物料编码错误。同时,这种融合模型还能够通过持续学习和优化,不断提升其性能和实用性,以适应不断变化的物料主数据管理需求。

随着数据训练数量的增加和处理能力的增强,数据安全问题也日益凸显。为了保护核心关键数据,必须建立一套全面的安全保护机制。这包括实施严格的身份认证流程,确保只有授权用户才能访问敏感数据;执行访问控制策略,限制用户对数据的访问权限,防止未经授权的数据泄露;采用加密技术保护数据在传输和存储过程中的安全;以及加强网络安全防护,防止外部攻击和内部威胁。通过这样的安全措施,可以在享受大模型技术带来的物料管理效率提升的同时,确保数据的安全性和完整性,为企业的长期稳定发展提供坚实的保障。

七、研究结论

一是NLP技术提高了数据处理效率。在数据处理方面,通过应用物料数据智能化处理技术,在较短时间内完成了全部数据的梳理工作,统一了全集团物料主数据目录并建立了相应的物料主数据库,整体减少人工工作量约80%。

二是NLP技术提高了主数据管理能力。本研究中,团队将NLP应用到主数据日常管理工具中,便于从数据的新增源头进行管控,为企业提供更加准确和及时的数据支持,有效助力企业经营管理决策。研究成果获得2023年度中国物流与采购联合会科技进步三等奖。

三是NLP技术将带来行业技术提升。通过对大型企业应用NLP技术开展物料主数据治理的实践进行研究,表明该技术在物料主数据治理中的应用价值和前景较好。未来可在本研究基础上,探讨进一步拓展人工智能技术在行业物料主数据治理中的应用范围,不断提高模型泛化能力,从而助力更多企业实现物料主数据治理水平的提升。

参考文献:

[1]张德进,王磊,尤静,等.企业主数据分析与表达技术研究[J].机械设计与研究,2008.

[2]陈凯,路银北.钢铁企业信息化中MES与ERP的集成应用[J].自动化与仪表,2011.

[3]王道平,徐晓静,张伟荣.SAPR/3物料管理中物料主数据的应用[J].科技管理研究,2010.

[4]毕子健,王翎颖.物资主数据标准化管理探究.[J].中国电力教育,2014.

[5]陈景文.主数据管理:打造大数据时代企业核心竞争力[J].通信世界,2014.

[6]張俊华.集团主数据贯标实施的策略与方法[J].CAD/CAM与制造业信息化,2014.

[7]陈彦.浅谈企业ERP物料主数据管理与维护[J].电子制作,2014.

[8]王里匀.浅述企业中SAP物料主数据管理的技术实现[J].科技创业家,2013.

[9]杨智伟.ERP系统物料主数据的标准化管理[J].石油石化物资采购,2013.

[10]张义强,栾平景,裘敬发,等.物料主数据标准体系及其在ERP中的作用与影响[J].铁道技术监督,2013.

[11]和轶东,张怡,曹乃刚.SAPMDM主数据管理[M].北京:清华大学出版社.2013.

[12]赵飞.基于全生命周期的主数据管理[M].北京:清华大学出版社.2015.

[13]张光宇.基于主数据的企业信息化管理的研究与实现[D].绵阳:西南科技大学,2017.

[14]谢洪彦.主数据资源库驱动的工装应用过程管控系统设计与实现[D].成都:电子科技大学,2018.

[15]刘艺飞.面向大数据应用的铁路主数据管理关键技术研究[D].北京:中国铁道科学研究院,2018.

[16]马馥颖.主数据系统项目风险管理研究[D].北京:北京邮电大学,2021.

[17]马晓华.基于自然语言处理技术的IT治理审计方法研究[D].安阳:安阳师范学院商学院,2021.

[18]陈杨.基于自然语言处理及知识图谱的搜索系统设计与实现[D].北京:北京工业大学,2022.

[19]MARCUSM,SANTORINIB,MARCINKIEWICZM.BuildingalargeannotatedcorpusofEnglish[J].Thepenntreebank,1993.

[20]TIANY,SONGY,AOX,etal.JointChinesewordsegmentationandpart-of-speechtaggingviatwo-wayattentionsofauto-analyzedknowledge[J].Anthology,2020:8286-8296.

[21]COLLOBERTR,WESTONJ,BOTTOUL,etal.Naturallanguageprocessing(almost)fromscratch[J].Journalofmachinelearningresearch,2011:2493-2537.

[22]ZHENGS,HAOY,LUD,etal.Jointentityandrelationextractionbasedonahybridneuralnetwork[J].Neurocomputing,2017:59-66.

[23]MIKOLOVT,CHENK,CORRADOG,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[J].Advancesinneuralinformationprocessingsystems,2013.

[24]WOOLFBP.Buildingintelligentinteractivetutors:student-centeredstrategiesforrevolutionizinge-learning[J].Morgankaufmann,2010.

[25]LEEK,HEL,LEWISM.,etal.End-to-endneuralcoreferenceresolution,proceedingsofthe2017conferenceonempiricalmethodsinnatural[J].Languageprocessing,2017:188-197.

TheApplicationofNLPTechnologyintheprocurementMaterial

MasterDataGovernancePracticesinLargeEnterprises:

TakingaCertainGroupasAnExample

ZHAOWei1,HOUFang-dong2,WUHao1,FENGQing2,HOUYa-ming2,LIUYan-xi2,WANGXu2

(1.COFCOGroupCo.,Ltd.,Beijing100020;

2.COFCOInformationTechnologyCo.,LTD.,Beijing100020)

Abstract:

Themainresearchcontentsofthispaperareasfollows.First,Theresearchbackgroundofthemaindataandtheapplicationstatusofthedomesticandforeignresearcharecomprehensivelyintroduced;secoud,theoreticalresearchonthedatagovernanceofbusinessownersisconducted,includingthecomposition,methodologyandmaturitymodelevaluationofmasterdatagovernance;third,takeacertaingroupasanexanple,andconductthedemandresearchandanalysisofthematerialdatamanagement,Analyzetheproblemsencounteredintheinformationconstruction,introduceNLP(naturallanguageprocessing)technology,throughthemodeldesignandthestepwiseoptimization,Soastoimprovethequalityandefficiencyofmaterialclassificationandsorting,attributeextraction,datastructuring,datastandardization,dataweightcheckandotherlinks.Asetofmaterialmasterdatamanagementschemesuitableforthecertaingroupisdesiqned;

Comparedwiththetraditionalmaterialmasterdataconstructionmode,thecoreofthistechnologyliesinthatthematerialdataidentificationandprocessingisreplacedbyintelligentalgorithm,whichimprovesthequalityandefficiencyofwork,isinlinewiththetrendoftechnologydevelopment,andprovidesanewpathforthestandardizationconstructionofthematerialspurchasedbymanylargeenterprises.

Keywords:NLP;materialprocurement;masterdatagovernance;standardization

猜你喜欢

标准化
标准化综合
标准化简述
标准化综合
企业标准化管理信息系统
标准化是综合交通运输的保障——解读《交通运输标准化体系》
对标准化管理工作的几点思考
解读:国家标准委副主任谈标准化法
如何创建标准化团队?
以标准化引领科技创新
论汽车维修诊断标准化(上)